【2025年6月】Claude 4 vs ChatGPT vs Gemini 最新AI性能ベンチマーク徹底比較

投稿日 2025年6月15日
更新日 2025年7月30日
著者コワーキングスペース代表鶴田賢太
カテゴリー Room8ブログ

概要

2025年6月の最新AI性能ベンチマークでは、Claude 4、ChatGPT（OpenAI o3）、GeminiのAIモデルが比較されました。主な評価項目は、コーディング能力を測るSWE-benchやTerminal-bench、大学院レベルの推論能力を試すGPQA Diamond、数学オリンピック問題を解くAIMEなど、多岐にわたる実務的かつ学術的な試験です。結果として、Claude Sonnet 4がコーディング能力でトップの80.2%を記録し、ChatGPTを大きく引き離しました。Geminiはデータ公開が少ないものの、他モデルに劣る結果となりました。全体として、Claude陣営が圧倒的な性能を示し、AI選びにおいて注目のモデルとなっています。

こんにちは、春日井コワーキングスペースRoom8オーナーの鶴田です！

昨日「【2025年最新】AIツール選び、目的で考えてる？用途別おすすめAI完全ガイド」って記事を書いたら、何人かの読者さんから「で、純粋な性能比較はどうなの？」って聞かれまして。

あー、確かに。用途別の話ばっかりで、肝心の「スペック比較」してなかったわ。

車選びでも「ファミリー向けはこれ！」とか言われても、結局「馬力いくつ？燃費は？」って数字が気になるのが人情ってもんです。AI選びも一緒ですよね。

というわけで今回は、2025年5月に発表されたClaude 4の最新ベンチマークデータを中心に、ChatGPT（OpenAI o3）、Geminiとガチンコ性能比較していきます。感情論抜き、忖度なし、数値だけで語る。これぞ理系の美学（文系だけど）。

ちなみにベンチマークって「AIの模試の点数」みたいなもんです。実際の仕事ができるかは別として、とりあえず「地頭の良さ」は分かる。さて、最新の成績表を見ていきましょうか。

Contents

比較する最新モデルたち（2025年6月現在）
- ベンチマーク項目の解説（これ重要）
いよいよ本題！性能比較結果を見てみよう
技術的な考察：なぜこんな結果になったのか
FAQ
まとめ：2025年6月のAI勢力図

比較する最新モデルたち（2025年6月現在）

まずは今回比較するメンバー紹介から。最新のフラッグシップモデルたちです。

Claude陣営

Claude Opus 4（2025年5月発表の最上位モデル）
Claude Sonnet 4（同時発表の高速版）
Claude Sonnet 3.7（旧世代だけど参考のため）

OpenAI陣営

OpenAI o3（現在の最強モデル）
GPT-4.1（まだ現役の前世代フラッグシップ）

Google陣営

Gemini 2.5 Pro（Preview版として公開中）

ちなみに「なんでGeminiだけ少ないの？」って思った方、鋭い。Googleさん、ベンチマーク結果の公開にちょっと消極的なんですよね。まあ、察してください（笑）。

ベンチマーク項目の解説（これ重要）

さて、本題の前に「そもそもベンチマークって何測ってんの？」って話をしておきます。これ知らないと、数字だけ見ても「で？」ってなるので。

SWE-bench（ソフトウェアエンジニアリング）
実際のGitHubのissueを解決できるかテストする、ガチのコーディング能力測定。プログラマーの実務に一番近い。

Terminal-bench（ターミナル操作）
コマンドライン操作の正確性。黒い画面でカタカタやるアレです。エンジニアの基本スキル。

GPQA Diamond（大学院レベル推論）
物理・化学・生物の大学院レベル問題。要は「めっちゃ難しい理系の問題」を解けるかどうか。

TAU-bench（実用ツール利用）
実際のビジネスシーンでのツール利用能力。小売業と航空業の2パターンでテスト。現実的な能力測定。

MMLU（多分野知識）
57科目にわたる幅広い知識を問うテスト。いわゆる「物知り度」の測定。

MMMU（マルチモーダル理解）
画像＋テキストの複合的な理解力。「この図を見て答えなさい」系の問題。

AIME（数学オリンピック）
アメリカ数学オリンピックの予選問題。ガチの数学力勝負。

これらのテストで「AIの総合力」を測るわけです。まあ、人間でいう「IQテスト＋専門試験＋実技試験」みたいなもんですね。

いよいよ本題！性能比較結果を見てみよう

さあ、お待ちかねの成績発表です。各分野でどのAIが最強なのか、数字で白黒つけていきましょう。

コーディング・開発系スキル

モデル	SWE-bench （実践コーディング）	Terminal-bench （コマンドライン操作）
Claude Opus 4	72.5% / 79.4%	43.2% / 50.0% 🥇
Claude Sonnet 4	72.7% / 80.2% 🥇	35.5% / 41.3%
Claude Sonnet 3.7	62.3% / 70.3%	35.2%
OpenAI o3	69.1%	30.2%
GPT-4.1	54.6%	30.3%
Gemini 2.5 Pro	63.2%	25.3%

※ スラッシュ区切りは（ベースライン / 高度なツール使用時）の結果

Claude勢の圧勝！ 特にSWE-benchでは、Claude Sonnet 4が80.2%という驚異的スコア。ChatGPTに10ポイント以上の差をつけてます。プログラマーの皆さん、乗り換えどきかもしれませんよ。

学術・推論系スキル

モデル	GPQA Diamond （大学院レベル推論）	AIME 2025 （数学オリンピック）
Claude Opus 4	79.6% / 83.3%	75.5% / 90.0% 🥇
Claude Sonnet 4	75.4% / 83.8% 🥇	70.5% / 85.0%
Claude Sonnet 3.7	78.2%	54.8%
OpenAI o3	83.3%	88.9%
GPT-4.1	66.3%	―
Gemini 2.5 Pro	83.0%	83.0%

接戦！ GPQA Diamondでは上位4モデルがほぼ横並び。でも数学（AIME）ではClaude Opus 4の90.0%が光ります。これ、人間の数学オリンピック代表より高得点なんですよ…。

実用・ビジネス系スキル

モデル	TAU-bench 小売（小売業務）	TAU-bench 航空（航空業務）
Claude Opus 4	81.4%	59.6%
Claude Sonnet 4	80.5%	60.0% 🥇
Claude Sonnet 3.7	81.2% 🥇	58.4%
OpenAI o3	70.4%	52.0%
GPT-4.1	68.0%	49.4%
Gemini 2.5 Pro	―	―

Claude一強状態。 ビジネス現場での実用性では、Claude勢が圧倒的。ChatGPTとは10ポイント以上の差。実務で使うならClaude、これ決定的。

知識・マルチモーダル系スキル

モデル	MMLU （多分野知識）	MMMU （画像＋テキスト理解）
Claude Opus 4	88.8% 🥇	76.5%
Claude Sonnet 4	86.5%	74.4%
Claude Sonnet 3.7	85.9%	75.0%
OpenAI o3	88.8% 🥇	82.9% 🥇
GPT-4.1	83.7%	74.8%
Gemini 2.5 Pro	―	79.6%

OpenAI、ここで本領発揮！ 幅広い知識（MMLU）ではClaudeと同率トップ、画像理解（MMMU）では単独トップ。さすが老舗、総合力はやっぱり強い。

技術的な考察：なぜこんな結果になったのか

さて、数字を見て「へー」で終わるのはもったいない。なぜこんな結果になったのか、ちょっと深掘りしてみましょう。

Claude 4がコーディングで圧勝した理由

Claude 4シリーズのSWE-benchスコア（80%超え）は、正直言って衝撃的です。なぜこんなに強いのか？

実は、Anthropicは「Constitutional AI」っていう独自の学習手法を使ってて、これが「正確で安全なコード生成」に効いてるんです。要は「間違ったコードを書きにくい設計」になってる。

一方、ChatGPTは「創造性重視」の設計。だから詩を書かせたら素晴らしいけど、コードだと時々「創造的すぎる」解答をしちゃう。バグの温床ですね（笑）。

OpenAIの総合力の秘密

でも、MMLUやマルチモーダルではOpenAIが強い。これは「大量のデータで学習した」成果です。ChatGPTって、インターネット上のありとあらゆるデータを食べて育ってるんですよ。

だから「雑学王」みたいな強さがある。ただ、専門特化すると負ける。器用貧乏ってやつですかね（人のこと言えないけど）。

Geminiが意外と健闘してる件

Gemini 2.5 Pro、実はGPQA（83.0%）やマルチモーダル（79.6%）でかなり善戦してます。

これ、Googleの「検索エンジンのノウハウ」が効いてるんでしょうね。情報の整理・理解に関しては、さすがGoogle先生。ただ、コーディングは…まあ、頑張れ。

ベンチマークの限界：知っておくべきこと

ここまで数字を見てきましたが、最後に大事な話を。

ベンチマークが測れないもの

応答速度: Claude Opus 4が賢くても、返答に30秒かかったら使い物にならない
料金: 性能が良くても、1回の質問で100円取られたら破産する
日本語の自然さ: 英語ベンチマークの結果が、日本語でも同じとは限らない
使いやすさ: UIがクソだったら、どんなに賢くても意味ない

実際の仕事での体感

僕がコワーキングスペースで見てる限り、実務では「速度×精度×コスト」のバランスが一番大事。

例えば、簡単なコード修正なら高速なClaude Sonnet 4、複雑な設計ならじっくりClaude Opus 4、みたいな使い分けが現実的です。

「最強のAI」なんて存在しない。「最適なAI」を選ぶのが、2025年のリテラシーってもんです。

FAQ

Claude 4とChatGPT、GeminiのAI性能を比較する際にどのベンチマーク項目が重要ですか？

AI性能を比較する際には、SWE-bench（ソフトウェアエンジニアリング）、Terminal-bench（ターミナル操作）、GPQA Diamond（大学院レベル推論）、TAU-bench（実用ツール利用）、MMLU（多分野知識）、MMMU（マルチモーダル理解）、AIME（数学オリンピック）などのベンチマーク項目が重要です。これらはAIの総合力を測定するために用いられます。

Claude 4とChatGPT、Geminiの中でコーディング能力が最も高いのはどれですか？

コーディング能力に関しては、Claude Sonnet 4がSWE-benchで80.2%というスコアを記録しており、他のAIモデルよりも優れています。特にChatGPT（OpenAI o3）に対して10ポイント以上の差をつけています。

Claude 4とChatGPT、Geminiの中で学術・推論能力が最も高いのはどれですか？

学術・推論能力に関しては、Claude Opus 4がGPQA Diamondで79.6% / 83.3%のスコアを記録しており、非常に高い推論能力を示しています。また、AIME 2025（数学オリンピック）でも高いスコアを記録しています。

GoogleのGeminiのベンチマーク結果が少ないのはなぜですか？

GoogleのGeminiのベンチマーク結果が少ないのは、Googleがベンチマーク結果の公開に消極的であるためです。そのため、他のAIモデルと比較できる情報が限られています。

AIのベンチマークとは何ですか？

AIのベンチマークとは、AIの性能を評価するためのテストであり、実際の業務能力や専門知識、推論能力を測定します。具体的には、コーディング能力、ターミナル操作、大学院レベルの推論、実用ツール利用、多分野知識、マルチモーダル理解、数学力などを評価します。

まとめ：2025年6月のAI勢力図

さて、長々と数字を見てきましたが、結論をまとめましょう。

純粋な性能で見た勝者

🏆 総合優勝：Claude Opus 4

コーディング（79.4%）、数学（90.0%）、実用性（81.4%）と、多くの分野でトップクラス
特に「実務で使える」能力が圧倒的

🥈 準優勝：OpenAI o3

知識の幅（88.8%）と画像理解（82.9%）で最強
ただし、コーディングで大きく水をあけられた

🥉 3位：Claude Sonnet 4

実はコーディング単独1位（80.2%）
高速版なのに性能も優秀という、コスパ最強モデル

現実的な使い分け指針

ベンチマークの数字だけ見て「Claude最強！全部Claudeにしよう！」って思った方、ちょっと待った。

実際の仕事では：

急ぎの作業 → 高速版のClaude Sonnet 4かGPT-4.1
複雑な開発 → Claude Opus 4一択
画像を含む作業 → OpenAI o3
予算重視 → 各社の無料版を使い倒す

最後に：AI選びの本質

「どのAIが最強か」じゃなくて、「どう使い分けるか」が大事。

包丁だって、刺身包丁と出刃包丁と文化包丁、全部役割が違うでしょ？AIも一緒です。万能包丁（ChatGPT）もいいけど、専門包丁（Claude）の切れ味を知ったら、もう戻れませんよ。

2025年6月現在、コーディングならClaude、総合力ならOpenAI、コスパならGemini。この使い分けができれば、あなたも立派なAIソムリエです。

ちなみに、この記事書くのにClaude使いました。自画自賛になっちゃうけど、やっぱり文章生成も上手いよね、Claude（笑）。

春日井でAI活用について相談したい方は、ぜひRoom8へ。コーヒー飲みながら、最新AIの使い方をお教えします。

それと、昨日書いた「【2025年最新】AIツール選び、目的で考えてる？用途別おすすめAI完全ガイド」も合わせて読んでもらえると、より実践的なAI選びができますよ。

P.S. 次回は「AIに仕事を奪われる前に、AIで仕事を奪う方法」でも書こうかな。需要ありますかね？

この記事を書いた人

コワーキングスペース代表鶴田賢太

「AI系」起業アドバイザー鶴田賢太です
春日井・名古屋でコワーキングスペース「Room8」を運営しながら、起業家をサポートしています。

もともとは簿記1級から始まり、ITエンジニア、マーケティング、補助金、財務相談と、いろんな分野を経験してきました。でも、これからの時代は AI。今は生成AI（ChatGPT・Claude・Geminiなど）を駆使して、起業を加速させる方法を探求しています。

Webサイト制作は 100社以上、SEO対策も得意。補助金申請も 15回以上サポートしてきました。けど、これからは AIをどう活用するかが、起業の成否を分ける時代。Room8では、AI活用の相談も大歓迎です。

このブログでは、AI・IT・マーケ・補助金など、起業に役立つ情報を発信していきます。AIを武器にしたい人、ぜひRoom8に遊びに来てください！

記事一覧

【2025年6月】Claude 4 vs ChatGPT vs Gemini 最新AI性能ベンチマーク徹底比較

比較する最新モデルたち（2025年6月現在）

ベンチマーク項目の解説（これ重要）

いよいよ本題！性能比較結果を見てみよう

コーディング・開発系スキル

学術・推論系スキル

実用・ビジネス系スキル

知識・マルチモーダル系スキル

技術的な考察：なぜこんな結果になったのか

Claude 4がコーディングで圧勝した理由

OpenAIの総合力の秘密

Geminiが意外と健闘してる件

ベンチマークの限界：知っておくべきこと

FAQ

まとめ：2025年6月のAI勢力図

純粋な性能で見た勝者

現実的な使い分け指針

最後に：AI選びの本質

この記事を書いた人

コワーキングスペース代表鶴田賢太

ChatGPTの最新モデル『OpenAI o1』を徹底解説：ビジネスと開発を革新…

アクセスがUP！ブログ記事をリライトする３ポイント

Claude Code vs Codex CLI vs Gemini CLI 徹…

【2025年7月版】GPT-4o・GPT-4.5・o3の違いと選び方｜向いてる人…

【春日井発】驚きの社会保険料削減術！車両借上げで年間50万円削減も可能

ノイズに足を取られるな、起業家志望者のための“悩み＝ノイズ理論”

MCPとは何か？AIと外部ツール連携の新標準“Model Context Pro…

Claude Code MCP VPS 自動化システム構築事例 – …

【2025年最新検証】ChatGPT・Claude・Gemini・Copilot…

GPT-5で人間超え確定？8月登場予定の最強AIと共存する人間の新たな役割とは

Claude Code vs Codex CLI vs Gemini CLI 徹…

比較する最新モデルたち（2025年6月現在）

ベンチマーク項目の解説（これ重要）

いよいよ本題！性能比較結果を見てみよう

コーディング・開発系スキル

学術・推論系スキル

実用・ビジネス系スキル

知識・マルチモーダル系スキル

技術的な考察：なぜこんな結果になったのか

Claude 4がコーディングで圧勝した理由

OpenAIの総合力の秘密

Geminiが意外と健闘してる件

ベンチマークの限界：知っておくべきこと

FAQ

まとめ：2025年6月のAI勢力図

純粋な性能で見た勝者

現実的な使い分け指針

最後に：AI選びの本質

この記事を書いた人

コワーキングスペース 代表 鶴田 賢太

【春日井発】驚きの社会保険料削減術！車両借上げで年間50万円削減も可能

ノイズに足を取られるな、起業家志望者のための“悩み＝ノイズ理論”

MCPとは何か？AIと外部ツール連携の新標準“Model Context Pro…

Claude Code MCP VPS 自動化システム構築事例 – …

【2025年最新検証】ChatGPT・Claude・Gemini・Copilot…

GPT-5で人間超え確定？8月登場予定の最強AIと共存する人間の新たな役割とは

Claude Code vs Codex CLI vs Gemini CLI 徹…

コワーキングスペース代表鶴田賢太