こんにちは、春日井コワーキングスペースRoom8オーナーの鶴田です!
昨日「【2025年最新】AIツール選び、目的で考えてる?用途別おすすめAI完全ガイド」って記事を書いたら、何人かの読者さんから「で、純粋な性能比較はどうなの?」って聞かれまして。
あー、確かに。用途別の話ばっかりで、肝心の「スペック比較」してなかったわ。
車選びでも「ファミリー向けはこれ!」とか言われても、結局「馬力いくつ?燃費は?」って数字が気になるのが人情ってもんです。AI選びも一緒ですよね。
というわけで今回は、2025年5月に発表されたClaude 4の最新ベンチマークデータを中心に、ChatGPT(OpenAI o3)、Geminiとガチンコ性能比較していきます。感情論抜き、忖度なし、数値だけで語る。これぞ理系の美学(文系だけど)。
ちなみにベンチマークって「AIの模試の点数」みたいなもんです。実際の仕事ができるかは別として、とりあえず「地頭の良さ」は分かる。さて、最新の成績表を見ていきましょうか。
比較する最新モデルたち(2025年6月現在)
まずは今回比較するメンバー紹介から。最新のフラッグシップモデルたちです。
Claude陣営
- Claude Opus 4(2025年5月発表の最上位モデル)
- Claude Sonnet 4(同時発表の高速版)
- Claude Sonnet 3.7(旧世代だけど参考のため)
OpenAI陣営
- OpenAI o3(現在の最強モデル)
- GPT-4.1(まだ現役の前世代フラッグシップ)
Google陣営
- Gemini 2.5 Pro(Preview版として公開中)
ちなみに「なんでGeminiだけ少ないの?」って思った方、鋭い。Googleさん、ベンチマーク結果の公開にちょっと消極的なんですよね。まあ、察してください(笑)。
ベンチマーク項目の解説(これ重要)
さて、本題の前に「そもそもベンチマークって何測ってんの?」って話をしておきます。これ知らないと、数字だけ見ても「で?」ってなるので。
SWE-bench(ソフトウェアエンジニアリング)
実際のGitHubのissueを解決できるかテストする、ガチのコーディング能力測定。プログラマーの実務に一番近い。
Terminal-bench(ターミナル操作)
コマンドライン操作の正確性。黒い画面でカタカタやるアレです。エンジニアの基本スキル。
GPQA Diamond(大学院レベル推論)
物理・化学・生物の大学院レベル問題。要は「めっちゃ難しい理系の問題」を解けるかどうか。
TAU-bench(実用ツール利用)
実際のビジネスシーンでのツール利用能力。小売業と航空業の2パターンでテスト。現実的な能力測定。
MMLU(多分野知識)
57科目にわたる幅広い知識を問うテスト。いわゆる「物知り度」の測定。
MMMU(マルチモーダル理解)
画像+テキストの複合的な理解力。「この図を見て答えなさい」系の問題。
AIME(数学オリンピック)
アメリカ数学オリンピックの予選問題。ガチの数学力勝負。
これらのテストで「AIの総合力」を測るわけです。まあ、人間でいう「IQテスト+専門試験+実技試験」みたいなもんですね。
いよいよ本題!性能比較結果を見てみよう
さあ、お待ちかねの成績発表です。各分野でどのAIが最強なのか、数字で白黒つけていきましょう。
コーディング・開発系スキル
モデル | SWE-bench (実践コーディング) | Terminal-bench (コマンドライン操作) |
---|---|---|
Claude Opus 4 | 72.5% / 79.4% | 43.2% / 50.0% 🥇 |
Claude Sonnet 4 | 72.7% / 80.2% 🥇 | 35.5% / 41.3% |
Claude Sonnet 3.7 | 62.3% / 70.3% | 35.2% |
OpenAI o3 | 69.1% | 30.2% |
GPT-4.1 | 54.6% | 30.3% |
Gemini 2.5 Pro | 63.2% | 25.3% |
※ スラッシュ区切りは(ベースライン / 高度なツール使用時)の結果
Claude勢の圧勝! 特にSWE-benchでは、Claude Sonnet 4が80.2%という驚異的スコア。ChatGPTに10ポイント以上の差をつけてます。プログラマーの皆さん、乗り換えどきかもしれませんよ。
学術・推論系スキル
モデル | GPQA Diamond (大学院レベル推論) | AIME 2025 (数学オリンピック) |
---|---|---|
Claude Opus 4 | 79.6% / 83.3% | 75.5% / 90.0% 🥇 |
Claude Sonnet 4 | 75.4% / 83.8% 🥇 | 70.5% / 85.0% |
Claude Sonnet 3.7 | 78.2% | 54.8% |
OpenAI o3 | 83.3% | 88.9% |
GPT-4.1 | 66.3% | ― |
Gemini 2.5 Pro | 83.0% | 83.0% |
接戦! GPQA Diamondでは上位4モデルがほぼ横並び。でも数学(AIME)ではClaude Opus 4の90.0%が光ります。これ、人間の数学オリンピック代表より高得点なんですよ…。
実用・ビジネス系スキル
モデル | TAU-bench 小売 (小売業務) | TAU-bench 航空 (航空業務) |
---|---|---|
Claude Opus 4 | 81.4% | 59.6% |
Claude Sonnet 4 | 80.5% | 60.0% 🥇 |
Claude Sonnet 3.7 | 81.2% 🥇 | 58.4% |
OpenAI o3 | 70.4% | 52.0% |
GPT-4.1 | 68.0% | 49.4% |
Gemini 2.5 Pro | ― | ― |
Claude一強状態。 ビジネス現場での実用性では、Claude勢が圧倒的。ChatGPTとは10ポイント以上の差。実務で使うならClaude、これ決定的。
知識・マルチモーダル系スキル
モデル | MMLU (多分野知識) | MMMU (画像+テキスト理解) |
---|---|---|
Claude Opus 4 | 88.8% 🥇 | 76.5% |
Claude Sonnet 4 | 86.5% | 74.4% |
Claude Sonnet 3.7 | 85.9% | 75.0% |
OpenAI o3 | 88.8% 🥇 | 82.9% 🥇 |
GPT-4.1 | 83.7% | 74.8% |
Gemini 2.5 Pro | ― | 79.6% |
OpenAI、ここで本領発揮! 幅広い知識(MMLU)ではClaudeと同率トップ、画像理解(MMMU)では単独トップ。さすが老舗、総合力はやっぱり強い。
技術的な考察:なぜこんな結果になったのか
さて、数字を見て「へー」で終わるのはもったいない。なぜこんな結果になったのか、ちょっと深掘りしてみましょう。
Claude 4がコーディングで圧勝した理由
Claude 4シリーズのSWE-benchスコア(80%超え)は、正直言って衝撃的です。なぜこんなに強いのか?
実は、Anthropicは「Constitutional AI」っていう独自の学習手法を使ってて、これが「正確で安全なコード生成」に効いてるんです。要は「間違ったコードを書きにくい設計」になってる。
一方、ChatGPTは「創造性重視」の設計。だから詩を書かせたら素晴らしいけど、コードだと時々「創造的すぎる」解答をしちゃう。バグの温床ですね(笑)。
OpenAIの総合力の秘密
でも、MMLUやマルチモーダルではOpenAIが強い。これは「大量のデータで学習した」成果です。ChatGPTって、インターネット上のありとあらゆるデータを食べて育ってるんですよ。
だから「雑学王」みたいな強さがある。ただ、専門特化すると負ける。器用貧乏ってやつですかね(人のこと言えないけど)。
Geminiが意外と健闘してる件
Gemini 2.5 Pro、実はGPQA(83.0%)やマルチモーダル(79.6%)でかなり善戦してます。
これ、Googleの「検索エンジンのノウハウ」が効いてるんでしょうね。情報の整理・理解に関しては、さすがGoogle先生。ただ、コーディングは…まあ、頑張れ。
ベンチマークの限界:知っておくべきこと
ここまで数字を見てきましたが、最後に大事な話を。
ベンチマークが測れないもの
- 応答速度: Claude Opus 4が賢くても、返答に30秒かかったら使い物にならない
- 料金: 性能が良くても、1回の質問で100円取られたら破産する
- 日本語の自然さ: 英語ベンチマークの結果が、日本語でも同じとは限らない
- 使いやすさ: UIがクソだったら、どんなに賢くても意味ない
実際の仕事での体感
僕がコワーキングスペースで見てる限り、実務では「速度×精度×コスト」のバランスが一番大事。
例えば、簡単なコード修正なら高速なClaude Sonnet 4、複雑な設計ならじっくりClaude Opus 4、みたいな使い分けが現実的です。
「最強のAI」なんて存在しない。「最適なAI」を選ぶのが、2025年のリテラシーってもんです。
まとめ:2025年6月のAI勢力図
さて、長々と数字を見てきましたが、結論をまとめましょう。
純粋な性能で見た勝者
🏆 総合優勝:Claude Opus 4
- コーディング(79.4%)、数学(90.0%)、実用性(81.4%)と、多くの分野でトップクラス
- 特に「実務で使える」能力が圧倒的
🥈 準優勝:OpenAI o3
- 知識の幅(88.8%)と画像理解(82.9%)で最強
- ただし、コーディングで大きく水をあけられた
🥉 3位:Claude Sonnet 4
- 実はコーディング単独1位(80.2%)
- 高速版なのに性能も優秀という、コスパ最強モデル
現実的な使い分け指針
ベンチマークの数字だけ見て「Claude最強!全部Claudeにしよう!」って思った方、ちょっと待った。
実際の仕事では:
- 急ぎの作業 → 高速版のClaude Sonnet 4かGPT-4.1
- 複雑な開発 → Claude Opus 4一択
- 画像を含む作業 → OpenAI o3
- 予算重視 → 各社の無料版を使い倒す
最後に:AI選びの本質
「どのAIが最強か」じゃなくて、「どう使い分けるか」が大事。
包丁だって、刺身包丁と出刃包丁と文化包丁、全部役割が違うでしょ?AIも一緒です。万能包丁(ChatGPT)もいいけど、専門包丁(Claude)の切れ味を知ったら、もう戻れませんよ。
2025年6月現在、コーディングならClaude、総合力ならOpenAI、コスパならGemini。この使い分けができれば、あなたも立派なAIソムリエです。
ちなみに、この記事書くのにClaude使いました。自画自賛になっちゃうけど、やっぱり文章生成も上手いよね、Claude(笑)。
春日井でAI活用について相談したい方は、ぜひRoom8へ。コーヒー飲みながら、最新AIの使い方をお教えします。
それと、昨日書いた「【2025年最新】AIツール選び、目的で考えてる?用途別おすすめAI完全ガイド」も合わせて読んでもらえると、より実践的なAI選びができますよ。
P.S. 次回は「AIに仕事を奪われる前に、AIで仕事を奪う方法」でも書こうかな。需要ありますかね?