こんにちは、春日井コワーキングスペースRoom8オーナーの鶴田です。
2025年7月、xAIからGrok 4がリリースされ、AI業界に大きな衝撃を与えています。公開されたベンチマーク結果を見ると、数学、科学、推論能力などの分野でClaude 4やGPT-4、Geminiといった既存の主要AIモデルを上回るスコアを次々と記録しており、まさに「新世代AI」の登場を印象づける内容となっています。
特に注目すべきは、AIME25(数学競技)で98.4%、ARC-AGI(抽象推論)で88.9%、Humanity’s Last Exam(総合評価)で44.4%という、これまでのAIモデルでは到達困難とされていた高水準のスコアを叩き出していることです。これらの数値は、AIの汎用性と専門性の両面で大幅な進歩を示しています。
各ベンチマークの詳細や他社AIとの具体的な比較、そしてGrok 4がどのような場面で力を発揮するのかについて、Room8での相談事例も交えながら詳しく解説していきます。
- Grok 4が記録した各ベンチマーク結果を詳しく見てみよう
- AIME25:数学競技での圧倒的な成果
- AIME25 (数学競技) 性能比較
- GPQA:科学専門知識での高い精度
- GPQA (科学専門知識) 性能比較
- ARC-AGI:抽象推論能力での優位性と課題
- ARC-AGI v1 Semi Private (抽象推論) 性能比較
- ARC-AGI v2 Semi Private (高難易度抽象推論) 性能比較
- LCB (Jan-May):言語理解での僅差の争い
- LCB (Jan-May) 言語理解能力 性能比較
- HMMT25:数学競技での圧倒的優位
- HMMT25 (ハーバード-MIT数学競技) 性能比較
- USAMO25:数学オリンピックでの独走
- USAMO25 (USA数学オリンピック) 性能比較
- Humanity’s Last Exam:総合評価での新たな指標
- Humanity’s Last Exam (人類最後の試験) 性能比較
- で、結局のところGrok 4はどうなのか?
- まとめ:ベンチマークは参考程度に、大切なのは相性
Grok 4が記録した各ベンチマーク結果を詳しく見てみよう
AIME25:数学競技での圧倒的な成果
AIME25は、アメリカの高校生向け数学競技のベンチマークで、Grok 4は98.4%という驚異的なスコアを記録しました。これはClaude 4の91.7%、GPT-4の88.0%を大きく上回る結果です。
AIME(American Invitational Mathematics Examination)は、数学オリンピックの予選にもなっている難易度の高い試験で、通常の高校数学を超えた創意工夫が求められる問題が出題されます。Grok 4がこのレベルで98%超を達成したということは、複雑な数学的推論能力において大きな進歩があったことを示しています。
layout: { padding: { left: 10, right: 10, top: 10, bottom: 10 } },AIME25 (数学競技) 性能比較
📊 スコア詳細
GPQA:科学専門知識での高い精度
GPQA(Graduate-Level Google-Proof Q&A)では、Grok 4が69.8%のスコアを記録。これは大学院レベルの物理、化学、生物学の問題を扱うベンチマークで、Claude 4の67.5%、GPT-4の65.9%を上回っています。
特徴的なのは、GPQAが「Google検索では簡単に答えが見つからない」ように設計された問題群だということです。つまり、単純な情報検索ではなく、深い理解と推論が必要な科学問題で優秀な結果を出していることになります。
GPQA (科学専門知識) 性能比較
📊 スコア詳細
📝 GPQAについて: Graduate-Level Google-Proof Q&A。大学院レベルの物理、化学、生物学の問題で、Google検索では簡単に答えが見つからないよう設計されています。
ARC-AGI:抽象推論能力での優位性と課題
ARC-AGI v1 Semi PrivateではGrok 4が66.6%で最高スコアを記録し、o3の60.8%、Gemini 2.5 Proの41.0%、Claude Opusの35.7%、Deepseek v3の21.2%を上回りました。
しかし、より難易度の高いARC-AGI v2 Semi Privateでは状況が一変します。Grok 4でも15.9%まで大幅に下がり、他のAIも軒並み10%を下回る結果となっています(Claude Opus 8.6%、o3 6.5%、Gemini 2.5 Pro 4.9%、Deepseek v3 1.3%)。
ARC-AGIは「人工一般知能」の測定を目的としたベンチマークで、パターン認識や抽象的思考能力を評価します。v1とv2の圧倒的な難易度差は、現在のAIがまだ真の汎用的な抽象推論には限界があることを示しており、AIの「賢さ」がいかに特定のタスクに依存しているかを浮き彫りにしています。
このスコアは、Grok 4が特定の抽象推論タスクでは優位性を示す一方で、本当の意味での汎用知能の実現にはまだ大きな課題があることも物語っています。
ARC-AGI v1 Semi Private (抽象推論) 性能比較
📊 スコア詳細
📝 ARC-AGI v1について: 抽象推論と汎用知能を測定するベンチマーク。視覚的パターン認識と論理的推論能力が問われます。
ARC-AGI v2 Semi Private (高難易度抽象推論) 性能比較
📊 スコア詳細
⚠️ ARC-AGI v2について: v1よりも大幅に難易度が上がった版。最高性能のGrok 4でも15.9%という結果は、真の汎用知能の実現がいかに困難かを示しています。
LCB (Jan-May):言語理解での僅差の争い
LCB (Language Capability Benchmark)では、Grok 4 Heavyが79.4%で最高スコアを記録しました。しかし注目すべきは、Grok 4が79.3%、Grok 4 (no tool)が79.0%と、ツールの有無やモデルのバリエーションによる差がほとんどないことです。Gemini 2.5 Pro (no tool)が74.2%、o3 (no tool)が72.0%と続きます。
このベンチマークでは、最高と最低の差が約7ポイントと比較的小さく、言語理解においては各AIの実力が拮抗していることがわかります。
LCB (Jan-May) 言語理解能力 性能比較
📊 スコア詳細
📝 LCBについて: Language Capability Benchmark。言語理解と処理能力を測定します。Grokシリーズが僅差で上位を独占していますが、差は小さく実用面では誤差レベルです。
HMMT25:数学競技での圧倒的優位
HMMT25 (Harvard-MIT Mathematics Tournament)では、Grok 4 Heavyが96.7%という驚異的なスコアで圧勝しました。Grok 4が93.9%、Grok 4 (no tool)が90.0%と続き、Grokシリーズの数学的推論能力の高さが際立ちます。
一方で、Gemini 2.5 Pro (no tool)が82.5%、o3 (no tool)が77.5%、Claude 4 Opus (no tool)が58.3%と、他のAIとの差は歴然としています。数学競技における特化型の強さが顕著に表れた結果です。
HMMT25 (ハーバード-MIT数学競技) 性能比較
📊 スコア詳細
📝 HMMT25について: Harvard-MIT Mathematics Tournament。大学レベルの数学競技で、Grokシリーズが圧倒的な強さを見せています。特にGrok 4 Heavyの96.7%は驚異的です。
USAMO25:数学オリンピックでの独走
USAMO25 (USA Mathematical Olympiad)では、Grok 4 Heavyが61.9%で他を大きく引き離しました。Grok 4が37.5%と、同じGrokでもHeavy版との差が24ポイントもあるのが興味深いポイントです。
Claude Opusが49.4%で2位につけたものの、Claude Opus (no tool)が34.5%、o3が21.7%と、数学オリンピックレベルになると全体的にスコアが下がる傾向が見られます。
USAMO25 (USA数学オリンピック) 性能比較
📊 スコア詳細
📝 USAMO25について: USA Mathematical Olympiad。数学オリンピックレベルの高難度問題で、Grok 4 HeavyとGrok 4で24ポイントもの差が開いています。最高レベルの数学的推論が求められます。
Humanity’s Last Exam:総合評価での新たな指標
Humanity’s Last Exam (Full set)は、人類の知識を総合的に測定するベンチマークです。Grok 4 Heavyが44.4%で最高スコアを記録し、Grok 4が38.6%、Gemini 2.5 Proが26.9%、o3が24.9%、Grok 4 (no tools)が25.4%、Gemini 2.5 Pro (no tools)が21.6%、o3 (no tools)が21.0%と続きます。
このベンチマークでは、最高でも44.4%と全体的にスコアが低く、真の汎用知能がいかに困難な課題かを物語っています。
Humanity’s Last Exam (人類最後の試験) 性能比較
📊 スコア詳細
📝 Humanity’s Last Examについて: 人類の総合的な知識と推論能力を測定する究極のベンチマーク。最高のGrok 4 Heavyでも44.4%という結果は、真の汎用知能実現の困難さを物語っています。
で、結局のところGrok 4はどうなのか?
さて、ここまで各ベンチマークの数値を見てきましたが、正直な話をしましょう。
98.8%だの96.7%だの、確かにすごい数字です。 でも僕がいつも思うのは、「数学オリンピックで満点レベルの人に、請求書の計算させても意味ないよね?」ということなんです。
Room8に相談に来る企業の皆さんが求めているのは、AIに「フィールズ賞レベルの数学」を解いてもらうことじゃありません。「この資料をわかりやすくまとめて」「プレゼン用のスライド作って」「お客様への返信文を考えて」といった、もっと身近で実用的な作業なんです。
つまり、相性の問題です。
ベンチマークで高得点を叩き出すAIが、あなたの仕事スタイルに合うかどうかは全く別の話。文章の書き方、指示の受け取り方、エラーの出し方、レスポンスの速度…これ全部「使ってみないとわからない」要素です。
しばらく使ってみます
というわけで、このベンチマーク結果を見ていると確かに使いたくなりますね(笑)
特にHumanity’s Last Examで44.4%というのは、なんだか「人類最後の希望」感があって気になります。実際の使い勝手はどうなのか、Room8での業務でしばらく試してみようと思います。
レビュー記事を楽しみにしていてください。
ベンチマークの数値と現実のギャップ、使いやすさ、コスパ、そして「結局ChatGPTで十分だった」のかどうか。現場目線でリアルにお伝えします。
まとめ:ベンチマークは参考程度に、大切なのは相性
今回はGrok 4の各ベンチマーク結果を詳しく見てきました。
数値だけ見れば確かに優秀です。 AIME25で98.8%、HMMT25で96.7%、ARC-AGI v1で66.6%…どれも印象的なスコアばかり。でも、ARC-AGI v2になった途端に15.9%まで下がったり、Humanity’s Last Examでは最高でも44.4%だったりと、ベンチマークの相対性も浮き彫りになりました。
結局のところ、AIを選ぶ際に大切なのは:
高校数学がしっかり解ければ十分過ぎるんです。数学チャンピオンレベルの能力なんて、普通の業務では使いません。それよりも、あなたの指示を理解して、使いやすいインターフェースで、安定して動作してくれるかどうか。
ベンチマークは参考程度に留めて、実際に使ってみることをお勧めします。
数値に踊らされず、自分の用途に合ったAIを見つけてください。そのためには、まず触ってみること。合わなければ他を試せばいいんです。
春日井コワーキングスペースRoom8では、AI活用についてのご相談も承っています。「どのAIを選べばいい?」「導入したけど使いこなせない」といったお悩みがありましたら、お気軽にお声がけください。