【衝撃】イーロン・マスクの最新AI「Grok 3」を徹底検証!20万GPUの力は本物か?ChatGPT-4o超えの性能に迫る!

毎経実習記者 岳楚鵬 毎経編集 高涵

先日、人工知能スタートアップ企業xAIが更新版Grok 3大規模モデルを発表しました。イーロン・マスクはこれを「地球上で最も賢い人工知能」と呼んでいます。

公式に公開されたテスト結果によると、Grok 3は、AIME(一連の数学問題におけるモデルのパフォーマンスを評価)やGPQA(博士レベルの物理学、生物学、化学の問題におけるモデルのパフォーマンスを評価)などのベンチマークテストで、GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnetなどの大規模モデルを大きく上回っています。

大規模モデル競技場Chatbot Arena(LMSYS)のテストでは、xAIのエンジニアは、初期バージョンのGrok 3が1位を獲得し、140点に達し、Gemini 2.0 Flash Thinking実験バージョン、ChatGPT-4o最新バージョン、そして最近話題のDeepSeek R1などを超えたと述べています。

しかし、一部のユーザーは体験後、Grok 3の能力に疑問を抱いており、マスクが主張するほど強力ではないと考えています。OpenAIの応用研究責任者であるBoris Powerは、Grokチームのモデル評価における行動に失望を表明し、不正行為と欺瞞の動機があると指摘しました。Boris Powerは、o3-miniがすべての評価でGrok 3よりも優れていると述べました。

真相はどうなのでしょうか、マスクは誇張したのでしょうか?《毎日経済記者》がテストしたところ、

Grok 3は確かに世界トップレベルのモデルですが、他のモデルとの間に大きな差はありません。唯一差がついたのは、その非常に速い応答速度です。

9.9と9.11、どちらが大きいか?Grok 3は簡単にクリア

Grok 3は、マスク傘下の人工知能会社xAIが発表した最新世代のAIモデルです。マスクは発表会でこれを「地球上で最も賢い人工知能」と呼び、Grok 3の能力は前世代の製品Grok 2よりも桁違いに高く、より強力な推論、計算、適応能力を備えていると述べました。

記者会見で、マスクはGrok 3が数学、科学、プログラミングなどのベンチマークテストで優れたパフォーマンスを発揮し、GoogleのGemini、DeepSeekのV3モデル、AnthropicのClaude、OpenAIのGPT-4oなどの競合他社を上回ると主張しました。

Grok 3は発表後わずか48時間以内に、

xAIは、サーバーの負荷が限界に達するまですべてのユーザーに無料で公開することを発表しました。現在、ユーザーは毎日10件の「思考モード」Grok3と、無制限の無料の通常のGrok 3を体験できます。

《毎日経済新聞》の記者もGrok 3の発表後、実際にテストを行い、Grok3が本当にマスクが宣伝しているほどすごいのかどうかを確認しました。

まず、最も古典的な基礎問題から始めます。9.9と9.11、どちらが大きいか?

Grok 3

この問題は難なく、Grok 3は簡単にクリアしました。

論理的思考と文字理解能力:Grok 3はDeepSeek R1に及ばず

マスクが発表会で誇らしげに語ったのは、Grok 3の「思考モデル」下の論理的推論能力です。彼は、Grok 3 (Think) が問題解決戦略を改善し、回顧を通じてエラーを修正し、手順を簡素化し、事前トレーニング中に得た知識を活用することを学んだと主張しました。人間が複雑な問題を解決するのと同じように、Grok 3 (Think) は数秒から数分かけて推論し、通常は複数の方法を検討し、自分の解決策を検証し、問題の要件を正確に満たす方法を評価できます。

毎経記者は、弱智吧の問題を使って、そのロジックが本当に通用するかどうかを検証しました。

(編集者注:「弱智吧」は百度掲示板のサブフォーラムです。このフォーラムでは、ユーザーはダジャレ、多義語、因果転倒、同音異義語など、挑戦的な内容を含む投稿を頻繁に行います。多くのコンテンツは論理的な落とし穴が仕掛けられており、人間にとっても非常に難しいものです。)

最初の質問:水で水を薄めると、濃い水になりますか、薄い水になりますか?

Grok 3

Grok3は問題に正しく答え、さらにこれが言葉遊びであることを指摘しました。一方、OpenAIのo1はこの問題で敗北し、水で水を薄めると薄い水になると考えています。

OpenAI o1

もちろん、o1以外の大規模モデル、たとえばGeminiやR1もこの問題に正しく答えました。したがって、これはGrokの推論モードが第一レベルであることの証明にはなりません。難易度を上げる必要があります。

次の問題:未来のある日、李さんは実験室で神秘的な材料を作っているとき、実験室のネズミが空を飛んでいることに偶然気づきました。分析した結果、ネズミが誤って神秘的な材料を食べたためであることがわかりました。翌日、李さんは実験室のヘビも空を飛んでいることに気づきました。分析した結果、ヘビがネズミを食べたためであることがわかりました。3日目、李さんは実験室のワシも空を飛んでいることに気づきました。原因は何だと思いますか?

Grok 3

残念ながら、

この問題にGrok 3は正しく答えることができませんでした

。思考の連鎖の中で、ワシがもともと飛ぶことができる可能性を考えていましたが、最後の出力結果には反映されませんでした。

Grok 3思考過程

他の大規模モデルでは、DeepSeek R1のみが問題に正しく答え、2つの状況を考慮しました。

DeepSeek R1

その後、毎経記者は同様の弱智吧の問題を何度もテストした結果、

Grok 3の中国語の理解と論理的推論能力は確かに他の海外モデルよりも明らかに高いものの、DeepSeekのR1モデルには及ばないことがわかりました。

数学能力:Grok 3が最高だが、明らかな差はない

論理的思考で首位を奪うことができないのであれば、ベンチマークテストで最も高いスコアを獲得した数学プロジェクトで、Grok 3は挽回できるのでしょうか?

問題は次のとおりです。

3人がビリヤードをします。2人が対局し、1人が観戦します。負けた人が交代し、観戦していた人が対局に参加します。これを繰り返します。最終的に、Aは6局、Bは8局、Cは10局負けました。それぞれ何局勝ちましたか?

この問題に正しく答えたのは、Grok3とOpenAIのo1だけでした。ただし、Grok 3はわずか1分15秒で答えを導き出し、O1は2分53秒かかりました。

Grok 3

さらに難易度を上げて、優劣をつけられるかどうか試してみましょう。以下は群論の問題です。位数147の非同型群はいくつありますか?

この問題では、Grok 3は具体的な数である6個を正しく答えましたが、中間の具体的な群を1つ間違えました。一方、他のモデルは5つの正しい非同型群しか見つけられませんでした。

これは、数学的能力の面では、Grok 3が確かに最高ですが、それほど大きな差はなく、同レベルのモデルとの間に大きな差はないことを意味します。

Grok 3

プログラミング能力:Grok 3がo1に僅差で勝利

プログラミング能力については、《毎日経済新聞》の記者はKcoresの共同創業者であるkarminski-歯科医の評価結果を借用しました。

karminski-歯科医は、マスクが発表会で行った火星発射計画のコードシミュレーションを再現し、複数のモデルを比較テストしました。

画像出典:karminski-歯科医

このテストで最も優れたパフォーマンスを発揮したのは、Grok 3の推論モデル(思考モード)でした。最後の着陸時にアニメーションロケットが火星と重なりませんでしたが、軌道要件はうまく計算されました。しかし、彼はマスクが発表会で示したほど完璧な軌道計算とアニメーションを再現できませんでした。

Grok 3は最終的な総合スコアで1位になり、その次はOpenAIのo1で、両者の総合スコアの差はわずかでした。

画像出典:karminski-歯科医

すべてのテストを組み合わせると、Grok 3は確かに世界トップレベルのAIモデルであり、20万GPUの価値があると言えます。しかし、

実際のテスト効果は、マスクが発表会で示したほど誇張されていません。マスクが言う世界で最も「賢い」モデルであるかどうかは、まだ議論の余地があるかもしれません。

実地テストでは、《毎日経済新聞》の記者は、Grok 3モデルの能力がベンチマークテストのスコアほど競合他社を大きく引き離しているわけではないことを発見しました。

競合他社を唯一引き離している点は、その応答速度です。結果を導き出す速度は、他の同レベルの大規模モデルと比較して最も速く、競合他社を大きく上回っています。