【衝撃】イーロン・マスクの最新AI「Grok 3」を徹底検証！20万GPUの力は本物か？ChatGPT-4o超えの性能に迫る！

毎経実習記者岳楚鵬毎経編集高涵

先日、人工知能スタートアップ企業xAIが更新版Grok 3大規模モデルを発表しました。イーロン・マスクはこれを「地球上で最も賢い人工知能」と呼んでいます。

公式に公開されたテスト結果によると、Grok 3は、AIME（一連の数学問題におけるモデルのパフォーマンスを評価）やGPQA（博士レベルの物理学、生物学、化学の問題におけるモデルのパフォーマンスを評価）などのベンチマークテストで、GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnetなどの大規模モデルを大きく上回っています。

大規模モデル競技場Chatbot Arena（LMSYS）のテストでは、xAIのエンジニアは、初期バージョンのGrok 3が1位を獲得し、140点に達し、Gemini 2.0 Flash Thinking実験バージョン、ChatGPT-4o最新バージョン、そして最近話題のDeepSeek R1などを超えたと述べています。

しかし、一部のユーザーは体験後、Grok 3の能力に疑問を抱いており、マスクが主張するほど強力ではないと考えています。OpenAIの応用研究責任者であるBoris Powerは、Grokチームのモデル評価における行動に失望を表明し、不正行為と欺瞞の動機があると指摘しました。Boris Powerは、o3-miniがすべての評価でGrok 3よりも優れていると述べました。

真相はどうなのでしょうか、マスクは誇張したのでしょうか？《毎日経済記者》がテストしたところ、

Grok 3は確かに世界トップレベルのモデルですが、他のモデルとの間に大きな差はありません。唯一差がついたのは、その非常に速い応答速度です。

9.9と9.11、どちらが大きいか？Grok 3は簡単にクリア

Grok 3は、マスク傘下の人工知能会社xAIが発表した最新世代のAIモデルです。マスクは発表会でこれを「地球上で最も賢い人工知能」と呼び、Grok 3の能力は前世代の製品Grok 2よりも桁違いに高く、より強力な推論、計算、適応能力を備えていると述べました。

記者会見で、マスクはGrok 3が数学、科学、プログラミングなどのベンチマークテストで優れたパフォーマンスを発揮し、GoogleのGemini、DeepSeekのV3モデル、AnthropicのClaude、OpenAIのGPT-4oなどの競合他社を上回ると主張しました。

Grok 3は発表後わずか48時間以内に、

xAIは、サーバーの負荷が限界に達するまですべてのユーザーに無料で公開することを発表しました。現在、ユーザーは毎日10件の「思考モード」Grok3と、無制限の無料の通常のGrok 3を体験できます。

《毎日経済新聞》の記者もGrok 3の発表後、実際にテストを行い、Grok3が本当にマスクが宣伝しているほどすごいのかどうかを確認しました。

まず、最も古典的な基礎問題から始めます。9.9と9.11、どちらが大きいか？

Grok 3

この問題は難なく、Grok 3は簡単にクリアしました。

論理的思考と文字理解能力：Grok 3はDeepSeek R1に及ばず

マスクが発表会で誇らしげに語ったのは、Grok 3の「思考モデル」下の論理的推論能力です。彼は、Grok 3 (Think) が問題解決戦略を改善し、回顧を通じてエラーを修正し、手順を簡素化し、事前トレーニング中に得た知識を活用することを学んだと主張しました。人間が複雑な問題を解決するのと同じように、Grok 3 (Think) は数秒から数分かけて推論し、通常は複数の方法を検討し、自分の解決策を検証し、問題の要件を正確に満たす方法を評価できます。

毎経記者は、弱智吧の問題を使って、そのロジックが本当に通用するかどうかを検証しました。

（編集者注：「弱智吧」は百度掲示板のサブフォーラムです。このフォーラムでは、ユーザーはダジャレ、多義語、因果転倒、同音異義語など、挑戦的な内容を含む投稿を頻繁に行います。多くのコンテンツは論理的な落とし穴が仕掛けられており、人間にとっても非常に難しいものです。）

最初の質問：水で水を薄めると、濃い水になりますか、薄い水になりますか？

Grok 3

Grok3は問題に正しく答え、さらにこれが言葉遊びであることを指摘しました。一方、OpenAIのo1はこの問題で敗北し、水で水を薄めると薄い水になると考えています。

OpenAI o1

もちろん、o1以外の大規模モデル、たとえばGeminiやR1もこの問題に正しく答えました。したがって、これはGrokの推論モードが第一レベルであることの証明にはなりません。難易度を上げる必要があります。

次の問題：未来のある日、李さんは実験室で神秘的な材料を作っているとき、実験室のネズミが空を飛んでいることに偶然気づきました。分析した結果、ネズミが誤って神秘的な材料を食べたためであることがわかりました。翌日、李さんは実験室のヘビも空を飛んでいることに気づきました。分析した結果、ヘビがネズミを食べたためであることがわかりました。3日目、李さんは実験室のワシも空を飛んでいることに気づきました。原因は何だと思いますか？