【AI界の泥沼】OpenAI vs xAI!Grok 3のベンチマーク結果を巡り大炎上🔥 マスク氏のAIは本当に賢いのか?

IT之家 2月23日消息:今週、OpenAIの従業員がイーロン・マスク氏率いるxAI社を公に非難し、最新のAIモデルGrok 3のベンチマーク結果が誤解を招くものであると主張しました。これに対し、xAIの共同創業者であるイゴール・バブーシキン氏は、会社に不正行為はないと主張しています。

xAIはブログで、Grok 3がAIME 2025(最近の招待制数学試験における高難易度の数学問題集)で優れた成績を収めたことを示すグラフを公開しました。一部の専門家はAIMEをAIのベンチマークとして使用することの有効性に疑問を呈していますが、AIME 2025とその初期バージョンは、モデルの数学的能力を評価するために広く使用されています。

IT之家が注目したのは、xAIのグラフが、Grok 3の2つのバージョン——Grok 3 Reasoning BetaとGrok 3 mini Reasoning——が、OpenAIの現在最強の利用可能なモデルであるo3-mini-highよりもAIME 2025で優れた成績を収めたことを示していることです。しかし、OpenAIの従業員はすぐにXプラットフォーム上で、

xAIのグラフには、o3-mini-highが「cons@64」条件下でAIME 2025で獲得したスコアが含まれていない

と指摘しました。

「cons@64」とは、「consensus@64」を意味し、モデルがベンチマークテストで各問題に対して64回試行することを許可し、最も頻繁に出現する答えを最終的な答えとして使用することを指します。ご想像のとおり、この方法はモデルのベンチマークスコアを大幅に向上させる傾向があり、グラフにこのデータが省略されている場合、モデルが別のモデルよりも優れていると誤解される可能性がありますが、実際にはそうではない可能性があります。

AIME 2025の「@1」条件下(つまり、モデルが最初に試行したスコア)では、Grok 3 Reasoning BetaとGrok 3 mini Reasoningのスコアはo3-mini-highを下回っています。Grok 3 Reasoning Betaのパフォーマンスも、OpenAIのo1モデルが「中程度の計算」設定で獲得したスコアをわずかに下回っています。

しかし、xAIは依然としてGrok 3を「世界で最も賢いAI」として宣伝しています。

バブーシキン氏はXプラットフォーム上で、

OpenAIも過去に同様の誤解を招くベンチマークグラフを公開したことがあると反論しました。これらのグラフは、自社のモデルのパフォーマンスを比較するために使用されたものですが。

この論争の中で、中立的な第三者がより「正確」なグラフを再描画しました:

しかし、AI研究者のネイサン・ランバート氏が記事で指摘しているように、おそらく最も重要な指標は依然として不明です。各モデルが最適なスコアを達成するために必要な計算(とお金)コストです。これはまさに、ほとんどのAIベンチマークがモデルの限界と強みを伝える上で依然として大きな不足があることを示しています。