人工知能は今、イノベーションの爆発期!常に進化し続ける者だけが、この舞台の中心にいられる。
文|
《财经》執行主編
マーク
DeepSeekが春節前に突如として話題になり、その熱は今も冷めやらぬ勢いです。DeepSeekは徹底的にオープンソース路線を突き進み、その大規模言語モデルは性能が優れているだけでなく、訓練コストと使用コストが非常に低いのです。この事実は、AI業界の人々に「自分にもできる!」という希望を与え、様々な業界に「早くAIを活用しよう!」という熱意を燃え上がらせています。
このような心躍るニュースと共に、真偽不明な情報も飛び交っています。例えば、「DeepSeekはAIの発展方向を覆した」「DeepSeekのレベルはAI業界のリーダーであるOpenAIを超えた」といったものから、「DeepSeekは巨大なバブルだ」「OpenAIのモデルを『蒸留』したに過ぎない」といったものまで。
これらの噂の真相を確かめるため、私はここ数日多くの資料を読み込み、専門家にも意見を求めました。その結果、
DeepSeekは一体何を進化させたのか?そして、その進化は持続可能なのか?
について、私なりの答えを得ることができました。
まず、最初の質問に対する結論です。
DeepSeekの大規模言語モデルは、より効率的なモデルアーキテクチャ、訓練フレームワーク、そしてアルゴリズムを採用しており、これは素晴らしいエンジニアリング上のイノベーションです。しかし、ゼロからイチを生み出すような破壊的なイノベーションではありません。DeepSeekはAI業界の発展方向を変えたわけではありませんが、その発展速度を大幅に加速させました。
なぜこのような結論に至ったのか?それを理解するためには、まずAI技術の発展の歴史を紐解く必要があります。
人工知能簡史
AIの起源は1940年代に遡り、すでに80年近い歴史を持っています。その礎を築いたのは、イギリスの計算機科学者アラン・チューリング(Alan Turing)です。彼にちなんで名付けられたチューリング賞は、計算機科学界のノーベル賞と言われています。
現在、AI業界を牽引しているのは大規模言語モデル技術であり、その主な応用は生成AIです。これは、意味、音声、画像、動画などを生成する技術です。
DeepSeekシリーズも、OpenAIのGPTシリーズも、豆包、Kimi、通义千问、文心一言も、すべて大規模言語モデルの仲間です。
大規模言語モデルの理論的基礎はニューラルネットワークです。これは、人間の脳の働きをコンピュータ上で模倣しようとする理論であり、AIと同時期に生まれましたが、最初の40年間は主流ではありませんでした。しかし、1980年代後半に多層パーセプトロンモデルとバックプロパゲーションアルゴリズムが完成し、ニューラルネットワーク理論は日の目を見ることになりました。多くの人々がこの発展に貢献しましたが、中でも最も有名なのは、昨年ノーベル物理学賞を受賞したジェフリー・ヒントン(Geoffrey Hinton)でしょう。彼はイギリスとカナダの二重国籍を持っています。
ニューラルネットワーク理論はその後、深層学習理論へと発展しました。深層学習の父と呼ばれるジェフリー・ヒントンの他に、フランス人のヤン・ルカン(Yann LeCun、中国名:楊立昆)や、ドイツ人のユルゲン・シュミットフーバー(Jürgen Schmidhuber)も重要な貢献者です。彼らはそれぞれ、深層信念ネットワーク(DBN、2006年)、畳み込みニューラルネットワーク(CNN、1998年)、リカレントニューラルネットワーク(RNN、1997年)という3つのモデルアーキテクチャを提案または改良し、多層ニューラルネットワークに基づく機械の深層学習を実現しました。
しかし、ここまでは小規模モデルの時代でした。DBNやRNNのパラメータ数は通常、数万から数百万程度であり、CNNのパラメータ数が最大でも数億程度でした。そのため、特定のタスクしかこなすことができませんでした。例えば、CNNアーキテクチャをベースにしたGoogleのAlphaGoは、トップレベルの囲碁棋士である柯潔や李世石を打ち負かしましたが、囲碁以外のことは何もできませんでした。
2014年、AlphaGoを開発したGoogle DeepMindチームは、初めて「注意機構(Attention Mechanism)」を提案しました。
同年、モントリオール大学教授のヨシュア・ベンジオ(Yoshua Bengio)と彼の2人の博士課程の学生が、より詳細な論文を発表しました。これはニューラルネットワーク理論における大きな進歩であり、モデリング能力を大幅に向上させ、計算効率を高め、大規模な複雑なタスク処理を可能にしました。
ヨシュア・ベンジオ、ヤン・ルカン、ジェフリー・ヒントンの3人は、2019年にチューリング賞を受賞しました。
2017年、Googleは完全に注意機構に基づいたTransformerアーキテクチャを提案し、大規模言語モデル時代を幕を開けました。
現在、DeepSeekを含む主要な大規模言語モデルはすべてこのアーキテクチャを採用しています。強化学習(Reinforcement Learning、RL)や混合エキスパートモデル(Mixture of Experts、MOE、またはスパースモデルとも呼ばれる)も大規模言語モデルの重要なサポートであり、関連する理論はすべて1990年代に提案され、2010年代後半にGoogleによって製品開発に初めて使用されました。
ここでよくある誤解を解いておきます。MOEはTransformerと並ぶ別のモデルアーキテクチャではなく、Transformerアーキテクチャを最適化するための方法の一つです。
今日の主流な大規模言語モデルは、パラメータ数が兆単位に達しており、DeepSeek V3は6710億です。これほど大規模なモデルには、驚異的な計算能力が必要ですが、NVIDIAのGPUチップがまさにその計算能力を提供しています。
NVIDIAがAIチップ分野で独占的な地位を築いていることは、同社を世界で最も時価総額の高い企業にしただけでなく、中国のAI企業にとっての悩みの種にもなっています
。
Googleは大規模言語モデル時代において常にリードしてきましたが、ここ数年注目を集めているのはGoogleではなく、2015年に設立されたOpenAIです。OpenAIの様々な大規模言語モデルは常に業界のトップと見なされており、多くの企業がOpenAIのモデルを目標として追随しています。
この事実は、AI分野では、揺るぎないように見える巨大企業でも、実は挑戦不可能ではないことを示しています。AI技術は80年もの間発展してきましたが、本格的に加速したのはここ十数年であり、爆発期に入ったのはここ2、3年です。後発組にも常にチャンスはあります。
DeepSeek社は2023年7月に設立されたばかりであり、その母体である幻方量化は2016年2月に設立されました。どちらもOpenAIよりも若い企業です。AIはまさに、若い英雄が輩出される業界なのです。
人間のように自律的に思考し、学習し、新しい問題を解決できる汎用人工知能システム(Artificial General Intelligence、AGI)を開発することが、AI業界の究極の目標です。サム・アルトマンも梁文峰も、この目標を自らの使命として掲げています。そして、彼らはどちらも大規模言語モデルという方向を選択しました。これは業界の主流な方向です。
大規模言語モデルの方向性に従って、AGIを実現するにはどれくらいの時間がかかるのでしょうか?楽観的な予測では3〜5年、保守的な予測では5〜10年と言われています。つまり、業界では遅くとも2035年までにAGIが実現すると考えられています。
大規模言語モデルの競争は非常に重要です。大規模言語モデルは、様々な業界におけるAI応用の最上流に位置し、人間の脳のような役割を果たします。脳が手足を指揮するように、脳の質が人間の学習、仕事、そして生活の質を決定するのです。
もちろん、大規模言語モデルはAGIへの唯一の道ではありません。1990年代以降に「深層学習-大規模言語モデル」路線がAIの初期数十年の「ルールシステム-エキスパートシステム」路線を覆したように、「深層学習-大規模言語モデル」路線もまた覆される可能性があります。しかし、今のところ誰がその破壊者になるのかはまだ見えていません。
DeepSeekは何を進化させたのか?
現在、DeepSeekは再び挑戦者として登場しました。DeepSeekは本当にOpenAIを超えたのでしょうか?そうではありません。
DeepSeekは部分的にOpenAIのレベルを超えていますが、全体的にはOpenAIが依然としてリードしています。
まず、両社の基礎となる大規模言語モデルを見てみましょう。OpenAIは2024年5月にGPT4-oを発表し、DeepSeekは2024年12月26日にV3を発表しました。スタンフォード大学の基礎モデル研究センターが公開している世界の大規模言語モデルの総合ランキングによると、最新のランキングは今年の1月10日付けで、合計6つの指標があります。各指標のスコアを合計すると、DeepSeek V3は4.835点で1位、GPT4-o(5月版)は4.567点で6位に留まりました。2位から5位はすべてアメリカのモデルで、2位はClaude 3.5 Sonnetで、スコアは4.819点です。このモデルを開発したAnthropic社は、2021年2月に設立されたばかりです。
推論モデルは大規模言語モデルの新たな発展方向です。なぜなら、その思考パターンがより人間に近いからです
。先ほども述べたように、人間のように自律的に思考し、学習し、新しい問題を解決できる汎用人工知能を開発することが、AI業界の究極の目標です。
2024年9月12日、OpenAIは世界初の推論大規模言語モデルであるオリオン1号(orion1 、o1)を発表しました
。o1は、数学、プログラミング、科学の問題を解決する能力が驚くほど向上しています
。しかし、OpenAIはクローズドソース路線を歩んでおり、技術原理を公開していません。技術的な詳細については言うまでもありません
。そのため、世界中のAI関係者は、o1をどのように再現するかを追求することになりました。
わずか4か月後の今年1月20日、DeepSeekは世界で2番目の推論大規模言語モデルであるR1を発表しました。その名前は質素で飾り気がなく、Rは推論(Reasoning)の略です。評価結果によると、DeepSeek-R1はOpenAI-o1と同等のレベルにあります。しかし、OpenAIは2024年12月20日にアップグレード版のo3を発表し、その性能はo1を大幅に上回っています。現時点では、R1とo3の直接的な評価比較データはありません。
マルチモーダルもまた、大規模言語モデルの重要な発展方向です。意味(コードを書くことも意味に含まれます)を生成できるだけでなく、音声、画像、動画も生成できるのです。中でも動画生成は最も難しく、消費する計算リソースも最も多くなります。DeepSeekは2024年10月に初のマルチモーダルモデルであるJanusを発表し、今年1月28日にはそのアップグレード版であるJanus-Pro-7Bを発表しました。その画像生成能力はテストで優れた性能を示していますが、動画能力についてはまだ不明です。GPT-4はマルチモーダルモデルですが、動画を生成することはできません。ただし、OpenAIは専用の動画生成モデルであるSoraを所有しています。
モデルを小型化し、洗練させ、計算リソースの消費を抑えることも、業界のトレンドの一つです
。混合エキスパートモデルの設計思想もこの目的のためであり、推論モデルも汎用的な大規模言語モデルの驚異的な消費を削減することができます。この点において、DeepSeekのパフォーマンスはOpenAIよりも明らかに優れています。最近話題になっているのは、DeepSeekのモデル訓練コストがOpenAIの1/10、使用コストが1/30しかないということです。
DeepSeekがこれほど高いコストパフォーマンスを実現できたのは、そのモデルに優れたエンジニアリング上のイノベーションが詰まっているからです。単一のイノベーションではなく、集中的なイノベーションであり、すべての段階に優れたイノベーションがあります。
ここでは、その例を3つだけ挙げます。
★モデルアーキテクチャ段階:大幅に最適化されたTransformer + MOEの組み合わせアーキテクチャ。
先ほども述べたように、これらの技術はすべてGoogleが最初に提案し、採用したものです。しかし、DeepSeekはそれらを使用して独自のモデルを設計する際に大幅な最適化を行い、モデルに初めてマルチヘッド潜在注意機構(Multi-head Latent Attention、MLA)を導入しました。これにより、計算能力とストレージリソースの消費を大幅に削減しました。
★モデル訓練段階:FP8混合精度訓練フレームワーク。
従来、大規模言語モデルの訓練には、32ビット浮動小数点数(FP32)形式を使用して計算とストレージを行っていました。これにより精度を保証できますが、計算速度が遅く、ストレージスペースの占有率が高くなります。計算コストと計算精度のバランスをどのように取るかは、常に業界の課題でした。2022年、NVIDIA、Arm、Intelが共同で、最初に8ビット浮動小数点数形式(FP8)を提案しましたが、アメリカの企業は計算能力に不足していないため、この技術は中途半端に終わってしまいました。DeepSeekはFP8混合精度訓練フレームワークを構築し、異なる計算タスクとデータ特性に応じて、FP8またはFP32精度を動的に選択して計算を行うことで、訓練速度を50%向上させ、メモリ占有率を40%削減しました。
★アルゴリズム段階:新しい強化学習アルゴリズムGRPO。
強化学習の目的は、コンピュータが明確な人間のプログラミング命令なしに自律的に学習し、タスクを完了できるようにすることであり、汎用人工知能への重要な方法です。強化学習は当初Googleが主導し、AlphaGoを訓練する際に強化学習アルゴリズムを使用しました。しかし、OpenAIが後発ながら追い抜き、2015年と2017年に相次いで2つの新しいアルゴリズムであるTRPO(Trust Region Policy Optimization、信頼領域方策最適化)とPPO (Proximal Policy Optimization、近端方策最適化)を発表しました。DeepSeekはさらに一歩進んで、新しい強化学習アルゴリズムであるGRPO(Group Relative Policy Optimization グループ相対方策最適化)を発表しました。これにより、計算コストを大幅に削減すると同時に、モデルの訓練効率を向上させました。
(GRPOアルゴリズムの公式。Source:DeepSeek-R1論文)
ここまで読めば、「DeepSeekはOpenAIモデルを『蒸留』したに過ぎない」という説に対して、あなた自身の判断がついているはずです。しかし、
DeepSeekのイノベーションは、ゼロからイチを生み出す破壊的なイノベーションなのでしょうか?
明らかにそうではありません。破壊的イノベーションとは、まったく新しい分野を開拓したり、既存の分野を完全に方向転換させるようなイノベーションを指します。例えば、自動車の発明は交通業界を覆し、馬車業界を消滅させました。スマートフォンはフィーチャーフォンに取って代わりました。スマートフォンは携帯電話業界を消滅させたわけではありませんが、携帯電話の発展方向を完全に変えました。
AIの歴史を振り返ると、
DeepSeekは業界の主流な方向に沿って前進していることがはっきりとわかります。彼らは多くの優れたエンジニアリング上のイノベーションを行い、中米のAIのギャップを縮めましたが、依然として追随している状態です。
ホワイトハウスのAI顧問であるデビッド・サックス(David Sacks)は、「DeepSeek-R1は、中米のギャップを6〜12か月から3〜6か月に縮めた」と評価しました。
サックスが言及しているのはモデルの性能ですが、
さらに重要なのはコストパフォーマンスです。訓練コスト1/10、使用コスト1/30という事実は、最先端のAI技術が一般家庭に普及することを現実のものにします。
ここ2週間、様々な業界のリーダーがDeepSeekの大規模言語モデルを導入し、自社の業界のアプリケーションを開発し、AIを積極的に取り入れています。かつてないほどの熱意です。
しかし、私は改めて注意を促さなければなりません。大規模言語モデル技術の進歩は非常に速く、段階的な成果に過度に楽観視することはできません。同時に、大規模言語モデルはAIエコシステムの中で最上流に位置し、すべての下流アプリケーションの基盤となるため、基礎となる大規模言語モデルの質が様々な業界におけるAIアプリケーションの質を決定します。
DeepSeekはイノベーションを持続できるのか?
DeepSeekの刺激を受けて、サム・アルトマン(Sam Altman)は2月13日にOpenAIの発展計画を明らかにしました。今後数週間以内にGPT-4.5を発表し、数か月以内にGPT-5を発表する予定です。GPT-5は推論モデルo3の機能を統合し、意味、音声、視覚的な画像作成、検索、詳細な研究など、様々な機能を備えたマルチモーダルシステムになるでしょう。
アルトマンは、今後はユーザーが大量のモデルの中から選択する必要がなくなり、GPT-5がすべてのタスクを完了し、「魔法のような統一された知能」を実現すると述べています。
もし彼の言う通りになれば、GPT-5は汎用人工知能にまた一歩近づくことになります。
ユーザーの視点から見ると、1つのモデルですべてのニーズを解決できるのは非常に便利です。昔、携帯電話は電話をかけることしかできず、外出する際には銀行カード、ショッピングカード、交通カードなど、大量のものを持ち歩かなければなりませんでしたが、今では1台のスマートフォンですべてをこなすことができます。しかし、すべてをこなすと同時に、必要な計算リソースも驚くほど高くなります。iPhone16の計算能力は、当時のフィーチャーフォンの数千万倍です。驚くべきことに、iPhone16を使用するコストは、Nokia 8210を使用するコストよりも低くなっています。このような奇跡がAI業界でも起こることを願っています。
OpenAIの他にも、アメリカには多くのトップレベルのAI企業があり、そのレベルに大きな差はありません。先ほど紹介したスタンフォード大学のランキングからもわかるように、総合1位と10位の差はわずか0.335ポイントであり、各指標に平均すると0.06ポイント未満の差しかありません。また、様々な評価ランキングは重要な参考になりますが、実際の能力の優劣を示すものではありません。
DeepSeekにとって、OpenAIだけでなく、Anthropic、Google、Meta、xAIも強力なライバルです。
2月18日、xAIはイーロン・マスクが「地球最強のAI」と自称する大規模言語モデルGrok-3を発表しました。このモデルは10万個以上のH100チップを使用して訓練されており、大規模言語モデルのスケーリング則(計算およびデータリソースの投入量が多いほど、モデルの効果が高くなる)を極限まで押し進めましたが、同時にスケーリング則の限界効用逓減も露呈させました。
もちろん、中国もDeepSeek社だけが戦っているわけではありません。中国にも多くの優秀なAI企業があります。
事実、近年、世界的なAIは常に中米の両雄が並び立っていますが、アメリカの方が少し高い山です。
それでも、
私は梁文峰とDeepSeekチームに自信を持っています。
梁文峰の数少ないインタビューから、彼は理想主義に満ち溢れながらも、地に足の着いた、鋭いビジネスセンスを持つ人物であることがわかります。彼は技術を理解しているはずですが、技術的な天才ではないかもしれません。彼は、ジョブズやマスクのように、技術的な天才を集めて素晴らしい製品を作り出すことができる技術型起業家である可能性があります。
梁文峰は《暗涌》のインタビューで、「当社のコア技術職は、基本的に新卒と卒業後1、2年以内の人が中心です。私たちは人材を選ぶ基準として、常に情熱と好奇心を重視しています。採用時には価値観の一致を確認し、企業文化を通じて足並みを揃えるようにしています」と述べています。
「最も重要なことは、グローバルなイノベーションの波に参加することです。過去30年以上のITの波の中で、私たちは真の技術革新にはほとんど参加していません。中国の企業の多くは、イノベーションを起こすのではなく、フォロー(追随)することに慣れています。中国のAIとアメリカの本当のギャップ(差)は、オリジナルと模倣にあります。もしこれが変わらなければ、中国は永遠にフォロワーにしかなれません」
「イノベーションはまず信念の問題です。なぜシリコンバレーはイノベーション精神に満ち溢れているのでしょうか?まず、大胆さがあります。私たちは最も難しいことに取り組んでいます。トップレベルの人材にとって最も魅力的なのは、世界で最も難しい問題を解決することであることは間違いありません」
ジョブズは、「世界を変えることができると信じている狂人だけが、世界を変えることができる」という名言を残しました。梁文峰の姿に、私はその言葉の影を見ています。
しかし、中国のAIがアメリカを超えることを盲目的に楽観視することはできません。DeepSeekは、計算能力、アルゴリズム、データの3つの要素で構成される大規模言語モデルの開発経路を覆してはいません。DeepSeekの多くのイノベーションは、チップが制限されているためにやむを得ず行われたものです。例えば、NVIDIA H100の通信帯域幅は毎秒900GBですが、H800は毎秒400GBしかありません。しかし、DeepSeekはH800を使用してモデルを訓練するしかありません。
最近、私は太平洋の両側でDeepSeekに関する大量のコメントを読みました。「necessity is the mother of invention(必要は発明の母)」という、古代ギリシャに由来するこの諺は、様々な業界の著名人によって何度も語られました。しかし、逆に考えると、DeepSeekがOpenAIの同等の製品と互角に戦えるのは、チップ性能の劣勢を、逼迫した状況下で生み出されたアルゴリズムの優位性によって補っているからです。しかし、もし対戦相手がそれに気づき、同じくらい優れたアルゴリズムを開発し、さらに優れたチップを追加した場合、中米の大規模言語モデルのギャップは再び拡大するのではないでしょうか?
一方、DeepSeekはすでに国産チップに対応していますが、性能差を考えると、計算能力の劣勢は短期間では解消できません。私たちが電気自動車がガソリン車を逆転させたような状況を再現し、経路を変えて追い越すことができない限り。例えば、量子チップでシリコンベースのチップを代替するなど。
このような思考に陥ることは本当に悲劇です。技術革新は本来、すべての人類に恩恵をもたらすべきですが、地政学的な要因によって歪められています。だからこそ、私たちはDeepSeekが断固としてオープンソース路線を歩んでいることを称賛すべきなのです。
責編 | 秦李欣
題図|黎立