文 | 半导体产业纵横
文 | 半导体产业纵横
DeepSeekの熱狂が吹き荒れる中、中国国産GPUメーカーがこぞって最適化に乗り出しています。
同じように見える動きですが、その裏には各社の思惑が渦巻いています。
現在、業界の報道はDeepSeekに対応する企業の数に集中しがちですが、各社の違いを深く掘り下げているものはほとんどありません。技術的な方向性の違いなのか、性能に差があるのか?エコシステム構築に独自の特徴があるのか、それとも応用シーンが異なるのか?
モデルの最適化、オリジナル版か蒸留版か?
DeepSeekモデルの最適化という観点から、チップメーカーの動きは大まかに2種類に分けられます。1つはオリジナルのR1とV3モデルを最適化するもので、もう1つはR1から蒸留された小型モデルを最適化するものです。
この3つの違いは以下の通りです。
Deepseek R1は推論を優先するモデルとして位置づけられています
。高度な論理分析と問題解決が必要なシナリオ向けに設計されています。数学、プログラミング、推論など、多くのタスクで高いパフォーマンスを発揮します。
Deepseek V3は汎用的な大規模言語モデルとして位置づけられています
。さまざまな自然言語処理タスクで効率的かつ柔軟な応用を実現し、多岐にわたるニーズに対応します。Deepseek R1/V3オリジナル版モデルは通常、パラメータ数が多く、構造が比較的複雑です。
DeepSeek-R1シリーズ蒸留モデル
はDeepSeek R1をベースに蒸留された軽量版で、パラメータ数が少なく、構造がより洗練されています。一定の性能を維持しながらリソース消費を抑えることを目的としています。エッジデバイス推論、中小企業のAIアプリケーションの迅速な検証など、軽量なデプロイメントとリソース制約のあるシナリオに適しています。
各社がDeepseekの最適化という高地を奪い合っていますが、実際に各社が最適化しているモデルの種類は異なっています。
上の図からわかるように、主要なGPUメーカーはDeepSeekモデルの最適化を加速していますが、
DeepSeek R1およびV3オリジナル版モデルの最適化を明確に発表しているのは半数程度
です。これらのモデルは、チップの計算能力、メモリ帯域幅、マルチカード接続などの技術要件が非常に高くなっています。これには
华为昇腾、海光信息
が含まれます。
残りのメーカーは、主にDeepSeek-R1シリーズ蒸留モデル(パラメータ仕様は1.5B〜8B)をサポートしています。
これらの蒸留モデルのオリジナルモデルは通义千问とLLAMAであるため、元々通义千问とLLAMAモデルをサポートできたプラットフォームは、基本的にこれらのDeepSeek蒸留モデルを最適化でき、作業量も比較的少なくなります。これには
摩尔线程、壁仞科技
などが含まれます。
モデルのサイズによって適したシーンが異なり、クラウド推論にはモデルパラメータが大きく、モデル性能が最も優れている必要があり、主にオリジナルのR1またはV3モデルが最適化されます。エッジ側チップは主に1.5B〜8Bのモデルを最適化し、これらのモデルの推論構造は非常に成熟しており、追加の作業は必要ありません。
各社の強みは?
最適化するモデルの種類が異なるだけでなく、各社が選択する技術的な方向性も異なり、最適化時に遭遇する難易度も異なります。
まず、現在の技術エコシステムと実際の応用シーンから見ると
、DeepSeekモデルの実行と最適化は主にNVIDIAのハードウェアとプログラミング言語に依存しており、各メーカーの最適化能力は元の開発エコシステムとの互換性に左右されます。
つまり、DeepSeekは現在主にNVIDIAチップを最適化しており、他のハードウェアプラットフォームの応用と性能に一定の影響を与えます。したがって、NVIDIA GPUで開発されたDeepSeekなどの大規模モデルを最適化しやすいかどうかは、チップがCUDAと互換性があるかどうかに関連しています。CUDAと互換性のあるメーカーでも、互換性の程度は異なります。
次に、性能面から見ると
、GPUの計算能力(FLOPS、メモリ帯域幅など)が異なり、DeepSeekが大規模な深層学習タスクを処理する速度にも直接影響します。一部のGPUはエネルギー効率に優れており、低消費電力環境でDeepSeekを実行するのに適しています。
次に、主要なチップメーカーがDeepSeekを最適化する際に、それぞれが持つ強みと直面する課題を見てみましょう。
昇腾はチップ+フレームワーク+ツールチェーンなどのフルスタックAI能力を持ち、DeepSeekの技術スタックとの最適化の潜在力が大きいです。
ハードウェアの面から見ると
、昇腾910チップはAIトレーニングと推論に最適化されており、計算密度が高く、特に大規模モデルのトレーニングに適しています。
ソフトウェアエコシステムの面から見ると
、CANN異種計算アーキテクチャとMindSporeフレームワークは深く結びついており、DeepSeekがMindSporeに基づいて最適化されている場合、昇腾の適合性は非常に高くなります。同時にPyTorch/TensorFlowの移行ツールもサポートしています。
昇腾がDeepSeekを最適化する際に直面する課題について
、DeepSeekがCUDAエコシステムに依存している場合、华为の互換性レイヤー(昇腾異種計算加速ライブラリなど)を介して変換する必要があり、一部の性能が失われる可能性があります。
海光の強みは、海光DCUが汎用的な「CUDA類似」環境と互換性があり、高性能計算に長けていることです。
ハードウェアの面から見ると
、AMD CDNAアーキテクチャをベースにしたDCUシリーズは、ROCmエコシステムと互換性があり、CUDAコードの移行に優れており、既存のエコシステムとの互換性が必要なDeepSeekシナリオに適しています。
シーンの最適化の面から見ると
、インテリジェントコンピューティングセンターでの応用が成熟しており、DeepSeekがHPC+AI融合シナリオ(科学計算など)を重視している場合、海光はより優位性があります。
海光がDeepSeekを最適化する際に直面する課題について
、ソフトウェアツールチェーンの成熟度にあるかもしれません。
燧原の強みはクラウドAIトレーニングと推論にあります。
アーキテクチャ設計の面では
、邃思チップはTransformerなどの大規模モデルに最適化されており、計算密度が高く、DeepSeekの大規模パラメータシナリオに適しています。
ソフトウェアの最適化の面では
、燧原はTF/PyTorchの主要なフレームワークをサポートし、自動コンパイルツールを提供することで、DeepSeekの移行コストを削減します。
燧原がDeepSeekを最適化する際に直面する課題について
、エコシステムの影響力が弱く、顧客のカスタマイズされた協力に依存する必要があります。
沐曦の強みはGPUの汎用性とCUDA互換性にあります。
互換性の面では
、MXNシリーズはCUDAと互換性があり、DeepSeekがCUDAエコシステムに大きく依存している場合、沐曦の移行コストは比較的低くなります。
製品性能の面では
、沐曦GPUの理論計算能力は国際的なフラッグシップ製品に匹敵し、高い計算能力を必要とするシナリオに適しています。
沐曦がDeepSeekを最適化する際に直面する課題について
、製品の量産進捗と実際の導入事例が少なく、安定性を検証する必要があります。
天数智芯の強みはCUDAエコシステムとの互換性にあります。
エコシステムの最適化の面では
、天垓BIチップはCUDAと互換性があり、既存のコードライブラリを持つDeepSeekプロジェクトに適しています。
天数智芯がDeepSeekを最適化する際に直面する課題について
、ハイエンドの計算能力が不足しており、数千億規模の大規模モデルのトレーニングをサポートするのにプレッシャーがかかります。
壁仞科技のシングルチップ計算能力のピーク値が高いです。
ハードウェア指標から見ると
、高い計算能力のピーク値は、極端な計算能力を必要とするDeepSeekタスクに適しています。
壁仞がDeepSeekを最適化する際に直面する課題について
、ソフトウェアスタックの成熟度を向上させる必要があります。
百度PaddlePaddleと深く結びついており、DeepSeekが百度エコシステムと連携している場合、適合性が高くなります。
グラフィックレンダリングとAI融合シナリオに焦点を当てており、DeepSeekのマルチモーダルアプリケーション(3Dビジョンなど)に適していますが、汎用計算能力は限られています。
エッジ側推論を重視しており、DeepSeekが端末機器にデプロイされている場合、この2社はより優位性があります。
龙芯は現在CPUが中心であり、GPU製品は初期段階にあり、DeepSeekの最適化はまだ成熟していません。
最近の業界でのDeepSeekシリーズモデルの最適化が活発に行われた後、商用化が焦点となっています。
DeepSeekの商用化、どのような形式?
例えば:DeepSeekモデルは华为クラウドプラットフォームを通じてサービスを提供し、企業顧客はAPI呼び出しまたはクラウドサービスを通じてDeepSeekの機能(画像認識、自然言語処理、音声認識など)を直接使用できます。企業は実際の使用量(計算リソース、API呼び出し回数など)に応じて料金を支払い、初期投資コストを削減します。クラウドサービスモデルでは、企業がローカルにハードウェアをデプロイする必要がなく、迅速に起動して適用できます。
一体機形式
:現在、DeepSeek大規模モデル一体機は推論一体機とトレーニング推論一体機に分けられます。DeepSeek推論一体機にはDeepSeek-R1 32B、70B、フルバージョン671Bなど、さまざまなサイズのモデルが内蔵されており、価格は数十万元から数百万まで幅広く、主にデータセキュリティとデータプライバシーに敏感な企業ユーザーを対象としています。トレーニング推論一体機の価格はさらに高く、DeepSeek-R1 32Bモデルの事前トレーニングと微調整に使用される一体機の価格は数百万に達します。
企業自行部署
:性能要件が非常に高い企業(自動運転、金融リスク管理など)またはセキュリティニーズが非常に高い企業(政府機関や金融機関など)の場合、DeepSeekモデルはGPUチップなどのハードウェアにローカルにデプロイでき、「フル」性能を発揮できます。
現在の商用モデルから見ると、ローカルにGPUチップとDeepSeekモデルをデプロイするコストが高いため、企業ユーザーはまずパブリッククラウドでテストを行い、ニーズに適合するかどうかを確認してから、プライベートクラウドデプロイメントや一体機などの形式を検討します。したがって、中小企業はクラウドサービスを通じて関連技術を使用する傾向があるかもしれません。
当然のことながら、データセキュリティを非常に重視している企業や、高性能計算能力を緊急に必要としている企業は、数十万元から数百万の資金を投入して一体機をデプロイし、自社のニーズを満たしています。DeepSeekオープンソースモデルの開発に伴い、そのプライベートデプロイメントのニーズが高まっており、一体機化などの関連市場が活況を呈しており、多くの企業が参入しています。
DeepSeekの商業化、チップ会社は誰がより良くやっている?
DeepSeekの概念では、昇腾と海光の商業化はどちらも良い進展を遂げています。
昇腾:企業の70%が昇腾に基づいてDeepSeekに近づきます。
最近、DeepSeek一体機の発表メーカーには、华鲲振宇、宝德、神州鲲泰、长江计算などが含まれており、すべて昇腾製品に基づいて構築されています。
DeepSeek一体機の集中的な発表に伴い、昇腾の産業アライアンスが拡大し続けていることがわかります。
現在、80社以上の企業が昇腾に基づいてDeepSeekシリーズモデルを迅速に最適化またはオンラインにし、外部にサービスを提供しているとのことです。今後2週間以内に、さらに20社以上の企業がオンラインを完了する予定です。これは、国内の企業の70%が昇腾に基づいてDeepSeekに近づくことを意味します。
輸入GPUソリューションと比較して、昇腾チップのローカライズされたサービスとチームはDeepSeekのデプロイメント効果に大きな影響を与えます。例えば、数万規模のデータセンターでは、MindSporeツールチェーンの自動並列機能により、分散トレーニングコードの量が70%削減されました。
海光とDeepSeekの協力は、インテリジェントコンピューティングセンター、金融、インテリジェント製造などの主要なシーンをカバーしています。
インテリジェントコンピューティングセンターの面では
、海光信息は青云科技と共同で「海光DCU + 基石智算 + DeepSeekモデル」ソリューションを発売し、トークン課金をサポートする柔軟な呼び出しモードにより、企業のAIアプリケーションの敷居を下げています。
金融テクノロジーの面では
、中科金财は海光信息技术股份有限公司と共同でソフトウェアハードウェア統合ソリューションを発売しました。このソリューションは、自社開発のマルチシーンマルチベース大規模モデルエンジンと海光DCUシリーズアクセラレータカードを融合し、DeepSeekモデルとの綿密な最適化を完了しました。
インテリジェント製造の面では
、海光DCUはDeepSeek-Janus-Proマルチモーダルモデルを最適化することにより、産業用視覚検査と自動化された意思決定を可能にし、三一重工などの企業が生産ラインのインテリジェントアップグレードを実現するのを支援します。
データ管理の面では
、空天数智が構築した「睿思マトリックスデータストレージ管理プラットフォーム」は海光DCUに完全に適合しており、DeepSeekをプラットフォームに組み込み、「スーパーエンジン」として膨大なデータに深く入り込み、自然資源、エネルギー電力、航空宇宙などの分野にデータ処理サポートを提供します。
さらに、新致ソフトウェアは中科海光と共同で、新致信创一体機を正式に発表しました。これは、海光K100 GPUサーバーを計算能力の基盤とし、新致新知人工知能プラットフォームとDeepSeekシリーズ大規模モデルを深く融合し、チップからモデルまでのフルスタック国産AIソリューションを企業に提供し、安全、効率的、アジャイルなインテリジェント化された変革の新時代を開きます。
京东云もDeepSeek大規模モデル一体機を発表し、华为昇腾、海光などの国産AIアクセラレータチップをサポートしています。
国産GPU、チャンス到来?
DeepSeek一体機などのアプリケーションの発売と幅広い応用に伴い、国産チップへの需要が大幅に増加しています。
沐曦科技のCTO、杨建は、大規模モデルのトレーニング後の部分で、今年はより多くの非NVIDIAカードが参加すると予想されると述べています。
DeepSeekが推進する大規模モデルのプライベートデプロイメントは、国産チップにとってもチャンスです。
「2025年の国産GPUのチャンスはプライベートデプロイメントにあり、基本的にこの市場は大規模モデルのトレーニング後と推論が中心になるでしょう。」杨建は、NVIDIAがAI分野に適用されるGPUを国内市場に投入する方法に基づいて、NVIDIAカードは小売市場から基本的に姿を消しており、プライベートデプロイメントは小売市場に大きく依存していると述べています。プライベートデプロイメント市場が爆発した場合、国産カードには大きなチャンスがあります。
海外チップの計算能力制限による問題が近づくにつれて、グローバルな計算能力は2つの並行ルートを形成し、徐々に切り離される可能性があります。
2026年、2027年までに、米国の事前トレーニングとトレーニング後の計算能力基盤は依然としてNVIDIAであると予想され、国内では一部がNVIDIAによって負担され、一部が国産チップによって負担されます。
その中で、トレーニング後の部分では、今年は徐々により多くの非NVIDIAカードが参加するでしょう。これは、トレーニング後のクラスター要件が比較的低く、数千カード以上のクラスターを必要としないためです。
天数智芯の関係者も、国産モデルがブレイクスルーを遂げ、国産チップの最適化ニーズが高まるにつれて、今年は国産チップに大きな発展のチャンスがあると述べています。
DeepSeekモデルの人気は、AIアプリケーションが爆発するチャンスも秘めており、チップメーカーはAIアプリケーションに必要な推論計算能力に注目しています。昨年、国内でチップを評価する際には、主にトレーニングに着目し、国産チップをNVIDIAのトレーニングの代替品としていましたが、2025年から変化が起こり、国産チップが推論市場でチャンスを得るにつれて、徐々に注目が集まるでしょう。
上海人工智能研究院数字经济研究中心のシニアコンサルタント、于清扬は、DeepSeekが国産チップの促進に貢献していると述べています。「DeepSeekは強化学習メカニズムを通じてモデルの無効なトレーニングを60%削減し、並列計算の需要を従来のアーキテクチャよりも40%削減します。
国産チップの特定の計算タスクにおけるエネルギー効率をNVIDIA GPUの75%にまで高めることができます。」
同時に、GPUチップに限らず、AI推論側に細分化された利点を持つASIC、FPGAなどのチップにも豊富な発展のチャンスがあります。前述のDeepSeekの人気が国産チップ会社に多くの機会をもたらしている一方で、DeepSeekは依然としてNVIDIA CUDAエコシステムに明らかな経路依存性があるため、国産チップ会社は相互接続やエコシステムなど、多くの側面でさらに改善する必要があります。