画像出典:Pixabay
DeepSeekが巻き起こすバタフライエフェクトは、まだまだ止まらない。
1月20日、DeepSeek社は、推論モデルDeepSeek-R1の完全版を正式にリリース。アルゴリズムの最適化により、低いトレーニングコストでOpenAIの推論モデルo1に匹敵する性能を実現し、しかもオープンソースという太っ腹ぶり。
従来のAIトレーニングは、膨大な計算能力を必要とし、「AGI(汎用人工知能)=物量作戦」というイメージが強かった。しかし、DeepSeekは「無人地帯」を開拓し、多くの企業がこぞってアクセスする事態に。企業はDeepSeekにアクセスすることで、DeepSeekのモデルサービスを利用できる。
不完全な統計ではあるものの、DeepSeek-R1モデルにアクセスしている国内の上場企業は100社を超え、中にはアリババ、テンセント、百度、三大通信キャリアなど、自社でモデルやAIアプリケーションを開発している企業も含まれている。
時代週報の記者が複数の業界関係者に取材したところ、企業がDeepSeekを選ぶ理由は主に2つ。1つは、DeepSeek-R1が徹底的にオープンソース化されており、導入が容易であること。そして、特定のシーンで強力な処理能力と推論能力を発揮すること。もう1つは、DeepSeekの注目度が高まっており、アクセスすることで、その影響力を受けられる可能性があること。QuestMobileのデータによると、DeepSeekの日間アクティブユーザー数は2月1日に3000万人を突破。
しかし、大手企業がDeepSeekモデルにアクセスすると、巨額の損失を被る可能性も。最近、AI Infra(ハードウェアと上位アプリケーションを接続する中間層インフラ)企業である潞晨科技のCEOである尤洋氏は、フルスペック版のDeepSeek-R1の100万トークン(出力)あたりの価格は16元であると指摘。もし1日に1000億トークンを出力すると、1ヶ月でアクセス企業は4800万元の収入を得られる計算になる。しかし、彼が試算したところ、1000億トークンの出力を完了するには、約4000台のH800を搭載したマシンが必要となり、現在のH800の市場価格または減価償却費で計算すると、毎月のマシンコストだけで4.5億元に達するため、企業は毎月4億元の損失を被る可能性がある。「ユーザーが増えれば増えるほど、サービスコストが高くなり、損失も増える」とのこと。
AI Infraベンダーの市場責任者である張迪(仮名)は時代週報の記者に対し、DeepSeekの爆発的な普及からわずか数週間しか経っておらず、ソフトウェアとハードウェアの適合、テスト、リリースなどの作業には時間がかかるため、現在、会社が外部と協力しているプロジェクトはまだ具体化しておらず、具体的なコストデータはまだ不明であると語った。
AIの潮汐効果の下、DeepSeekへのアクセスは一攫千金なのか、それともただの泡なのか、もう少し様子を見る必要がありそうだ。
モデルへのアクセスは「量」の勝負ではない
現在、企業がDeepSeekにアクセスする程度は異なっている。
2月13日、WeChat、テンセントドキュメント、QQブラウザなどのビジネスサイドの製品がDeepSeek-R1にアクセスした後、テンセントが独自開発したAIアシスタント「テンセント元宝」も正式にDeepSeek-R1にアクセスし、ユーザーが混元大規模モデルとDeepSeek-R1を切り替えて使用できるようになった。
テンセントがDeepSeekを全面的に受け入れる決意を示しているのに対し、アリババなどの企業は、DeepSeekへのアクセスを主に自社の主要事業サイドの製品に限定し、自社開発の大規模モデル製品のために一部の余地を残している。例えば、アリババの1688、釘釘、アリクラウドはDeepSeekにアクセスしているが、傘下のオールラウンドAIアシスタントである通義APPはまだ態度を表明していない。
DeepSeekにアクセスしている企業は、AI能力の活用シーンが多いビジネスにDeepSeekを優先的に適用していることがわかる。
「モデルへのアクセスは『量』の勝負ではなく、ニーズのある側はモデルとビジネスシーンの適合性を十分に考慮すべきだ」と、価値のあるものを買う科技のCTOである王云峰氏は時代週報の記者の取材に対し語った。現在、大規模モデルのアプリケーションモデルはますます多様化しており、異なるモデルにはそれぞれ適したシーンがある。
以前、価値のあるものを買う科技は、130億パラメータの消費大規模モデルを独自開発し、いくつかの主流モデルにもアクセスしていた。DeepSeekにアクセスした理由について、王云峰氏は、価値のあるものを買う科技の自社開発モデルは、商品理解や価格予測などの垂直分野で優れた能力を発揮するが、AI技術の複雑性から、単一のモデルですべてのシーンをカバーすることはできないと説明した。例えば、検索拡張を行う場合、内部のツールプロセスをAIが合理的に調整する必要があるが、外部の汎用モデルは適合しにくい。この場合、自社開発モデルは内部プロセスの調整やユーザーの意図理解などの重要なタスクを担当し、汎用モデルはサイト内の記事生成などの汎用的なシーンで使用される。
実際の導入効果を見ると、DeepSeek-R1の問題処理能力と推論能力は優れている。王云峰氏は時代週報の記者に対し、DeepSeek-V3を含む他のモデルと比較して、DeepSeek-R1が生成するコンテンツは文章の論理がより明確で、文学性もより際立っていると語った。その強力な言語処理能力により、会社のコンテンツ制作効率は明らかに向上した。「汎用モデルを使用する場合、より良い効果を発揮するためには、専門分野のデータを微調整する必要がある」とのこと。
ネットワークセキュリティ会社である知道創宇は、DeepSeekの初期の恩恵を受けた企業である。
昨年12月、知道創宇傘下のネットワーク空間測量エンジンZoomEye国際版は、DeepSeekの呼び出しサポートを同時に開始した。知道創宇のCSO(最高戦略責任者)である周景平氏は時代週報の記者に対し、DeepSeekにアクセスしてから現在まで、ZoomEye国際版のプラットフォーム登録数は28.5%増加し、プラットフォームの活動度は121.6%増加し、AI検索機能の使用率は35.8%に達したと語った。
周景平氏は時代週報の記者の取材に対し、興奮を隠せない様子だった。彼は、DeepSeekが、脆弱性検出、データインテリジェンス分析、ルール変換処理、自動化されたセキュリティ運用など、複数の細分化されたビジネスシーンで使用されていると述べた。データインテリジェンス分析では、DeepSeekなどの大規模モデルのデータ分析および推論能力のおかげで、以前はアナリストの知識フレームワークに依存していた細部を効率的に補完できるようになった。
「GPTと比較して、DeepSeekは低コストで高性能な技術ルートを通じて、企業のアクセス障壁を下げ、オープンソース戦略を通じて技術の普及と産業チェーンの連携を促進することに焦点を当てています。これは、国内の企業レベルのアプリケーションの爆発的な普及に大きな可能性をもたらします。」周景平氏の見解では、DeepSeek-V3とDeepSeek-R1は、アクセス企業にとって費用対効果が高いという意味で有利である。彼は、DeepSeekは比較的徹底的にオープンソース化されており、蒸留モデルのローカル量子化版もリリースしているため、企業がローカルに導入する際の費用対効果が大幅に向上すると述べた。
適合ベンダーに春が来る?
企業がDeepSeekに殺到したことで、大規模モデルの産業チェーンの中間層に位置する適合ベンダーは多忙を極めている。
張迪氏は時代週報の記者に対し、DeepSeekの爆発的な普及後、会社に問い合わせる人が増え続けていると語った。「以前は1〜2か月に1人しかビジネスの相談に来る顧客がいなかったのですが、今では毎日10人以上対応しなければなりません。」張迪氏は、最近はほとんど毎日残業しなければならず、ビジネスの相談に対応するだけでなく、ライブ配信、顧客の受け入れ、ビジネスの調整などの作業にも参加する必要があり、会社とチームの会議は午後8時と9時に予定されることが多いと述べた。
張迪氏によると、DeepSeekが人気になる前は、プライベートデプロイメントについては製品機能について議論するレベルにとどまっていたが、現在、会社に相談する人は、焦りからか、協力の目的がより明確になり、双方の会話のテーマは、ニーズの提示、製品の性能の理解、見積もりの提示の3つにほぼ絞られているという。
別のAI Infraベンダーの創業者である趙欣氏は時代週報の記者に対し、需要が大幅に増加し、業界の仕事のペースが全体的に加速していると語った。「お金を持ってあなたの製品を待っている人がいれば、何もすることがない時よりも興奮するのは当然です。」彼は、製品が市場に出て、実際に人々に使用されることは、個人の価値レベルでもプラスのフィードバックであると述べた。
以前、あるアナリストは時代週報の記者に対し、国産の計算能力の適合コストが高く、NVIDIAのチップが不足している状況では、国産の計算能力を使用する企業がDeepSeekにアクセスすると、一定の財務的圧力を受ける可能性があり、それが中間層ベンダーの発展見通しに影響を与える可能性があると述べた。
尤洋氏は時代週報の記者に対し、企業がDeepSeekにアクセスする経路を分解し、DeepSeekはオープンソースモデルであるため、アクセス側が計算能力を持っていれば、デプロイして実行できると述べた。
尤洋氏によると、計算能力の主な提供方法は通常2つあり、1つは企業が独自の計算能力を持っている場合(例えば、ローカルの一体型マシンやデータセンターを持っている場合)、もう1つはパブリッククラウド上の計算能力であり、企業は月単位でレンタルできる。その他に、一部のクラウドベンダーはMaaS(Model as a Service)モデルも提供しており、これはDeepSeekモデルをパブリッククラウドにデプロイした後、ニーズのある企業がDeepSeek APIを呼び出し、実際に使用したトークン量に応じて料金を支払うもので、初期の軽量な探索ニーズに適している。
企業がDeepSeekにアクセスするコストは、主にハードウェアコストとデプロイメントコストの2つの部分に分かれる。
ハードウェアコストに関しては、異なる仕様のハードウェアの価格差は大きく、同じ仕様でも規模が異なるハードウェアの価格も大きく異なる。「モデルを使用するだけでよい企業の場合、推論チップを選択するとハードウェアコストを効果的に削減できます。一方、微調整やトレーニングの要件がある企業は、ハードウェアを購入またはレンタルする際にトレーニングチップを使用する必要があるかもしれません。また、同時実行数や出力速度の要件が高い企業は、十分な計算能力とビデオメモリを備えたチップを選択する必要があり、これらのチップの価格は高くなります。」と尤洋氏は述べた。
デプロイメントコストの違いは、異なる仕様のチップのデプロイメントの難易度だけでなく、企業の具体的な要件にも関係している。例えば、企業が高並行処理、ナレッジベースへのアクセス、ネットワーク接続機能へのアクセスなどを必要とする場合、大きな作業量が発生する。
「フルスペックのDeepSeek-R1 671Bモデルの場合、ローカルデプロイメントのハードウェアコストは100万元レベルであり、一般的にデプロイメントコストを大幅に上回ります。一部の中小企業は蒸留版のモデルを使用したり、クラウドベンダーのAPIを直接呼び出したりするため、適合コストははるかに低くなります。」と尤洋氏は付け加えた。
業界内のコストに関する懸念について、趙欣氏は、現在、会社の顧客は中小企業と伝統的な業界の大手企業が中心であり、会社の規模やビジネスが異なるため、関連するコストデータも大きく異なるが、現在の適合事例から見ると、顧客企業は一般的にこのコストを負担できる能力を備えていると述べた。
本ウェブサイト上のコンテンツ(テキスト、画像、音声、動画などを含む)は、転載を除き、すべて時代オンラインが著作権を所有しており、書面による合意なしに、転載、リンク、転載、またはその他の方法で使用することを禁じます。上記の声明に違反した場合、本ウェブサイトは関連する法的責任を追及します。他のメディア、ウェブサイト、または個人が転載して使用する場合は、本ウェブサイトの丁氏([email protected])までご連絡ください。