DeepSeekオープンソースウィーク初日、コスト削減の秘策が明らかに——
FlashMLA
が、H800の計算能力の限界を打ち破りました。
ネットユーザーからは驚きの声が上がっています:「マジで?!」
これは、Hopper GPU向けに開発された高性能MLAデコードカーネルで、可変長シーケンスに特化して最適化されており、すでに実用化されています。
MLA
は、DeepSeekが提案する革新的な注意機構です。V2以降、MLAはDeepSeekのシリーズモデルにおいて大幅なコスト削減を実現していますが、計算・推論性能は依然としてトップレベルのモデルと同等です。
公式の説明によると、FlashMLAを使用すると、
H800は3000GB/sのメモリ帯域幅と580TFLOPSの計算性能を達成できる
とのことです。
ネットユーザーからは、「エンジニアチームに敬意を表します!HopperのテンソルコアからすべてのFLOPを絞り出しました。これが、LLMサービスを新たなフロンティアに押し進める方法です!」と称賛の声が上がっています。
すでに試用しているユーザーもいます。
オープンソース初日:FlashMLA
GitHubページはすでに更新されており、わずか1時間でStar数は1.2kを超えました。
今回リリースされたのは:
クイックスタート:
環境要件:
プロジェクトの最後に、
FlashAttention 2&3
と
NVIDIA CUTLASSプロジェクト
からインスピレーションを受けたと述べています。
FlashAttentionは、高速かつメモリ効率の高い高精度な注意機構を実現し、主要な大規模モデルで採用されています。最新の第3世代では、
H100の利用率を75%まで向上させることが可能
です。
トレーニング速度は1.5~2倍向上
し、FP16での計算スループットは最大740TFLOPs/sに達し、理論上の最大スループットの
75%
を実現し、計算リソースをより有効活用できます。これまでは35%しか達成できませんでした。
コア作者は、プリンストンの天才であり、Together AIのチーフサイエンティストであるTri Dao氏です。
NVIDIA CUTLASSは、CUDA C++テンプレート抽象のコレクションであり、CUDA内で高性能な行列-行列乗算(GEMM)およびすべてのレベルと規模の関連計算を実装するために使用されます。
MLA、DeepSeekの基本アーキテクチャ
最後に、MLA(Multi-head Latent Attention)について説明します。これはDeepSeekシリーズモデルの基本アーキテクチャであり、Transformerモデルの推論効率とメモリ使用量を最適化し、同時にモデルの性能を維持することを目的としています。
低ランク結合圧縮技術
により、マルチヘッド注意機構のキー(Key)と値(Value)の行列を低次元の潜在空間に投影することで、キーバリューキャッシュ(KV Cache)のストレージ要件を大幅に削減します。この方法は、長いシーケンスの処理において特に重要です。従来の方法では完全なKV行列を保存する必要がありましたが、MLAは圧縮によって重要な情報のみを保持します。
V2バージョンでは、この革新的なアーキテクチャにより、メモリ占有量を従来の最も一般的なMHAアーキテクチャの5〜13%に削減し、大幅なコスト削減を実現しました。推論コストはLlama 370Bの1/7、GPT-4 Turboの1/70に過ぎません。
V3では、このコスト削減と高速化がさらに顕著になり、DeepSeekは世界中の注目を集めています。
本日、DeepSeek-R1はHuggingFaceで10000以上のいいねを獲得し、プラットフォーム上の約150万のモデルの中で最も人気のある大規模モデルになりました。
HuggingFaceのCEOがこの朗報を発表しました。
The whale is making waves!クジラが波を起こしています!
さて、次の4日間は何が発表されるか楽しみですね!
GitHubリンク:
https://github.com/deepseek-ai/FlashMLA
参考リンク:
https://x.com/deepseek_ai/status/1893836827574030466