DeepSeek-R1 がハードウェアの制限を克服し、AI のブレークスルーを実現した方法

DeepSeek-R1 は、OpenAI の最高峰に匹敵するオープンソース AI モデルであり、イノベーションはコンピューティングだけではなく、スマートなエンジニアリングでもあることを証明しています。

人工知能の世界で、新たなプレイヤーがコミュニティを席巻しています。オープンソースの推論モデルである DeepSeek-R1 は、その画期的なパフォーマンスで注目を集めています。このモデルは、OpenAI の主力モデルである O1 ラインに匹敵する機能を持ちながら、コスト効率が大幅に優れている強力な競合モデルとして登場しました。さらに印象的なのは、DeepSeek チームが、はるかに少ない制限されたリソースで、厳格な GPU 輸出規制を遵守してこの偉業を達成したことです。しかし、DeepSeek とは一体何であり、この開発が AI 研究における画期的な前進であるのはなぜでしょうか。

DeepSeek とは誰ですか? 推論モデルとは何ですか?

DeepSeek は中国を拠点とする野心的な AI 研究機関で、人工知能に対する革新的でアクセスしやすいアプローチで急速に認知度を高めています。オープンソース開発に重点を置くことで、同社は AI コミュニティの主要プレーヤーとしての地位を確立し、より幅広いユーザーが利用できる高性能モデルを開発しています。同社の最新作である DeepSeek-R1 は「推論モデル」であり、基本的なパターン認識を超えた論理的推論、問題解決、複雑な関係の理解に優れているように設計された AI モデルの一種です。

DeepSeek-R1 のような推論モデルは、段階的な思考プロセスをシミュレートする点で、従来の大規模言語モデル (LLM) とは異なります。R1 は、データのパターンに基づいて単純に答えを生成するのではなく、複雑な問題をより小さな論理的なステップに分解してから解決策に到達します。このアプローチでは推論に若干時間がかかる場合がありますが、数学的推論、プログラミング支援、意思決定など、深い理解を必要とするタスクでモデルのパフォーマンスが大幅に向上します。

DeepSeek-R1 がゲームチェンジャーである理由

DeepSeek-R1 が本当に際立っているのは、オープンソースであることです。主要な AI モデルが障壁に閉じ込められていることが多い業界において、DeepSeek はモデルと、その正確な方法論を概説した詳細な研究論文を公開しました。この大胆な動きは、OpenAI のような組織の典型的な閉鎖的な性質からの大きな脱却です。

このオープン性はAIコミュニティに実験の波を引き起こした。世界中の開発者や研究者がDeepSeek-R1をホストし、その能力を探求しベンチマークしている。特に、論文で概説されている戦略を再現する取り組みがある。 GitHub 上の Huggingface の Open-R1 プロジェクトは、トレーニングコードを含む DeepSeek-R1 の進行中の完全オープン複製です。これらの取り組みにより、R1 のアクセシビリティとコラボレーションの可能性がさらに高まり、より幅広いユーザーがその革新に関与し、それを発展させることが可能になります。

DeepSeek-R1のリリースは、AIコミュニティだけでなく、その先へも大きな影響を及ぼします。DeepSeekは、モデルと研究を公開することで、AIイノベーションの障壁を下げました。独立した研究者、スタートアップ、愛好家は、通常であれば開発に莫大な資金と計算リソースを必要とする最先端の推論モデルにアクセスできるようになりました。このリリースのオープンソースの性質は、すでにコミュニティ内で創造的な実験を刺激しており、開発者は次のような実験を行っています。 DeepSeek-R1の推論能力を他のモデルと組み合わせるモデルのパフォーマンスをアップグレードします。注目すべき例としては、強力なコーディング性能で知られるAnthropicのClaude Sonnet 3.5との統合が挙げられます。DeepSeekのR1の推論機能と組み合わせると、 Aidar Benchのようなベンチマーク.

Nvidia H800 と H100 との主な違いを理解する

一見すると、Nvidia H800 は H100 のわずかにスケールダウンしたバージョンのように見えますが、最も顕著な違いは FP64 コンピューティングパフォーマンスにあります。H100 は 34 TFLOP の FP64 パフォーマンスを誇りますが、H1 はわずか 800 TFLOP です。ただし、この違いはほとんどの AI ワークロードにとって大きな問題ではありません。最新の AI モデルは通常、速度と効率が最適化された BF16 や FP16 などの低精度形式を使用してトレーニングされます。FP64 精度は主に、倍精度計算が不可欠なレガシーツールや科学計算アプリケーションとの互換性を維持するために GPU に組み込まれています。AI トレーニングでは、FP64 パフォーマンスがボトルネックになることはほとんどありません。

H800 の本当の課題は、その相互接続速度です。NVLink 4.0 相互接続帯域幅は 400GB/秒で、H900 が提供する 100GB/秒の半分以下です。帯域幅が 50% 以上減少することは、数千の GPU が相互接続されて大規模なトレーニングが行われるマルチ GPU セットアップに大きな影響を与えます。

	エヌビディア H100 SXM	エヌビディア H800 SXM
FP64	34 TFLOPs	1TFLOP
FP64テンソルコア	67 TFLOPs	1TFLOP
FP32	67 TFLOPs	67 TFLOPs
FP32テンソルコア	989 TFLOP	989 TFLOP
BF16 テンソルコア	1,979 TFLOP	1,979 TFLOP
FP16テンソルコア	1,979 TFLOP	1,979 TFLOP
FP8テンソルコア	3,958 TFLOP	3,958 TFLOP
INT8テンソルコア	3,958 TOPs	3,958 TOPs
GPUメモリ	80 GB	80 GB
GPU メモリ帯域幅	3.35 TB /秒	3.35 TB /秒
最大熱設計電力 (TDP)	700W	700W
NVIDIA NVLink 4.0 相互接続速度	900GB /秒	400GB /秒

相互接続速度が重要な理由: トレーニングへの影響

大規模な AI トレーニングでは、GPU がさまざまな並列処理技術を使用して連携することがよくあります。一般的な並列処理技術としては、データ並列処理、モデル並列処理、パイプライン並列処理、テンソル並列処理などがあります。大規模なテンソルを複数の GPU に分割して計算するテンソル並列処理は、相互接続帯域幅に特に敏感です。

しかし、テンソルとは一体何でしょうか? 簡単に言えば、テンソルは AI モデルで入力、重み、中間計算を表すために使用される基本的なデータ構造です。

大規模な AI モデルをトレーニングする場合、これらのテンソルが非常に大きくなり、単一の GPU のメモリに収まらなくなることがあります。これを処理するために、テンソルは複数の GPU に分割され、各 GPU がテンソルの一部を処理します。この分割により、モデルを複数の GPU に拡張できるようになり、通常よりもはるかに大きなモデルのトレーニングが可能になります。

ただし、テンソルを分割するには、計算を同期して結果を共有するために GPU 間で頻繁に通信する必要があります。ここで、相互接続速度が重要になります。H800 の NVLink 帯域幅が減少すると、この段階で GPU 間の通信が遅くなり、レイテンシが増加して全体的なトレーニング効率が低下します。

このボトルネックは、数十億のパラメータを持つ大規模モデルが関係するシナリオではさらに顕著になります。このようなシナリオでは、テンソル計算を同期するために GPU 間の頻繁な通信が必要になります。テンソルの並列処理は、低速な相互接続に最も影響を受けますが、影響を受けるのはそれだけではありません。

H800 での AI トレーニングのスケーリングは、相互接続速度が遅いためにますます困難になり、効率的なマルチ GPU 通信に大きく依存するワークロードには理想的ではありません。

DeepSeek モデルのトレーニング

H800 GPU でのトレーニングのスケーリングの課題を考えると、当然次のような疑問が生じます。DeepSeek はどのようにして R1 のような最先端 (SOTA) AI モデルをトレーニングしたのでしょうか? DeepSeek-R1はDeepSeek-v3をベースにしたビルドです。 671B パラメータモデル。この基本 DeepSeek-v3 モデルは、モデル内で推論動作を誘導するために、さらに強化学習 (RL) トレーニングを受けました。

注目すべき重要な点は、先に述べた数字と手法は、 DeepSeek-v3 研究論文DeepSeek-R1 には追加のトレーニングリソースが必要でしたが、正確な詳細は不明です。ただし、DeepSeek-v3 は SOTA モデルであり、DeepSeek-v3 の論文で言及されている多くの手法が R1 のトレーニングに引き継がれた可能性があります。

さらに、数値は最終的に成功したトレーニング実行についてのみ報告されています。アーキテクチャ、アルゴリズム、またはデータに関する実験は考慮されていません。しかし、それを考慮しても、DeepSeek の自己報告によると、Meta の Llama よりも大幅に少ないリソースでこの偉業を達成しました。

さて、その説明はここまでにして、DeepSeek はどのようにしてこのような素晴らしいモデルをトレーニングしたのでしょうか? 詳細はこの記事の範囲外となるため、ここでは割愛しますが、DeepSeek v3 のトレーニングに使用された手法は、低精度の FP8 をトレーニングに活用することと、GPU 間通信を最適化してコストのかかる操作を最小限に抑えることという、8 つの主なカテゴリに分類できます。FP800 混合精度トレーニングを大規模に採用したことは、重みのサイズを縮小し、計算スループット (TFLOP) を向上させ、より高速で効率的なトレーニングを可能にした初めての試みでした。一方、テンソル並列処理の必要性を最小限に抑え、ノード間通信を改善するなどの通信の最適化により、HXNUMX GPU の相互接続帯域幅が限られていることによる課題に対処しました。

歴史的に、FP8 はトレーニングに広く使用されていません。これは、バックプロパゲーション中にモデルの重みを更新するために重要な勾配が、このような低精度の形式で表現されると収束に失敗することが多いためです。FP8 のダイナミックレンジと精度が限られているため、小さな重みの更新を正確にキャプチャすることが難しく、トレーニングが不安定になります。DeepSeek-v3 は、タイル単位やブロック単位のスケーリングなどのいくつかのきめ細かい量子化手法を導入することでこの課題を克服しました。これにより、モデルはアクティベーションと重みを適応的にスケーリングして、外れ値をより適切に処理できるようになりました。これと、中間の高精度 FP32 プロモーションによる累積精度の向上が組み合わされ、FP8 を使用したトレーニングが可能になりました。

通信面では、計算と通信をオーバーラップしてパイプラインバブルを大幅に削減する「DualPipe アルゴリズム」が開発されました。パイプラインバブルとは何でしょうか? パイプライン並列処理では、トレーニングはステージに分割され、GPU 全体に分散されます。この戦略を使用すると、一部の GPU がパイプラインの前のステージまたは後続のステージからのデータの準備ができるまで待機しているときにアイドル時間が発生し、トレーニングクラスターの MFU が削減されます。DualPipe は、計算と通信をオーバーラップし、レイテンシを隠し、GPU をビジー状態に維持することで、これらの非効率性を最小限に抑えます。DualPipe とともに、NVLink と InfiniBand の帯域幅を最大限に活用してノード間で効率的なスケーリングを保証するカスタムクロスノードオールツーオール通信カーネルも実装されました。

これらの革新は、ハードウェアの制限を克服し、DeepSeek モデルの効率的なトレーニングを可能にするために細心の注意を払って設計されました。

これは他の AI ラボや AI コミュニティ全体にとって何を意味するのでしょうか?

DeepSeek-R1 のリリースは、AI コミュニティ内で大きな議論と反省を巻き起こしました。リリースのタイミングと方法について非難する人もいますが、AI モデル開発のより広い文脈を認識することが重要です。SOTA モデルのトレーニングは時間のかかるプロセスであり、現在見られるモデルは、2023 年後半または 2024 年初頭にトレーニングサイクルを開始した可能性があります。

また、AI モデル開発における進化するパラダイムも無視すべきではありません。歴史的には、他のモデルからの高品質の合成データが不足していたことと、事前トレーニングをスケーリングすることでパフォーマンスが大幅に向上したため、大規模なデータセットでの事前トレーニングが不可欠でした。そのため、初期のモデルは、スクレイピングされたデータと事前トレーニングのスケーリングに大きく依存して機能を実現していました。ただし、DeepSeek-R1 を含む現在の世代のモデルは、トレーニングのさまざまな段階で合成データから大きな恩恵を受けています。OpenAI の o1 ファミリのモデルも、以前の GPT 4o モデルに基づいている可能性があり、1.8 兆の大規模なパラメータ GPT 4 モデルから、より効率的な Turbo モデルに進化し、最終的には、現在使用されているはるかに小さな 4o モデルに進化している可能性があります。

また、DeepSeek-R1 は始まりに過ぎないことも注目に値します。Anthropic、Meta、Mistral、Cohere などの他の組織も、ほぼ間違いなく同様の推論モデルに取り組んでいます。R1 のリリースは、推論、問題解決、タスク固有のパフォーマンスの限界を押し広げ続ける AI モデルの新しい波の始まりを示しています。GPU パワーの利用可能性が高まることでこの傾向はさらに加速し、ラボは微調整や強化学習 (RL) 用の合成データをさらに生成できるようになります。これにより、モデルはコード生成や論理的推論などの複雑なタスクで優れたパフォーマンスを発揮できるようになります。

DeepSeek のオープンソースイニシアチブは、AI コミュニティに大きな影響を与えるでしょう。モデルと方法論を公開したことで、オープンソースコミュニティ内でのイノベーションが促進され、他の研究室が同様のアプローチを採用するきっかけとなりました。DeepSeek がオープンソースコラボレーションの価値を認識したのは、Meta、Alibaba の Qwen チームなどの組織が築いた先例に基づいています。これらの以前の貢献がなければ、AI コミュニティはおそらく今日よりもずっと遅れていたでしょう。

まとめ：

DeepSeek-R1 のオープンソースリリースは、正しい方向への一歩です。クローズドソースモデルにも一定の位置づけはありますが、オープンソースムーブメントにより、より幅広いユーザーがイノベーションにアクセスできるようになるため、より包括的で競争力のある環境が促進されます。

AI は反復的なプロセスであり、オープンソースコミュニティはこの反復的な性質を活かして、前例のない方法で進歩を加速しています。多くの人は、オープンソースが唯一の前進方法であり、将来的に単一の組織が AI や潜在的に AGI (汎用人工知能) を所有することがないようにすることを固く信じています。中国の主要な AI ラボの 1 つがこの哲学を共有し、オープンソース運動を公然とサポートして貢献し、その重要性を証明しています。

結局のところ、DeepSeek-R1 は単なるモデルではなく、行動への呼びかけです。研究者、開発者、愛好家に刺激を与え、可能性の限界を押し広げ、所有するリソースで革新を起こし、急速に進化する分野に貢献します。AI 環境が拡大し続ける中、オープンソースコミュニティの反復的で協力的な精神は、人工知能の未来を前例のない方法で形作る原動力であり続けるでしょう。

StorageReview と連携する

DeepSeek-R1 がハードウェアの限界を克服し、AI のブレークスルーを実現した方法

DeepSeek とは誰ですか? 推論モデルとは何ですか?

DeepSeek-R1 がゲームチェンジャーである理由

Nvidia H800 と H100 との主な違いを理解する

相互接続速度が重要な理由: トレーニングへの影響

DeepSeek モデルのトレーニング

これは他の AI ラボや AI コミュニティ全体にとって何を意味するのでしょうか?

まとめ：

ディビヤンシュ・ジェイン

Spectra Logic、Spectra OSW-2400 光 SAS スイッチを発表

Ocient と AMD が AI と分析の効率向上に協力

信頼できるベンダー