ホーム Enterpriseクラウド CPUからTPUへ:カスタムシリコン革命

CPUからTPUへ:カスタムシリコン革命

by ハロルド・フリッツ

AWS、Google、Azure などのクラウド大手は、AI の需要を満たし、パフォーマンス、効率、制御を向上させるカスタム シリコンを構築しています。

クラウド環境は現在、大きな変革期を迎えています。過去1年間で、Amazon Web Services(AWS)、Google Cloud、Microsoft Azureなどのハイパースケーラーは、カスタムシリコンへの投資を劇的に増加させました。また、チップ市場に参入するAI企業の数は増加し続けており、その規模は拡大を続けています。

チップ開発の急速な進展はデータセンターのあり方を大きく変え、新たなレベルのパフォーマンス、効率性、そして差別化を約束しています。一般的なチップメーカーが一般消費者向けのプロセッサやアクセラレータを開発するのに対し、これらの新興企業は要求の厳しいAIワークロードに特化したチップを開発しています。

チップ設計

カスタムチップ開発の動機は、市販のCPUやアクセラレータではハイパースケールクラウドのワークロードの需要に対応できないことにあります。特にAIと機械学習は、より高いコンピューティング密度、より低いレイテンシ、そしてより高いエネルギー効率の要件を要求します。ハイパースケーラーは、自社のインフラと顧客のニーズに合わせてカスタマイズされたチップを開発することでこれに対応しています。業界最高峰の「最速」「最安」「最高」と謳うプロセッサやアクセラレータを携えた新規参入企業が、ますます勢いを増しています。

もちろん、これは新しい現象ではありません。クラウドプロバイダーは長年にわたり、カスタムネットワークハードウェア、ストレージデバイス、サーバーを構築してきました。しかし、プロセッサの設計は別物です。

プレイヤーは誰ですか?

これは完全なリストではありません。現時点ではこの分野の主要なプレーヤーです。AIに特化したサービス提供に独自の強みを持つ、新たなサプライヤーも含まれています。

AWS

現在は第4世代となり、 Amazonのグラビトン このシリーズはクラウドにおけるArmベースのCPUの先駆けとなり、従来のx86製品と比較してワット当たりの性能が大幅に向上しています。AWSは、次のようなカスタムAIアクセラレーターも展開しています。 インフェルエンティアとトレイニウム大規模な推論およびトレーニングのワークロードを対象としています。

クラウドコンピューティングにおけるAWS Gravitonカスタムシリコン

AWSのウェブサイトによると、AnthropicはAWSを主要なトレーニングパートナーとし、AWS Trainiumを使用して最大規模の基盤モデルのトレーニングとデプロイを行う予定だと述べています。また、AmazonはAnthropicに4億ドルの追加投資を行うとされています。

グーグル

一方、GoogleはTensor Processing Unit(TPU)で限界に挑戦し続けており、現在では最大規模のAIモデルのいくつかに採用されています。同社の最新のTPU v5と アイアンウッド アーキテクチャは大規模な並列処理向けに設計されており、Google のデータセンター ファブリックと緊密に統合されています。

クラウドコンピューティングにおけるカスタムシリコン Google TPU

Azure

マイクロソフトも最近カスタムAIチップを発表しており、 Azure MaiaとAzure CobaltAIと汎用ワークロード向けに最適化されたこれらのチップは、既にマイクロソフトのデータセンターに導入されており、大規模言語モデルからコアクラウドサービスまで、あらゆるものをサポートしています。

CSPは孤独ではない

クラウドプロバイダーではないものの、チップ開発市場には他のプレーヤーも存在します。これらの企業も、チップ設計のメリット、すなわちコスト削減、パフォーマンス向上、管理性向上、そして所有権の確保といったメリットを認識しています。

グロク

Groqは、カスタムAI推論プラットフォームを提供しています。 言語処理ユニット (LPU) クラウドインフラストラクチャを備え、人気のAIモデルに対して低コストで高いパフォーマンスを提供します。

グラフィックス向けに設計されたGPUとは異なり、LPUはAI推論と言語タスク向けに最適化されています。Groqは、個々のチップではなく、GroqCloud™とオンプレミスソリューションを通じてLPUを提供しています。

SambaNovaシステム

SambaNovaシステム 複雑なワークロード向けにカスタマイズされたAIプラットフォームを開発しました。このプラットフォームは、データフローコンピューティング向けに最適化されたDataScale®システムとカスタム再構成可能データフローユニット(RDU)チップを中心としています。

同社は、事前トレーニング済みの基礎モデルと、ハードウェア、ソフトウェア、モデルを組み合わせ、特に金融とヘルスケアの分野での迅速な AI 導入を可能にする SambaNova Suite を提供しています。

セレブラス

セレブラスはAI推論およびトレーニングプラットフォームで知られており、 ウェーハスケール エンジン (WSE)多数の AI に最適化されたコアとオンチップ メモリを備えたこの大型チップにより、Cerebras システムは従来のハードウェアでは困難な複雑なモデルを処理できるようになります。

医療研究やエネルギー分野の組織はオンプレミスのスーパーコンピューターに Cerebras システムを使用しており、開発者は Cerebras Cloud を通じてその機能にアクセスできます。

緊張

緊張 同社は、コンピュータアーキテクチャとASIC設計を専門とするチームを率いて、高度なAIと高性能コンピューティングハードウェアを開発しています。オープンなハードウェアとソフトウェアに重点を置いたアプローチはGoogleのTPUに似ており、ジェフ・ベゾス氏をはじめとする著名人からの投資を集めています。

同社のBlackhole™ PCIeボードは、RISC-VコアとGDDR6メモリを搭載し、スケーラブルなAI処理向けに設計されています。Blackhole p100aモデルはBlackhole Tensixプロセッサを搭載し、デスクトップワークステーション向けに設計されています。

メリット:パフォーマンス、効率、制御

カスタムシリコンは、CSPをはじめとするプレイヤーに強力な選択肢を提供します。プロバイダーは、自社でチップを設計することで、ワークロード、データセンターアーキテクチャ、電力/冷却の制約に合わせて最適化できます。これにより、コストパフォーマンスが向上し、エネルギー効率が向上し、顧客に差別化されたサービスを提供できるようになります。戦略的には、シリコンスタックを自社で保有することで、サードパーティベンダーへの依存度が低減し、サプライチェーンのリスクが軽減され、イノベーションサイクルが加速します。この俊敏性は、AIモデルが驚異的なスピードで進化する世界において、競争優位性となります。

チップの製造は、気の弱い人には向いていません。深いエンジニアリングの専門知識、多額の資本投資、そしてファウンドリや設計パートナーとの緊密な連携が必要です。CSPはまた、カスタムハードウェアのアクセシビリティとユーザーフレンドリー性を確保するために、ソフトウェアスタック、コンパイラ、開発ツールにも多額の投資を行っています。その波及効果は業界全体に広がっています。Intel、AMD、NVIDIAといった従来のチップメーカーは新たな競争に直面し、スタートアップ企業やIPベンダーはCSPとの新たな協業機会を見出しています。RISC-Vに代表されるオープンソースハードウェアの動きは、プロバイダーがより柔軟でカスタマイズ性の高いアーキテクチャを求める中で勢いを増しています。

クラウドシリコンの未来

イノベーションのスピードは鈍化する兆しを見せていません。AI、アナリティクス、エッジコンピューティングが進化するにつれ、CSPやハイパースケーラーは、ネットワーク、ストレージ、セキュリティといった新たな分野に進出しながら、高度にカスタマイズされたシリコンへの投資を加速していくことが予想されます。次世代のクラウドインフラは、その内部に搭載されるハードウェアだけでなく、その上に重ねられるソフトウェアやサービスによっても大きく形作られるでしょう。

この進歩により、選択肢が広がり、パフォーマンスが向上し、これまで企業や開発者にとって不可能と思われていたワークロードを処理できるようになります。業界にとって、これは大手クラウドプロバイダーが最も影響力のあるチップ設計者の一部となる、新たな時代の幕開けとなります。

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード