ホーム Enterprise META、AI イノベーションを推進する 24,576 GPU データセンター規模のクラスターを発表

META、AI イノベーションを推進する 24,576 GPU データセンター規模のクラスターを発表

by ハロルド・フリッツ

Meta は、AI テクノロジーの進歩に不可欠なハードウェア インフラストラクチャへの戦略的投資を通じて、AI のイノベーションを継続しています。同社は最近、Llama 24,576 の開発を含む次世代 AI モデルの推進に役立つ、3 GPU のデータセンター規模のクラスターの XNUMX つの反復の詳細を発表しました。

Meta は、AI テクノロジーの進歩に不可欠なハードウェア インフラストラクチャへの戦略的投資を通じて、AI のイノベーションを継続しています。同社は最近、24,576 GPU のデータセンター規模のクラスターの 3 つの反復の詳細を発表しました。これは、Llama XNUMX の開発を含む次世代 AI モデルの推進に役立ちます。この取り組みは、オープンで責任を持って構築されたものを生成するという Meta のビジョンの基盤です。誰もがアクセスできる汎用人工知能 (AGI)。

写真提供:META Engineering

Meta は進行中の取り組みの中で、2022 年に初めて公開された AI Research SuperCluster (RSC) を 16,000 個の NVIDIA A100 GPU で改良しました。 RSC は、オープン AI 研究を推進し、コンピューター ビジョン、自然言語処理 (NLP)、音声認識など、多くのドメインにまたがるアプリケーションを備えた洗練された AI モデルの作成を促進する上で極めて重要な役割を果たしてきました。

RSC の成功を基礎として、Meta の新しい AI クラスターは、研究者と開発者のエクスペリエンスの最適化に重点を置き、エンドツーエンドの AI システム開発を強化します。これらのクラスターは 24,576 個の NVIDIA Tensor Core H100 GPU を統合し、高性能ネットワーク ファブリックを活用して、これまで可能であったよりも複雑なモデルをサポートし、GenAI 製品開発と研究の新しい標準を設定します。

Meta のインフラストラクチャは非常に高度で適応性があり、毎日何百兆もの AI モデルの実行を処理します。ハードウェアとネットワーク ファブリックのオーダーメイド設計により、データセンターの効率的な運用を維持しながら、AI 研究者にとって最適なパフォーマンスが保証されます。

コンバージド イーサネット (RoCE) を介したリモート ダイレクト メモリ アクセス (RDMA) を備えたクラスターや、NVIDIA Quantum2 InfiniBand ファブリックを備えたクラスターなど、革新的なネットワーキング ソリューションが実装されており、どちらも 400 Gbps の相互接続が可能です。これらのテクノロジーにより、将来の大規模 AI クラスターの設計に不可欠なスケーラビリティとパフォーマンスの洞察が可能になります。

グランドティトンはOCP 2022中に導入されました

Meta の Grand Teton は、社内設計のオープン GPU ハードウェア プラットフォームで、Open Compute Project (OCP) に貢献し、長年にわたる AI システム開発を体現しています。電源、制御、コンピューティング、およびファブリック インターフェイスを 1 つのまとまりのあるユニットに統合し、データセンター環境内での迅速な導入と拡張を促進します。

AI トレーニングにおけるストレージのあまり議論されていないものの重要な役割に対処するために、Meta は、「Tectonic」分散ストレージ ソリューションの最適化されたバージョンでサポートされるカスタム Linux Filesystem in Userspace (FUSE) API を実装しました。このセットアップは、共同開発された Hammerspace 並列ネットワーク ファイル システム (NFS) と組み合わせることで、マルチモーダル AI トレーニング ジョブの膨大なデータ需要を処理するために不可欠な、スケーラブルで高スループットのストレージ ソリューションを提供します。

Meta の YV3 Sierra Point サーバー プラットフォームは、Tectonic および Hammerspace ソリューションによって支えられており、パフォーマンス、効率、拡張性に対する同社の取り組みを強調しています。この先見の明により、ストレージ インフラストラクチャが現在の需要を満たし、将来の AI イニシアチブの急増するニーズに対応できるように拡張できることが保証されます。

AI システムが複雑になる中、Meta はハードウェアとソフトウェアにおけるオープンソースのイノベーションを継続し、OCP と PyTorch に大きく貢献し、それによって AI 研究コミュニティ内での共同進歩を促進します。

これらの AI トレーニング クラスターの設計は Meta のロードマップに不可欠であり、350,000 年末までに 100 個の NVIDIA H2024 GPU を統合するという目標を掲げてインフラストラクチャを拡張することを目指しています。この軌跡は、インフラストラクチャ開発に対する Meta の積極的なアプローチを強調しており、企業の動的な需要を満たす準備が整っています。将来の AI 研究と応用。

メタエンジニアリングのブログ

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード