Meta setzt seine KI-Innovation durch strategische Investitionen in die Hardware-Infrastruktur fort, die für die Weiterentwicklung der KI-Technologien von entscheidender Bedeutung ist. Das Unternehmen hat kürzlich Details zu zwei Iterationen seines 24,576-GPU-Rechenzentrums-Clusters bekannt gegeben, der maßgeblich zur Entwicklung von KI-Modellen der nächsten Generation beiträgt, einschließlich der Entwicklung von Llama 3.
Meta setzt seine KI-Innovation durch strategische Investitionen in die Hardware-Infrastruktur fort, die für die Weiterentwicklung der KI-Technologien von entscheidender Bedeutung ist. Das Unternehmen hat kürzlich Details zu zwei Iterationen seines Clusters im Rechenzentrumsmaßstab mit 24,576 GPUs bekannt gegeben, der maßgeblich zur Entwicklung von KI-Modellen der nächsten Generation beiträgt, einschließlich der Entwicklung von Llama 3. Diese Initiative ist eine Grundlage für Metas Vision, offene und verantwortungsbewusste Gebäude zu generieren Künstliche allgemeine Intelligenz (AGI), die für alle zugänglich ist.

Foto mit freundlicher Genehmigung von META Engineering
Im weiteren Verlauf hat Meta seinen AI Research SuperCluster (RSC), der ursprünglich im Jahr 2022 veröffentlicht wurde, mit 16,000 NVIDIA A100-GPUs weiterentwickelt. Das RSC spielte eine entscheidende Rolle bei der Weiterentwicklung der offenen KI-Forschung und der Förderung der Erstellung anspruchsvoller KI-Modelle mit Anwendungen in vielen Bereichen, darunter Computer Vision, Verarbeitung natürlicher Sprache (NLP), Spracherkennung und mehr.
Aufbauend auf den Erfolgen des RSC verbessern die neuen KI-Cluster von Meta die Entwicklung von End-to-End-KI-Systemen, wobei der Schwerpunkt auf der Optimierung der Erfahrung von Forschern und Entwicklern liegt. Diese Cluster integrieren 24,576 NVIDIA Tensor Core H100-GPUs und nutzen leistungsstarke Netzwerkstrukturen, um komplexere Modelle als bisher zu unterstützen und so einen neuen Standard für die GenAI-Produktentwicklung und -Forschung zu setzen.
Die Infrastruktur von Meta ist hochentwickelt und anpassungsfähig und verarbeitet täglich Hunderte Billionen KI-Modellausführungen. Das maßgeschneiderte Design von Hardware und Netzwerkstrukturen gewährleistet eine optimale Leistung für KI-Forscher und sorgt gleichzeitig für einen effizienten Rechenzentrumsbetrieb.
Es wurden innovative Netzwerklösungen implementiert, darunter ein Cluster mit Remote Direct Memory Access (RDMA) über konvergentes Ethernet (RoCE) und ein weiterer mit NVIDIA Quantum2 InfiniBand Fabric, die beide Verbindungen mit 400 Gbit/s ermöglichen. Diese Technologien ermöglichen Skalierbarkeits- und Leistungseinblicke, die für die Gestaltung zukünftiger großer KI-Cluster von entscheidender Bedeutung sind.

Grand Teton wurde während der OCP 2022 eingeführt
Metas Grand Teton, eine selbst entwickelte, offene GPU-Hardwareplattform, trägt zum Open Compute Project (OCP) bei und verkörpert jahrelange KI-Systementwicklung. Es vereint Stromversorgungs-, Steuerungs-, Rechen- und Fabric-Schnittstellen zu einer zusammenhängenden Einheit und ermöglicht so eine schnelle Bereitstellung und Skalierung in Rechenzentrumsumgebungen.
Um die oft unterdiskutierte, aber entscheidende Rolle des Speichers im KI-Training anzugehen, hat Meta eine benutzerdefinierte Linux Filesystem in Userspace (FUSE) API implementiert, die von einer optimierten Version der verteilten Speicherlösung „Tectonic“ unterstützt wird. Dieses Setup, gepaart mit dem gemeinsam entwickelten Hammerspace Parallel Network File System (NFS), bietet eine skalierbare Speicherlösung mit hohem Durchsatz, die für die Bewältigung der enormen Datenanforderungen multimodaler KI-Trainingsjobs unerlässlich ist.
Die Serverplattform YV3 Sierra Point von Meta, unterstützt durch Tectonic- und Hammerspace-Lösungen, unterstreicht das Engagement des Unternehmens für Leistung, Effizienz und Skalierbarkeit. Diese Weitsicht stellt sicher, dass die Speicherinfrastruktur den aktuellen Anforderungen gerecht wird und skaliert werden kann, um den wachsenden Anforderungen zukünftiger KI-Initiativen gerecht zu werden.
Da KI-Systeme immer komplexer werden, setzt Meta seine Open-Source-Innovation bei Hardware und Software fort und leistet einen wesentlichen Beitrag zu OCP und PyTorch, wodurch der gemeinsame Fortschritt innerhalb der KI-Forschungsgemeinschaft gefördert wird.
Die Designs dieser KI-Trainingscluster sind integraler Bestandteil der Roadmap von Meta, die darauf abzielt, die Infrastruktur mit dem Ziel zu erweitern, bis Ende 350,000 100 NVIDIA H2024-GPUs zu integrieren zukünftige KI-Forschung und -Anwendungen.
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed