IBM stellt bei Hot Chips 2024 die Telum II-Architektur und den Spyre Accelerator vor.
IBM hat auf der Hot Chips 2024-Konferenz die Architekturdetails für seinen kommenden IBM Telum II-Prozessor und IBM Spyre Accelerator vorgestellt. Diese neuen Technologien sollen die Verarbeitungskapazität auf IBM Z-Mainframe-Systemen der nächsten Generation deutlich skalieren und die Beschleunigung sowohl traditioneller KI-Modelle als auch großer Sprach-KI-Modelle durch eine neue Ensemble-Methode der KI ermöglichen. Da viele generative KI-Projekte, die Large Language Models (LLMs) nutzen, vom Proof-of-Concept zur Produktion übergehen, ist die Nachfrage der Unternehmen nach energieeffizienten, sicheren und skalierbaren Lösungen zur obersten Priorität geworden.
Einer Studie von Morgan Stanley zufolge wird der Energiebedarf für generative KI in den nächsten Jahren voraussichtlich um 75 % jährlich steigen. Prognosen gehen davon aus, dass der Energieverbrauch von KI bis 2026 dem Spaniens entsprechen könnte. Dies hat IBM-Kunden dazu veranlasst, Architekturentscheidungen zu priorisieren, die angemessen dimensionierte Basismodelle und Hybrid-by-Design-Ansätze für KI-Workloads unterstützen.
Der IBM Telum II-Prozessor ist für die nächste Generation von IBM Z-Systemen konzipiert. Er bietet eine höhere Frequenz, erweiterte Speicherkapazität, einen um 40 % größeren Cache und einen integrierten KI-Beschleunigerkern. Der neue Prozessor führt eine kohärent angeschlossene Datenverarbeitungseinheit (DPU) ein, die darauf ausgelegt ist, komplexe IO-Protokolle für Netzwerke und Speicher auf dem Mainframe zu beschleunigen. Die DPU vereinfacht den Systembetrieb und verbessert die Leistung der Hauptkomponenten, wodurch sich der Telum II-Prozessor gut für Unternehmens-Rechnerlösungen eignet, die LLMs und die komplexen Transaktionsanforderungen der Branche unterstützen.
Ergänzt wird der Telum II-Prozessor durch den IBM Spyre Accelerator, der zusätzliche KI-Rechenkapazitäten bietet. Zusammen bilden die Telum II- und Spyre-Chips eine skalierbare Architektur, die Ensemble-Methoden der KI-Modellierung unterstützt – indem mehrere KI-Modelle für maschinelles Lernen oder Deep Learning mit Encoder-LLMs kombiniert werden. Dieser Ensemble-Ansatz nutzt die Stärken jeder Modellarchitektur, um im Vergleich zu Einzelmodellen genauere und robustere Ergebnisse zu liefern. Der IBM Spyre Accelerator, der als Vorschau auf der Hot Chips 2024 vorgestellt wurde, wird als Zusatzoption erhältlich sein. Er wird über einen 75-Watt-PCIe-Adapter angeschlossen und ist skalierbar, um den Kundenanforderungen gerecht zu werden.
Tina Tarquinio, VP of Product Management für IBM Z und LinuxONE, betonte IBMs Engagement, den Technologietrends, insbesondere den steigenden Anforderungen der KI, immer einen Schritt voraus zu sein. Sie erklärte, dass der Telum II-Prozessor und der Spyre-Beschleuniger darauf ausgelegt sind, leistungsstarke, sichere und energieeffiziente Computerlösungen für Unternehmen bereitzustellen. Diese Innovationen, deren Entwicklung jahrelang gedauert hat, werden in IBMs IBM Z-Plattform der nächsten Generation eingeführt und ermöglichen es Kunden, LLMs und generative KI in großem Maßstab zu nutzen.
Der Telum II-Prozessor und der IBM Spyre Accelerator werden von IBMs langjährigem Partner Samsung Foundry unter Verwendung seines leistungsstarken, energieeffizienten 5-nm-Prozessknotens hergestellt. Zusammen werden diese Technologien eine Reihe fortschrittlicher KI-gesteuerter Anwendungsfälle unterstützen, die darauf ausgelegt sind, Geschäftswert freizusetzen und neue Wettbewerbsvorteile zu schaffen. So kann beispielsweise eine verbesserte Betrugserkennung bei Hausversicherungsansprüchen durch Ensemble-KI-Modelle erreicht werden, die LLMs mit herkömmlichen neuronalen Netzwerken kombinieren. Darüber hinaus kann die erweiterte Erkennung verdächtiger Finanzaktivitäten dazu beitragen, die Einhaltung gesetzlicher Vorschriften zu unterstützen und das Risiko von Wirtschaftskriminalität zu mindern. Gleichzeitig können KI-Assistenten Anwendungslebenszyklen beschleunigen, Wissen übertragen und Codeerklärungen und -transformationen bereitstellen.
Der Telum-II-Prozessor soll acht Hochleistungskerne mit 5.5 GHz, 36 MB L2-Cache pro Kern und eine um 40 % erhöhte On-Chip-Cache-Kapazität von insgesamt 360 MB bieten. Der virtuelle Level-4-Cache bietet 2.88 GB pro Prozessorschublade, eine Steigerung von 40 % gegenüber der vorherigen Generation. Der integrierte KI-Beschleuniger ermöglicht KI-Inferenzierung mit geringer Latenz und hohem Durchsatz während der Transaktion und bietet eine vierfache Steigerung der Rechenkapazität pro Chip im Vergleich zur letzten Generation. Darüber hinaus soll die neue, in den Telum-II-Chip integrierte I/O Acceleration Unit (DPU) die Datenverarbeitung mit einer um 50 % erhöhten I/O-Dichte verbessern und so die Gesamteffizienz und Skalierbarkeit von IBM Z für große KI-Workloads und datenintensive Anwendungen verbessern.
Der IBM Spyre Accelerator ist ein speziell entwickelter Beschleuniger der Enterprise-Klasse, der für die Verarbeitung komplexer KI-Modelle und generativer KI-Anwendungsfälle konzipiert ist. Er verfügt über bis zu 1 TB Speicher, verteilt auf acht Karten in einer regulären IO-Schublade, und unterstützt KI-Modell-Workloads auf dem Mainframe, während er nicht mehr als 75 W pro Karte verbraucht. Jeder Chip verfügt über 32 Rechenkerne, die die Datentypen int4, int8, fp8 und fp16 unterstützen und sowohl KI-Anwendungen mit geringer Latenz als auch mit hohem Durchsatz ermöglichen.
Der Telum II-Prozessor wird die nächste Generation der IBM-Plattformen IBM Z und IBM LinuxONE antreiben und 2025 verfügbar sein. Der IBM Spyre Accelerator, der sich derzeit in der technischen Vorschau befindet, wird voraussichtlich 2025 verfügbar sein.
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed