StorageReview.com

Broadcom Thor Ultra: UEC-kompatibelt 800G AI Ethernet-nätverkskort för skalbarhet på över 100 000 XPU

Företag  ◇  nätverk

Broadcom introducerade Thor Ultra, branschens första 800G AI Ethernet-nätverkskort som är helt kompatibelt med Ultra Ethernet Consortium (UEC) specifikationer. Det designades för kluster med fler än 100 000 XPU:er. Thor Ultra riktar in sig på de flaskhalsar som begränsar traditionell RDMA, genom att lägga till multipathing på paketnivå, placering av data i fel ordning, SACK-baserad omöverföring i hårdvara och en helt programmerbar pipeline för överbelastningskontroll.

Broadcom Thor Ultra OCP-kort

Thor Ultra OCP-kort

NIC:et integreras sömlöst med Broadcom Tomahawk 6 och är kompatibelt med alla UEC-kompatibla switchuppställningar. Broadcom framhäver sina säkerhetsfunktioner, inklusive PSP-kryptering med linjehastighet, säker start och attestering. NIC:et erbjuder också mångsidig distribution med 100G/200G SerDes och stöder olika användningsmodeller, inklusive chiplet-, IP-, PCIe- och OCP 3.0-kort. Thor Ultra fungerar som en framåttänkande, telemetriaktiverad komponent med hög bandbredd, lämplig för Ethernet-baserade AI-infrastrukturer.

RDMA för AI har nått sina gränser

AI-datacenter övergår från förutsägbara HPC-liknande processer till oförutsägbara, bursty och distribuerade AI-uppgifter, inklusive träning, finjustering och storskalig inferens. Under dessa förhållanden upplever traditionell RDMA (som används i många RoCE-implementeringar) betydande belastning. Bidragande till RDMA-begränsningarna inkluderar:

  • Avsaknaden av äkta multipathing på paketnivå tvingar dataflöden att endast använda en väg, vilket ökar svansfördröjningen under incast-händelser och mikrobursts.
  • Krav på placering i fel ordning hindrar optimal PCIe-utnyttjande när paket anländer i fel ordning, vilket orsakar stopp och blockering av head-of-line hos värden.
  • Go-Back-N-återsändningar ökar överbelastning och leder till bandbreddsslöseri, och återhämtning från förluster är långsam.
  • Att finjustera överbelastningskontroll över lövryggsstrukturer på 100 000-nodsskalan är utmanande och varierar ofta mellan leverantörer.

Thor Ultra övervinner dessa begränsningar genom att anpassa RDMA-semantiken närmare kraven för storskaliga AI-strukturer, stödja finkornig lastfördelning, omordningstolerans, snabb förluståterställning och programmerbar överbelastningskontroll som anpassar sig allt eftersom UEC utvecklas.

Arkitektur och funktioner

Thor Ultra är utformad för att förankra UEC-kompatibla AI Ethernet-strukturer, med ett nätverkskort som eliminerar flaskhalsar på både värd- och struktursidan. Thor Ultras funktioner inkluderar:

  • Thor Ultras RDMA-pipeline använder multipathing på paketnivå för att distribuera trafik över flera vägar och stöder paket i fel ordning direkt i XPU-minnet. Den säkerställer tillförlitlighet genom SACK och omsändningar och har en helt programmerbar överbelastningskontroll som stöder olika algoritmer för policyförening och flexibilitet.
  • Thor Ultra prioriterade fullständig UEC-efterlevnad och stödde beteenden för tillförlitlighet, överbelastningssignalering och telemetri. Den är kompatibel med Broadcom Tomahawk 6 och andra UEC-switchar, vilket främjar en öppen Ethernet-metod för att undvika inlåsning och möjliggöra blandade leverantörsstrukturer.
  • Thor Ultras linjesäkerhet inkluderar hårdvaruaccelererad kryptering/dekryptering, säker start med signerad firmware och enhetsattestering, vilket säkerställer leveranskedjans och körtidsintegritet i AI-kluster med flera hyresgäster.
  • Utskalbara UEC-kompatibla telemetrifunktioner, såsom pakettrimning och explicit överbelastningssignalering, stöds, vilket förbättrar observerbarhet, sluten slinga för överbelastningskontroll och snabb felisolering i utskalbara strukturer.
  • NIC:et stöder 100G och 200G SerDes-konfigurationer för flexibla port- och uppgraderingsalternativ. Det använder termiskt effektiva passiva koppar-DAC:er upp till fem meter för rackanslutningar med kort räckvidd, vilket minskar strömförbrukning och kostnader. Modellerna inkluderar chiplet/IP för anpassade kort och standard PCIe- och OCP 3.0-formfaktorer, som alla delar firmware och verktyg för enklare hantering.

Ethernet AI-strukturer kontra proprietära alternativ

Lanseringen av Thor Ultra ligger i linje med viktiga konkurrensaspekter. Egenutvecklade AI-sammankopplingar inkluderar InfiniBand och leverantörsspecifika Ethernet-överlagringar. NVIDIAs InfiniBand-lösningar, som ConnectX/BlueField och Quantum-switchar, erbjuder funktioner som SHARP, adaptiv routing och optimerad överbelastningskontroll. Dessa kommer dock med leverantörslåsning och ökad total ägandekostnad (TCO). Thor Ultras UEC-efterlevnad och avancerade RDMA-funktioner är utformade för att matcha eller överträffa prestanda för slutfördröjning och dataflöde med standard Ethernet. Detta erbjuder köpare ett standardbaserat alternativ, vilket säkerställer leveransflexibilitet och välbekanta verktygskedjor.

Till skillnad från NVIDIAs Ethernet-strategi med Spectrum-X, som riktar sig mot AI-strukturer med proprietär schemaläggning/CC, är Broadcom "UEC-först" öppen, plus Tomahawk/Jericho-switchskala och en bredd inom handelsoptik. Men för många CSP:er, som AWS och Google, som distribuerar anpassad hårdvara, kanske UEC inte är ett starkt försäljningsargument. Även om distribution av anpassad hårdvara kan orsaka visst motstånd, anser de att det är viktigare att ha kontroll än att följa UEC-reglerna.

Intel, AMD (Pensando), Marvell och NVIDIA erbjuder konkurrerande Ethernet-nätverkskort, SmartNIC och DPU-lösningar för AI-kluster, med RoCEv2-förbättringar och värdavlastningar. Thor Ultra utmärker sig genom att leverera 800G linjehastighet, multipathing på paketnivå med placering i fel ordning, SACK-återöverföringar i hårdvara och en programmerbar motor för överbelastningskontroll som är kompatibel med UEC.

Broadcoms Tomahawk 6 och Jericho är ledande inom hyperskaligt handels-Ethernet. Thor Ultra erbjuder en omfattande Ethernet AI-infrastruktur. För operatörer som är tveksamma till ekosystem med en enda leverantör möjliggör UEC-efterlevnad och interoperabilitet med andra toppleverantörer flexibilitet, vilket gör att Broadcoms nätverkskort kan fungera med olika UEC-switchar eller vice versa.

Thor Ultra ökar Ethernets lönsamhet för AI på över 100 000 noder genom att ta itu med viktiga RoCE-utmaningar och främja en standardbaserad strategi, snarare än att förlita sig på en enda leverantörs infrastruktur.

AI-datacenterdesign

Thor Ultras kapacitet ger arkitekter stöd i några designförändringar, bland annat:

  • Tygstandardisering på UEC: Förutse referensdesigner som definierar UEC-kompatibla nätverkskort och switchar, och förenar standarder för överbelastningssignalering, telemetri och tillförlitlighet bland leverantörer. Detta minimerar integrationsutmaningar och förenklar upphandling från flera källor.
  • Ethernet-först AI-podar har förutsägbar svansfördröjning genom flervägssökning på paketnivå och stöd för placering i fel ordning. Dessa pod-designer använder 800G NIC-kort anslutna via 100G/200G SerDes-banor till ToR/leaf-switchar, lager över djupa ECMP-strukturer. Denna installation gör det möjligt för konstruktörer att vara mer aggressiva med sökvägsdiversitet och överprenumeration, samtidigt som de bibehåller låga p99- och p99.9-latenser.
  • Programmerbar trängselkontroll som manöverknapp: Med CC som körs i NIC-kisel men är programmerbar kan operatörer anpassa sig till arbetsbelastningsfaser (dataparallell träning kontra pipeline-parallell inferens) och fabriksförhållanden utan hårdvarubyten. Förvänta dig A/B-testning av mottagar- kontra sändarbaserade scheman och sluten slingastyrning med hjälp av UEC-telemetri.
  • Enklare värddatavägar och PCIe-effektivitetFelaktig placering i XPU-minne och hårdvaru-SACK minskar CPU/XPU-inblandning i omordning och återställning, vilket frigör värdcykler och jämnar ut PCIe-bandbreddsutnyttjandet. Detta är viktigt för GPU/acceleratorservrar som redan körs i utkanten av PCIe- och minnesbandbreddsgränser.
  • Säkerhet inbyggd i nätverkskortet: Linjehastighetskryptering, säker start och hårdvaruattestering underlättar efterlevnad i kluster med flera hyresgäster, särskilt vid delning av infrastruktur mellan utbildnings- och inferenshyresgäster eller vid partitionering mellan interna team.
  • Kablage och elkostnaderPassiva koppar-DAC:er upp till 5 m för NIC-till-ToR-körningar kan sänka optikens strömförbrukningsbudgetar och förenkla temperaturreglering på racknivå.
  • Operativ telemetri och SLO:erUEC-telemetriprimitiver, såsom pakettrimning och explicita överbelastningssignaler, möjliggör stramare SLO-hantering och snabbare RCA i stor skala. Integrationer i befintliga NetOps/AI Ops-pipelines kommer att vara ett urvalskriterium.

konfiguration

Thor Ultra stöder 100G/200G SerDes-konfigurationer, levereras som ett chiplet/IP för anpassade integrationer och som standard PCIe- och OCP 3.0-kort. Alla varianter delar en enhetlig firmware, drivrutin och programvaruverktygskedja för att effektivisera flottans drift. Broadcom positionerar Thor Ultra som en del av Tomahawk 6, med angiven kompatibilitet för UEC-kompatibla switchar från andra leverantörer.

Broadcom Thor Ultra PCIe-kort

Thor Ultra PCIe-kort

Broadcom introducerar Thor Ultra som ett betydande genombrott inom AI Ethernet. Detta 800G NIC stöder fullt ut UEC och erbjuder avancerade RDMA-funktioner, med fokus på prestanda, skalbarhet och öppenhet. Det förbättrar Ethernet-för-AI-berättelsen genom att tillhandahålla ett 800G NIC som åtgärdar viktiga begränsningar hos traditionell RoCE i hyperskala, inklusive brist på multipathing på paketnivå, opålitlig leverans i ordning, långsamma omsändningar och ömtålig överbelastningskontroll.

Tillgänglighet

Broadcom testar Thor Ultra med utvalda kunder.

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde

Harold Fritts

Jag har varit i teknikbranschen sedan IBM skapade Selectric. Min bakgrund är dock att skriva. Så jag bestämde mig för att lämna pre-sales-branschen och återvända till mina rötter, skriva lite men fortfarande vara involverad i teknik.