Arista Networks heeft een baanbrekende technologiedemonstratie aangekondigd om AI-datacenters te creëren die reken- en netwerkdomeinen op één lijn brengen in één beheerde AI-entiteit.
Arista Networks heeft een baanbrekende technologiedemonstratie aangekondigd om AI-datacenters te creëren die reken- en netwerkdomeinen op één lijn brengen in één beheerde AI-entiteit. Dit initiatief, ondernomen in samenwerking met NVIDIA, streeft naar het bouwen van optimale generatieve AI-netwerken die kortere doorlooptijden van taken bieden door klanten in staat te stellen AI-clusters uniform te configureren, beheren en monitoren over kritieke componenten, waaronder netwerken, NIC's en servers.
Uniform beheer voor AI-clusters
Naarmate AI-clusters en grote taalmodellen (LLM’s) zich blijven uitbreiden, nemen ook de complexiteit en het aantal betrokken componenten aanzienlijk toe. Deze componenten omvatten GPU's, NIC's, schakelaars, optica en kabels, die op samenhangende wijze moeten functioneren om een uitgebreid netwerk te vormen. Uniforme controles zorgen ervoor dat AI-servers die NIC’s en GPU’s hosten, gesynchroniseerd zijn met AI-netwerkswitches op verschillende niveaus. Zonder deze uitlijning bestaat het risico op verkeerde configuratie of verkeerde uitlijning, met name tussen NIC's en de netwerkswitches, wat ernstige gevolgen kan hebben voor de voltooiing van taken vanwege moeilijk te diagnosticeren netwerkproblemen.
Gecoördineerd congestiebeheer
Grote AI-clusters vereisen gesynchroniseerd congestiebeheer om pakketdalingen en onderbenutting van GPU’s te voorkomen. Gecoördineerd, gelijktijdig beheer en monitoring zijn ook noodzakelijk om computer- en netwerkbronnen te optimaliseren. De kern van de oplossing van Arista is een op EOS gebaseerde agent die communicatie tussen het netwerk en de host mogelijk maakt en configuraties coördineert om AI-clusters te optimaliseren.
Externe AI-agent voor verbeterde controle
De Arista EOS die op Arista-switches draait, kan via een externe AI-agent worden uitgebreid naar direct aangesloten NIC's en servers. Dit maakt één enkel punt van controle en zichtbaarheid in een AI-datacenter mogelijk, waardoor een uniforme oplossing ontstaat. De externe AI-agent, gehost op een NVIDIA BlueField-3 SuperNIC of draait op de server en verzamelt telemetrie van de SuperNIC, zorgt ervoor dat EOS op de netwerkswitch netwerkproblemen op de server kan configureren, monitoren en debuggen. Dit zorgt voor end-to-end netwerkconfiguratie en Quality of Service (QoS)-consistentie, waardoor AI-clusters kunnen worden beheerd en geoptimaliseerd als een samenhangende oplossing.
John McCool, Chief Platform Officer voor Arista Networks, verklaarde: “Arista streeft ernaar de efficiëntie van de communicatie tussen het ontdekte netwerk en de GPU-topologie te verbeteren om de voltooiingstijden van taken te verbeteren door gecoördineerde orkestratie, configuratie, validatie en monitoring van NVIDIA-versnelde rekenkracht, NVIDIA SuperNICs en de netwerkinfrastructuur van Arista.”
Deze nieuwe technologie benadrukt hoe een op Arista EOS gebaseerde externe AI-agent het mogelijk maakt een geïntegreerd AI-cluster als één oplossing te beheren. Door de EOS-mogelijkheden uit te breiden naar servers en SuperNIC's via externe AI-agents, zorgt Arista voor het continu volgen en rapporteren van prestatieproblemen of storingen tussen hosts en netwerken, waardoor snelle isolatie en minimalisering van de impact mogelijk wordt. De op EOS gebaseerde netwerkswitches zorgen voor een constant bewustzijn van de nauwkeurige netwerktopologie, en het uitbreiden van EOS naar SuperNIC's en servers met de externe AI-agent verbetert de gecoördineerde optimalisatie van end-to-end QoS voor alle elementen in het AI Data Center, waardoor de voltooiingstijden van taken uiteindelijk worden verkort .
Volgende voor Arista Networks
Arista Networks zal de AI-agenttechnologie demonstreren tijdens de viering van het 10-jarig jubileum van Arista IPO op de NYSE op 5 juni, met klantproeven die naar verwachting in de tweede helft van 2024 zullen beginnen. Deze demonstratie vertegenwoordigt een belangrijke stap in de richting van het bereiken van een multi-vendor, interoperabel ecosysteem dat naadloze controle en coördinatie tussen AI-netwerken en AI-computerinfrastructuur mogelijk maakt, en daarmee tegemoetkomt aan de groeiende eisen van AI- en LLM-workloads.
Neem contact op met StorageReview
Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed