AI-infrastrukturer är notoriskt resurskrävande, och företag brottas ständigt med utmaningen att optimera GPU-utnyttjandet. Dell Technologies, genom sin AI Factory-plattform, tar sig an denna utmaning genom att integrera NVIDIAs nyligen förvärvade orkestreringslösning, Kör:ai. I en nyligen Dell-bloggen, lyfte företaget fram hur Run:ai maximerar resursutnyttjandet och accelererar AI-resultat, vilket förändrar hur företag distribuerar och hanterar GPU-resurser i stor skala.
Dell NVL72-kluster
Vad är Run:ai egentligen?
Run:ai är en orkestreringsplattform byggd på Kubernetes, designad specifikt för GPU-centrerade arbetsbelastningar. Run:ai grundades 2018 och fick fäste genom att ta itu med en genomgripande branschutmaning: ineffektiv användning av GPU:er. Traditionellt sett står GPU:er som tilldelats AI-arbetsbelastningar ofta inaktiva eller underutnyttjade. Run:ai löser detta genom att dynamiskt poola och intelligent schemalägga GPU-resurser, vilket möjliggör fraktionerad GPU-allokering, effektiva distributioner av flera GPU:er och sömlös hantering över hybrid-, moln- och lokala miljöer.
Medvetna om Run:ais potential att dramatiskt omforma AI-infrastrukturen, NVIDIA slutförde sitt förvärv av företaget i december 2024 för cirka 700 miljoner dollar. Intressant nog har NVIDIA åtagit sig att så småningom göra Run:ai till en öppen källkod, vilket signalerar sin avsikt att främja ett brett ekosystemantagande bortom sina hårdvaruplattformar. Detta drag förväntas ytterligare accelerera innovation och branschomfattande effektivitet över hela linjen.
För dig som söker ett djupare tekniskt perspektiv på resurshantering, NVIDIAs dokumentationsdetaljer hur Run:ai är avgörande för att orkestrera arbetsbelastningar på GB200 NVL72-system. Dokumentet belyser en kritisk lucka: Kubernetes känner inte igen NVIDIAs MNNVL-arkitektur direkt, vilket gör det mer komplext att hantera och schemalägga arbetsbelastningar över dessa högpresterande domäner. Run:ai abstraherar denna komplexitet genom att automatiskt upptäcka NVLink-domäner och förenkla inlämningen av distribuerade arbetsbelastningar. Detta säkerställer att poddar placeras korrekt på noder med NVLink-sammankopplingar, vilket eliminerar behovet av djupgående hårdvarukunskap eller manuell konfiguration för varje jobb. Dessa funktioner visar hur plattformen effektiviserar verksamheten i täta utbildningsmiljöer, vilket gör det möjligt för organisationer att fullt ut utnyttja kraften i avancerade hårdvarukonfigurationer, som GB200 NVL72.
Varför detta är viktigt för företaget
För organisationer som kör GPU-intensiva arbetsbelastningar, särskilt de som involverar generativ AI och stora språkmodeller, representerar GPU-underutnyttjande en betydande risk: slöseri med investeringar. Run:ai åtgärdar direkt dessa ineffektiviteter, med NVIDIA-rapportering att organisationer som använder plattformen kan se upp till fem gånger bättre GPU-utnyttjande.
Denna optimeringsnivå förbättrar inte bara avkastningen på investeringen utan omformar också fundamentalt den operativa effektiviteten. Team som tidigare begränsades av begränsade resurser och komplexa schemaläggningsprocesser har nu verktygen för att distribuera fler modeller samtidigt, skala snabbt och experimentera mer aggressivt, allt utan ytterligare kapitalutgifter för hårdvara. Även om dessa metoder är vanliga i stora HPC-distributioner är den effektivitetsnivå som krävs för att maximera GPU-utnyttjandet mindre vanlig i företaget.
Bred branschdynamik
Flera stora infrastrukturleverantörer anammar plattformen, vilket signalerar en växande takt inom företagens IT-landskap.
Dell fortsätter att utöka sitt AI Factory-ramverk, med NVIDIA-teknik i centrum, inklusive Run:ai. Dells användning av Run:ai illustrerar hur företag kan gå från isolerad, manuell resursallokering till mer dynamisk, automatiserad schemaläggning som driver högre effektivitet i miljöer med flera hyresgäster.
HPE erbjuder Run:ai som en del av sin GreenLake Marketplace och integrerar den med Ezmeral-plattformen för att möjliggöra avancerad GPU-schemaläggning, fraktionerad allokering och hybridinfrastrukturorkestrering. Detta gör det möjligt för kunder att distribuera och hantera AI-arbetsbelastningar med större precision och skalbarhet.
Cisco integrerar Run:ai med sina UCS X-Series-servrar och Intersights molndriftsplattform. Deras lösning omfattar kvothantering, delningsdelning av GPU:er och realtidsövervakning för att stödja storskaliga AI-distributioner lokalt.
Vi har lyft fram några av Run:ai-partnerna. NVIDIA har en omfattande lista med logotyper som syns ovan. Ledande OEM-tillverkare och molnplattformsleverantörer samarbetar med Run:ai i deras strävan att leverera mer innovativa och effektiva AI-infrastrukturlösningar.




Amazon