Optimera LLM-inferens med Pliops och vLLM. Förbättra prestanda, minska kostnaderna och skala AI-arbetsbelastningar med KV-cacheacceleration.
Pliops har tillkännagett ett strategiskt partnerskap med vLLM produktionsstack, en öppen källkod, klusteromfattande referensimplementering utformad för att optimera arbetsbelastningar för slutledning av stora språkmodeller (LLM). Detta partnerskap är avgörande när AI-gemenskapen förbereder sig för att samlas på GTC 2025-konferensen. Genom att kombinera Pliops avancerade nyckel-värde (KV)-lagringsbackend med den robusta arkitekturen i vLLM Production Stack sätter samarbetet ett nytt riktmärke för AI-prestanda, effektivitet och skalbarhet.
Junchen Jiang, chef för LMCache Lab vid University of Chicago, lyfte fram samarbetets potential och underströk dess förmåga att förbättra LLM-slutledningseffektiviteten och prestanda. Den gemensamma lösningen ger avancerade Vector Search and Retrieval-funktioner genom att introducera en ny petabyte-skala minnesnivå under High Bandwidth Memory (HBM). Beräknade KV-cacher behålls och hämtas effektivt med hjälp av disaggregerad smart lagring, vilket accelererar vLLM-inferens.
För en primer på Pliops, kolla in vår djupdykningsartikel.
Om den där KVCache
De flesta stora språkmodeller använder transformatorarkitekturer, som förlitar sig på uppmärksamhetsmekanismer som involverar fråge-, nyckel- och värdematriser. När tokens genereras sekventiellt beräknar transformatorer uppmärksamhet upprepade gånger, vilket kräver omräkning av tidigare nyckel- och värdematriser (KV), vilket leder till ökade beräkningskostnader. KV-caching åtgärdar detta genom att lagra tidigare beräknade KV-matriser, vilket möjliggör återanvändning i efterföljande token-förutsägelser, vilket avsevärt förbättrar genereringseffektiviteten och genomströmningen.
Detta innebär dock nya utmaningar. KV-cacher kan bli ganska stora, särskilt under långa generationer eller batchslutning med typiska batchstorlekar på 32, vilket så småningom överstiger tillgängligt minne. För att komma till rätta med denna begränsning blir en backend för KV-cachelagring väsentlig.
Pliops XDP LightningAI
Att distribuera Pliops XDP LightningAI i datacenter representerar ett paradigmskifte i kostnadseffektivitet, vilket ger betydande kostnadsbesparingar jämfört med traditionella arkitekturer. Genom att lägga till dedikerade XDP LightningAI-servrar tillsammans med befintlig infrastruktur kan organisationer uppnå anmärkningsvärda besparingar, inklusive 67 % optimering av rackutrymme, 66 % minskning av energiförbrukningen, 58 % årliga OpEx-besparingar och 69 % minskning av initiala investeringskostnader.
Pliops fortsätter att utvecklas med sin Extreme Data Processor (XDP), XDP-PRO ASIC, kompletterad med en omfattande AI-mjukvarustack och distribuerade noder. Genom att använda ett GPU-initierat Key-Value I/O-gränssnitt möjliggör denna lösning oöverträffad skalbarhet och prestanda. Pliops XDP LightningAI levererar avsevärda end-to-end-prestandaförbättringar, och uppnår upp till 8X vinster för vLLM-inferens, vilket avsevärt accelererar generativ AI (GenAI) arbetsbelastning. Med integrationen av banbrytande industritrender som DeepSeek säkerställer Pliops robust anpassningsförmåga för framtida AI-utveckling.
Pliops visade upp dessa framsteg på AI DevWorld och lyfte fram hur XDP LightningAI revolutionerar LLM-prestanda genom att avsevärt minska beräkningskraft och kostnad. Den här demonstrationen illustrerade Pliops engagemang för att möjliggöra hållbar AI-innovation i företagsskala.
Pågående samarbete
Pliops positionerar organisationer för att maximera potentialen hos AI-drivna insikter och behålla en konkurrensfördel i ett snabbt utvecklande tekniklandskap genom att ge omedelbar tillgång till handlingsbar data och säkerställa en sömlös integrationsväg.
Den framtida färdplanen för samarbetet inkluderar viktig integrering av Pliops KV-IO-stack i produktionsstacken, framsteg mot avancerade funktioner som snabb cachelagring över flervarvskonversationer, skalbar KV-cache-avlastning och strömlinjeformade routingstrategier.
Engagera dig med StorageReview
Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde