StorageReview.com

Dell Pro Max 16 Plus mit Qualcomm AIC100 im Test: Hervorragende Workstation, experimenteller Beschleuniger

Privatkunden  ◇  Arbeitsplatz

Das Dell Pro Max 16 Plus verfolgt zwei unterschiedliche Ansätze. Zum einen ist es eine mobile Workstation der Spitzenklasse: Intels 24-Kern-Prozessor Core Ultra 9 285HX, bis zu 256 GB CAMM2-Speicher, drei M.2-Steckplätze, NVIDIA RTX PRO Blackwell-Grafikkarte bis zur 5000er-Serie mit 24 GB GDDR7, ein Gehäuse nach MIL-STD-810H-Standard und ein Gehäuse, in das Dell offensichtlich viel Entwicklungsarbeit investiert hat.

Die andere Variante ist das hier besprochene Modell, das anstelle der GPU eine Qualcomm AIC100 PC Inference Card verwendet – ein Dual-SoC-Modul, das auf dem Cloud AI 100-Chip aus dem Jahr 2019 basiert – und eine Softwarearchitektur, die die meisten modernen Inferenz-Workloads zu einer mühsamen Angelegenheit macht. Dies ist ein warnendes Beispiel dafür, was passiert, wenn ein Flaggschiff-Gehäuse mit dem falschen Beschleuniger kombiniert wird, und warum Kunden die Softwarearchitektur einer KI-Lösung verstehen müssen, bevor sie den Kaufvertrag unterschreiben. Bevor wir auf die Gründe eingehen, betrachten wir den Laptop als Ganzes.

Das Pro Max 16 Plus ist das Flaggschiff der Dell Pro Max Workstation-Reihe und bietet mehr Leistung als das Einsteigermodell Pro Max 16 und das schlankere Pro Max 16 Premium. Herzstück ist Intels skalierbarer Core Ultra 9 285HX, ein 55-Watt-Prozessor mit 24 Kernen und einem Turbo-Boost von 5.5 GHz. Alle CPU-Konfigurationen unterstützen Intel vPro Enterprise und unterstreichen damit die Eignung des Laptops für den Unternehmenseinsatz. Der Preis beginnt bei 2,779 US-Dollar.

Die Grafikoptionen reichen von integrierten Intel-Grafiklösungen bis hin zu NVIDIAs Blackwell-basierter RTX PRO 1000. bis hin zur RTX PRO 5000, die wir zuvor getestet haben.Das System verfügt über beeindruckende 24 GB GDDR7-Speicher. Auch die Speicher- und Speicherkonfigurationen sind großzügig: bis zu 12 TB über drei M.2 Gen5-Steckplätze und bis zu 128 GB DDR5-6400-Speicher über das CAMM2-Modul von Dell.

Die Displayauswahl reicht vom einfachen 1920 x 1200 IPS-Panel bis zum brillanten 3840 x 2400 OLED-Touchscreen. Eine mittlere Option mit 1920 x 1200 Pixeln bietet zusätzlich 500 cd/m² Helligkeit, eine variable Bildwiederholfrequenz von 120 Hz und vollständige DCI-P3-Farbraumabdeckung. Dank über 100 ISV-Zertifizierungen können Kreativprofis einen reibungslosen Betrieb ihrer Anwendungen erwarten.

Die Sicherheitsfunktionen sind für den Unternehmenseinsatz geeignet und umfassen einen Fingerabdruckleser, Smartcard-Unterstützung, NFC, eine 8-Megapixel-IR-Kamera zur Gesichtserkennung und Dell Control Vault 3. Eine standardmäßige dreijährige Garantie rundet das Paket ab und unterstreicht die Rolle des Laptops als professionelles Werkzeug für anspruchsvolle Aufgaben.

Dell Pro Max 16 Plus – Technische Daten

Normen Dell Pro Max 16 Plus
Plattform
Prozessor Intel Core Ultra 5 245HX
Intel Core Ultra 7 265HX
Intel Core Ultra 9 285HX
Betriebssystem Windows-11 Pro
Ubuntu Linux 24.04 LTS
Memory 16 GB–128 GB CSoDIMM oder CAMM2, 1 Steckplatz
Grafik- und KI-Beschleunigung
Grafikkarte Intel Integrated Graphics
NVIDIA RTX PRO 1000 8 GB
NVIDIA RTX PRO 2000 8 GB
NVIDIA RTX PRO 3000 12 GB
NVIDIA RTX PRO 4000 16 GB
NVIDIA RTX PRO 5000 24 GB
Qualcomm AI Cloud 100 64 GB (2x 32 GB)
Lagerung und Anzeige
Lagerung Bis zu 3x M.2 SSD, jeweils 4 TB
Verfügbares RAID 0/1/5
Präsentation 16 Zoll 16:10
1920×1200, 300 cd/m², 45 % NTSC, 60 Hz, kein Touchscreen
1920 x 1200, 500 Nit, 100 % DCI-P3, 120 Hz VRR, ohne Touchscreen
3840 x 2400, 500 Nit, OLED, Touch
Konnektivität und Leistung
Kamera 8MP IR
Wireless Networking Intel Wi-Fi 7 BE200, mit oder ohne Bluetooth 5.4
Verfügbares mobiles Breitband
Akku 6-Zelle 96Whr
Power Adapter 165W oder 280W
Sicherheit und physische
Sicherheits-Features IR-Webcam
Fingerabdruckleser
Chipkartenleser
NFC
Kontrolltresor 3
Abmessungen und Gewicht 1.22 x 10.18 x 14.17 Zoll
Startgewicht: 5.63 Pfund
Garantie Standardmäßig drei Jahre, Vor-Ort-Reparatur am nächsten Werktag

Aufbau und Design

Wie schon das Vorgängermodell ist auch das Pro Max 16 Plus kompromisslos robust und nach MIL-STD-810H für Langlebigkeit in anspruchsvollen Umgebungen zertifiziert. Dell setzt bei der Materialwahl stark auf Nachhaltigkeit und verwendet unter anderem recycelten Kunststoff, recyceltes Magnesium und Kobalt sowie biobasierte Kunststoffe. Das Gehäuse fühlt sich außergewöhnlich stabil an und gibt keinerlei nach. Kurz gesagt: Es ist extrem widerstandsfähig.

Dies ist ein recht großes Gerät. Mit einer Dicke von 1.22 cm (einschließlich der Füße) und einem Gewicht ab 5.63 kg ist es nicht für häufiges Reisen geeignet, obwohl seine Abmessungen von 10.18 x 14.17 cm für ein 16-Zoll-Display im 16:10-Format recht kompakt sind. Die Webcam befindet sich oben im Deckel und verfügt über eine verschiebbare Abdeckung zum Sichtschutz; unser Testgerät ist mit der IR-Version zur Gesichtserkennung ausgestattet.

Ästhetisch gesehen ist Dells Designsprache übertrieben zurückhaltend. Das grauschwarze Gehäuse und das dezente Branding unterstreichen, dass hier die Funktionalität im Vordergrund steht. Die Pro Max Premium-Reihe bietet zwar mehr optische Raffinesse, jedoch auf Kosten von Leistung und Erweiterungsmöglichkeiten.

Die umfangreiche Anschlussauswahl beginnt am linken Rand:

  • 2.5 Gbit/s RJ45 Ethernet
  • HDMI 2.1-Ausgang
  • Zwei Thunderbolt 5 (USB-C)-Anschlüsse
  • SD-Kartenleser
  • Optionaler SmartCard-Steckplatz

Auf der rechten Seite:

  • 3.5mm Audio-Buchse
  • Thunderbolt 4 (USB-C)
  • Zwei USB 3.2 Gen1 Typ-A-Anschlüsse
  • Lock Slot

An der Rückseite befinden sich keine Anschlüsse. Die drahtlose Verbindung wird vom Intel BE200-Modul bereitgestellt, das Wi-Fi 7 und Bluetooth 5.4 unterstützt. Bluetooth kann in benutzerdefinierten Konfigurationen weggelassen werden, und 5G-Mobilfunkbreitband ist ebenfalls verfügbar.

Bildschirm und Eingabegeräte

Unser Testgerät ist mit Dells 16-Zoll-Display (1920 × 1200 Pixel) und einem 120-Hz-VRR-Panel ausgestattet, das im täglichen Gebrauch eine hervorragende Bildqualität liefert. Die Farben sind lebendig, und dank der 100%igen DCI-P3-Farbraumabdeckung eignet es sich nach der Kalibrierung bestens für farbkritische Workflows. Die Helligkeit von 500 cd/m² sorgt zudem dafür, dass das Display auch in hellen Büro- oder Studioumgebungen angenehm zu bedienen ist.

Die Tastatur von Dell eignet sich hervorragend für längere Schreibarbeiten. Die Tasten in voller Größe bieten ein leichtes, reaktionsschnelles Tippgefühl und ein präzises taktiles Feedback. Die weiße Hintergrundbeleuchtung sorgt für gute Lesbarkeit auch in dunkler Umgebung. Das Layout ist weitgehend konventionell, allerdings können die unterschiedlich großen Pfeiltasten gelegentlich zu Fehleingaben führen. Besonders ungünstig ist die Position der Pos1- und Ende-Tasten: Sie teilen sich den Platz mit F11 und F12. Aktiviert man die Fn-Sperre (Fn + Esc), um die Funktionsleiste zu priorisieren, muss man Fn + F11 oder F12 drücken, um auf diese Tasten zuzugreifen. Separate Bild-auf- und Bild-ab-Tasten wären wünschenswert gewesen; stattdessen sind sie Zweitfunktionen der Pfeiltasten, die ohnehin schon die unpraktischsten Tasten im Tastenfeld sind. Der Netzschalter oben rechts dient gleichzeitig als Fingerabdrucksensor.

Das großzügig dimensionierte Touchpad passt perfekt zum 16-Zoll-Format. Seine glatte, entspiegelte Oberfläche ermöglichte eine präzise Abtastung, und die Handballenerkennung funktionierte während der gesamten Tests einwandfrei.

Aufrüstbarkeit

Das Pro Max 16 Plus wurde mit Blick auf Erweiterungsmöglichkeiten entwickelt und bietet umfangreiches Aufrüstungspotenzial. Es verfügt über drei M.2 Gen5-Steckplätze für Speicher, einen CAMM2-Steckplatz für Speichererweiterungen und mehrere modulare Komponenten, darunter austauschbare USB-C-Anschlüsse.

Der Zugang zum Inneren ist unkompliziert: Entfernen Sie die Schrauben am Rand und heben Sie die Bodenplatte von hinten nach vorn an. Im Inneren erwartet Sie ein leistungsstarkes Kühlsystem mit drei Lüftern und ein großzügig dimensionierter 96-Wh-Akku. Das CAMM2-Speichermodul befindet sich unten rechts, unter einem separaten Kühlkörper und flankiert von den M.2-Steckplätzen. Auf dem Foto ist es schwer zu erkennen, aber der linke M.2-Steckplatz ist ein gestapelter Steckplatz, der zwei Laufwerke auf derselben Fläche aufnimmt. Die ebenfalls vom Benutzer austauschbare M.2-WLAN-Karte befindet sich direkt über dem Akku.

Der Star der Show: Qualcomm AIC100

Das getestete Dell-Modell ist mit der Qualcomm AI 100 NPU ausgestattet, einem einzelnen Modul, das zwei nebeneinander angeordnete Qualcomm Cloud AI 100 SoCs beherbergt. Jeder SoC steuert 16 KI-Kerne bei, sodass das Modul insgesamt 32 Kerne zur Verfügung hat. Jeder SoC verfügt über eigene 32 GB LPDDR4x-Speicher, die dem Host als zwei separate NPUs bereitgestellt werden.

Dell und Qualcomm werben mit einem INT8-Durchsatz von rund 450 TOPS und der Fähigkeit, Modelle mit bis zu 100 Milliarden Parametern auszuführen. Dell demonstrierte öffentlich Llama 4 Scout (109⁹ Milliarden Parameter, MoE) lokal auf dem Laptop. Die beiden SoCs kommunizieren über den Linux-QAIC-Beschleunigertreiber mit dem Host, wobei Firmware-Blobs in linux-firmware integriert werden.

Soweit, so plausibel. Die Zahlen an sich sind beeindruckend. Das Problem liegt im Silizium, das diesen Zahlen zugrunde liegt.

Qualcomm kündigte den Cloud AI 100 im April 2019 an, lieferte Ende 2020 Muster aus und begann in der ersten Hälfte des Jahres 2021 mit der kommerziellen Auslieferung. Der Chip basiert auf einem 7-nm-Prozess und verwendet vier 64-Bit-LPDDR4X-Controller mit einer Taktfrequenz von 2100 MHz (LPDDR4X-4200), die laut Qualcomms eigener Cloud-AI-Architekturdokumentation eine Speicherbandbreite von 136 GB/s pro SoC liefern.

Es wurde ursprünglich für den PCIe-Formfaktor entwickelt. Zwei dieser Chips auf einem speziellen Modul unterzubringen und in einen Laptop von 2025 einzubauen, ändert nichts an den grundlegenden Kompromissen. Es handelt sich um Silizium aus dem Jahr 2019 mit Speichertechnologie aus dem Jahr 2019 – aktualisiert und umbenannt, aber architektonisch dieselbe Familie. Als es im Dell Pro Max 16 Plus zum Einsatz kam, hatte der Rest der Branche bereits HBM2e, HBM3, HBM3e und LPDDR5X hinter sich gelassen und strebt nun bei leistungsstarken KI-Beschleunigern nach GDDR7 und HBM4.

Doch das eigentliche Problem ist wichtiger als die Speicherbandbreite. Es gibt viele brillante Chipdesigns und Entwicklungsteams in der Branche, die das Problem der KI-Inferenz sehr gut verstehen, und die Cloud AI 100-Architektur selbst mag durchaus leistungsfähig sein. Das Problem ist, dass die Softwareentwickler, die letztendlich über Erfolg oder Misserfolg eines Produkts entscheiden, bereits massiv in ein anderes Ökosystem investiert haben: CUDA. Solange es keinen starken Anreiz zum Wechsel gibt, bleiben Entwickler bei der Toolchain, die bereits über hervorragenden Support, Dokumentation und Community-Hilfe verfügt. NVIDIA hat sich frühzeitig die Entwicklerbasis gesichert und eine riesige Community aufgebaut. AMD hinkte in diesem Bereich jahrelang hinterher, aber die jüngsten ROCm-Revisionen sind wirklich exzellent, und die Lücke schließt sich. Lösungen wie Mojo und MAX von Modular ermöglichen es sogar, mit demselben Code NVIDIA- oder AMD-Systeme anzusprechen und die nativen Laufzeitumgebungen mitunter zu übertreffen. Alle anderen Beschleuniger hingegen kämpfen aufgrund mangelnder Softwareunterstützung mit geringer Akzeptanz in der Öffentlichkeit.

Die öffentliche Akzeptanz ist der entscheidende Begriff. Große Organisationen wie Google kann Milliarden in XLA und JAX investieren, um TPUs zum Laufen zu bringen.Gut finanzierte private Startups und KI-Labore können maßgeschneiderte Kernel für ihre eigenen, begrenzten Modelle entwickeln und sich nicht darum kümmern, dass niemand sonst den von ihnen entwickelten Stack für unzählige öffentliche Anwendungsfälle replizieren kann; sie entwickeln Lösungen für ihre eigenen Probleme. Für Endverbraucher oder sogar die meisten Unternehmen ist ein Accelerator ohne ein florierendes öffentliches Entwickler-Ökosystem praktisch nutzlos. Man verbringt Wochen damit, sein Modell darauf zu bringen, und sobald Hugging Face eine neue Architektur veröffentlicht, steht man vor einem Kompilierungsauftrag (oder einer Fehlermeldung wegen eines nicht unterstützten Modells), während alle anderen auf CUDA und ROCm sofortige Unterstützung erhalten.

Um es ganz klar zu sagen: Der AIC100 in diesem Laptop ist völlig unbrauchbar. Niemand sollte ihn kaufen. Auch Organisationen sollten ihn nur dann erwerben, wenn sie über die nötigen Entwicklungsressourcen und die ausdrückliche Absicht verfügen, die Inferenz für ihre spezifischen Arbeitslasten von Grund auf selbst zu entwickeln und sich damit einverstanden erklären, diese Infrastruktur selbst zu warten.

Die Realität der Software und der Werkzeuge

Um zu verstehen, warum diese Empfehlung so streng ausfällt, muss man sich ansehen, was die Versandinformationen auf dieser Karte tatsächlich beinhalten.

Die benutzerseitigen Komponenten sind in zwei SDKs und eine Wrapper-Bibliothek aufgeteilt. Das Qualcomm Cloud AI Platform SDK enthält den Kernel-Treiber (den Upstream-Treiber accel/qaic aus dem Linux-Mainline-Port), die Geräte-Firmware, die On-Card-Runtime und Low-Level-APIs. Das Apps SDK baut darauf auf und stellt den qaic-exec-Compiler, die qaic-runner-Inferenz-CLI, die ONNX-Runtime-Integration über einen QAIC-Ausführungsanbieter, Python-Bindings und eine Abspaltung von vLLM bereit. Die Qualcomm efficient-transformers-Bibliothek (QEfficient) ist ein Wrapper für Hugging Face Transformers, der gängige LLM-Architekturen mit den für den AIC100 erforderlichen statischen Formen, KV-Cache-Layouts und Graphtransformationen neu implementiert. Qualcomm AI Hub ist ein separater Modellkatalog und ein Compile-as-a-Service-Produkt, das sich eher an Geräte der Snapdragon-Klasse als an den AIC100 richtet, obwohl es die gleiche Marke verwendet.

Der Kompilierungspfad ist starr. Man nimmt ein PyTorch-Modell, exportiert es mit `torch.export` oder ONNX und übergibt es an `qaic-exec` mit Flags wie `-convert-to-fp16`, `-mxfp6-matmul`, einer Batchgröße, einer Kontextlänge und der Anzahl der Ziel-SoCs. Der Compiler führt die Vorabplanung und Speicherplatzierung durch und erzeugt anschließend einen QPC (Qualcomm Program Container), eine versiegelte Binärdatei, die Speicherlayout, KV-Cache-Form, Batchgröße, Vorfüllsequenzlänge und Kontextlänge festlegt. Es gibt keinen JIT-Compiler. Laut Qualcomms eigener LLM-Dokumentation allokiert der Ahead-of-Time-AI-100-Compiler Geräteressourcen basierend auf der Promptlänge, der Generationslänge, dem KV-Cache und der Batchgröße vor. Der Cloud AI 100 unterstützt ausschließlich statische Eingabeformen. Jede Änderung dieser Kompilierzeitparameter löst eine erneute vollständige Kompilierung aus, die bei kleinen Modellen mehrere Minuten und bei großen Modellen mehrere Stunden dauern kann.

Die Liste der unterstützten Architekturen ist sehr kurz. Die QEfficient-Bibliothek und der von Dell empfohlene, auf Zentree gehostete Katalog vorkonfigurierter QPC-Systeme decken größtenteils ältere Modelle ab, und nur wenige davon sind im Jahr 2026 noch sinnvoll.

Neuere FP8-native Checkpoints erfordern eine erneute Quantisierung. Wenn ein Modell nativ in MXFP4 vorliegt, wie beispielsweise die gängigen GPT-OSS-Modelle, ist eine Konvertierung und anschließende Neukompilierung erforderlich, anstatt die Gewichte einfach einzufügen. Mit etwas Aufwand lässt sich dies zwar umgehen, es entsteht jedoch ständiger Mehraufwand.

Dann gibt es noch das Problem der Parallelverarbeitung, an dem der Laptop selbst für Entwickler, die Wert auf sofortige Leistung legen, seine Grenzen hat. Die von Dell bereitgestellten Container-Images, die Dell Nutzern zum Herunterladen und Ausführen mit vLLM empfiehlt, basieren auf QPCs, die Zentree mit bestimmten Strukturen vorkompiliert hat. Die ausgelieferten Container laufen jedoch nur mit einer Parallelität von 1. Unabhängig von der Struktur der Eingabe- oder Ausgabesequenz erhält man für ein gegebenes Modell einen festen Durchsatz. Mehrere parallele Anfragen werden nicht gleichzeitig ausgeführt, sondern in eine Warteschlange gestellt und von vLLM nacheinander verarbeitet. Dynamisches Batching ist nicht möglich. Auch die kontinuierliche Batchverarbeitung, die vLLM oder SGLang auf Team Red- oder Green-GPUs standardmäßig bieten, ist nicht möglich. Um eine Parallelität über 1 zu erreichen, muss die QPC mit einer größeren Batchgröße neu kompiliert werden.

Dells Beispiele zielen darauf ab, diesen Laptop Entwicklern schmackhaft zu machen. Der aktuell beliebteste Anwendungsfall für KI unter Entwicklern ist das Vibe-Coding mit Tools wie Claude Code, OpenCode und ähnlichen. Eine einzelne Anfrage an diese Tools kann mehrere parallele LLM-Aufrufe auslösen. Standardmäßig reihen diese NPUs diese Anfragen in eine Warteschlange ein und verarbeiten sie sequenziell statt parallel. Was auf einer NVIDIA Spark Sekunden dauern würde, dauert auf diesem System daher Minuten.

Leistung

Das von Dell für die Tests bereitgestellte System weist folgende Konfiguration auf:

  • Intel Core Ultra 9 285HX CPU
  • Qualcomm AIC100 PC-Inferenzkarte
  • 128 GB 6400 MTs CAMM2 DDR5
  • 4TB SSD

Bevor wir zu den Zahlen kommen, ein Hinweis zur Methodik. Wie bereits erwähnt, führt der AIC100 vorab kompilierte QPCs mit fester Batchgröße, Sequenzlänge und KV-Cache-Layout aus. Dell liefert dieses Notebook mit einer kuratierten Auswahl vorkompilierter QPCs aus, die auf Zentree gehostet werden, sowie einem vLLM-Container-Image, das diese beim ersten Start herunterlädt. Diese vorkompilierten QPCs, die über Dells Referenzcontainer mit einer Parallelität von 1 bereitgestellt werden, erhält der Endbenutzer nach dem Auspacken des Geräts und gemäß der Dell-Dokumentation. Genau diese Konfiguration haben wir für unsere Benchmarks verwendet.

Wir hätten die Möglichkeit, es anders zu machen. Wir könnten qaic-exec herunterladen, einen Checkpoint erstellen, ihn mit torch.export verarbeiten, neu quantisieren, einen QPC mit größerer Batchgröße neu kompilieren und ihn dann wieder mit vLLM verarbeiten. Wir könnten sogar eigene Kernel für den QAIC-Beschleunigertreiber schreiben, wenn wir wollten. Wir haben uns dagegen entschieden, da die überwiegende Mehrheit der Käufer in der Zielgruppe dieses Laptops – Entwickler, KI-interessierte Ingenieure und Pilotprojekte in Unternehmen – diesen Aufwand nicht betreiben wird. Sie werden den Container herunterladen, ihn ausführen und das Produkt anhand der Ergebnisse beurteilen. Genau das haben wir gemessen.

Jeder Balken repräsentiert einen von Qualcomm kompilierten QPC mit MXFP6-Gewichten und einem MXINT8-KV-Cache – die Präzision, die Dell in seinen ausgelieferten Geräten durchgängig verwendet. Das Llama 3.2 1B ist das einzige Modell in der Grafik, das 100 TPS übersteigt und 128 TPS erreicht. Es folgen das Llama 3.2 3B mit 56 TPS, das Qwen3 4B mit 45 TPS, das Qwen3-Coder 30B-A3B mit 35 TPS, das Mistral 7B mit 33 TPS und das Llama 3.1 8B mit 30 TPS. GPT-OSS 20B erreicht bei den Profilen 256/256, 1k/4k und 4k/1k Werte von 28.9, 28.5 bzw. 28.4 TPS und bestätigt damit die Angaben in Qualcomms Dokumentation zum AOT-Compiler: Sobald ein QPC für eine bestimmte Form erstellt wurde, ist die Dekodierungsrate festgelegt und die Promptlänge hat keinen Einfluss auf die Kosten pro Token. Phi-4 schließt die Liste mit 14 TPS ab.

Obwohl auch größere Modelle als die oben genannten auf diese Karte passen, haben wir sie nicht getestet. Um dies beispielsweise mit dem von Dell öffentlich vorgeführten Llama 4 Scout-Modell zu tun, müsste die Genauigkeit weiter auf INT4 reduziert werden. In der Praxis ist ein weniger quantisiertes, kleineres Modell bei vielen Arbeitslasten einem stark quantisierten, größeren Modell überlegen.

Der mitgelieferte vLLM-Container führt alle QPCs mit einer Batchgröße von 1 aus. In der Praxis konnten wir bestätigen, dass zwei gleichzeitige Anfragen den Durchsatz nicht verdoppeln. Die zweite Anfrage wartet einfach in der Software-Warteschlange, bis die erste abgeschlossen ist. Kontinuierliches Batching, Batching während der Verarbeitung oder spekulative Dekodierung sind im mitgelieferten Stack nicht verfügbar. Für Codierungsagenten wie Claude Code oder OpenCode, die mehrere parallele LLM-Aufrufe von einem einzelnen Benutzer ausführen, führt diese Beschränkung auf einen einzigen Datenstrom dazu, dass die Antwortzeit von wenigen Sekunden zu einer Wartezeit von mehreren Minuten wird. Eine Erhöhung der Batchgröße erfordert die Neukompilierung des QPC auf dem Host, wodurch wir wieder vor der gleichen Problematik stehen, die wir bereits abgelehnt haben.

Vergleichen wir das mit der NVIDIA Spark. Mit einer Eingangs- und Ausgangssequenzlänge von 256/256 Bytes kann die Spark das 120B-Modell schneller ausführen als Dells Qualcomm AIC 100 das 20B-Modell. Und das sind noch nicht einmal die besten Werte, die die Spark erreichen kann, da diese Ergebnisse mit dem Marlin-Kernel in den ursprünglichen Softwareversionen erzielt wurden.

Die Schlussfolgerung ist begrenzt. Für einen einzelnen Benutzer, ein einzelnes Gespräch und ein so kleines Modell, dass 136 GB/s LPDDR4X pro SoC nicht die entscheidende Einschränkung darstellen (Llama 3.2 1B und möglicherweise auch Llama 3.2 3B), ist der AIC100 in diesem Laptop brauchbar. Bei größeren Systemen, wie sie der Kunde tatsächlich erhält, führt die Kombination aus Single-Stream-Decodierung und einer statischen Kompilierungspipeline, die jede von Qualcomm nicht vorab berechnete Form bestrafen würde, dazu, dass dieser Beschleuniger hinter der integrierten NPU und der integrierten GPU des gleichen Intel Core Ultra HX zurückbleibt, neben dem er verbaut ist – ganz zu schweigen von den dedizierten NVIDIA-Grafikkarten, mit denen dasselbe Gehäuse bestellt werden kann.

Wenn wir nur kurz die reinen Spezifikationen vergleichen, bietet die NVIDIA Spark 273 GB/s. und Wir haben die maximal erreichbare Anzahl an Gleitkomma-Flops (MAMF) bei FP8 (E4M3) getestet. mit 200 TFLOPS auf einem einzigen Chip. Der QAIC soll laut Werbung Folgendes bieten: 272 GB/s über 2 Chips und 435 TFLOPS INT8. Theoretisch sollten diese also eine ähnliche Leistung erbringen, aber der Qualcomm-Prozessor hinkt aufgrund der Software hinterher.

Für wen ist das gedacht und sollte man es kaufen?

Für alle, die heute ernsthaft im Bereich KI arbeiten wollen, lautet die Antwort: Nein. Kaufen Sie diese Konfiguration nicht.

Im US-Shop von Dell werden die AIC100-Varianten des Pro Max 16 Plus zu folgenden Preisen angeboten: 14,871.56 US-Dollar für die Top-Konfiguration (Core Ultra 9 285HX, 128 GB RAM, 4 TB SSD), 9,661.56 US-Dollar für die mittlere Konfiguration (Core Ultra 7 265HX, 64 GB RAM, 1 TB SSD) und 8,831.56 US-Dollar für die Basisversion (AIC100). Alle Modelle werden ausschließlich mit Ubuntu Linux ausgeliefert; Windows-Unterstützung folgt in Kürze. In der getesteten Konfiguration liegt der Preis des Geräts zwischen 14,000 und 15,000 US-Dollar.

Zum Vergleich: NVIDIAs DGX Spark kostet derzeit 4,699 US-Dollar. Für diesen Preis erhält man eine GB10 Grace Blackwell Superchip128 GB einheitlicher LPDDR5X-Speicher, eine 4 TB NVMe-SSD, eine Blackwell-GPU und rund 1 Petaflop FP4-KI-Rechenleistung, unterstützt durch den kompletten CUDA-Software-Stack, TensorRT-LLM, NIM und das gesamte NVIDIA-Ökosystem. Ein einzelner DGX Spark übertrifft den AIC100 in diesem Laptop bei nahezu jeder realistischen KI-Anwendung und das mit Software, die jeder KI-Ingenieur, der dieses Jahr eingestellt wurde, bereits beherrscht. Für den Preis unseres Testgeräts könnten Sie drei DGX Sparks kaufen, jeden mit Monitor, Peripheriegeräten und einem Schreibtisch ausstatten und hätten immer noch Geld übrig. Wenn kleine KI-Anwendungen nicht Ihr Ding sind, Dell Pro Max Tower T2 Workstation Mit Intel 285K, 128 GB DDR5-RAM und einer NVIDIA RTX Pro 6000 GPU liegt der Preis ebenfalls bei etwa 15,000 US-Dollar, abhängig von der Größe der SSD.

Man kommt kaum umhin, den Eindruck zu haben, dass Dell in ein ansonsten exzellentes Gehäuse minderwertige Elektronik verbaut hat. Das Pro Max 16 Plus mit einer RTX PRO 5000 ist eine fantastische mobile Workstation. Dasselbe Gerät hingegen, mit einer AIC100, ist ein missglücktes Experiment unter Dell-Garantie.

Fazit

Falls Sie als Bastler dies in ein paar Jahren lesen und zufällig einen dieser Laptops im Sonderangebot für zwei- oder dreihundert Dollar entdecken, greifen Sie unbedingt zu! Das System ist reparierbar und aufrüstbar, die Tastatur ist gut, und die AIC100-Module für ein interessantes Wochenendprojekt zu nutzen, ist genau die Art von unkompliziertem Spaß, die diese Hardware verdient.

Wer heute ernsthaft KI-Anwendungen entwickeln möchte, sollte sein Pro Max 16 Plus mit einem beliebigen anderen Beschleuniger ausstatten. Eine mobile NVIDIA RTX PRO GPU, selbst die Einsteiger-GPU RTX PRO 1000, ist den AIC100-Modulen deutlich überlegen. Die integrierte NPU des Intel Core Ultra HX bietet in vielen praktischen Anwendungsfällen die bessere Wahl, da sie sich in Windows ML, OpenVINO und die bestehende KI-Architektur für PCs integrieren lässt.

Ein Vorschlag an Dell: Das Pro Max 16 Plus ist ein exzellentes Gehäuse, und die Pro Max-Reihe zählt zu den leistungsstärksten mobilen Workstation-Plattformen auf dem Markt. Die ausgelieferte AIC100-Variante erfüllt diese Anforderungen jedoch bei Weitem nicht. Eine experimentelle Produktlinie oder eine Entwicklervorschau, die klar als solche gekennzeichnet ist, würde Dell die Möglichkeit geben, Kunden, die damit experimentieren möchten, neue Beschleuniger anzubieten, ohne den Namen Pro Max für eine noch nicht ausgereifte Produktpalette zu missbrauchen. Die Marke Pro Max verdient Schutz, und es gibt einen eleganten Weg, dies zu gewährleisten und gleichzeitig experimenteller Hardware eine Plattform zu bieten.

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed

Kevin O'Brien und Divyansh Jain