Entreprise

Exécutez un ChatGPT RAG privé sur un NAS QNAP

Les plates-formes NAS QNAP possèdent les conceptions matérielles les plus uniques et les plus performantes de leur catégorie. Nous avons donc ajouté un GPU à l’un d’entre eux et testé les capacités de l’IA.

QNAP est connu pour sa conception matérielle, ainsi que pour l'apport de plus de puissance, d'extension et de flexibilité dans ses conceptions matérielles que quiconque dans la catégorie. Récemment, nous avons examiné le TS-h1290FX, un NAS 12 NVMe avec un processeur AMD EPYC 7302P (16C/32T), 256 Go de DRAM, 25 GbE intégré et de nombreux emplacements PCI. Avec toute cette puissance refoulée et applications à bord, que se passe-t-il si nous ajoutons un GPU et voyons jusqu'où nous pouvons pousser ce NAS en matière d'exécution de l'IA, comme un ChatGPT privé ?

Potentiel de stockage NAS pour l’IA

Le QNAP TS-h1290FX a beaucoup à offrir aux entreprises qui cherchent à se lancer dans l’IA. Le NAS offre un avantage unique dans la mesure où il peut prendre en charge un GPU interne et offre le potentiel d'une empreinte de stockage massive. Les grands modèles d’IA nécessitent une quantité importante de données, qui doivent être stockées et accessibles efficacement. Cela peut être difficile pour les plates-formes de stockage qui utilisent des disques durs, mais le TS-h1290FX avec prise en charge U.2 NVMe couvre tout.

Lorsque l’on pense aux NAS de grande capacité, la première pensée est celle des plates-formes HDD de 3.5″ prenant en charge des disques allant jusqu’à 24 To. Cela semble énorme, mais ce n'est rien comparé à ce que l'on peut trouver avec les SSD QLC U.2. QNAP a récemment ajouté la prise en charge du Solidigme P5336 famille, qui atteint une incroyable capacité de 61.44 To par disque. Pour un modèle à 12 baies tel que le TS-h1290FX, les clients obtiennent jusqu'à 737 To de stockage brut avant que la réduction des données n'intervienne. Pour un NAS de bureau compact, il existe très peu de systèmes qui pourraient rivaliser avec cela.

Alors que les entreprises adoptent rapidement l’IA, disposer d’un système capable de fournir une capacité de stockage pour les flux de travail d’IA et d’exécuter des modèles constitue un énorme avantage. L'exploit impressionnant, cependant, est que ce NAS QNAP peut exécuter ces flux de travail d'IA tout en s'acquittant de ses tâches principales de partage du stockage dans l'environnement PME.

Il faut également dire que l’IA n’est pas une chose monolithique. Différents projets d'IA nécessitent différents types de stockage pour les prendre en charge. Bien que nous nous concentrions ici sur l'unité de bureau, QNAP propose de nombreux autres systèmes NAS prenant en charge le flash et la mise en réseau à haute vitesse, des éléments essentiels pour répondre à un besoin d'IA plus ambitieux que ce que nous avons couvert ici.

Comment QNAP prend-il en charge les GPU ?

QNAP prend en charge les GPU dans bon nombre de leurs systèmes NAS. Ils proposent également quelques applications prenant également en charge les GPU. Pour cet article, nous examinons principalement le GPU à travers le prisme de Virtualization Station. Virtualization Station est un hyperviseur pour le NAS QNAP, qui permet aux utilisateurs de créer une variété de machines virtuelles. Virtualization Station dispose également d'un ensemble de fonctionnalités approfondies qui prennent en charge les sauvegardes de VM, les instantanés, les clones et, plus important encore, le relais GPU dans le contexte de cet article.

À l'intérieur de notre unité de test, le QNAP TS-h1290FX est équipé d'une carte serveur typique avec plusieurs emplacements PCIe disponibles pour l'extension. QNAP fournit également les câbles d'alimentation GPU nécessaires à l'intérieur du châssis, donc aucune affaire amusante n'est requise pour les cartes qui nécessitent plus que l'alimentation du slot PCIe. Nous avons trouvé que le NVIDIA RTX A4000 à emplacement unique s'adaptait parfaitement avec suffisamment d'espace pour le refroidissement. Sur cette plateforme, un GPU avec un refroidisseur actif est préféré. Votre choix de GPU sera déterminé par la charge de travail et par ce que le NAS peut physiquement prendre en charge et refroidir.

Configuration de QNAP pour l'IA

La configuration d'une machine virtuelle (VM) avec relais GPU sur un périphérique NAS QNAP implique plusieurs étapes. Cela nécessite un QNAP NAS prenant en charge la virtualisation et dispose des capacités matérielles nécessaires. Vous trouverez ci-dessous un guide sur la façon dont nous avons installé et configuré le NAS QNAP avec passthrough GPU.

1. Vérifier la compatibilité matérielle

Assurez-vous que votre NAS QNAP prend en charge Virtualization Station, qui est l'application de virtualisation de QNAP.

  • Confirmez que le NAS dispose d'un emplacement PCIe disponible pour un GPU et que le GPU prend en charge le relais. Les listes de compatibilité sont souvent disponibles sur le site Web de QNAP. Bien que la liste de compatibilité actuelle ne prenne pas officiellement en charge le NVIDIA A4000, nous n'avons eu aucun problème avec les fonctionnalités.

2. Installez le GPU

  • Éteignez le NAS et débranchez-le de l'alimentation. Ouvrez le boîtier et insérez le GPU dans un emplacement PCIe disponible. Connectez tous les câbles d’alimentation nécessaires au GPU. Fermez le boîtier, rebranchez l'alimentation et allumez le NAS.

3. Mettez à jour votre micrologiciel et logiciel QNAP

Assurez-vous que votre NAS QNAP exécute la dernière version de QTS (le système d'exploitation de QNAP). Nous avons utilisé Virtualization Station 4, qui est une version bêta ouverte de QNAP, pour offrir une meilleure prise en charge et de meilleures performances pour le travail GPU. Virtualization Station 4 est un package à installation automatique, contrairement à d'autres qui sont installés directement via QNAP App Center.

4. Installez le système d'exploitation sur la VM

Après avoir installé la Virtualization Station de QNAP sur votre NAS, vous pouvez accéder à l'interface de gestion pour déployer votre machine virtuelle (VM). Lorsque vous cliquez sur « Créer », une fenêtre d'invite apparaîtra pour vous permettre de fournir le nom de la VM et de sélectionner l'emplacement sur le NAS où la VM s'exécutera. Dans la plupart des cas, vous devrez peut-être apporter quelques ajustements mineurs aux informations sur le système d'exploitation et la version.

Ensuite, ajustez les ressources et le type de compatibilité du processeur que la VM verra au niveau du système d'exploitation invité. Dans notre cas, nous avons donné à notre VM 64 Go de mémoire et 8 processeurs. Nous avons sélectionné le type de processeur passthrough pour le modèle et modifié le BIOS en UEFI.

Pour démarrer et installer le système d'exploitation, vous devez télécharger et monter un fichier ISO en tant que lecteur de CD/DVD virtuel. Une fois le processus d'installation terminé, activez RDP pour la gestion avant de passer à l'étape suivante. La fonctionnalité de gestion des machines virtuelles QNAP change une fois le relais GPU activé, et RDP simplifie considérablement ce processus. À ce stade, éteignez la VM.

5. Configurer le relais GPU

Dans Virtualization Station :

  1. Avec la VM existante hors tension, modifiez votre VM.
  2. Dans le menu des paramètres de la VM, recherchez l'onglet Périphériques physiques. À partir de là, sélectionnez PCIe. Vous verrez un appareil disponible pour le relais. Dans notre cas, il s’agissait du NVIDIA RTX A4000. Appliquez ce changement.
  3. Si vous devez allouer d'autres ressources à votre VM, telles que des cœurs de processeur, de la RAM et du stockage, c'est le moment de le faire.
  4. Rallumez la VM.

6. Installez les pilotes GPU dans la VM

Une fois de retour dans la VM en utilisant RDP avec le GPU connecté, téléchargez et installez les pilotes appropriés pour votre GPU dans la VM. Cette étape est cruciale pour que le GPU fonctionne correctement et fournisse les améliorations de performances attendues.

7. Vérifier la fonctionnalité GPU Passthrough

Après avoir installé les pilotes, vérifiez que le GPU est reconnu et fonctionne correctement au sein de la VM. Vous pouvez utiliser le gestionnaire de périphériques sous Windows ou les outils de ligne de commande pertinents sous Linux pour vérifier l'état du GPU.

Dépannage et astuces

  • Compatibilité: Consultez les sites Web des fabricants de QNAP et de GPU pour connaître les notes de compatibilité spécifiques ou les mises à jour du micrologiciel susceptibles d'affecter la fonctionnalité de relais.
  • Performance : Surveillez les performances de votre VM et ajustez les allocations de ressources si nécessaire. Assurez-vous que votre NAS dispose de suffisamment d'espace pour le refroidissement, surtout après l'ajout d'un GPU hautes performances.
  • Mise en réseau et stockage : Optimisez les paramètres réseau et les configurations de stockage pour éviter les goulots d'étranglement qui pourraient avoir un impact sur les performances des applications VM.

Chat NVIDIA avec RTX – Chat privéGPT

Bien qu'il soit facile de s'arrêter là (créer une machine virtuelle Windows avec accès GPU), nous avons poussé plus loin dans cette expérience pour offrir aux entreprises un moyen unique de tirer parti de l'IA en toute sécurité, en exploitant les performances du NAS basé sur NVMe. Dans notre cas, la VM exploitait un stockage protégé par RAID5 qui offrait des performances de 9.4 Go/s en lecture et 2.1 Go/s en écriture.

NVIDIA a récemment lancé un progiciel nommé Discutez avec RTX. Chat avec RTX révolutionne l'interaction avec l'IA en offrant une expérience personnalisée grâce à l'intégration d'un modèle de langage étendu (LLM) basé sur GPT avec un ensemble de données local et unique. Cela inclut la possibilité de traiter des documents, des notes, du multimédia, des vidéos YouTube, des listes de lecture, etc.

Cette application clé en main exploite la puissance de la génération augmentée par récupération (RAG), combinée à l'efficacité du LLM optimisé par TensorRT et aux capacités à grande vitesse de l'accélération RTX. Ceux-ci fournissent des réponses contextuelles, à la fois rapides et très pertinentes. Fonctionnant directement sur votre bureau ou poste de travail Windows RTX, cette configuration garantit un accès rapide aux informations et un haut degré de confidentialité et de sécurité, car tous les traitements sont gérés localement.

La mise en œuvre d'un LLM avec les capacités RAG offre une excellente solution pour les professionnels et les utilisateurs expérimentés qui donnent la priorité à la confidentialité, à la sécurité et à l'efficacité personnalisée. Contrairement aux modèles publics tels que ChatGPT, qui traitent les requêtes sur Internet, un LLM local fonctionne entièrement dans les limites de votre NAS QNAP.

Cette fonctionnalité hors ligne garantit que toutes les interactions restent privées et sécurisées. Cela permet aux utilisateurs de personnaliser la base de connaissances de l'IA en fonction de leurs besoins spécifiques, qu'il s'agisse de documents d'entreprise confidentiels, de bases de données spécialisées ou de notes personnelles. Cette approche améliore considérablement la pertinence et la rapidité des réponses de l'IA, ce qui en fait un outil précieux pour ceux qui ont besoin d'informations immédiates et contextuelles sans compromettre la confidentialité ou la sécurité des données.

A noter également, et cela peut paraître évident, l'ajout d'un GPU au NAS simplifie directement le lien entre les données d'une entreprise et le LLM. Il n'est pas nécessaire de déplacer les données pour profiter de ce modèle particulier, et le processus est aussi simple et rentable que d'installer un GPU de milieu de gamme dans le NAS. De plus, à l’heure actuelle, tous ces logiciels sont gratuits, ce qui démocratise grandement le potentiel de l’IA pour les petites organisations.

Chat avec RTX est encore un programme bêta et au moment de la rédaction, nous utilisions la version 0.2. Mais la facilité de l’installer et de faire fonctionner l’interface Web était rafraîchissante. Quiconque sait comment télécharger et installer une application peut désormais obtenir un LLM local avec RAG en quelques clics.

Activation de l'accès à distance pour discuter avec RTX via une URL universellement accessible

Nous avons fait passer notre scénario au niveau supérieur et l'avons rendu disponible pour l'ensemble du bureau.

Étape 1 : localisez le fichier de configuration

Commencez par vous diriger vers le dossier contenant le fichier de configuration :

  • Chemin du fichier: C:\Users\{YourUserDir}\AppData\Local\NVIDIA\ChatWithRTX\RAG\trt-llm-rag-windows-main\ui\user_interface.py

Étape 2 : mettre à jour le code de lancement

Ouvrez le user_interface.py fichier et Ctrl-F pour interface.launch Localisez le segment correct, qui apparaîtra par défaut comme suit :

interface.launch(
    favicon_path=os.path.join(os.path.dirname(__file__), 'assets/nvidia_logo.png'),
    show_api=False,
    server_port=port
)

Pour activer l'accès au réseau, vous devez ajouter share=True ainsi:

interface.launch(
    favicon_path=os.path.join(os.path.dirname(__file__), 'assets/nvidia_logo.png'),
    show_api=False,
    share=True,
    server_port=port
)

Enregistrez les modifications dans le user_interface.py déposer. Ensuite, lancez Chat with RTX via le menu Démarrer, qui ouvrira une fenêtre d'invite de commande et activera l'interface.

Étape 3 : Recherche de l'URL publique

La fenêtre d'invite de commande affichera à la fois une URL locale et publique. Pour créer une URL publique fonctionnelle accessible depuis n'importe quel appareil, fusionnez les éléments des deux URL. Il serait préférable que vous preniez l'URL publique et que vous ajoutiez les informations du cookie local à la fin :

  • URL publique : https://62e1db9de99021560f.gradio.live
  • URL locale avec paramètres : http://127.0.0.1:16852?cookie=4a56dd55-72a1-49c1-a6de-453fc5dba8f3&__theme=dark

Votre URL combinée devrait ressembler à ceci, avec le ?cookie ajouté à l'URL publique :

https://62e1db9de99021560f.gradio.live?cookie=4a56dd55-72a1-49c1-a6de-453fc5dba8f3&__theme=dark

Cette URL permet d'accéder à Chat avec RTX depuis n'importe quel appareil de votre réseau, étendant ainsi sa convivialité au-delà des contraintes locales.

Réflexions finales

Nous sommes fans du leadership de QNAP en matière de conception de matériel NAS depuis longtemps, mais les clients de QNAP ont bien plus de valeur à leur disposition qu'ils ne le pensent probablement. À vrai dire, Virtualization Station est un excellent point de départ, mais pourquoi ne pas passer au niveau supérieur et essayer GPU Passthrough ? À tout le moins, les organisations peuvent fournir une machine virtuelle haut de gamme alimentée par GPU sans avoir à configurer un poste de travail dédié. Il existe également les avantages apparents d’une VM placée à côté d’un énorme pool de stockage interne avec des niveaux de performances natifs. Dans ce cas, nous avions partagé des performances de stockage de près de 10 Go/s, sans nous soucier d’une seule connexion ou d’un seul commutateur 100 GbE, tout cela parce que la VM accélérée par GPU se trouvait à l’intérieur du NAS lui-même.

Pourquoi ne pas aller encore plus loin pour réaliser les avantages de l’IA pour l’organisation ? Nous avons montré qu'ajouter un GPU décent à un NAS QNAP est relativement simple et peu coûteux. Nous avons mis un A4000 au travail, et avec un prix public d'environ 1050 XNUMX $, ce n'est pas mal si l'on considère que Virtualization Station est gratuit et que NVIDIA Chat avec RTX est disponible gratuitement. Être capable d'orienter en toute sécurité ce puissant LLM vers les données privées d'une entreprise devrait fournir des informations exploitables tout en rendant l'entreprise plus dynamique.

Un autre objectif à considérer ici est un magasin de fichiers pour les modèles qui peuvent être externes au système QNAP lui-même. C'est idéal pour les petites entreprises qui ont besoin d'un endroit rapide pour stocker leurs données de travail. Avec les capacités réseau avancées, vous pourriez éventuellement utiliser le NAS comme lieu de stockage des données pour le travail RAG sur un serveur GPU plus grand, permettant ainsi un magasin de données facilement partageable à partir duquel déduire.

Ceci n’est qu’un exemple d’IA. L'industrie évolue rapidement, des outils continueront donc d'être mis à disposition. Les entreprises intelligentes doivent apprendre à tirer parti de l’IA, et cette fonctionnalité simple de QNAP est un excellent moyen de commencer.

Station de virtualisation QNAP

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS 

Jordan Ranous

spécialiste de l'IA ; vous naviguant dans le monde de l'IA d'entreprise. Rédacteur et analyste pour Storage Review, issu d'une formation en Financial Big Data Analytics, Datacenter Ops/DevOps et CX Analytics. Pilote, astrophotographe, gourou de la bande LTO et passionné de batterie/solaire.

Derniers Articles

Examen du SSD HP FX700

Le SSD HP FX700 Gen4 NVMe tente de trouver un équilibre entre coût et performances mais rate finalement la cible.…

Il y a 3 jours

CoolIT Direct Liquid Cooling – Efficacité transparente pour les serveurs refroidis par liquide

CoolIT propose des plaques froides, des collecteurs et des unités de distribution de refroidissement conçus pour aider les entreprises à adopter le refroidissement liquide pour les serveurs gourmands en énergie. (plus…)

Il y a 6 jours

Test du SSD Corsair MP700 PRO SE Gen5 (4 To)

Le Corsair MP700 PRO SE est une actualisation du MP700 PRO, avec quelques ajustements qui lui confèrent des performances significatives…

Il y a 1 semaine

Comment ça marche : Assistant d'importation Proxmox Outil de migration VMware

L'assistant d'importation Proxmox est une nouvelle façon de migrer des machines virtuelles d'ESXi vers Proxmox, offrant aux utilisateurs une…

il y a 2 semaines

Examen du serveur Supermicro AS-1115SV-WTNRT (AMD EPYC 8004)

Le Supermicro AS-1115SV-WTNRT est équipé de processeurs AMD EPYC 8804 qui offrent jusqu'à 64 cœurs avec un TDP efficace de 200 W. (plus…)

il y a 2 semaines

Examen du Graid SupremeRAID SR-1001

Le Graid SupremeRAID SR-1001 est un excellent choix pour ceux qui cherchent à équilibrer coût et performances dans un petit RAID NVMe…

il y a 2 semaines