Início EmpreendimentoAI Execute um RAG ChatGPT privado no QNAP NAS

Execute um RAG ChatGPT privado no QNAP NAS

by Jordan Ranous

As plataformas QNAP NAS possuem os designs de hardware mais exclusivos e capazes de sua classe. Então, adicionamos uma GPU a uma e testamos os recursos de IA.

A QNAP é conhecida por seu design de hardware, além de incluir mais potência, expansão e flexibilidade em seus designs de hardware do que qualquer outra empresa na categoria. Recentemente, revisamos o TS-h1290FX, um NAS de 12 NVMe com CPU AMD EPYC 7302P (16C/32T), 256 GB de DRAM, 25 GbE integrado e muitos slots PCI. Com todo esse poder reprimido e aplicativos a bordo, o que acontece se instalarmos uma GPU e vermos até onde podemos levar esse NAS quando se trata de executar IA, como um ChatGPT privado?

Imagem frontal do QNAP TS-h1290FX

Potencial de armazenamento NAS para IA

A QNAP TS-h1290FX tem muito a oferecer às empresas que desejam entrar no mercado de IA. O NAS oferece uma vantagem única, pois pode suportar uma GPU interna e tem potencial para uma enorme área de armazenamento. Grandes modelos de IA requerem uma quantidade significativa de dados, que devem ser armazenados e acessados ​​de forma eficiente. Isso pode ser um desafio para plataformas de armazenamento que usam discos rígidos, mas o TS-h1290FX com suporte U.2 NVMe tem tudo sob controle.

Quando você pensa em NAS de grande capacidade, o primeiro pensamento é o de plataformas HDD de 3.5″ com suporte para unidades de até 24 TB. Parece grande, mas não é nada comparado ao que você pode encontrar nos SSDs QLC U.2. A QNAP adicionou recentemente suporte para o Solidigm P5336 família, que chega a incríveis 61.44 TB de capacidade por unidade. Para um modelo de 12 compartimentos, como o TS-h1290FX, os clientes obtêm até 737 TB de armazenamento bruto antes que a redução de dados comece. Para um NAS de desktop compacto, existem muito poucos sistemas que poderiam competir com isso.

À medida que as empresas adotam rapidamente a IA, ter um sistema que possa fornecer capacidade de armazenamento para fluxos de trabalho de IA e executar modelos é uma enorme vantagem. O feito impressionante, porém, é que este QNAP NAS pode executar esses fluxos de trabalho de IA enquanto ainda executa suas tarefas principais de compartilhamento de armazenamento no ambiente de PME ou PME.

Deve-se dizer também que a IA não é algo monolítico. Diferentes projetos de IA requerem diferentes tipos de armazenamento para apoiá-los. Embora estejamos focados na unidade de desktop aqui, a QNAP tem muitos outros sistemas NAS que oferecem suporte para flash e rede de alta velocidade, elementos críticos no suporte a uma necessidade de IA mais ambiciosa do que a que abordamos aqui.

Como a QNAP oferece suporte a GPUs?

A QNAP oferece suporte a GPUs em muitos de seus sistemas NAS. Eles também têm alguns aplicativos que suportam GPUs. Neste artigo, analisamos principalmente a GPU através das lentes do Virtualization Station. Virtualization Station é um hipervisor para QNAP NAS, que permite aos usuários criar uma variedade de máquinas virtuais. O Virtualization Station também possui um conjunto profundo de recursos que oferece suporte a backups de VM, instantâneos, clones e, o mais importante, passagem de GPU para o contexto deste artigo.

Dentro de nossa unidade de teste, o QNAP TS-h1290FX está equipado com uma placa de servidor típica com vários slots PCIe disponíveis para expansão. A QNAP também fornece os cabos de alimentação de GPU necessários dentro do chassi, portanto, nenhuma brincadeira é necessária para placas que precisam de mais do que alimentação do slot PCIe. Descobrimos que o NVIDIA RTX A4000 de slot único se encaixa perfeitamente com espaço adequado para resfriamento. Nesta plataforma, é preferível uma GPU com cooler ativo. Sua escolha de GPU será determinada pela carga de trabalho e pelo que o NAS pode suportar fisicamente e resfriar.

Configurando o QNAP para IA

A configuração de uma máquina virtual (VM) com passagem de GPU em um dispositivo QNAP NAS envolve várias etapas. Requer um QNAP NAS que suporta virtualização e possui os recursos de hardware necessários. Abaixo está um guia sobre como instalamos e configuramos o QNAP NAS com passagem de GPU.

1. Verifique a compatibilidade do hardware

Certifique-se de que seu QNAP NAS suporta Virtualization Station, que é o aplicativo de virtualização da QNAP.

  • Confirme se o NAS tem um slot PCIe disponível para uma GPU e se a GPU suporta passagem. As listas de compatibilidade estão frequentemente disponíveis no site da QNAP. Embora a lista de compatibilidade atual não suporte oficialmente o NVIDIA A4000, não tivemos problemas com a funcionalidade.

2. Instale a GPU

  • Desligue o NAS e desconecte-o da alimentação. Abra o gabinete e insira a GPU em um slot PCIe disponível. Conecte todos os cabos de alimentação necessários à GPU. Feche o gabinete, reconecte a alimentação e ligue o NAS.

3. Atualize seu firmware e software QNAP

Certifique-se de que seu QNAP NAS esteja executando a versão mais recente do QTS (sistema operacional da QNAP). Usamos o Virtualization Station 4, que é um beta aberto da QNAP, para fornecer melhor suporte e desempenho para trabalho de GPU. O Virtualization Station 4 é um pacote de instalação automática, diferente de outros que são instalados diretamente através do QNAP App Center.

4. Instale o sistema operacional na VM

Depois de instalar o Virtualization Station da QNAP em seu NAS, você pode acessar a interface de gerenciamento para implantar sua máquina virtual (VM). Ao clicar em “Criar”, uma janela de prompt aparecerá para você fornecer o nome da VM e selecionar o local no NAS onde a VM será executada. Pode ser necessário fazer alguns pequenos ajustes no sistema operacional e nas informações de versão na maioria dos casos.

Em seguida, ajuste os recursos e o tipo de compatibilidade de CPU que a VM verá no nível do sistema operacional convidado. No nosso caso, demos à nossa VM 64 GB de memória e 8 CPUs. Selecionamos o tipo de CPU passthrough para o modelo e alteramos o BIOS para UEFI.

Para inicializar e instalar o sistema operacional, você deve carregar e montar um arquivo ISO como uma unidade de CD/DVD virtual. Assim que o processo de instalação for concluído, habilite o RDP para gerenciamento antes de prosseguir para a próxima etapa. A funcionalidade de gerenciamento de VM da QNAP muda quando a passagem de GPU é habilitada e o RDP simplifica esse processo significativamente. Neste ponto, desligue a VM.

5. Configurar passagem de GPU

Dentro da Estação de Virtualização:

  1. Com a VM existente desligada, edite sua VM.
  2. No menu de configurações da VM, procure a guia de dispositivos físicos. A partir daqui, selecione PCIe. Você verá um dispositivo disponível para a passagem. No nosso caso, foi a NVIDIA RTX A4000. Aplique esta alteração.
  3. Se você precisar alocar outros recursos para sua VM, como núcleos de CPU, RAM e armazenamento, este é o momento de fazê-lo.
  4. Ligue a VM novamente.

6. Instale drivers GPU na VM

Quando estiver de volta à VM usando RDP com a GPU conectada, baixe e instale os drivers apropriados para sua GPU na VM. Esta etapa é crucial para que a GPU funcione corretamente e forneça as melhorias de desempenho esperadas.

7. Verifique a funcionalidade de passagem de GPU

Após instalar os drivers, verifique se a GPU é reconhecida e está funcionando corretamente na VM. Você pode usar o gerenciador de dispositivos no Windows ou ferramentas de linha de comando relevantes no Linux para verificar o status da GPU.

Solução de problemas e dicas

  • Compatibilidade: Verifique os sites dos fabricantes da QNAP e da GPU para obter notas de compatibilidade específicas ou atualizações de firmware que possam afetar a funcionalidade de passagem.
  • Atuação: Monitore o desempenho da sua VM e ajuste as alocações de recursos conforme necessário. Certifique-se de que seu NAS tenha espaço suficiente para resfriamento, especialmente após adicionar uma GPU de alto desempenho.
  • Rede e armazenamento: Otimize as configurações de rede e de armazenamento para evitar gargalos que possam afetar o desempenho dos aplicativos de VM.

Bate-papo NVIDIA com RTX – Bate-papo privadoGPT

Embora seja fácil parar por aqui (criar uma VM do Windows com acesso à GPU), avançamos ainda mais neste experimento para fornecer às empresas uma maneira única de aproveitar as vantagens da IA ​​com segurança, aproveitando o desempenho do NAS baseado em NVMe. Em nosso caso, a VM aproveitou o armazenamento protegido por RAID5 que ofereceu desempenho de leitura de 9.4 GB/s e gravação de 2.1 GB/s.

A NVIDIA lançou recentemente um pacote de software chamado Conversar com RTX. O Chat com RTX revoluciona a interação de IA, fornecendo uma experiência personalizada por meio da integração de um modelo de linguagem grande (LLM) baseado em GPT com um conjunto de dados local exclusivo. Isso inclui a capacidade de processar documentos, notas, multimídia, vídeos do YouTube, listas de reprodução e muito mais.

Este aplicativo pronto para uso aproveita o poder da geração aumentada de recuperação (RAG), combinado com a eficiência do LLM otimizado para TensorRT e os recursos de alta velocidade da aceleração RTX. Eles fornecem respostas conscientes do contexto que são rápidas e altamente relevantes. Operando diretamente em seu desktop ou estação de trabalho Windows RTX, esta configuração garante acesso rápido às informações e um alto grau de privacidade e segurança, já que todo o processamento é feito localmente.

A implementação de um LLM com recursos RAG oferece uma excelente solução para profissionais de negócios e usuários avançados que priorizam privacidade, segurança e eficiência personalizada. Ao contrário dos modelos públicos, como o ChatGPT, que processam consultas pela Internet, um LLM local opera inteiramente dentro dos limites do seu QNAP NAS.

Este recurso offline garante que todas as interações sejam mantidas privadas e seguras. Isso permite que os usuários personalizem a base de conhecimento da IA ​​de acordo com suas necessidades específicas, sejam documentos corporativos confidenciais, bancos de dados especializados ou notas pessoais. Esta abordagem aumenta significativamente a relevância e a velocidade das respostas da IA, tornando-a uma ferramenta inestimável para aqueles que necessitam de insights imediatos e contextualmente conscientes, sem comprometer a privacidade ou a segurança dos dados.

Também digno de nota, e isso pode ser óbvio, adicionar uma GPU ao NAS simplifica diretamente a ligação entre os dados de uma empresa e o LLM. Não há necessidade de mover dados para aproveitar as vantagens deste modelo específico, e o processo é tão simples e econômico quanto colocar uma GPU de médio porte no NAS. Além disso, neste ponto, todo esse software é gratuito, democratizando enormemente o potencial da IA ​​para pequenas organizações.

O Chat with RTX ainda é um programa beta e, no momento em que este artigo foi escrito, usávamos a versão 0.2. Mas a facilidade de instalação e de colocar a interface da web em funcionamento foi revigorante. Qualquer pessoa que saiba baixar e instalar um aplicativo agora pode obter um LLM local com RAG em execução com apenas alguns cliques.

Habilitando acesso remoto para bate-papo com RTX por meio de uma URL universalmente acessível

Levamos nosso cenário para o próximo nível e o disponibilizamos para todo o escritório.

Etapa 1: Localize o arquivo de configuração

Comece indo para a pasta com o arquivo de configuração:

  • Caminho de arquivo: C:\Users\{YourUserDir}\AppData\Local\NVIDIA\ChatWithRTX\RAG\trt-llm-rag-windows-main\ui\user_interface.py

Etapa 2: atualize o código de inicialização

Abra o user_interface.py arquivo e Ctrl-F para interface.launch Localize o segmento correto, que por padrão aparecerá da seguinte forma:

interface.launch(
    favicon_path=os.path.join(os.path.dirname(__file__), 'assets/nvidia_logo.png'),
    show_api=False,
    server_port=port
)

Para ativar o acesso à rede, você deve adicionar share=True igual a:

interface.launch(
    favicon_path=os.path.join(os.path.dirname(__file__), 'assets/nvidia_logo.png'),
    show_api=False,
    share=True,
    server_port=port
)

Salve as modificações no user_interface.py arquivo. Em seguida, inicie o Chat with RTX através do menu Iniciar, que iniciará uma janela de prompt de comando e ativará a interface.

Etapa 3: Encontrar o URL público

A janela do prompt de comando exibirá um URL local e um URL público. Para criar um URL público funcional acessível em qualquer dispositivo, mescle elementos de ambos os URLs. Seria melhor se você pegasse o URL público e adicionasse as informações do cookie local ao final dele:

  • URL público: https://62e1db9de99021560f.gradio.live
  • URL local com parâmetros: http://127.0.0.1:16852?cookie=4a56dd55-72a1-49c1-a6de-453fc5dba8f3&__theme=dark

Seu URL combinado deve ficar assim, com o ?cookie anexado ao URL público:

https://62e1db9de99021560f.gradio.live?cookie=4a56dd55-72a1-49c1-a6de-453fc5dba8f3&__theme=dark

Este URL concede acesso ao Chat com RTX a partir de qualquer dispositivo na sua rede, ampliando sua usabilidade além das restrições locais.

Considerações Finais

Há muito tempo que somos fãs da liderança da QNAP no design de hardware NAS, mas há muito mais valor disponível para os clientes da QNAP do que eles provavelmente imaginam. Na verdade, o Virtualization Station é um excelente ponto de partida, mas por que não ir para o próximo nível e experimentar o GPU Passthrough? No mínimo, as organizações podem fornecer uma VM de última geração com GPU para a organização sem a necessidade de configurar uma estação de trabalho dedicada. Há também os benefícios aparentes de uma VM situada ao lado de um enorme pool de armazenamento interno com níveis de desempenho nativos. Nesse caso, tivemos desempenho de armazenamento compartilhado de quase 10 GB/s, sem nos preocupar com uma única conexão ou switch de 100 GbE, tudo porque a VM acelerada por GPU ficava dentro do próprio NAS.

Por que não dar um passo adiante para perceber os benefícios da IA ​​para a organização? Mostramos que adicionar uma GPU decente a um QNAP NAS é relativamente fácil e barato. Colocamos um A4000 para funcionar e com um preço de rua de cerca de US$ 1050, isso não é ruim quando você considera que o Virtualization Station é gratuito e o NVIDIA Chat com RTX está disponível gratuitamente. Ser capaz de apontar com segurança esse poderoso LLM para os dados privados de uma empresa deve fornecer insights acionáveis ​​e, ao mesmo tempo, tornar a empresa mais dinâmica.

Outra lente a considerar aqui é um armazenamento de arquivos para modelos que podem ser externos ao próprio sistema QNAP. Isso é ideal para pequenas empresas que precisam de um local rápido para armazenar seus dados de trabalho. Com os recursos avançados de rede, você poderia usar o NAS como um local para armazenar dados para trabalho RAG em um servidor GPU maior, permitindo um armazenamento de dados facilmente compartilhável para inferir.

Este é apenas um exemplo de IA. A indústria está a evoluir rapidamente, pelo que as ferramentas continuarão a ser disponibilizadas. As empresas inteligentes devem aprender a aproveitar a IA e esta funcionalidade simples da QNAP é uma excelente forma de começar.

Estação de virtualização QNAP

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed