À propos Entreprise Comment DeepSeek-R1 a surmonté les limitations matérielles pour réaliser des avancées en matière d'IA

Comment DeepSeek-R1 a surmonté les limitations matérielles pour réaliser des avancées en matière d'IA

by Divyansh Jain

DeepSeek-R1 est un modèle d'IA open source rivalisant avec les meilleurs d'OpenAI, prouvant que l'innovation ne concerne pas seulement le calcul, mais aussi l'ingénierie intelligente.

Dans le monde de l’intelligence artificielle, un nouvel acteur a pris d’assaut la communauté. DeepSeek-R1, un modèle de raisonnement open source, fait les gros titres pour ses performances révolutionnaires. Ce modèle est devenu un concurrent sérieux, rivalisant avec la gamme phare de modèles O1 d’OpenAI en termes de capacités tout en étant nettement plus rentable. Plus impressionnant encore, l’équipe de DeepSeek a réussi cet exploit avec des ressources bien plus faibles et restreintes, en respectant des réglementations strictes en matière d’exportation de GPU. Mais qu’est-ce que DeepSeek exactement, et pourquoi ce développement constitue-t-il une avancée monumentale dans la recherche en IA ?

Qui est DeepSeek et qu’est-ce qu’un modèle de raisonnement ?

DeepSeek est un ambitieux laboratoire de recherche en IA basé en Chine qui s’est rapidement fait connaître pour son approche innovante et accessible de l’intelligence artificielle. En se concentrant sur le développement open source, ils se sont positionnés comme un acteur clé de la communauté de l’IA, créant des modèles très performants accessibles à un public plus large. Leur dernière création, DeepSeek-R1, est un « modèle de raisonnement », un type de modèle d’IA conçu pour exceller dans la déduction logique, la résolution de problèmes et la compréhension de relations complexes au-delà de la reconnaissance de modèles de base.

Les modèles de raisonnement comme DeepSeek-R1 diffèrent des modèles de langage à grande échelle traditionnels (LLM) en simulant un processus de réflexion étape par étape. Au lieu de simplement générer des réponses basées sur des modèles de données, R1 décompose les problèmes complexes en étapes logiques plus petites avant d'arriver à une solution. Bien que cette approche puisse prendre un peu plus de temps lors de l'inférence, elle permet au modèle d'être nettement plus performant sur les tâches nécessitant une compréhension approfondie, telles que le raisonnement mathématique, l'assistance à la programmation et la prise de décision.

Pourquoi DeepSeek-R1 change la donne

Ce qui distingue vraiment DeepSeek-R1, c'est son caractère open source. Dans un secteur où les principaux modèles d'IA sont souvent enfermés derrière des barrières, DeepSeek a publié son modèle et un document de recherche détaillé décrivant ses méthodologies exactes. Cette démarche audacieuse constitue un changement significatif par rapport à la nature généralement fermée des organisations comme OpenAI.

Cette ouverture a déclenché une vague d'expérimentation au sein de la communauté de l'IA. Les développeurs et les chercheurs du monde entier hébergent DeepSeek-R1 pour explorer et évaluer ses capacités. Il existe notamment des initiatives visant à reproduire les stratégies décrites dans le document, telles que Projet Open-R1 de Huggingface sur GitHub, une reproduction entièrement ouverte et en cours de développement de DeepSeek-R1, y compris le code de formation. Ces efforts amplifient encore l'accessibilité et le potentiel collaboratif de R1, permettant à un public plus large de s'engager et de s'appuyer sur ses innovations.

La sortie de DeepSeek-R1 a des implications de grande portée pour la communauté de l'IA et au-delà. En rendant ouvertement son modèle et ses recherches disponibles, DeepSeek a abaissé les barrières à l'innovation en matière d'IA. Les chercheurs indépendants, les startups et les amateurs ont désormais accès à un modèle de raisonnement de pointe dont le développement nécessiterait normalement d'immenses ressources financières et informatiques. La nature open source de cette version a déjà suscité des expérimentations créatives au sein de la communauté ; les développeurs expérimentent avec combiner les capacités de raisonnement de DeepSeek-R1 avec d'autres modèles pour améliorer les performances du modèle. Un exemple notable est l'intégration avec Claude Sonnet 3.5 d'Anthropic, connu pour ses excellentes performances de codage ; lorsqu'il est associé aux capacités de raisonnement de R1 de DeepSeek, il a pu obtenir un score beaucoup plus élevé sur des repères comme Aidar Bench.

Comprendre la carte graphique Nvidia H800 et ses principales différences avec la H100

À première vue, le Nvidia H800 semble être une version légèrement réduite du H100, la différence la plus notable étant au niveau des performances de calcul FP64. Le H100 affiche 34 TFLOP de performances FP64 contre seulement 1 TFLOP sur le H800. Cependant, cette différence n'est pas un problème majeur pour la plupart des charges de travail d'IA. Les modèles d'IA modernes sont généralement formés à l'aide de formats de précision inférieure comme BF16 ou FP16, optimisés pour la vitesse et l'efficacité. La précision FP64 est principalement incluse dans les GPU pour maintenir la compatibilité avec les outils hérités et les applications de calcul scientifique, où les calculs en double précision sont essentiels. Pour l'entraînement de l'IA, les performances FP64 constituent rarement un goulot d'étranglement.

Le véritable défi du H800 réside dans sa vitesse d'interconnexion. Il dispose d'une bande passante d'interconnexion NVLink 4.0 de 400 Go/s, soit moins de la moitié des 900 Go/s offerts par le H100. Cette réduction de bande passante de plus de 50 % a des implications importantes pour les configurations multi-GPU, où des milliers de GPU sont interconnectés pour s'entraîner à grande échelle.

Carte graphique NVIDIA H100 SXM Carte graphique NVIDIA H800 SXM
FP64 TFLOP 34 1 TFLOP
Noyau tenseur FP64 TFLOP 67 1 TFLOP
FP32 TFLOP 67 TFLOP 67
Noyau tenseur FP32 989 TFLOP 989 TFLOP
Noyau Tensor BF16 1,979  TFLOP 1,979  TFLOP
Noyau tenseur FP16 1,979  TFLOP 1,979  TFLOP
Noyau tenseur FP8 3,958 TFLOP 3,958 TFLOP
Noyau tenseur INT8 3,958 Les TOP 3,958 Les TOP
Mémoire GPU 80 GB 80 GB
Bande passante mémoire GPU 3.35 TB / s 3.35 TB / s
Puissance thermique maximale (TDP) 700W 700W
Vitesse d'interconnexion NVIDIA NVLink 4.0 900GB / s 400GB / s

Pourquoi la vitesse d'interconnexion est importante : l'impact sur la formation

Dans la formation d'IA à grande échelle, les GPU fonctionnent souvent ensemble en utilisant diverses techniques de parallélisme. Parmi les plus courantes, on trouve le parallélisme des données, le parallélisme des modèles, le parallélisme des pipelines et le parallélisme des tenseurs. Le parallélisme des tenseurs, où de grands tenseurs sont répartis sur plusieurs GPU pour le calcul, est particulièrement sensible à la bande passante d'interconnexion. 

Mais qu'est-ce qu'un tenseur exactement ? En termes simples, les tenseurs sont des structures de données fondamentales utilisées dans les modèles d'IA pour représenter les entrées, les pondérations et les calculs intermédiaires.

Lors de l'entraînement de modèles d'IA volumineux, ces tenseurs peuvent devenir si volumineux qu'ils ne peuvent pas tenir dans la mémoire d'un seul GPU. Pour gérer cela, les tenseurs sont répartis sur plusieurs GPU, chaque GPU traitant une partie du tenseur. Cette division permet au modèle de s'adapter à plusieurs GPU, ce qui permet l'entraînement de modèles beaucoup plus volumineux qu'il ne serait possible autrement.

Cependant, la division des tenseurs nécessite une communication fréquente entre les GPU pour synchroniser les calculs et partager les résultats. C'est là que la vitesse d'interconnexion devient critique. La bande passante NVLink réduite du H800 ralentit la communication entre les GPU pendant cette étape, ce qui entraîne une augmentation de la latence et une réduction de l'efficacité globale de la formation.

Ce goulot d'étranglement devient encore plus prononcé dans les scénarios impliquant de grands modèles avec des milliards de paramètres, où une communication fréquente entre les GPU est nécessaire pour synchroniser les calculs de tenseurs. Bien que le parallélisme des tenseurs soit le plus sensible à l'interconnexion plus lente, ce n'est pas le seul aspect impacté.

La mise à l’échelle de la formation de l’IA sur le H800 devient de plus en plus difficile en raison de l’interconnexion plus lente, ce qui n’est pas idéal pour les charges de travail qui dépendent fortement d’une communication multi-GPU efficace.

Formation du modèle DeepSeek

Compte tenu des défis liés à la mise à l'échelle de la formation sur les GPU H800, la question naturelle se pose : comment DeepSeek a-t-il formé un modèle d'IA de pointe (SOTA) comme R1 ? DeepSeek-R1 est une version du DeepSeek-v3, un modèle de paramètres 671B. Ce modèle de base DeepSeek-v3 a subi une formation supplémentaire par apprentissage par renforcement (RL) pour induire un comportement de raisonnement dans le modèle. 

Une chose importante à noter est que les chiffres et les techniques mentionnés ci-dessus se réfèrent à la Document de recherche DeepSeek-v3. DeepSeek-R1 a nécessité des ressources de formation supplémentaires, mais les détails exacts ne sont pas disponibles. Cependant, DeepSeek-v3 est un modèle SOTA, et de nombreuses techniques mentionnées dans le document DeepSeek-v3 ont probablement été transférées à la formation de R1.

De plus, les chiffres ne concernent que la dernière phase d'entraînement réussie. Cela ne prend pas en compte les expériences sur l'architecture, les algorithmes ou les données. Mais même en tenant compte de cela, DeepSeek, selon son propre rapport, a réussi cet exploit avec des ressources nettement inférieures à celles de Llama de Meta.

Alors, cette clarification étant faite, comment DeepSeek a-t-il formé un modèle aussi impressionnant ? Sans entrer dans les détails, ce qui serait hors de propos pour cet article, les techniques utilisées pour entraîner DeepSeek v3 peuvent être regroupées en deux catégories principales : l'exploitation de la FP8 de faible précision pour l'entraînement et l'optimisation de la communication entre les GPU pour minimiser les opérations coûteuses. L'adoption de l'entraînement de précision mixte FP8 à grande échelle a été une première, car elle a réduit la taille des poids et augmenté le débit de calcul (TFLOP), permettant un entraînement plus rapide et plus efficace. D'autre part, les optimisations de communication, telles que la minimisation du besoin de parallélisme des tenseurs et l'amélioration de la communication entre les nœuds, ont permis de relever les défis posés par la bande passante d'interconnexion limitée des GPU H800.

Historiquement, FP8 n'a pas été largement utilisé pour la formation car les gradients, essentiels pour la mise à jour des pondérations du modèle pendant la rétropropagation, ne parviennent souvent pas à converger lorsqu'ils sont représentés dans un format de faible précision. La plage dynamique et la précision limitées de FP8 rendent difficile la capture précise des mises à jour de pondération mineures, ce qui entraîne une instabilité de la formation. DeepSeek-v3 a surmonté ce défi en introduisant quelques techniques de quantification à granularité fine, telles que la mise à l'échelle par tuiles et par blocs, qui ont permis au modèle de mettre à l'échelle de manière adaptative les activations et les pondérations pour mieux gérer les valeurs aberrantes. Cela a été combiné à une précision d'accumulation améliorée grâce à la promotion FP32 de précision intermédiaire supérieure, qui a permis la formation à l'aide de FP8.

Du côté de la communication, l'algorithme DualPipe a été développé pour superposer calcul et communication, réduisant ainsi considérablement les bulles de pipeline. Qu'est-ce qu'une bulle de pipeline ? Dans le parallélisme de pipeline, la formation est divisée en étapes et distribuée sur plusieurs GPU. Lorsque vous utilisez cette stratégie, des périodes d'inactivité peuvent se produire lorsque certains GPU attendent que les données des étapes précédentes du pipeline ou des étapes suivantes soient prêtes, réduisant ainsi le MFU du cluster de formation. DualPipe minimise ces inefficacités en superposant calcul et communication, en masquant la latence et en gardant les GPU occupés. En plus de DualPipe, un noyau de communication inter-nœuds personnalisé a également été implémenté pour utiliser pleinement les bandes passantes NVLink et InfiniBand afin de garantir une mise à l'échelle efficace entre les nœuds.

Ces innovations ont été méticuleusement conçues pour surmonter les limitations matérielles restreintes et permettre une formation efficace des modèles DeepSeek.

Qu’est-ce que cela signifie pour les autres laboratoires d’IA et pour la communauté de l’IA dans son ensemble ?

La sortie de DeepSeek-R1 a suscité de nombreuses discussions et réflexions au sein de la communauté de l'IA. Si certains se sont mis à pointer du doigt le moment et les méthodes de sa sortie, il est essentiel de reconnaître le contexte plus large du développement des modèles d'IA. La formation des modèles SOTA est un processus qui prend du temps, et les modèles que nous voyons aujourd'hui ont probablement commencé leurs cycles de formation dès la fin de 2023 ou le début de 2024.

Nous ne devons pas non plus négliger l'évolution du paradigme dans le développement des modèles d'IA. Historiquement, la pré-formation sur des ensembles de données massifs était essentielle en raison du manque de données synthétiques de haute qualité provenant d'autres modèles et du fait que la mise à l'échelle de la pré-formation donnait des gains de performances significatifs. Par conséquent, les premiers modèles s'appuyaient fortement sur des données extraites et sur la mise à l'échelle de la pré-formation pour atteindre leurs capacités. Cependant, la génération actuelle de modèles, y compris DeepSeek-R1, a considérablement bénéficié des données synthétiques à différentes étapes de la formation. La famille de modèles o1 d'OpenAI est également probablement basée sur des modèles GPT 4o antérieurs et a évolué d'un modèle GPT 1.8 massif de 4 billion de paramètres à un modèle Turbo plus efficace et, enfin, probablement à des modèles 4o beaucoup plus petits que nous utilisons aujourd'hui.

Il convient également de noter que DeepSeek-R1 n’est qu’un début. D’autres organisations, telles qu’Anthropic, Meta, Mistral et Cohere, travaillent presque certainement sur des modèles de raisonnement similaires. La sortie de R1 marque le début d’une nouvelle vague de modèles d’IA qui continueront à repousser les limites du raisonnement, de la résolution de problèmes et des performances spécifiques aux tâches. La disponibilité croissante de la puissance GPU accélère encore cette tendance, permettant aux laboratoires de générer davantage de données synthétiques pour le réglage fin et l’apprentissage par renforcement (RL). Cela permet aux modèles d’exceller dans des tâches complexes comme la génération de code et le raisonnement logique.

L’initiative open source de DeepSeek aura un impact profond sur la communauté de l’IA. La mise à disposition publique de son modèle et de ses méthodologies a stimulé l’innovation au sein de la communauté open source et a inspiré d’autres laboratoires à adopter des approches similaires. La reconnaissance par DeepSeek de la valeur de la collaboration open source s’appuie sur le précédent établi par des organisations comme Meta, l’équipe Qwen d’Alibaba et d’autres. Sans ces contributions antérieures, la communauté de l’IA serait probablement bien moins avancée qu’elle ne l’est aujourd’hui.

Conclusion

La sortie open source de DeepSeek-R1 est un pas dans la bonne direction. Si les modèles à code source fermé ont leur place, le mouvement open source garantit que l’innovation est accessible à un public plus large, favorisant ainsi un environnement plus inclusif et plus compétitif.

L'IA est un processus itératif, et la communauté open source prospère grâce à cette nature itérative, accélérant les progrès de manière inédite. Nombreux sont ceux qui croient fermement que l'open source est la seule voie à suivre, garantissant qu'aucune entité ne possède à elle seule l'IA ou potentiellement l'AGI (intelligence artificielle générale) à l'avenir. L'un des principaux laboratoires d'IA de Chine partage cette philosophie, soutenant et contribuant ouvertement au mouvement open source, ne faisant que valider son importance.

En fin de compte, DeepSeek-R1 est plus qu’un simple modèle ; c’est un appel à l’action. Il incite les chercheurs, les développeurs et les passionnés à repousser les limites du possible, à innover avec les ressources dont ils disposent et à contribuer à un domaine en évolution rapide. Alors que le paysage de l’IA continue de se développer, l’esprit itératif et collaboratif de la communauté open source restera une force motrice, façonnant l’avenir de l’intelligence artificielle de manière inédite.

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS