Dans un contexte où l’intelligence artificielle révolutionne tous les secteurs, une nouvelle bataille technologique fait rage : celle des puces dédiées à l’IA ! Bien au-delà de la bataille des différents modèles d’IA, c’est désormais sur le terrain du hardware que se joue l’avenir de l’IA générative. Et dans cette nouvelle sphère, en dehors des géants traditionnels comme NVIDIA, on retrouve de nouveaux acteurs prometteurs qui émergent doucement avec des solutions innovantes et un objectif d’optimisation des ressources. Une révolution à suivre de près car le marché des puces pour l’IA sera multiplié par 10 d’ici à 2033. En effet, un cabinet d’analystes estime que le marché mondial des puces accélératrices pour l’IA atteindra 300 milliards de dollars en 2033, contre 30 aujourd’hui.
Historiquement, les GPU (Graphics Processing Units) ou (unité de traitement graphique en français) de l’entreprise NVIDIA (leader mondial du calcul graphique et de l’IA) sont des puces informatiques spécialisées dans le traitement rapide des graphiques et des images, optimisant le rendu 2D et 3D. Elles ont longtemps dominé le marché de l’IA grâce à leur capacité à effectuer des calculs en parallèle.
Cependant, ces puces n’étaient pas initialement conçues pour l’IA, mais pour le traitement graphique. Pour remédier à tout ça, de nouveaux acteurs sont aujourd’hui présent avec l’émergence de puces spécialement conçues pour l’IA. On retrouve essentiellement Groq, Cerebras et Rivos.
GROQ : La promesse de la vitesse
Groq fait beaucoup parler d’elle depuis début 2024 avec son LPU (Language Processing Unit). Cette startup promet des performances exceptionnelles pour l’inférence des modèles de langage, avec des latences jusqu’à 10 fois inférieures à celles des GPU traditionnels. Leur architecture unique, basée sur un design tensoriel, permet notamment d’exécuter Claude-2 et GPT-4 avec une réactivité impressionnante.
CEREBRAS : Le supercalculateur sur une puce
Cerebras se distingue par son approche radicale : le CS-2 est littéralement le plus grand processeur jamais créé, avec 850 000 cœurs de calcul sur une seule puce. Cette approche permet d’éliminer les goulots d’étranglement liés à la communication entre puces, mais nécessite une infrastructure spécifique.
RIVOS : L’approche RISC-V
Moins connue mais tout aussi prometteuse, Rivos développe des puces basées sur l’architecture RISC-V, offrant une alternative open-source aux architectures propriétaires. Cette approche pourrait révolutionner le marché en proposant des solutions plus flexibles et personnalisables.
Comme pour toute innovations ces nouvelles puces spécialisées contiennent des avantages mais aussi des limites. Et si on devait les comparer au GPU d’origines voici les caractéristiques distinctives principales qu’on pourrait en tirer.
En termes de forces, les GPU se distinguent par leur polyvalence, leur puissance pour l’entraînement et leur large adoption dans le domaine. Les puces IA dédiées, quant à elles, sont efficaces énergétiquement, rapides pour l’inférence et optimisées spécifiquement pour l’IA.
Concernant les faiblesses, les GPU sont particulièrement énergivores et coûteux, tout en étant moins performants en inférence. Les puces IA dédiées présentent des limitations en termes de performance pour l’entraînement, disposent d’un écosystème limité et sont moins flexibles dans leur utilisation.
Pour ce qui est de leur utilisation idéale, les GPU sont particulièrement adaptés à l’entraînement de modèles et à la recherche en IA. Les puces IA dédiées, en revanche, excellent dans l’inférence à grande échelle et les applications en temps réel.
Maintenant, voyons voir les forces et les faiblesses que ces puces spécialisées représentent séparément.
Petit tour des avantages :
- Une architecture optimisée spécialement conçues pour les opérations matricielles de l’IA
- Une efficacité énergétique plus efficientes que les GPU grâce à une mémoire intégrée directement sur le silicium
- Une performance remarquable : par exemple le LPU de Groq permet à Llama 3.1 70B de générer du texte 20 fois plus rapidement qu’un GPU NVIDIA classique. De plus le refroidissement est possible à l’air donc plus rapide et plus simple, contrairement aux nouveaux GPU B100 de NVIDIA qui nécessitent un refroidissement à eau
- Une réduction de coût sur le long terme
- Une réelle innovation technologique du fait que ces puces spécialisées sont optimisées pour des cas d’usage spécifiques de l’IA
Les points de vigilances et limites actuelles :
- Un écosystème pas assez mature : les outils et frameworks sont encore en développement ce qui pourrait engendrer des bugs et des incompatibilités.
- Une spécialisation trop poussée : la principale limitation de ces puces réside dans leur spécialisation même. Elles excellent en inférence mais sont moins adaptées à l’entraînement des modèles, qui nécessite une plus grande flexibilité en termes de gestion de la mémoire.
Les puces IA spécialisées sont particulièrement recommandées dans trois contextes principaux d’utilisation :
Pour les applications nécessitant une faible latence, notamment dans les systèmes complexes comme les chatbots qui exécutent plusieurs tâches simultanément. Ces puces permettent d’obtenir des réponses plus rapides pour l’utilisateur.
Mais également pour le déploiement d’IA génératives à grande échelle, où elles offrent un double avantage : une meilleure performance opérationnelle ainsi qu’une réduction significative des coûts. Et pour finir pour une meilleure efficacité énergétique et opérationnelle dans les datacenters.
Quelques recommandations selon vos besoins :
Pour ce qui est de l’entraînement des modèles, privilégiez les GPU traditionnels en attendant les évolutions futures des puces spécialisées.
Pour une interface en production, envisagez également les puces spécialisées et considérez les services de token-as-a-service (comme l’API de Groq)
Si l’écosystème est encore sur la voie de la maturation, de belles perspectives d’évolution sont en cours, notamment chez IBM avec leur projet North Pole, qui vise à révolutionner l’architecture des puces IA :
- Stockage des données directement dans des matrices mémoire
- Calculs effectués sur place, sans déplacement de données
- Optimisation pour l’entraînement des modèles
L’émergence de ces nouveaux acteurs dans le domaine des puces IA est une excellente nouvelle pour l’innovation et la concurrence. Cependant, la décision d’adoption doit être mûrement réfléchie en fonction de vos besoins spécifiques, de votre capacité d’investissement et de votre tolérance aux risques.