Nvidia annonce le GB200, le chip le plus puissant pour l’IA, propulsant le GPU Blackwell B200. Performances et efficacité remarquables sont au rendez-vous.
Ce qu’il faut retenir :
- Nvidia dévoile le chip GB200 pour le GPU Blackwell B200, destiné au calcul IA.
- Le B200 offre d’énormes avancées en performances et efficacité par rapport au H100.
- Réduction significative de la consommation énergétique, amélioration de la communication entre GPU.
Lors de sa conférence sur la technologie GPU, Nvidia a annoncé le chip le plus puissant au monde dédié au calcul informatique lié à l’IA, baptisé GB200, qui alimente le GPU Blackwell B200. Succédant au chip IA H100, il présente d’importantes améliorations en termes de performances et d’efficacité.
Le nouveau GPU B200 est capable de délivrer 20 petaflops de FP4, grâce aux 208 milliards de transistors intégrés dans la puce. De plus, le GB200 offre une performance 30 fois supérieure à celle du H100 pour les charges de travail d’inférence LLM, tout en réduisant la consommation énergétique par 25. Dans le benchmark LLM GPT-3, le GB200 se montre également sept fois plus rapide que le H100.
Par exemple, l’entraînement d’un modèle avec 1,8 trillion de paramètres nécessiterait 8 000 GPU Hopper et environ 15 mégawatts, alors qu’un ensemble de 2 000 GPU Blackwell pourrait accomplir cette tâche avec seulement 4 mégawatts.
Pour améliorer encore l’efficacité, Nvidia a conçu une nouvelle puce pour commutateur réseau dotée de 50 milliards de transistors, capable de gérer 576 GPU et de leur permettre de communiquer entre eux à une bande passante bidirectionnelle de 1,8 TB/s.
Ainsi, Nvidia a abordé le problème de communication, car auparavant, un système combinant 16 GPU passerait 60 % de son temps à communiquer et 40 % à calculer.
Nvidia propose aux entreprises une solution complète. Par exemple, le GB200 NVL72 permet d’intégrer 36 CPU et 72 GPU dans un seul rack refroidi par liquide. Un DGX Superpod pour DGX GB200, quant à lui, combine huit de ces systèmes en un, ce qui représente 288 CPU et 576 GPU avec 240TB de mémoire.
Des entreprises telles qu’Oracle, Amazon, Google et Microsoft ont déjà partagé des plans pour intégrer les racks NVL72 dans leurs services cloud.
L’architecture GPU utilisée pour le GPU Blackwell B200 sera probablement la base de la future série RTX 5000.