Le projet ambitieux d’Amazon pour rivaliser avec Nvidia dans les puces IA
Le géant du cloud computing ne délogera pas Nvidia de sitôt, mais il espère réduire sa dépendance au fabricant de puces.
Dans un quartier anonyme du nord d’Austin, dominé par des tours de bureaux, des ingénieurs d’Amazon.com Inc. travaillent sur l’un des projets les plus ambitieux de l’industrie technologique : diminuer la domination de Nvidia Corp. sur le marché des puces d’intelligence artificielle, évalué à plus de 100 milliards de dollars.
Le laboratoire d’ingénierie d’Amazon est un espace fonctionnel où des bancs de travail bordent les banlieues en pleine expansion de la capitale texane. Le lieu est quelque peu en désordre, avec des circuits imprimés, des ventilateurs de refroidissement, des câbles et des équipements réseau éparpillés, certains enduits de pâte thermique utilisée pour connecter les puces aux composants de refroidissement. On y trouve une ambiance d’entreprise en démarrage, plutôt inattendue pour une société dont la capitalisation boursière dépasse 2 000 milliards de dollars.
Les ingénieurs ici n’hésitent pas à se rendre chez Home Depot pour un outil spécifique ou à apprendre de nouvelles compétences pour accélérer le processus. En pleine course pour développer des puces d’apprentissage machine à partir de zéro, ils s’efforcent de lancer une alternative à Nvidia aussi vite que possible. Leur objectif n’est pas de surpasser Nvidia en puissance brute, mais de construire un système simple et fiable pour transformer les centres de données d’Amazon en machines géantes d’intelligence artificielle.
Une alternative ambitieuse pour réduire la dépendance
Rami Sinno, un ingénieur libanais expérimenté, dirige la conception et les tests des puces. Après avoir participé à la création des deux premières générations de semi-conducteurs IA d’Amazon, il se concentre désormais sur le lancement de Trainium2, la dernière version, d’ici la fin de l’année. « Ce qui m’empêche de dormir, c’est : comment y arriver le plus vite possible ? » dit Sinno.
Nvidia, autrefois un acteur de niche, est devenu le principal fournisseur de matériel pour l’intelligence artificielle générative, ce qui en a fait la société la plus précieuse au monde. Ses processeurs, vendus à des dizaines de milliers de dollars chacun, sont en forte demande. Même les plus grands clients de Nvidia, comme Amazon Web Services, Microsoft Azure et Google Cloud, cherchent à réduire leur dépendance à cette entreprise en développant leurs propres puces. Parmi eux, Amazon a déployé le plus grand nombre de puces jusqu’à présent.
Un héritage de développement sur mesure
Amazon est bien placé pour devenir un acteur majeur dans les puces IA. Depuis 15 ans, la société construit son infrastructure cloud en remplaçant progressivement les solutions d’autres entreprises, comme les serveurs d’Intel, par des composants personnalisés. En 2013, James Hamilton, un vice-président d’Amazon, a convaincu Jeff Bezos de parier sur la conception de semi-conducteurs en interne, une décision qui a jeté les bases des avancées actuelles.
Amazon a d’abord collaboré avec Annapurna Labs, une startup israélienne spécialisée dans les puces pour centres de données, qu’elle a acquise en 2015. Annapurna a contribué au développement de Graviton, un processeur économique basé sur l’architecture Arm. Ce produit a permis à Amazon de devenir l’un des plus grands clients de Taiwan Semiconductor Manufacturing Co.
Un défi face à Nvidia
La première puce IA d’Amazon, Inferentia, est sortie en 2019 pour des tâches comme la reconnaissance de schémas dans les données. Plus tard, Trainium1 a été conçu pour entraîner des modèles d’apprentissage machine. Aujourd’hui, Trainium2, la troisième génération, représente un moment décisif : soit la puce connaît un succès commercial suffisant, soit Amazon devra revoir sa stratégie.
Malgré les défis, Hamilton reste confiant. « Nvidia est une entreprise très compétente qui offre de bonnes solutions, mais nous pensons fermement pouvoir créer une alternative compétitive », déclare-t-il. Amazon espère ainsi rivaliser avec Nvidia en offrant des solutions performantes à moindre coût, tout en renforçant sa position dans le domaine stratégique des semi-conducteurs IA.
Amazon n’a pas attendu que TSMC produise une version fonctionnelle de Trainium2 avant de commencer à tester la nouvelle conception. À la place, ses ingénieurs ont utilisé deux puces de génération précédente pour accélérer le développement des logiciels de contrôle et tester les interférences électriques. C’était l’équivalent, dans l’industrie des semi-conducteurs, de construire un avion en plein vol.
Amazon a commencé à expédier Trainium2, conçu pour fonctionner en clusters pouvant contenir jusqu’à 100 000 puces, vers des centres de données dans l’Ohio et d’autres lieux. Un déploiement plus large est prévu pour les principaux hubs de centres de données de l’entreprise.
L’objectif est de lancer une nouvelle puce tous les 18 mois, en partie en réduisant les allers-retours des équipements vers des fournisseurs externes. Dans le laboratoire d’Amazon, des oscilloscopes permettent de tester les cartes et puces pour détecter les défauts de connecteurs ou de conception. Sinno évoque déjà les futures éditions : dans un autre laboratoire, où des ventilateurs assourdissants refroidissent les unités de test, des tuyaux suspendus au plafond sont prêts à gérer la chaleur excessive des prochaines générations de puces AWS.
La concurrence s’intensifie
D’autres entreprises repoussent également les limites. Nvidia, face à une demande qualifiée d’« insensée », cherche à sortir une nouvelle puce chaque année, un rythme qui a causé des problèmes de production pour son produit Blackwell à venir mais qui met la pression sur l’ensemble de l’industrie. Parallèlement, les deux plus grands concurrents cloud d’Amazon accélèrent leurs propres initiatives en matière de puces.
Google a commencé à développer une puce d’IA il y a une décennie pour accélérer le travail d’apprentissage automatique derrière ses produits de recherche. Aujourd’hui, ces puces sont également proposées aux clients cloud, comme Anthropic et Cohere. En avril, Google a lancé son premier processeur central, similaire au Graviton d’Amazon. « Les processeurs à usage général représentent une énorme opportunité », déclare Amin Vahdat, vice-président de Google.
Microsoft, quant à lui, est arrivé plus tard dans le domaine des puces de centres de données, lançant en 2023 un accélérateur IA nommé Maia et un processeur baptisé Cobalt. En novembre, Microsoft a ajouté une puce de sécurité et une unité de traitement des données à son portefeuille, renforçant ainsi ses capacités.
Le défi pour Amazon
Pour que Trainium2 soit un succès, il devra non seulement répondre aux besoins internes d’Amazon, mais aussi séduire les grands clients AWS. Cependant, une partie essentielle de cette réussite repose sur les logiciels. Nvidia domine le marché en partie grâce à la robustesse de ses outils logiciels, qui permettent aux clients de démarrer des projets d’apprentissage machine avec peu de personnalisation. Le Neuron SDK d’Amazon, en comparaison, en est encore à ses débuts.
Pour pallier cette lacune, Amazon encourage ses grands clients et partenaires à utiliser Trainium dans leurs nouveaux projets, espérant ainsi identifier des pistes d’amélioration. Parmi eux, Databricks et Anthropic, qui utilisent également des produits Nvidia et Google, s’investissent dans le développement avec Trainium en échange d’importants investissements d’Amazon.
« Combler le fossé de la complexité est essentiel », conclut Hamilton. « Si vous n’y parvenez pas, vous échouerez. »