AI News

Le pari de 470 milliards de dollars : les hyperscalers (hyperscalers) renforcent leurs investissements en inférence (inference)

Alors que la première grande saison des résultats de 2026 commence, les plus grandes entreprises technologiques mondiales annoncent une accélération sans précédent des dépenses en intelligence artificielle (artificial intelligence, AI). Le consensus du marché prévoit désormais que les géants du numérique « hyperscalers (hyperscalers) » — menés par Microsoft, Meta, Alphabet et Amazon — pousseront collectivement les dépenses d'investissement (Capex) au‑delà de 470 milliards de dollars cette année, une forte augmentation par rapport aux 350 milliards de dollars estimés en 2025. Cette flambée ne concerne plus seulement l'entraînement de modèles massifs ; elle marque un pivot stratégique vers le déploiement de l'infrastructure nécessaire pour les faire fonctionner à grande échelle.

La narration pour 2026 est passée de « construire le cerveau » à « mettre le cerveau au travail ». Avec les rapports de résultats attendus cette semaine d'Apple, Meta, Microsoft et Tesla, les investisseurs se préparent à des orientations mises à jour qui reflètent cette énorme construction d'infrastructures. Alors que Wall Street reste prudente sur le retour sur investissement (ROI), les géants de la tech offrent une réplique claire : la demande pour l'inférence — l'utilisation réelle des modèles d'IA — dépasse l'offre, rendant nécessaire une nouvelle génération de silicium efficace et conçu pour cet usage.

Microsoft mène la charge avec la Maia 200

Quelques heures seulement avant sa conférence sur les résultats, Microsoft a affiché sa position agressive en dévoilant la Maia 200, un accélérateur d'IA de deuxième génération conçu spécifiquement pour les charges de travail d'inférence. Le timing est délibéré, destiné à rassurer les investisseurs sur le fait que l'entreprise s'attaque au défi du coût par token qui handicape le déploiement commercial de l'IA.

Conçu sur le procédé avancé 3 nm de TSMC, la Maia 200 représente un saut significatif par rapport à son prédécesseur. Alors que la Maia 100 était une puce polyvalente pour l'entraînement et l'inférence, la série 200 est focalisée sur l'exécution efficace des modèles. Elle comporte 140 milliards de transistors et est équipée de 216 Go de mémoire HBM3e, fournissant la bande passante massive requise pour servir les grands modèles de langage (large language models, LLMs) avec une faible latence.

Les spécifications clés du nouveau silicium révèlent la stratégie de Microsoft visant à réduire la dépendance vis‑à‑vis des fournisseurs tiers de GPU pour les charges de travail routinières :

Spécifications du Microsoft Maia 200 vs. Norme de l'industrie

Feature Maia 200 (2026) Improvement / Metric
Technologie de procédé TSMC 3 nm Grande densité & efficacité
Nombre de transistors 140 milliards Gestion de logique complexe
Configuration mémoire 216 Go HBM3e Bande passante élevée pour les LLMs
Cas d'utilisation principal Inférence Optimisation pour l'exécution
Prétention de performance 30 % meilleure performance par dollar Vs. le matériel actuel du parc
Emplacements de déploiement US Central (Iowa), US West 3 Pôles stratégiques à faible latence

Microsoft affirme que la puce offre 30 % de meilleure performance par dollar que la génération actuelle de silicium marchand déployée dans Azure. En optimisant pour les précisions 4‑bit (FP4) et 8‑bit (FP8) — des formats de données suffisants pour l'inférence mais nécessitant moins de puissance de calcul que l'entraînement — Microsoft vise à réduire drastiquement le coût de service des requêtes pour Copilot et les modèles GPT‑5.2 d'OpenAI.

Le grand basculement vers l'inférence

L'explosion des dépenses d'investissement est alimentée par un changement fondamental dans le cycle de vie de l'IA. Ces trois dernières années, les dépenses étaient dominées par les clusters d'entraînement — d'énormes superordinateurs conçus pour apprendre aux modèles à « penser ». En 2026, l'attention se déplace vers les clusters d'inférence, nécessaires pour répondre aux requêtes des utilisateurs, générer des images et traiter des données en temps réel.

Les analystes de l'industrie notent que si l'entraînement se fait une fois (ou périodiquement), l'inférence se produit à chaque interaction d'un utilisateur avec un produit d'IA. À mesure que les bases d'utilisateurs de produits comme ChatGPT, Meta AI et Apple Intelligence atteindront des milliards, le coût de calcul évolue de façon linéaire.

Goldman Sachs a révisé ses propres estimations à la hausse, suggérant que le chiffre de 470 milliards de dollars pourrait être conservateur, avec un scénario à la hausse atteignant 527 milliards de dollars si l'adoption de l'IA générative (generative AI) s'accélère dans les secteurs d'entreprise. Ces dépenses ne concernent pas uniquement les puces ; elles englobent une refonte complète de l'architecture des centres de données, y compris les systèmes de refroidissement liquide, les accords d'approvisionnement nucléaire et le matériel réseau personnalisé conçu pour gérer le trafic dense des charges d'inférence.

Semaine des résultats : quoi surveiller

À mesure que les rapports de résultats arrivent, chaque hyperscaler fait face à une pression unique pour justifier ces dépenses.

  • Meta Platforms : le PDG Mark Zuckerberg devrait informer les investisseurs sur la feuille de route d'infrastructure pour Llama 4 et au‑delà. La stratégie de Meta s'appuie fortement sur des modèles à poids ouverts (open‑weights), ce qui exige une capacité de calcul immense pour maintenir l'omniprésence. Les analystes chercheront des détails sur la manière dont Meta prévoit de monétiser cet immense empreinte, potentiellement via des outils publicitaires avancés ou des licences d'entreprise.
  • Apple : avec le déploiement complet des fonctionnalités Apple Intelligence sur la gamme iPhone 17, Apple entre dans la mêlée de l'IA côté serveur. Contrairement à ses pairs, Apple s'est historiquement reposée sur le traitement sur l'appareil, mais la complexité des nouveaux agents requiert du Private Cloud Compute. Les dépenses devraient s'envoler à mesure qu'Apple déploie ses propres serveurs basés sur son silicium à l'échelle mondiale.
  • Tesla : le facteur imprévisible du groupe, les dépenses de Tesla sont bifurquées entre l'entraînement de ses modèles Full Self‑Driving (FSD) et la construction du superordinateur Dojo. Le marché observe de près pour voir si l'investissement de Tesla dans infrastructure d'IA peut enfin débloquer des marges plus élevées dans ses divisions automobile et robotique.

Sentiment des investisseurs : l'ultimatum du ROI

Malgré les réalisations techniques, l'ambiance à Wall Street est un mélange d'admiration et d'anxiété. L'ampleur même des dépenses d'investissement requises pour rester compétitif dans la course aux armements de l'IA compresse les marges de flux de trésorerie disponible. Les investisseurs ne se satisfont plus de promesses vagues de « capacités futures » ; ils exigent des preuves claires que ces milliards génèrent dès aujourd'hui des revenus additionnels.

L'introduction de puces axées sur l'efficacité comme la Maia 200 est une réponse directe à cette angoisse. En réduisant le coût d'exploitation de l'IA, les hyperscalers espèrent améliorer l'économie unitaire de leurs produits, transformant des services d'IA à haut revenu en services à forte marge.

Au fil de 2026, la séparation entre les « détenteurs d'IA » et les « non‑détenteurs d'IA » va s'élargir. Ceux disposant des bilans pour soutenir une construction d'infrastructure d'un demi‑billion de dollars définiront la prochaine décennie de l'informatique, tandis que les acteurs plus petits risquent d'être exclus du jeu matériel. Pour l'instant, les carnets de chèques sont ouverts et le silicium est chaud.

Vedettes