/
Blog
·11 min de lecture

AI Index 2026 — 10 chiffres carbone LLM à connaître pour le reporting CSRD

Stanford HAI a publié son AI Index 2026 (avril) avec un chapitre dédié à l'empreinte environnementale de l'IA. Grok 4 = 72 816 t CO₂e, DeepSeek v3 = 597 t (efficacité), 29,6 GW de puissance datacenter (= New York), 1,3-1,6 M m³ d'eau pour GPT-4o. Ce qu'un RSE doit en retenir avant Wave 2 FY 2027.

Le rapport AI Index 2026 publié par le Stanford Institute for Human-Centered AI (avril 2026) consacre un chapitre entier à l’empreinte environnementale de l’IA. Pour les RSE, DAF et DSI qui préparent le reporting CSRD Wave 2 (FY 2027), ce rapport est désormais la source de référence neutre — ni vendeur, ni ONG. Voici les 10 chiffres à retenir, traduits en termes Scope 3 et ESRS E1-6.

Suivre cela en production →

Envoyez les volumes de tokens vers notre API — mêmes coefficients que cet article. Offre gratuite, sans carte bancaire.

1. Grok 4 — record absolu d'émissions de training : 72 816 tonnes CO₂e

L'entraînement de Grok 4 (xAI, 2025) a généré environ 72 816 tonnes de CO₂ équivalent selon la figure 1.4.3 du rapport Stanford. Pour mettre cela en perspective :

  • ~1 156 foisles émissions à vie complète d'une voiture moyenne (carburant inclus, 63 t)
  • ~13 200 ansde vie d'un humain moyen mondial (5,51 t/an)
  • ~73 600 vols New York ↔ San Francisco aller simple, 1 passager (0,99 t)
  • Équivalent annuel d'une ville de ~17 000 voitures américaines

Ce coût d'entraînement n'est pas comptabilisé dans le Scope 3 du clientqui consomme l'API : il appartient à xAI. Mais il sert d'ancre exécutive pour comparer la trajectoire vs efficacité.

2. DeepSeek v3 — 597 tonnes : la preuve qu'efficacité ≠ taille

Avec un modèle MoE de 671 milliards de paramètres totaux, DeepSeek v3 (2024) a été entraîné pour 597 tonnes CO₂e. Comparé à Llama 3.1 405B (8 930 t) et GPT-4 (5 184 t) qui sont d'échelle architecturale comparable, c'est un facteur 9 à 15× moins de carbone. La différence vient de l'architecture MoE (37 milliards de paramètres actifs seulement par token), de l'efficacité du training (FP8, no-loss), et de la durée optimisée. Argument net pour les acheteurs : le bigger ≠ dirtier est faux si le fournisseur en fait un objectif explicite.

3. Inférence : DeepSeek V3.2 Exp consomme 23,24 Wh par requête médium

La figure 1.4.5 du rapport présente le benchmark Jegham et al. 2025 sur 30 modèles frontière, avec un prompt médium (1 000 tokens en entrée + 1 000 en sortie). Top 5 par énergie consommée :

ModèleWh / promptgCO₂e / prompt
DeepSeek V3.2 Exp23,2413,95
DeepSeek V3.223,1313,88
GPT-5 (high)21,857,43
o3-pro21,777,40
Grok 414,905,07
Claude 4 Opus5,131,60
Mistral Medium 31,52

Convention : g/1k tokens = gCO₂e_prompt ÷ 2 (1k in + 1k out). Tous ces coefficients sont publiés sur /llm-co2-benchmark.

4. Mistral Medium 3 — flagship le plus sobre du benchmark : 1,52 g CO₂e

Avec 1,52 gCO₂e par prompt médium (~0,76 g/1k tokens), Mistral Medium 3 ressort comme le flagship le plus sobre du panel Stanford. Argument fort pour les acheteurs européens qui veulent combiner souveraineté (hébergement EU) et frugalité — sans renoncer à la performance flagship-class. Le LCA Mistral × Carbone 4 / ADEME (2025) reste la mesure la plus documentée méthodologiquement parmi les vendors LLM.

5. 29,6 GW : la puissance datacenter IA mondiale fin 2025

La capacité totale des datacenters IA atteint 29,6 gigawattsau Q4 2025 (figure 1.2.4) — soit l'équivalent de la consommation crête de l'État de New York en pleine canicule. Sur ces 29,6 GW :

  • 11,82 GW de TDP chips (NVIDIA H100/B200, Google TPU v5e, AMD MI300X)
  • 17,74 GW de cooling, networking, alimentation et autres infrastructures (multiplicateur ×2,5)

Cette empreinte n'est plus marginale : à l'échelle macro, elle dépasse la consommation nationale de Suisse ou d'Autriche, et environ la moitié de celle du minage de Bitcoin.

6. GPT-4o annual water inference : 1,31 à 1,58 million de m³

Au-delà du carbone, la figure 1.4.8 du rapport documente la consommation d'eau annuelle de l'inférence GPT-4oà 1,31–1,58 million de kL — l'équivalent au plafond haut des besoins en eau potable annuels de 1,2 million de personnes (US average, 2 500 L/an/personne). Ce chiffre passe désormais dans les questionnaires CDP Climate Change C7 et ESRS E3 (water).

7. La charge de l'inférence dépasse celle du training à l'échelle agrégée

Le rapport l'assume explicitement : « Once a model is deployed at scale, the cumulative energy required to serve queries can exceed the one-time cost of training within months. »Pour ChatGPT (300+ millions d'utilisateurs hebdomadaires fin 2024, 800 M en 2025), l'empreinte d'inférence est désormais l'essentiel. Concrètement, pour un acheteur RSE : la ligne Scope 3 « API LLM » va peser plus que ce que le fournisseur a admis en training.

8. Adoption GenAI mondiale : 53 % de la population en 3 ans

L'adoption GenAI grand public a atteint 53 % de la population mondiale en 3 ans— plus rapide que le PC ou Internet. Côté entreprises, le taux d'adoption atteint 88 %. Conséquence directe : tout RSE qui n'a pas de ligne « IA générative » dans son inventaire 2026 a un trou matériel à expliquer en commission climat.

9. Foundation Model Transparency Index : 40 / 100 (en baisse de 58)

L'indice de transparence des fournisseurs de modèles a chuté de 58 à 40 sur 100 en un an. Les modèles les plus capables sont ceux qui publient le moins (training compute, dataset size, parameter count, énergie). Pour les acheteurs sous CSRD : il faut compter sur des benchmarks tiers (Stanford AI Index, Jegham et al.) plutôt que sur les déclarations vendor — exactement ce que carbon-llm fait dans sa méthodologie avec le label benchmarked.

10. Le gap US ↔ Chine sur la performance modèle est tombé à 2,7 %

DeepSeek V3.2, Qwen Max, Kimi K2 ont rattrapé le top OpenAI / Anthropic. Conséquence pour le carbone : les modèles chinois tournent sur le mix électrique CN (~555 g CO₂e/kWh) — environ 1,6× plus carboné que le mix US (~350 g/kWh) ou EU. Si vous optez pour DeepSeek V3.2, votre Scope 3 Cat. 1 prend une pénalité grid mécanique. À documenter dans la section data quality / uncertainty de votre disclosure ESRS E1-6.

Comment intégrer ces chiffres dans votre reporting CSRD ?

Trois étapes pratiques pour transformer ces chiffres macro en datapoint ESRS E1-6 :

  1. Activité par modèle. Comptez vos tokens consommés par modèle et par filiale / business unit (équivalent tenant_id). carbon-llm le fait par API ou via import CSV.
  2. Coefficient AI Index 2026.Multipliez par le facteur d'émission publié dans le rapport — utilisez les coefficients carbon-llm qui sont déjà alignés Stanford 2026.
  3. Export ESRS E1-6 structuré. Le datapoint E1-6_03_gross_scope_3_t_co2e agrège tout, avec un niveau de granularité par modèle et par tenant pour le tagging XBRL ESEF.

Vous préparez votre CSRD Wave 2 (FY 2027) avec une ligne IA générative ?

Tous les coefficients AI Index 2026 sont intégrés dans carbon-llm. L'export ESRS E1-6 structuré (Pro) produit un JSON prêt pour le tagging XBRL ESEF, avec preuve de reproductibilité signée HMAC.

Sources et lectures complémentaires

Les pages externes sont indépendantes ; carbon-llm n’approuve pas et ne contrôle pas le contenu tiers.