/
Blog
·10 min de lecture

0,03 vs 1,14 vs 4,32 gCO₂e par prompt : pourquoi les chiffres LLM divergent (et lequel mettre dans votre rapport ESRS)

Google Gemini affiche 0,03 gCO₂e par prompt médian. Mistral Large 2 publie 1,14 gCO₂e. ChatGPT GPT-4 atteint 4,32 gCO₂e selon Piktochart. Facteur 140 entre les extrêmes — légitime parce que les périmètres diffèrent. Lecture méthodo des trois rapports, harmonisation au facteur 5-7, et règles d'écriture du chiffre dans CSRD.

Trois chiffres se promènent sur LinkedIn cette saison : 0,03 gCO₂e par prompt (Google Gemini, août 2025), 1,14 gCO₂e (Mistral Large 2, juillet 2025), 4,32 gCO₂e (ChatGPT, Piktochart). Un facteur 140 entre les deux extrêmespour la même tâche. Ce n'est ni un bug ni du greenwashing : les trois chiffres sont calculés sur des bases différentes, et un acheteur RSE doit comprendre ces bases avant de signer un appel d'offres ou un rapport ESRS E1.

Suivre ce poste en production →

Envoyez les volumes de tokens vers notre API — mêmes coefficients que cet article. Offre gratuite, sans carte bancaire.

Les trois chiffres et leur méthodologie réelle

Reprenons sans bullet point marketing. Voici ce que chaque source a réellement mesuré.

SourceChiffrePérimètre réelMéthode
Google Gemini, août 20250,03 gCO₂e / prompt médianInférence uniquement, TPU/GPU actifs, prompt médian (longueur non publiée), grid mix Google au moment du calcul (carbon-free energy à 64 % en 2024).Méthodologie publiée mais non auditée par tiers ; exclut explicitement le coût amorti du training et l'empreinte de l'embodied carbon des GPU.
Mistral Large 2, juillet 20251,14 gCO₂e / prompt 400 tokensLCA complète ISO 14040/44 sur 18 mois d'exploitation : training (123 Md paramètres) + inférence + manufacturing GPU, location-based grid France 2024.Audit par Carbone 4, ADEME et revue indépendante Resilio + Hubblo. Publié dans Base Empreinte ADEME.
Piktochart (ChatGPT GPT-4)4,32 gCO₂e / requêteInférence GPT-4 estimée par chercheurs tiers, grid US moyenne (~0,4 kgCO₂e/kWh).Pas de méthodologie publique d'OpenAI ; extrapolation depuis taille du modèle, latence et power draw des A100/H100.

Lue avec ce périmètre, la divergence devient lisible : Gemini ne compte que l'inférence active sur infrastructure ultra-propre ; Mistral compte tout, y compris l'amortissement training ; Piktochart extrapole sans collaboration du vendeur. Trois chiffres, trois questions différentes.

Le « training amortization » : la variable qui fait tout basculer

Mistral Large 2 a coûté ~20,4 kt CO₂e cumulés sur 18 mois (training + inférence). Le rapport attribue 85,5 % de ces émissions au training, soit ~17,4 kt CO₂e. Cette empreinte est ensuite amortiesur le volume d'inférence pendant la durée de vie commerciale du modèle. L'hypothèse de durée de vie change tout : amortir sur 12 mois divise par 2 le poids par requête par rapport à un amorti sur 24 mois.

Google a explicitement sortile training du périmètre par prompt. Mistral l'a explicitement inclus. Aucun des deux n'a tort ; ils répondent à deux questions différentes : « combien coûte une requête en compute pur ? » vs « combien coûte une requête en empreinte LCA ? ». L'ESRS E1-6 réclame plutôt la seconde — voir notre comparatif token-based vs hardware-based.

Le facteur 7,3 entre les deux chiffres « officiels »

Si on harmonise — Gemini avec training inclus à ~0,22 gCO₂e (en projetant les 33× d'efficacité gain annoncés et l'amortissement), Mistral à 1,14 gCO₂e — on reste à un facteur 5 à 7. Trois explications restantes :

  • Taille du modèle : Gemini 2.5 Flash est plus petit que Mistral Large 2 (123 Md paramètres). Le rapport Mistral confirme la corrélation linéaire : modèle 10× plus gros = empreinte 10× plus grosse pour le même nombre de tokens générés.
  • Grid mix : Mistral utilise une approche location-based moyenne France ; Google utilise un mix carbon-free 64 %. Un kWh sur le grid français nucléaire émet ~50 gCO₂/kWh ; le mix Google opérationnel est sans doute plus proche de ~150-200 gCO₂/kWh malgré les PPA renouvelables, mais Google compense partiellement.
  • PUE et infra : Google a un PUE moyen 1,10 ; les datacenters cloud génériques sont à 1,57 selon Uptime Institute. Sur un même kWh IT, ça change tout.

OpenAI et Anthropic : ce que dit le silence

Anthropic et OpenAI n'ont publié aucune méthodologie par modèleau moment de la rédaction. Sam Altman a glissé « 0,32 mL d'eau par requête ChatGPT » dans un blog post — pas de méthodologie attachée, pas de périmètre, pas de revue. Anthropic affiche un partenariat avec des cloud providers « renouvelables ». C'est une posture commerciale, pas une donnée auditable.

Conséquence concrète : si vous êtes acheteur d'une API OpenAI ou Anthropic pour un usage production, vous ne disposez pas de donnée vendeur pour votre annexe ESRS E1. Vous devez vous rabattre sur :

  • des estimations tierces (Jegham 2025, Epoch AI, Hugging Face emissions factors) — c'est ce que fait notre méthodologie ;
  • un tracking interne par tokens et par modèle, pour qu'au moment où OpenAI publiera son rapport AI Office (août 2026, voir l'article 55 AI Act), vous puissiez recalculer en un export sans avoir à reconstruire l'historique.

Tableau de décision pour acheteurs et RSE

Quel chiffre utiliser dans votre rapport ? Réponse pragmatique :

  • Si vous reportez sous ESRS E1-6 avec audit limited assurance : utilisez Mistral 1,14 g pour les modèles Mistral, Google 0,03 g pour Gemini (avec note de bas de page sur périmètre training), et coefficients Jegham 2025 pour OpenAI/Anthropic. Documentez la divergence dans la section méthodologie.
  • Si vous communiquez publiquement (rapport ESG) : publiez un range avec haut et bas — ne donnez jamais une valeur unique sans intervalle. Lisez notre guide sur les allégations responsables.
  • Si vous optimisez en interne (FinOps + GreenOps) : basez-vous sur les ratios relatifs, pas absolus. Le facteur taille modèle est plus robuste que la valeur absolue ; passer d'Opus à Sonnet 4.6 ou de GPT-4o à GPT-4o-mini divise par ~5 l'empreinte de toute façon — voir notre comparatif de modèles.

Le vrai défi : comparer pommes et pommes

La proposition de Mistral pour résoudre la divergence est intéressante : trois métriques normalisées que toute l'industrie devrait publier :

  1. impact absolu du training (kt CO₂e + m³ d'eau + kg matériaux) ;
  2. impact par requête d'inférence (gCO₂e / 400 tokens, périmètre LCA) ;
  3. ratio inférence/lifecycle total à un instant t.

Ce triplet rend la comparaison vendeur par vendeur possible. L'AI Act article 55 ne va pas aussi loin (il demande l'énergie connue ou estimée du training uniquement), mais l'AFNOR Frugal AI et le futur Code of Practice GPAI pourraient pousser la convention vers cette normalisation. Notre vue : c'est la bonne direction, et nous publions notre méthodologie dans ce format dès aujourd'hui.

Verdict opérationnel

Tant qu'OpenAI et Anthropic ne publient pas leur rapport AI Office (premier dépôt prévu après août 2026), il est impossible d'avoir un chiffre vendeur-comparable pour ces deux fournisseurs. La bonne hygiène 2026 : trackez tous vos appels LLM par modèle, par tenant, avec signature ; produisez vos chiffres avec une méthodologie publique ; mettez à jour dès que les vendeurs publient.

Pour passer à l'action : démarrez le tracking gratuit via notre extension Chrome/Firefox (mesure côté navigateur), ou via l'API si vous êtes côté serveur. Les deux écrivent dans le même dashboard ISV avec exports CSV/JSON, périmètre et méthodologie documentés.

Sources et lectures complémentaires

Les pages externes sont indépendantes ; carbon-llm n’approuve pas et ne contrôle pas le contenu tiers.

Quelle IA tourne dans votre boîte ?

Installez l'extension carbon-llm. Tableau de bord perso pour chaque collaborateur, vue d'ensemble pour la direction.

Gratuit pendant la phase d'accès anticipé. Aucun prompt n'est lu, uniquement les compteurs de tokens et le modèle. Désinstallable en un clic.