/
Blog
·8 min de lecture

De 0,03g à 4g de CO₂ par requête IA : pourquoi les estimations varient de 100× — et comment les lire

Google a officiellement divulgué 0,03g CO₂e par requête texte Gemini en 2025. D'autres estimations atteignent 4g. Voici pourquoi cet écart de 100× existe — périmètres d'inférence, amortissement de l'entraînement — et comment documenter votre propre méthodologie.

En août 2025, Google a publié les premières données environnementales officielles par requête pour un grand modèle de langage : 0,03g CO₂e et 0,24 Wh par requête texte médiane sur Gemini. Le même mois, d'autres sources largement citées plaçaient encore les requêtes de type ChatGPT à 1–4g quand l'amortissement de l'entraînement est inclus. L'écart de 100× n'est pas une erreur de mesure — c'est le résultat d'études qui répondent à des questions genuinement différentes. Voici comment les lire.

Suivre ce poste en production →

Envoyez les volumes de tokens vers notre API — mêmes coefficients que cet article. Offre gratuite, sans carte bancaire.

Essayez les outils (mesure)
Estimez le CO₂e à partir des tokens, consultez les coefficients ou affichez les valeurs dans le navigateur — pilier 1 de la série éditoriale.

Le chiffre de référence 2025 : la divulgation officielle de Google Gemini

En août 2025, Google est devenu le premier grand fournisseur d'IA à publier des données environnementales détaillées par requête pour un LLM en production. Selon l'analyse d'Hannah Ritchie et la couverture de CNaught, la requête texte médiane de Gemini a consommé :

  • 0,24 Wh d'énergie
  • 0,03g CO₂e — inférence opérationnelle, mix électrique Google
  • 0,26 ml d'eau

C'est un chiffre inférence uniquement, en méthode marché. Il n'inclut pas l'amortissement de l'entraînement, le carbone incorporé du matériel, ni les impacts Scope 3 amont. Mais c'est le chiffre le plus transparent qu'un grand fournisseur ait jamais publié — et il fixe une borne inférieure utile pour un déploiement à grande échelle bien optimisé.

Pourquoi les estimations atteignent 1–4g : l'amortissement de l'entraînement

L'entraînement de GPT-3 a consommé environ 1 287 MWh et émis ~552 tonnes de CO₂e (Patterson et al., 2021). Si l'on répartit ce coût sur toutes les requêtes d'inférence pendant la durée de vie opérationnelle du modèle, la contribution de l'entraînement seule peut atteindre 1–2g par requête selon le volume supposé et la durée de vie. En ajoutant l'électricité d'inférence, on arrive à la fourchette de 2–4g citée dans les études de cycle de vie.

La distinction clé : carbone opérationnel par requête (ce que le fournisseur paie en électricité aujourd'hui) vs. carbone cycle de vie complet (incluant le coût irrécupérable de l'entraînement). Les deux sont défendables selon votre périmètre de reporting. Mélanger les deux sans étiquetage, c'est la recette des titres trompeurs.

La taille du modèle : de 0,18g à 15g pour la même tâche

Une ACV comparative publiée dans Scientific Reports (2024) a analysé Gemma-2B-it et Llama-3-70B sur des tâches identiques dans le même data center américain :

  • Gemma-2B-it : 0,00024 kWh, 0,18g CO₂e pour 500 mots
  • Llama-3-70B : 0,020 kWh, 15g CO₂e pour 500 mots

Soit un facteur 83× entre un petit et un grand modèle sur la même tâche — avant même toute différence d'intensité carbone du réseau électrique. Le choix du modèle est une décision carbone.

Suivre ce poste en production →

Envoyez les volumes de tokens vers notre API — mêmes coefficients que cet article. Offre gratuite, sans carte bancaire.

Modèles de raisonnement : certains prompts génèrent 50× plus de CO₂

Une étude Frontiers de juin 2025 comparant 14 LLMs a constaté que les questions complexes génèrent jusqu'à 50× plus de CO₂ que les questions simples. Le mécanisme : les modèles de raisonnement génèrent en moyenne 543,5 tokens de « réflexion » par question avant de produire une réponse, contre 37,7 pour les modèles concis. Chaque token supplémentaire signifie plus de calcul et plus de CO₂.

L'étude a également mis en évidence un arbitrage précision–durabilité clair : « Aucun des modèles qui maintenait ses émissions sous 500g CO₂e n'a atteint plus de 80 % de précision sur 1 000 questions. » Ce type de donnée appartient à la décision de sélection du modèle d'une équipe produit, pas seulement à un article académique.

L'intensité carbone du réseau : un facteur 2–10× supplémentaire

Le même workload GPU émet des quantités différentes de CO₂e selon l'heure et le lieu d'exécution. Un data center en France (réseau nucléaire, ~50g CO₂e/kWh) vs un en Pologne (charbon, ~700g CO₂e/kWh) produit un facteur 14× pour une inférence identique. Au sein d'une même région, l'intensité carbone varie de plus de 40% entre le jour et la nuit selon la production solaire et éolienne. C'est pourquoi l'ordonnancement carbone-conscient (exécuter les traitements batch de nuit ou dans des régions plus vertes) peut réduire les émissions de jusqu'à 47% sans changer une ligne de code de modèle.

Ce qui est inclus dans « une requête » — les quatre couches

Toute estimation crédible doit indiquer lesquelles de ces couches elle inclut :

CoucheCe qu'elle couvreOrdre de grandeur
Électricité d'inférencePuissance GPU × durée × intensité réseau0,03–0,5g CO₂e
Entraînement amortiCO₂ entraînement ÷ requêtes sur la durée de vie0,1–2g CO₂e
Matériel incorporéCO₂ fabrication GPU ÷ durée de service0,01–0,3g CO₂e
Overhead data centerFacteur PUE, refroidissement, réseau+20–50% sur l'électricité GPU

Le 0,03g de Google correspond principalement à la première couche (électricité d'inférence à leur mix réseau). Les chiffres de 2–4g incluent généralement les couches 1 à 3, parfois avec des hypothèses conservatrices sur le volume d'entraînement.

Comment documenter votre propre périmètre pour le CSRD / Scope 3

Pour les équipes produit et développement durable, l'enjeu n'est pas de trouver le « bon » chiffre — c'est de déclarer et documenter votre périmètre de manière cohérente. L'ESRS E1-6 exige que les émissions Scope 3 issues des « services de cloud computing et de centres de données achetés » soient déclarées en sous-catégorie de la catégorie amont 1 lorsqu'elles sont significatives. Les auditeurs demanderont :

  • À quel modèle et fournisseur le coefficient s'applique-t-il ?
  • Inclut-il l'amortissement de l'entraînement ? Le carbone incorporé du matériel ?
  • Quelle est la source du coefficient (mesuré, benchmarké, estimé) ?
  • Quelle est la période de reporting et le volume de tokens de référence ?

Les travaux publiés et les ACV publiques convergent de plus en plus vers des méthodes transparentes et reproductibles plutôt que vers des grammes en titre. La direction est claire : davantage de fournisseurs publieront des données par requête comme Google l'a fait, plus d'outillage pour capturer les tokens au niveau de l'appel API, et plus d'auditeurs exigeant des notes de méthodologie documentées.

Ce que fait carbon-llm

Notre endpoint /api/v1/estimate utilise des coefficients opérationnels dérivés des tokens avec des sources traçables, des étiquettes de confiance (mesuré / benchmarké / estimé) et des périmètres explicites — pour que vous puissiez expliquer le chiffre dans une note de méthodologie, pas seulement l'afficher dans un tableau de bord. La méthodologie complète décrit la dérivation des coefficients et le système de niveaux.

Sources et lectures complémentaires

Les pages externes sont indépendantes ; carbon-llm n’approuve pas et ne contrôle pas le contenu tiers.

Avertissement. Les chiffres présentés sont des modèles indicatifs, pas des relevés de compteurs. Utilisez-les pour la sensibilisation, la priorisation et le support à la déclaration — pas en substitution de votre propre analyse de matérialité et de votre revue juridique. Les coefficients évoluent avec les modèles et les réseaux ; versionnez toujours votre source.

Quelle IA tourne dans votre boîte ?

Installez l'extension carbon-llm. Tableau de bord perso pour chaque collaborateur, vue d'ensemble pour la direction.

Gratuit pendant la phase d'accès anticipé. Aucun prompt n'est lu, uniquement les compteurs de tokens et le modèle. Désinstallable en un clic.