Méthodologie de calcul CO₂

Comment nous calculons l'empreinte carbone de vos appels LLM — de manière transparente et traçable.

Vous utilisez l' extension navigateur ? Consultez vos agrégats locaux sur le tableau de bord sobriété (mêmes coefficients ; aucun texte de prompt envoyé à nos serveurs). Citations principales : index des sources.

Version de la méthodologie2026.03.1·53 coefficients de modèles (+ facteur par défaut pour les modèles inconnus)

Périmètre de mesure — ce qu'on peut, ce qu'on modélise, ce qu'on ne voit pas

Tous les usages d'IA générative ne sont pas mesurables avec la même précision. Voici la grille honnête, par flux. Cette section sert de référence pour les autres pages du site (les claims commerciaux y pointent).

✓ Mesuré	◐ Modélisé (estimation)	✗ Hors portée aujourd'hui
API REST (votre code) Vous appelez OpenAI / Anthropic / Mistral / Azure OpenAI Service / Vertex AI / xAI depuis votre backend, et envoyez `POST /v1/track`après chaque réponse. Tokens exacts du `usage` du provider.	Microsoft 365 Copilot Office desktop Word, Excel, Teams, Outlook desktop : Microsoft Graph Reports API expose utilisateurs actifs et nombre d'interactions, mais pas les tokens. On modélise depuis actifs × profil moyen tokens / utilisateur / jour.	Comptes consumer ChatGPT Plus / Claude Pro Sans clé API entreprise et sans extension installée : aucun moyen d'accéder aux tokens consommés par un compte personnel.
Extension Chrome & Firefox Web UIs uniquement : `chatgpt.com`, `claude.ai`, `copilot.microsoft.com`, `gemini.google.com`, `mistral.ai`. Détection live du nombre de tokens depuis la réponse rendue.	Apps desktop natives sans extension ChatGPT desktop, Claude Desktop, agents installés sur poste : ne tournent pas dans le navigateur, l'extension ne les voit pas. Modélisation possible depuis nb d'utilisateurs × usage moyen.	IDE plugins natifs sans MCP Cursor, Continue, autocompletion VS Code Copilot non instrumentée : opaque sauf si votre clé API entreprise est branchée séparément ou que vous utilisez notre serveur MCP côté Claude Code.
Bulk import CSV Vous exportez un CSV depuis votre console provider (OpenAI, Mistral, Vertex AI billing, Azure cost management) et l'uploadez. Tokens exacts, sans transit de prompts.	Modèle inconnu (fallback) Si votre slug de modèle n'est pas dans notre catalogue (70+ modèles), on applique un coefficient par défaut `0.30 g / 1k tokens` (classe GPT-4) avec confiance « estimated » et flag explicite dans la réponse.	Mobile apps consumer ChatGPT iOS/Android, Claude mobile, Mistral app : aucune API publique pour accéder aux tokens d'un compte personnel.
Pont LLM local (`local-llm-bridge`) Ollama, LM Studio, OpenAI-compat self-hosted : un proxy Node.js installé à côté de votre LLM transmet les métadonnées d'usage (modèle, tokens) à `/v1/track`. Voir Installation.	Connecteurs auto admin (à venir T3 2026) Pull quotidien depuis OpenAI Admin API, Anthropic Admin API, Azure Cost Management, Vertex AI billing — donne tokens agrégés par clé API entreprise, pas par utilisateur. Pas pour M365 Copilot (Microsoft ne le permet pas).	Local LLM sans bridge installé Si vos employés font tourner un Ollama / LM Studio / llama.cpp en local sans notre bridge, on ne le voit pas. Le bridge couvre le cas mais reste à installer manuellement.

À propos de M365 Copilotspécifiquement : Microsoft ne fournit pas, à date, d'API qui retourne les tokens consommés par utilisateur ou par requête. Les API getMicrosoft365CopilotUsageUserDetail et getMicrosoft365CopilotUsageUserCounts du Microsoft Graph exposent utilisateurs actifs et interactions, jamais les tokens. La seule mesure directe possible aujourd'hui passe par l'extension navigateur sur copilot.microsoft.com. Pour les usages dans Word, Excel, Teams ou Outlook desktop, c'est de la modélisation.

À propos d'Azure OpenAI Service : c'est différent de M365 Copilot. Si votre DSI déploie son propre GPT-4o sur sa souscription Azure pour des applications maison, alors oui, vous pouvez instrumenter chaque appel via /v1/track— vos applications font les appels, donc vous voyez les tokens. M365 Copilot lui tourne sur l'infra Microsoft managée, vous ne voyez rien.

Check-list rapide pour l'audit

Ce que votre commissaire aux comptes doit pouvoir vérifier à partir d'un seul export.

• Formule reproductible à partir des données d'activité : tokens × coefficient.
• Source du coefficient et niveau de confiance visibles par modèle (Mesuré / Benchmarké / Estimé).
• Version de la méthodologie figée dans les rapports pour le suivi des évolutions mensuelles.
• Hypothèses et incertitudes clairement listées (modèle inconnu par défaut, variabilité réseau/PUE, périmètres ACV).
• Énoncé de périmètre explicite : estimation traçable pour le reporting, ne constitue pas un avis juridique ni d'assurance.

Notre méthodologie : des tokens aux gCO₂e

Nous faisons le pont entre les métadonnées d'usage LLM et l'impact environnemental via un prisme de validation à trois niveaux — pour que les équipes RSE et ingénierie puissent s'appuyer sur la traçabilité derrière les chiffres.

Coefficients sourcés

Nous utilisons l'ACV Mistral 2025, les divulgations Google Cloud sur l'inférence, des benchmarks d'inférence avec relecture par les pairs (Ni et al., Frontiers 2025), et un étiquetage clair « Mesuré » / « Benchmarké » / « Estimé ».

Contexte d'infrastructure

Notre méthodologie prend en compte le contexte du datacenter lorsque la littérature le permet — y compris l'efficience énergétique (PUE) — en s'appuyant sur les travaux de Gravity Climate 2025 pour les modèles de classe OpenAI et Anthropic lorsqu'une estimation est requise.

Intensité carbone

Nous appliquons les facteurs d'intensité carbone réseau (gCO₂e par kWh) réels ou moyens, alignés avec les régions principales d'hébergement du modèle, pour construire ou valider les coefficients.

E = (T_total × C_modèle) × CI_réseau

E = émissions (gCO₂e) ; T = tokens ; C = coût énergétique par token ; CI_réseau = intensité carbone réseau (gCO₂e/kWh).

Dans l'API actuelle (v6)

Les endpoints /track et /estimate en production appliquent un coefficient consolidé par modèle — grammes de CO₂e pour 1 000 tokens — cohérent avec les sources ci-dessus. Le PUE, l'intensité régionale du réseau et les effets réseau sont reflétés dans la littérature derrière ces facteurs lorsque c'est pertinent, plutôt que sous forme de multiplicateurs séparés à l'exécution. Les réponses restent ainsi rapides, auditables et faciles à intégrer pour les ISV (multi-tenant via tenant_id).

Extension navigateur : comptage des tokens

Lorsque le fournisseur inclut usage dans la réponse de l'API (par exemple les tokens de style OpenAI, les input/output tokens Anthropic, les métadonnées d'usage Gemini), nous utilisons ces compteurs remontés par le fournisseur. Si usage est absent du flux, nous estimons à partir du corps de requête (~4 caractères par token) avec une heuristique déterministe de complétion — ou, pour certaines interfaces web, à partir du texte visible (DOM). Ces fallbacks ne sont pas aléatoires. L'interface de l'extension indique le cas qui s'applique.

ISO 14067 / GHG Protocol / ESRS E1-6 / IFRS S2 — alignement

Comment carbon-llm s'articule avec les inventaires GES reconnus mondialement — et la matrice de correspondance sur laquelle une équipe achats / commissariat peut s'appuyer.

Standards de référence

· ISO 14067:2018 — empreinte carbone produit (PCF) : sections goal & scope, system boundaries, data quality, allocation, uncertainty sont nommées dans cette page.
· ISO 14064-1:2018 — inventaire GES organisationnel : exports tenant_id agrégeables au périmètre.
· GHG Protocol Scope 3 Cat. 1 — inférence achetée en API (ou Cat. 11 si LLM intégré dans un produit revendu).
· ESRS E1-6 (CSRD) — datapoints structurés gross_scope_3_t_co2e, methodology, data_quality, uncertainty_qualitative, intensity_metric.
· IFRS S2 / TCFD — climate-related metrics référençables dans la section Metrics & Targets.
· CDP Climate Change — sections C6 / C7 pré-remplies (Pro).
· SBTi-ready — cibles near-term + alertes de dérive (Pro).

Voir le crosswalk complet : /methodology/standards.

ESRS E1 (divulgations climatiques européennes) s'appuie sur le GHG Protocol pour les Scopes 1 à 3. Le Scope 3 est souvent matériel pour les services logiciels et les services achetés ; la catégorie exacte pour les API LLM (biens et services achetés vs. autres catégories de chaîne de valeur) dépend de vos contrats et de votre périmètre — à confirmer avec votre conseil RSE.

Intensité : reporter le total en gCO₂e et une intensité telle que g CO₂e pour 1 000 tokens permet la comparaison période sur période et s'aligne avec la manière dont les équipes orientées CSRD discutent l'intensité GHG aux côtés des émissions absolues.

Dossier de preuves : exports CSV, rapports PDF, coefficients par modèle et libellés de confiance (Mesuré / Benchmarké / Estimé) documentent formules et sources pour la revue — cohérent avec les attentes sur les données d'activité traçables et les hypothèses sous assurance.

Recherche : à grande échelle, l'inférence peut dominer les impacts cycle de vie pour les modèles largement utilisés ; voir par ex. Jegham et al., How Hungry is AI? (arXiv:2505.09598v5). Les travaux académiques discutent également l'énergie par token et l'efficacité d'inférence — complémentaire aux benchmarks orientés précision uniquement. Nos coefficients sont des facteurs agrégés, pas des relevés watt-mètre par requête.

Réduction côté demande : prompts et tokens

Les facteurs côté offre (coefficients modèles, réseaux, PUE) définissent la courbe ; les choix produit vous y déplacent.

Moins de tokens, moins d'énergie d'inférence. Des prompts plus courts, des instructions système resserrées et des budgets de complétion réduits font baisser le total prompt_tokens + completion_tokens — les quantités que notre API et notre extension multiplient par les coefficients modèles. C'est le même levier que les ateliers enseignent sous le slogan « optimiser les prompts pour réduire coût et carbone ».

Router vs. raccourcir. Déplacer du trafic d'un modèle à forte intensité vers un tier efficace modifie les grammes CO₂e pour 1k tokens ; compresser les sorties modifie le nombre de milliers consommés. Les « insights reporting » du tableau de bord montrent la part agrégée de complétion — des générations anormalement longues expliquent souvent les pics avant le mix modèle.

Ce que nous ne prétendons pas. Nous n'envoyons pas le texte des prompts vers nos serveurs pour l'estimation ; nous comptons les métadonnées que vous avez déjà. Les API tierces d'optimisation de prompts sont un workflow optionnel hors carbon-llm — utilisez-les si elles correspondent à votre modèle de gouvernance.

À retenir : traitez les estimations par lot et les exports CSV comme la trace de preuve ; traitez l'hygiène des prompts comme une politique d'ingénierie — les deux apparaissent dans les narratifs d'intensité de type CSRD.

Coefficients par tokens vs. modèles temporels

Comment carbon-llm se positionne par rapport aux modèles énergétiques hybrides que vous pouvez croiser dans d'autres outils RSE pour l'IA.

Ce que nous livrons. Les estimations publiques utilisent des grammes CO₂e pour 1 000 tokens traçables, issus de la littérature et des divulgations, appliqués aux comptages de tokens du fournisseur — reproductibles à partir des données d'activité, sans chronomètre mural ni télémétrie GPU sur votre poste.

Autres outils. Certaines extensions et prototypes de recherche ajoutent des voies basées sur la durée ou hybrides (déduisant des watts à partir du timing de session et d'hypothèses matérielles, parfois combinés aux tokens). Les résultats peuvent diverger matériellement pour le même chat — des a priori différents, pas nécessairement faux — raison pour laquelle nous nous ancrons sur des coefficients que vous pouvez citer à côté des factures et des journaux de tokens.

Pour une lecture externe sur la modélisation centrée tokens (sans validation d'un quelconque produit), voir par ex. Antarctica — One Token Model.

Électricité, eau, GHG — et votre ligne d'inférence

Le reporting RSE pour l'IA couvre la même physique que les autres charges cloud : énergie, eau de refroidissement et inventaires de gaz à effet de serre à l'échelle de l'entreprise. carbon-llm reste sur la part attribuable depuis la télémétrie produit.

Réseau et datacenters. Les perspectives publiques décrivent une demande électrique mondiale croissante des datacenters à mesure que les charges IA se développent, l'IA représentant selon les prévisions industrielles une fraction grandissante de la puissance totale des datacenters d'ici quelques années. Ces courbes macro ne remplacent pas les compteurs d'inférence par tenant — elles expliquent pourquoi les conseils d'administration demandent à la fois les divulgations d'infrastructure et les preuves d'usage au niveau logiciel.

IEA — Data centres and data transmission networks

Par interaction, pas seulement par puce. Les synthèses de recherche jusqu'en 2023 comparaient l'énergie indicative par requête de type IA générative à une recherche web classique — même ordre de grandeur que les modèles de raisonnement riches en tokens d'aujourd'hui : de petits choix d'interface changent les wattheures. Nos coefficients sont des gCO₂e agrégés par token, pas un wattmètre sur chaque socket.

Eau et GHG opérateurs. Les grands opérateurs détaillent désormais l'eau de refroidissement des datacenters, la rareté hydrique des bassins et les GHG Scope 1 à 3 aux côtés de l'électricité dans les rapports RSE annuels. Le Stanford AI Index 2026 estime la consommation d'eau annuelle pour l'inférence GPT-4o entre 1,31 et 1,58 million de kL — soit l'équivalent des besoins annuels en eau potable d'environ 1,2 million de personnes dans la fourchette haute. Cela est majoritairement en amont de votre application — votre récit produit récurrent reste l'inférence avec vos clients, répétée à chaque appel.

Entraînement vs. usage. Les éditeurs de modèles et les benchmarks tiers couvrent l'énergie et le CO₂e ponctuels d'entraînement pour les releases phares : le Stanford AI Index 2026 (Fig. 1.4.3) rapporte Grok 4 ≈ 72 816 t CO₂e entraîné en 2025 (le plus élevé déclaré à ce jour — environ 1 156× les émissions cycle de vie d'une voiture), contre DeepSeek v3 ≈ 597 t pour un modèle d'échelle comparable — montrant que plus gros ne signifie pas toujours plus polluant. carbon-llm ne remplace pas ces divulgations — nous estimons l'inférence à partir des comptages de tokens que votre intégration reçoit déjà, tandis que /llm-co2-benchmark et les tableaux de données méthodologiques exposent le contexte côté entraînement pour les comités de direction.

Échelle de la puissance des datacenters. La capacité de puissance totale des datacenters IA a atteint environ 29,6 GW au T4 2025 (AI Index 2026, Fig. 1.2.4) — comparable à la demande électrique de pointe de l'État de New York (~31 GW) — dont environ 11,8 GW de TDP puces et 17,7 GW de refroidissement, mise en réseau et autres infrastructures. Contexte macro pour les présentations exécutives ; la comptabilité par tenant se fait toujours ici.

À retenir : conservez les récits site et portefeuille avec les équipes RSE ; utilisez carbon-llm pour des grammes CO₂e traçables liés à tenant_id, à l'identifiant de modèle et aux tokens, afin que l'ingénierie et les achats parlent le même compteur.

Formule de calcul

Ce que l'API calcule à partir de vos comptages de tokens

CO₂ (gCO₂e) = (tokens_total / 1000) × coefficient_modèle

où tokens_total = prompt_tokens + completion_tokens

Les deux comptages doivent correspondre aux valeurs de votre fournisseur LLM (le champ usage ou équivalent dans la réponse). Voir la section Tokens et usage dans la documentation.

Cela correspond à une comptabilité données d'activité × facteur d'émission, alignée avec le GHG Protocol pour le Scope 3 — catégorie 1 (biens et services achetés). Pour améliorer la précision, le GHG Protocol recommande également de prendre en compte le PUE, l'intensité carbone du réseau et la localisation d'inférence lorsque les données sont disponibles.

Contexte Scope 3 optionnel dans le PDF

Bêta

Cinq champs structurés plus une note optionnelle — ajoutés en annexe d'auto-évaluation lorsque vous passez un paramètre scope3 dans l'URL de téléchargement du PDF.

L'annexe ne décide pas de votre catégorie officielle GHG Protocol : elle documente qui paie les factures API, comment les LLM sont intégrés, ce qui déclenche l'inférence, le modèle commercial et le périmètre de reporting, puis suggère des points de discussion indicatifs(par ex. Scope 3 Catégorie 1 vs 11) pour votre responsable RSE et votre auditeur.

/api/dashboard/reports/pdf?month=YYYY-MM&scope3=<base64url JSON>

Dans le tableau de bord (Rapports), activez Inclure dans l'URL de téléchargement, répondez au questionnaire, puis utilisez Télécharger le PDF — le lien inclut un payload scope3 valide. Les PDF tenant publics prennent en charge le même paramètre : /api/public/tenant-report/<token>/pdf?month=…&scope3=…

Référentiels normatifs

GHG Protocol

Standard mondial de comptabilité des émissions de gaz à effet de serre

ghgprotocol.org

ESRS E1

European Sustainability Reporting Standards — Changement climatique

efrag.org

Scope 3 — Catégorie 1 : les émissions liées aux services LLM tiers relèvent du Scope 3 (émissions indirectes de la chaîne de valeur), catégorie 1 (biens et services achetés).

Coefficients CO₂ par modèle

Mesuré = ACV éditeur ou méthodologie d'inférence publiée par le cloud. Benchmarké = études empiriques d'inférence relues par les pairs / arXiv (protocole fixe). Estimé = facteurs de classe lorsqu'aucune mesure directe n'existe.

Modèle	gCO₂e / 1k tokens	Confiance	Source
gpt-4o	0.37	Benchmarked	Jegham et al. (2025) arXiv:2505.09598v5 — Table 4: GPT-4o (Mar ’25) short prompt 0.423 Wh (100 in / 300 out); × CIF 0.35 kgCO₂e/kWh → ~0.37 g/1k tokens. §5.3 cross-check: Altman Jun 2025 ~0.34 Wh/query. https://arxiv.org/html/2505.09598v5
gpt-4o-mini	0.1	Benchmarked	Ni et al. (2025) arXiv:2505.09598 — mini tier in benchmark suite; efficiency vs GPT-4o per paper tables
gpt-4-turbo	0.35	Estimated	Gravity Climate / Grove AI methodology — no single public per-token measurement; class factor between GPT-4o and legacy GPT-4
gpt-3.5-turbo	0.08	Estimated	HF Open LLM Leaderboard emissions band + Gravity-style factors — OpenAI does not publish per-token CO₂
claude-3-5-sonnet	0.85	Benchmarked	Jegham et al. (2025) arXiv:2505.09598v5 — Table 4: Claude-3.5 Sonnet short prompt 0.973 Wh (100 in / 300 out); × CIF 0.35 → ~0.85 g/1k tokens. Anthropic does not publish per-token CO₂; Dauner et al. Frontiers (2025) doi:10.3389/fcomm.2025.1572947 — complementary. https://arxiv.org/html/2505.09598v5
claude-3-opus	0.45	Benchmarked	Empirical Wh/query literature (e.g. CarbonCredits.com survey of model classes) — converted with representative tokens/query
claude-3-haiku	0.1	Benchmarked	Same empirical tier as Haiku class (~0.10 gCO₂e/query in secondary studies) — normalized to per-1k tokens
mistral-large-2	2.85	Measured	Mistral LCA 2025 (Carbone 4 / ADEME): 1.14 gCO₂e per 400-token inference response → 2.85 g/1k tokens
mistral-small	0.8	Estimated	No vendor LCA for “Small”; Jul 2025 peer-reviewed LCA is Mistral Large 2 (~1.14 gCO₂e/400-token response — mistral.ai/news). Order-of-magnitude vs Large 2; Linkup Deep industry summaries Mar 2026.
mistral-medium	1.2	Estimated	Same as mistral-small — interim factor until vendor publishes per-model inference PCF
gemini-1-5-flash	0.075	Measured	Google Cloud (May 2025): median Gemini Apps text prompt ~0.03 gCO₂e (comprehensive methodology); scaled to per-1k tokens
gemini-1-5-pro	0.12	Measured	Google Cloud AI inference methodology (2025) — fleet median; Pro vs Flash not split in public median → conservative mid-range
gemini-2-0-flash	0.08	Measured	Google Cloud Blog May 2025 — median Gemini Apps text prompt ~0.03 gCO₂e (point-in-time); arXiv:2508.15734 fleet methodology; scaled to g/1k tokens for API. https://cloud.google.com/blog/products/infrastructure/measuring-the-environmental-impact-of-ai-inference/
llama-3-70b	0.25	Benchmarked	Nature Scientific Reports (2024) s41598-024-76682-6 — comparative LLM footprint; Meta training disclosures (Llama 3)
llama-3-8b	0.05	Benchmarked	Hugging Face leaderboard emissions analysis + small-model inference literature — order-of-magnitude benchmark
grok-3	0.38	Estimated	xAI does not publish per-token inference PCF; order-of-magnitude aligned with peer-reviewed GPT-4o-class short-prompt benchmarks (Jegham et al. 2025) until vendor disclosure — Grok web / api.x.ai default.
grok-2	0.28	Estimated	Same methodology as grok-3; lower tier assumption vs flagship — no public vendor LCA
grok-4	2.53	Benchmarked	Stanford AI Index 2026, Fig. 1.4.5/1.4.6 (Jegham et al. 2025) — medium prompt 14.90 Wh / 5.07 gCO₂e per 2k tokens → 2.53 g/1k tokens. Replaces prior 0.45 estimate. https://aiindex.stanford.edu
gpt-5	3.71	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 (Jegham et al. 2025) — GPT-5 (high reasoning) 21.85 Wh / 7.43 gCO₂e per medium prompt → 3.71 g/1k tokens. Default high-reasoning tier; see gpt-5-medium / gpt-5-low for budget tiers.
gpt-5-high	3.71	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 — GPT-5 high reasoning 7.43 gCO₂e / 2k tokens.
gpt-5-medium	2.22	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 — GPT-5 medium reasoning 4.45 gCO₂e / 2k tokens.
gpt-5-low	1.42	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 — GPT-5 low reasoning 2.84 gCO₂e / 2k tokens.
gpt-5-mini	0.8	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 — GPT-5 mini (medium) 1.60 gCO₂e / 2k tokens. Default tier; -high variant 4.58 g/2k → 2.29 g/1k.
gpt-5-mini-high	2.29	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 — GPT-5 mini high reasoning 4.58 gCO₂e / 2k tokens.
gpt-5-nano	1.15	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 — GPT-5 nano (high) 2.29 gCO₂e / 2k tokens.
o3-pro	3.7	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 — o3-pro 21.77 Wh / 7.40 gCO₂e per 2k tokens → 3.70 g/1k tokens. Reasoning model with extended chain-of-thought.
o3-mini-high	1.14	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 — o3-mini (high) 2.28 gCO₂e / 2k tokens.
o4-mini-high	1.07	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 — o4-mini (high) 2.13 gCO₂e / 2k tokens.
claude-4-opus	0.8	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 (Jegham et al. 2025) — Claude 4 Opus 5.13 Wh / 1.60 gCO₂e per 2k tokens → 0.80 g/1k tokens. Lower than GPT-5 family despite flagship status.
claude-4-sonnet	0.65	Estimated	Derived: Sonnet tier sits below Opus in Anthropic naming. Estimate at ~0.81× Claude 4 Opus pending Jegham data point. Anthropic does not publish per-token PCF.
mistral-medium-3	0.76	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 — Mistral Medium 3 1.52 gCO₂e per 2k tokens → 0.76 g/1k tokens. Lowest-emission flagship in Stanford 2026 benchmark.
deepseek-v3-2-exp	6.97	Benchmarked	Stanford AI Index 2026, Fig. 1.4.5/1.4.6 — DeepSeek V3.2 Exp 23.24 Wh / 13.95 gCO₂e per 2k tokens → 6.97 g/1k tokens. Highest in the 2026 benchmark; reasoning chain-of-thought intensive.
deepseek-v3-2	6.94	Benchmarked	Stanford AI Index 2026, Fig. 1.4.5/1.4.6 — DeepSeek V3.2 23.13 Wh / 13.88 gCO₂e per 2k tokens → 6.94 g/1k tokens.
kimi-k2-thinking	1.27	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 — Kimi K2 Thinking 7.65 Wh / 2.54 gCO₂e per 2k tokens → 1.27 g/1k tokens. Moonshot AI flagship reasoning variant.
llama-3-1-405b-standard	4.5	Benchmarked	Stanford AI Index 2026, Fig. 1.4.5 — Llama 3.1 405B Standard 9.00 Wh per 2k tokens × 0.35 kgCO₂e/kWh → 4.50 g/1k tokens. Compare with latency-optimised variant.
llama-3-1-405b-latency-optimized	1.5	Benchmarked	Stanford AI Index 2026, Fig. 1.4.5 — Llama 3.1 405B Latency Optimized 2.99 Wh per 2k tokens × 0.35 kgCO₂e/kWh → 1.50 g/1k tokens. ~3× lower than Standard.
grok-3-fast	1.07	Benchmarked	Stanford AI Index 2026, Fig. 1.4.6 — Grok 3 Fast 2.15 gCO₂e per 2k tokens → 1.07 g/1k tokens.
deepseek-v3	0.45	Estimated	Derived: MoE architecture (671B total / 37B active params) on CN grid 555 gCO₂/kWh (IEA 2023). DeepSeek-V3 technical report (arXiv:2412.19437) — 2,788 MWh training; inference efficiency higher than dense models. No vendor inference PCF published. Estimate conservative vs GPT-4o-class on CN grid.
deepseek-r1	0.9	Estimated	Derived: reasoning model generates extended chain-of-thought (~3–5× tokens vs direct answer) on CN grid 555 gCO₂/kWh. DeepSeek-R1 report (arXiv:2501.12948). ×2× uplift vs V3 for reasoning token overhead. No vendor inference PCF.
deepseek-r1-zero	0.8	Estimated	Same as deepseek-r1; R1-Zero is the RL-only variant (slightly smaller output chain-of-thought). CN grid 555 gCO₂/kWh.
moonshot-v1	0.5	Estimated	Derived: dense transformer class (comparable parameter count to GPT-4o-class) on CN grid 555 gCO₂/kWh. Moonshot AI does not publish per-token inference PCF. Conservative order-of-magnitude estimate.
qwen-max	0.55	Estimated	Derived: flagship Qwen model, dense/MoE, CN grid 555 gCO₂/kWh. Alibaba does not publish per-token inference CO₂. Estimate based on architecture class and CN grid penalty.
qwen-plus	0.3	Estimated	Derived: mid-tier Qwen; smaller active parameter count than qwen-max. CN grid 555 gCO₂/kWh. No vendor PCF.
qwen-turbo	0.12	Estimated	Derived: efficiency-optimised small Qwen; comparable to GPT-3.5-class on CN grid 555 gCO₂/kWh. No vendor PCF.
qwen-long	0.18	Estimated	Derived: context-specialised Qwen; small dense model with extended context window. CN grid 555 gCO₂/kWh.
ernie-4.0	0.55	Estimated	Derived: Baidu flagship LLM, dense transformer class, CN grid 555 gCO₂/kWh. Baidu does not publish per-token inference PCF. Estimate aligned with CN-hosted flagship-class models.
ernie-3.5	0.3	Estimated	Derived: mid-tier ERNIE; smaller than 4.0. CN grid 555 gCO₂/kWh. No vendor PCF.
ernie-speed	0.1	Estimated	Derived: efficiency-optimised ERNIE variant; GPT-3.5-class size on CN grid 555 gCO₂/kWh.
doubao-pro	0.5	Estimated	Derived: ByteDance Doubao Pro, GPT-4o-class dense model on CN grid 555 gCO₂/kWh. No vendor inference PCF published.
doubao-lite	0.12	Estimated	Derived: lightweight Doubao variant; GPT-3.5-class size. CN grid 555 gCO₂/kWh.
glm-4	0.48	Estimated	Derived: Zhipu GLM-4, dense transformer comparable to GPT-4o class, CN grid 555 gCO₂/kWh. Zhipu AI (open.bigmodel.cn) does not publish per-token inference PCF.
glm-4-flash	0.1	Estimated	Derived: distilled/quantised GLM-4 Flash; small efficient model. CN grid 555 gCO₂/kWh.
glm-3-turbo	0.15	Estimated	Derived: GLM-3 Turbo, lighter than GLM-4. CN grid 555 gCO₂/kWh.

Mesuré : Mistral Large 2 (ACV Carbone 4 / ADEME) ; famille Gemini (blog Google Cloud, mai 2025 — gCO₂e médian par prompt ; coefficients mis à l'échelle pour 1k tokens selon les notes méthodologiques).
Benchmarké : GPT-4o / GPT-4o-mini / Claude (Ni et al. 2025 arXiv:2505.09598 ; Dauner et al. Frontiers 2025) ; Llama 3 (Nature Scientific Reports 2024 ACV comparative ; divulgations Meta).
Estimé : tiers sans ACV éditeur ni article de benchmark unique — méthodologie Gravity Climate / Grove AI et tranches du leaderboard HF.

Sources de données

Mistral AI — ACV Large 2 (2025)

Première ACV complète relue par les pairs pour un grand modèle de langage, avec Carbone 4 et ADEME. Détails : mistral.ai.

Google Cloud — Inférence Gemini

Méthodologie et ordres de grandeur (énergie, émissions, eau) pour les prompts Gemini Apps : Measuring the environmental impact of AI inference.

Ni et al. — Énergie, eau et carbone de l'inférence LLM (2025)

Benchmarks de l'empreinte opérationnelle pour 30+ modèles (dont GPT-4o, Claude) : arXiv:2505.09598.

Dauner et al. — Coût énergétique de la communication avec l'IA (2025)

CO₂ empirique pour 14 LLM sur MMLU (500 questions × 2 formats) : Frontiers in Communication.

Nature Scientific Reports — Empreinte LLM vs humaine (2024)

Analyse comparative de cycle de vie (dont Llama-3-70B) : s41598-024-76682-6.

Gravity Climate — Méthodologie IA

« Developing an Emissions Accounting Methodology for AI » (en partenariat avec Grove). Utile lorsque le fournisseur n'a pas publié d'ACV : gravityclimate.com.

GHG Protocol — Scope 3

Guide de calcul Scope 3 (catégorie 1, biens et services achetés) : Corporate Value Chain (Scope 3) Standard · Scope 3 Calculation Guidance.

Limites et incertitude

•Variabilité du mix réseau : les émissions réelles dépendent du mix réseau du datacenter au moment de l'inférence, qui peut varier significativement.
•Données estimées : pour les modèles sans données publiées, nous utilisons des estimations qui peuvent diverger de la réalité.
•PUE et réseau : les coefficients agrégés peuvent ne pas refléter votre région ou le PUE de votre site ; une analyse locale peut affiner l'estimation.
•Périmètre ACV : selon la source, l'ACV peut exclure certains éléments (par ex. le terminal utilisateur, ou isoler l'inférence vs entraînement / matériel) ; comparez les périmètres avant de comparer deux études.
•Évolution des modèles : les coefficients peuvent devenir obsolètes à mesure que les fournisseurs optimisent leurs modèles.

Alignement CSRD

Nos rapports PDF incluent les informations généralement nécessaires aux divulgations de type CSRD :

Méthodologie de calcul détaillée
Sources des coefficients avec traçabilité
Références aux normes (GHG Protocol, ESRS E1)
Section sur les limites et l'incertitude
Énoncé d'alignement Scope 3 cat. 1
Équivalents pour la mise en contexte

Selon les ESRS E1 et le GHG Protocol, les facteurs d'activité (tokens × coefficient documenté) sont des approches d'estimation de niveau 2-3 lorsque les données fournisseur directes ne sont pas disponibles — l'essentiel est de documenter les hypothèses, les sources et les pistes d'amélioration de la qualité des données.

Note : confirmez le niveau d'assurance attendu avec votre auditeur avant tout reporting CSRD formel.

ESRS E1 — table de correspondance des preuves (indicative)

Les thèmes attendus dans les divulgations climatiques se retrouvent dans les rubriques du PDF mensuel (même mapping que l'annexe PDF). Ne constitue pas un avis juridique.

Thème de divulgation	Emplacement dans le PDF mensuel
Narratif GHG Scope 3 (services achetés)	Totaux d'ouverture ; « 6. Déclaration de périmètre (Scope 3 — indication) »
Données d'activité et facteurs d'émission	Événements, tokens, CO₂e ; « 3. Sources des coefficients (traçabilité) »
Méthodologies et hypothèses	« 2. Méthodologie de calcul (détail) »
Incertitude et qualité des données	« 5. Limites et incertitude » ; métriques dérivées (mix de confiance)
Références normatives	« 4. Références normatives (cadre) »
Contexte organisationnel optionnel	« 7. Scope 3 — contexte organisation » lorsque vous incluez l'annexe optionnelle dans l'export

Des questions sur notre méthodologie ?

Lire la documentation Ouvrir le tableau de bord