Méthodologie de calcul CO₂
Comment nous calculons l'empreinte carbone de vos appels LLM — de manière transparente et traçable.
Vous utilisez l' extension navigateur ? Consultez vos agrégats locaux sur le tableau de bord sobriété (mêmes coefficients ; aucun texte de prompt envoyé à nos serveurs). Citations principales : index des sources.
2026.03.1·53 coefficients de modèles (+ facteur par défaut pour les modèles inconnus)| ✓ Mesuré | ◐ Modélisé (estimation) | ✗ Hors portée aujourd'hui |
|---|---|---|
| API REST (votre code) Vous appelez OpenAI / Anthropic / Mistral / Azure OpenAI Service / Vertex AI / xAI depuis votre backend, et envoyez | Microsoft 365 Copilot Office desktop Word, Excel, Teams, Outlook desktop : Microsoft Graph Reports API expose utilisateurs actifs et nombre d'interactions, mais pas les tokens. On modélise depuis actifs × profil moyen tokens / utilisateur / jour. | Comptes consumer ChatGPT Plus / Claude Pro Sans clé API entreprise et sans extension installée : aucun moyen d'accéder aux tokens consommés par un compte personnel. |
| Extension Chrome & Firefox Web UIs uniquement : | Apps desktop natives sans extension ChatGPT desktop, Claude Desktop, agents installés sur poste : ne tournent pas dans le navigateur, l'extension ne les voit pas. Modélisation possible depuis nb d'utilisateurs × usage moyen. | IDE plugins natifs sans MCP Cursor, Continue, autocompletion VS Code Copilot non instrumentée : opaque sauf si votre clé API entreprise est branchée séparément ou que vous utilisez notre serveur MCP côté Claude Code. |
| Bulk import CSV Vous exportez un CSV depuis votre console provider (OpenAI, Mistral, Vertex AI billing, Azure cost management) et l'uploadez. Tokens exacts, sans transit de prompts. | Modèle inconnu (fallback) Si votre slug de modèle n'est pas dans notre catalogue (70+ modèles), on applique un coefficient par défaut | Mobile apps consumer ChatGPT iOS/Android, Claude mobile, Mistral app : aucune API publique pour accéder aux tokens d'un compte personnel. |
| Pont LLM local (`local-llm-bridge`) Ollama, LM Studio, OpenAI-compat self-hosted : un proxy Node.js installé à côté de votre LLM transmet les métadonnées d'usage (modèle, tokens) à | Connecteurs auto admin (à venir T3 2026) Pull quotidien depuis OpenAI Admin API, Anthropic Admin API, Azure Cost Management, Vertex AI billing — donne tokens agrégés par clé API entreprise, pas par utilisateur. Pas pour M365 Copilot (Microsoft ne le permet pas). | Local LLM sans bridge installé Si vos employés font tourner un Ollama / LM Studio / llama.cpp en local sans notre bridge, on ne le voit pas. Le bridge couvre le cas mais reste à installer manuellement. |
À propos de M365 Copilotspécifiquement : Microsoft ne fournit pas, à date, d'API qui retourne les tokens consommés par utilisateur ou par requête. Les API getMicrosoft365CopilotUsageUserDetail et getMicrosoft365CopilotUsageUserCounts du Microsoft Graph exposent utilisateurs actifs et interactions, jamais les tokens. La seule mesure directe possible aujourd'hui passe par l'extension navigateur sur copilot.microsoft.com. Pour les usages dans Word, Excel, Teams ou Outlook desktop, c'est de la modélisation.
À propos d'Azure OpenAI Service : c'est différent de M365 Copilot. Si votre DSI déploie son propre GPT-4o sur sa souscription Azure pour des applications maison, alors oui, vous pouvez instrumenter chaque appel via /v1/track— vos applications font les appels, donc vous voyez les tokens. M365 Copilot lui tourne sur l'infra Microsoft managée, vous ne voyez rien.
- • Formule reproductible à partir des données d'activité :
tokens × coefficient. - • Source du coefficient et niveau de confiance visibles par modèle (Mesuré / Benchmarké / Estimé).
- • Version de la méthodologie figée dans les rapports pour le suivi des évolutions mensuelles.
- • Hypothèses et incertitudes clairement listées (modèle inconnu par défaut, variabilité réseau/PUE, périmètres ACV).
- • Énoncé de périmètre explicite : estimation traçable pour le reporting, ne constitue pas un avis juridique ni d'assurance.
Coefficients sourcés
Nous utilisons l'ACV Mistral 2025, les divulgations Google Cloud sur l'inférence, des benchmarks d'inférence avec relecture par les pairs (Ni et al., Frontiers 2025), et un étiquetage clair « Mesuré » / « Benchmarké » / « Estimé ».
Contexte d'infrastructure
Notre méthodologie prend en compte le contexte du datacenter lorsque la littérature le permet — y compris l'efficience énergétique (PUE) — en s'appuyant sur les travaux de Gravity Climate 2025 pour les modèles de classe OpenAI et Anthropic lorsqu'une estimation est requise.
Intensité carbone
Nous appliquons les facteurs d'intensité carbone réseau (gCO₂e par kWh) réels ou moyens, alignés avec les régions principales d'hébergement du modèle, pour construire ou valider les coefficients.
E = (Ttotal × Cmodèle) × CIréseau
E = émissions (gCO₂e) ; T = tokens ; C = coût énergétique par token ; CIréseau = intensité carbone réseau (gCO₂e/kWh).
Dans l'API actuelle (v6)
Les endpoints /track et /estimate en production appliquent un coefficient consolidé par modèle — grammes de CO₂e pour 1 000 tokens — cohérent avec les sources ci-dessus. Le PUE, l'intensité régionale du réseau et les effets réseau sont reflétés dans la littérature derrière ces facteurs lorsque c'est pertinent, plutôt que sous forme de multiplicateurs séparés à l'exécution. Les réponses restent ainsi rapides, auditables et faciles à intégrer pour les ISV (multi-tenant via tenant_id).
Extension navigateur : comptage des tokens
Lorsque le fournisseur inclut usage dans la réponse de l'API (par exemple les tokens de style OpenAI, les input/output tokens Anthropic, les métadonnées d'usage Gemini), nous utilisons ces compteurs remontés par le fournisseur. Si usage est absent du flux, nous estimons à partir du corps de requête (~4 caractères par token) avec une heuristique déterministe de complétion — ou, pour certaines interfaces web, à partir du texte visible (DOM). Ces fallbacks ne sont pas aléatoires. L'interface de l'extension indique le cas qui s'applique.
Standards de référence
- · ISO 14067:2018 — empreinte carbone produit (PCF) : sections goal & scope, system boundaries, data quality, allocation, uncertainty sont nommées dans cette page.
- · ISO 14064-1:2018 — inventaire GES organisationnel : exports tenant_id agrégeables au périmètre.
- · GHG Protocol Scope 3 Cat. 1 — inférence achetée en API (ou Cat. 11 si LLM intégré dans un produit revendu).
- · ESRS E1-6 (CSRD) — datapoints structurés gross_scope_3_t_co2e, methodology, data_quality, uncertainty_qualitative, intensity_metric.
- · IFRS S2 / TCFD — climate-related metrics référençables dans la section Metrics & Targets.
- · CDP Climate Change — sections C6 / C7 pré-remplies (Pro).
- · SBTi-ready — cibles near-term + alertes de dérive (Pro).
Voir le crosswalk complet : /methodology/standards.
ESRS E1 (divulgations climatiques européennes) s'appuie sur le GHG Protocol pour les Scopes 1 à 3. Le Scope 3 est souvent matériel pour les services logiciels et les services achetés ; la catégorie exacte pour les API LLM (biens et services achetés vs. autres catégories de chaîne de valeur) dépend de vos contrats et de votre périmètre — à confirmer avec votre conseil RSE.
Intensité : reporter le total en gCO₂e et une intensité telle que g CO₂e pour 1 000 tokens permet la comparaison période sur période et s'aligne avec la manière dont les équipes orientées CSRD discutent l'intensité GHG aux côtés des émissions absolues.
Dossier de preuves : exports CSV, rapports PDF, coefficients par modèle et libellés de confiance (Mesuré / Benchmarké / Estimé) documentent formules et sources pour la revue — cohérent avec les attentes sur les données d'activité traçables et les hypothèses sous assurance.
Recherche : à grande échelle, l'inférence peut dominer les impacts cycle de vie pour les modèles largement utilisés ; voir par ex. Jegham et al., How Hungry is AI? (arXiv:2505.09598v5). Les travaux académiques discutent également l'énergie par token et l'efficacité d'inférence — complémentaire aux benchmarks orientés précision uniquement. Nos coefficients sont des facteurs agrégés, pas des relevés watt-mètre par requête.
Moins de tokens, moins d'énergie d'inférence. Des prompts plus courts, des instructions système resserrées et des budgets de complétion réduits font baisser le total prompt_tokens + completion_tokens — les quantités que notre API et notre extension multiplient par les coefficients modèles. C'est le même levier que les ateliers enseignent sous le slogan « optimiser les prompts pour réduire coût et carbone ».
Router vs. raccourcir. Déplacer du trafic d'un modèle à forte intensité vers un tier efficace modifie les grammes CO₂e pour 1k tokens ; compresser les sorties modifie le nombre de milliers consommés. Les « insights reporting » du tableau de bord montrent la part agrégée de complétion — des générations anormalement longues expliquent souvent les pics avant le mix modèle.
Ce que nous ne prétendons pas. Nous n'envoyons pas le texte des prompts vers nos serveurs pour l'estimation ; nous comptons les métadonnées que vous avez déjà. Les API tierces d'optimisation de prompts sont un workflow optionnel hors carbon-llm — utilisez-les si elles correspondent à votre modèle de gouvernance.
Ce que nous livrons. Les estimations publiques utilisent des grammes CO₂e pour 1 000 tokens traçables, issus de la littérature et des divulgations, appliqués aux comptages de tokens du fournisseur — reproductibles à partir des données d'activité, sans chronomètre mural ni télémétrie GPU sur votre poste.
Autres outils. Certaines extensions et prototypes de recherche ajoutent des voies basées sur la durée ou hybrides (déduisant des watts à partir du timing de session et d'hypothèses matérielles, parfois combinés aux tokens). Les résultats peuvent diverger matériellement pour le même chat — des a priori différents, pas nécessairement faux — raison pour laquelle nous nous ancrons sur des coefficients que vous pouvez citer à côté des factures et des journaux de tokens.
Pour une lecture externe sur la modélisation centrée tokens (sans validation d'un quelconque produit), voir par ex. Antarctica — One Token Model.
Réseau et datacenters. Les perspectives publiques décrivent une demande électrique mondiale croissante des datacenters à mesure que les charges IA se développent, l'IA représentant selon les prévisions industrielles une fraction grandissante de la puissance totale des datacenters d'ici quelques années. Ces courbes macro ne remplacent pas les compteurs d'inférence par tenant — elles expliquent pourquoi les conseils d'administration demandent à la fois les divulgations d'infrastructure et les preuves d'usage au niveau logiciel.
IEA — Data centres and data transmission networks
Par interaction, pas seulement par puce. Les synthèses de recherche jusqu'en 2023 comparaient l'énergie indicative par requête de type IA générative à une recherche web classique — même ordre de grandeur que les modèles de raisonnement riches en tokens d'aujourd'hui : de petits choix d'interface changent les wattheures. Nos coefficients sont des gCO₂e agrégés par token, pas un wattmètre sur chaque socket.
Eau et GHG opérateurs. Les grands opérateurs détaillent désormais l'eau de refroidissement des datacenters, la rareté hydrique des bassins et les GHG Scope 1 à 3 aux côtés de l'électricité dans les rapports RSE annuels. Le Stanford AI Index 2026 estime la consommation d'eau annuelle pour l'inférence GPT-4o entre 1,31 et 1,58 million de kL — soit l'équivalent des besoins annuels en eau potable d'environ 1,2 million de personnes dans la fourchette haute. Cela est majoritairement en amont de votre application — votre récit produit récurrent reste l'inférence avec vos clients, répétée à chaque appel.
Entraînement vs. usage. Les éditeurs de modèles et les benchmarks tiers couvrent l'énergie et le CO₂e ponctuels d'entraînement pour les releases phares : le Stanford AI Index 2026 (Fig. 1.4.3) rapporte Grok 4 ≈ 72 816 t CO₂e entraîné en 2025 (le plus élevé déclaré à ce jour — environ 1 156× les émissions cycle de vie d'une voiture), contre DeepSeek v3 ≈ 597 t pour un modèle d'échelle comparable — montrant que plus gros ne signifie pas toujours plus polluant. carbon-llm ne remplace pas ces divulgations — nous estimons l'inférence à partir des comptages de tokens que votre intégration reçoit déjà, tandis que /llm-co2-benchmark et les tableaux de données méthodologiques exposent le contexte côté entraînement pour les comités de direction.
Échelle de la puissance des datacenters. La capacité de puissance totale des datacenters IA a atteint environ 29,6 GW au T4 2025 (AI Index 2026, Fig. 1.2.4) — comparable à la demande électrique de pointe de l'État de New York (~31 GW) — dont environ 11,8 GW de TDP puces et 17,7 GW de refroidissement, mise en réseau et autres infrastructures. Contexte macro pour les présentations exécutives ; la comptabilité par tenant se fait toujours ici.
tenant_id, à l'identifiant de modèle et aux tokens, afin que l'ingénierie et les achats parlent le même compteur.CO₂ (gCO₂e) = (tokens_total / 1000) × coefficient_modèle
où tokens_total = prompt_tokens + completion_tokens
Les deux comptages doivent correspondre aux valeurs de votre fournisseur LLM (le champ usage ou équivalent dans la réponse). Voir la section Tokens et usage dans la documentation.
Cela correspond à une comptabilité données d'activité × facteur d'émission, alignée avec le GHG Protocol pour le Scope 3 — catégorie 1 (biens et services achetés). Pour améliorer la précision, le GHG Protocol recommande également de prendre en compte le PUE, l'intensité carbone du réseau et la localisation d'inférence lorsque les données sont disponibles.
scope3 dans l'URL de téléchargement du PDF.L'annexe ne décide pas de votre catégorie officielle GHG Protocol : elle documente qui paie les factures API, comment les LLM sont intégrés, ce qui déclenche l'inférence, le modèle commercial et le périmètre de reporting, puis suggère des points de discussion indicatifs(par ex. Scope 3 Catégorie 1 vs 11) pour votre responsable RSE et votre auditeur.
Dans le tableau de bord (Rapports), activez Inclure dans l'URL de téléchargement, répondez au questionnaire, puis utilisez Télécharger le PDF — le lien inclut un payload scope3 valide. Les PDF tenant publics prennent en charge le même paramètre : /api/public/tenant-report/<token>/pdf?month=…&scope3=…
Scope 3 — Catégorie 1 : les émissions liées aux services LLM tiers relèvent du Scope 3 (émissions indirectes de la chaîne de valeur), catégorie 1 (biens et services achetés).
| Modèle | gCO₂e / 1k tokens | Confiance | Source |
|---|---|---|---|
| gpt-4o | 0.37 | Benchmarked | Jegham et al. (2025) arXiv:2505.09598v5 — Table 4: GPT-4o (Mar ’25) short prompt 0.423 Wh (100 in / 300 out); × CIF 0.35 kgCO₂e/kWh → ~0.37 g/1k tokens. §5.3 cross-check: Altman Jun 2025 ~0.34 Wh/query. https://arxiv.org/html/2505.09598v5 |
| gpt-4o-mini | 0.1 | Benchmarked | Ni et al. (2025) arXiv:2505.09598 — mini tier in benchmark suite; efficiency vs GPT-4o per paper tables |
| gpt-4-turbo | 0.35 | Estimated | Gravity Climate / Grove AI methodology — no single public per-token measurement; class factor between GPT-4o and legacy GPT-4 |
| gpt-3.5-turbo | 0.08 | Estimated | HF Open LLM Leaderboard emissions band + Gravity-style factors — OpenAI does not publish per-token CO₂ |
| claude-3-5-sonnet | 0.85 | Benchmarked | Jegham et al. (2025) arXiv:2505.09598v5 — Table 4: Claude-3.5 Sonnet short prompt 0.973 Wh (100 in / 300 out); × CIF 0.35 → ~0.85 g/1k tokens. Anthropic does not publish per-token CO₂; Dauner et al. Frontiers (2025) doi:10.3389/fcomm.2025.1572947 — complementary. https://arxiv.org/html/2505.09598v5 |
| claude-3-opus | 0.45 | Benchmarked | Empirical Wh/query literature (e.g. CarbonCredits.com survey of model classes) — converted with representative tokens/query |
| claude-3-haiku | 0.1 | Benchmarked | Same empirical tier as Haiku class (~0.10 gCO₂e/query in secondary studies) — normalized to per-1k tokens |
| mistral-large-2 | 2.85 | Measured | Mistral LCA 2025 (Carbone 4 / ADEME): 1.14 gCO₂e per 400-token inference response → 2.85 g/1k tokens |
| mistral-small | 0.8 | Estimated | No vendor LCA for “Small”; Jul 2025 peer-reviewed LCA is Mistral Large 2 (~1.14 gCO₂e/400-token response — mistral.ai/news). Order-of-magnitude vs Large 2; Linkup Deep industry summaries Mar 2026. |
| mistral-medium | 1.2 | Estimated | Same as mistral-small — interim factor until vendor publishes per-model inference PCF |
| gemini-1-5-flash | 0.075 | Measured | Google Cloud (May 2025): median Gemini Apps text prompt ~0.03 gCO₂e (comprehensive methodology); scaled to per-1k tokens |
| gemini-1-5-pro | 0.12 | Measured | Google Cloud AI inference methodology (2025) — fleet median; Pro vs Flash not split in public median → conservative mid-range |
| gemini-2-0-flash | 0.08 | Measured | Google Cloud Blog May 2025 — median Gemini Apps text prompt ~0.03 gCO₂e (point-in-time); arXiv:2508.15734 fleet methodology; scaled to g/1k tokens for API. https://cloud.google.com/blog/products/infrastructure/measuring-the-environmental-impact-of-ai-inference/ |
| llama-3-70b | 0.25 | Benchmarked | Nature Scientific Reports (2024) s41598-024-76682-6 — comparative LLM footprint; Meta training disclosures (Llama 3) |
| llama-3-8b | 0.05 | Benchmarked | Hugging Face leaderboard emissions analysis + small-model inference literature — order-of-magnitude benchmark |
| grok-3 | 0.38 | Estimated | xAI does not publish per-token inference PCF; order-of-magnitude aligned with peer-reviewed GPT-4o-class short-prompt benchmarks (Jegham et al. 2025) until vendor disclosure — Grok web / api.x.ai default. |
| grok-2 | 0.28 | Estimated | Same methodology as grok-3; lower tier assumption vs flagship — no public vendor LCA |
| grok-4 | 2.53 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.5/1.4.6 (Jegham et al. 2025) — medium prompt 14.90 Wh / 5.07 gCO₂e per 2k tokens → 2.53 g/1k tokens. Replaces prior 0.45 estimate. https://aiindex.stanford.edu |
| gpt-5 | 3.71 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 (Jegham et al. 2025) — GPT-5 (high reasoning) 21.85 Wh / 7.43 gCO₂e per medium prompt → 3.71 g/1k tokens. Default high-reasoning tier; see gpt-5-medium / gpt-5-low for budget tiers. |
| gpt-5-high | 3.71 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 — GPT-5 high reasoning 7.43 gCO₂e / 2k tokens. |
| gpt-5-medium | 2.22 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 — GPT-5 medium reasoning 4.45 gCO₂e / 2k tokens. |
| gpt-5-low | 1.42 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 — GPT-5 low reasoning 2.84 gCO₂e / 2k tokens. |
| gpt-5-mini | 0.8 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 — GPT-5 mini (medium) 1.60 gCO₂e / 2k tokens. Default tier; -high variant 4.58 g/2k → 2.29 g/1k. |
| gpt-5-mini-high | 2.29 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 — GPT-5 mini high reasoning 4.58 gCO₂e / 2k tokens. |
| gpt-5-nano | 1.15 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 — GPT-5 nano (high) 2.29 gCO₂e / 2k tokens. |
| o3-pro | 3.7 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 — o3-pro 21.77 Wh / 7.40 gCO₂e per 2k tokens → 3.70 g/1k tokens. Reasoning model with extended chain-of-thought. |
| o3-mini-high | 1.14 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 — o3-mini (high) 2.28 gCO₂e / 2k tokens. |
| o4-mini-high | 1.07 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 — o4-mini (high) 2.13 gCO₂e / 2k tokens. |
| claude-4-opus | 0.8 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 (Jegham et al. 2025) — Claude 4 Opus 5.13 Wh / 1.60 gCO₂e per 2k tokens → 0.80 g/1k tokens. Lower than GPT-5 family despite flagship status. |
| claude-4-sonnet | 0.65 | Estimated | Derived: Sonnet tier sits below Opus in Anthropic naming. Estimate at ~0.81× Claude 4 Opus pending Jegham data point. Anthropic does not publish per-token PCF. |
| mistral-medium-3 | 0.76 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 — Mistral Medium 3 1.52 gCO₂e per 2k tokens → 0.76 g/1k tokens. Lowest-emission flagship in Stanford 2026 benchmark. |
| deepseek-v3-2-exp | 6.97 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.5/1.4.6 — DeepSeek V3.2 Exp 23.24 Wh / 13.95 gCO₂e per 2k tokens → 6.97 g/1k tokens. Highest in the 2026 benchmark; reasoning chain-of-thought intensive. |
| deepseek-v3-2 | 6.94 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.5/1.4.6 — DeepSeek V3.2 23.13 Wh / 13.88 gCO₂e per 2k tokens → 6.94 g/1k tokens. |
| kimi-k2-thinking | 1.27 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 — Kimi K2 Thinking 7.65 Wh / 2.54 gCO₂e per 2k tokens → 1.27 g/1k tokens. Moonshot AI flagship reasoning variant. |
| llama-3-1-405b-standard | 4.5 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.5 — Llama 3.1 405B Standard 9.00 Wh per 2k tokens × 0.35 kgCO₂e/kWh → 4.50 g/1k tokens. Compare with latency-optimised variant. |
| llama-3-1-405b-latency-optimized | 1.5 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.5 — Llama 3.1 405B Latency Optimized 2.99 Wh per 2k tokens × 0.35 kgCO₂e/kWh → 1.50 g/1k tokens. ~3× lower than Standard. |
| grok-3-fast | 1.07 | Benchmarked | Stanford AI Index 2026, Fig. 1.4.6 — Grok 3 Fast 2.15 gCO₂e per 2k tokens → 1.07 g/1k tokens. |
| deepseek-v3 | 0.45 | Estimated | Derived: MoE architecture (671B total / 37B active params) on CN grid 555 gCO₂/kWh (IEA 2023). DeepSeek-V3 technical report (arXiv:2412.19437) — 2,788 MWh training; inference efficiency higher than dense models. No vendor inference PCF published. Estimate conservative vs GPT-4o-class on CN grid. |
| deepseek-r1 | 0.9 | Estimated | Derived: reasoning model generates extended chain-of-thought (~3–5× tokens vs direct answer) on CN grid 555 gCO₂/kWh. DeepSeek-R1 report (arXiv:2501.12948). ×2× uplift vs V3 for reasoning token overhead. No vendor inference PCF. |
| deepseek-r1-zero | 0.8 | Estimated | Same as deepseek-r1; R1-Zero is the RL-only variant (slightly smaller output chain-of-thought). CN grid 555 gCO₂/kWh. |
| moonshot-v1 | 0.5 | Estimated | Derived: dense transformer class (comparable parameter count to GPT-4o-class) on CN grid 555 gCO₂/kWh. Moonshot AI does not publish per-token inference PCF. Conservative order-of-magnitude estimate. |
| qwen-max | 0.55 | Estimated | Derived: flagship Qwen model, dense/MoE, CN grid 555 gCO₂/kWh. Alibaba does not publish per-token inference CO₂. Estimate based on architecture class and CN grid penalty. |
| qwen-plus | 0.3 | Estimated | Derived: mid-tier Qwen; smaller active parameter count than qwen-max. CN grid 555 gCO₂/kWh. No vendor PCF. |
| qwen-turbo | 0.12 | Estimated | Derived: efficiency-optimised small Qwen; comparable to GPT-3.5-class on CN grid 555 gCO₂/kWh. No vendor PCF. |
| qwen-long | 0.18 | Estimated | Derived: context-specialised Qwen; small dense model with extended context window. CN grid 555 gCO₂/kWh. |
| ernie-4.0 | 0.55 | Estimated | Derived: Baidu flagship LLM, dense transformer class, CN grid 555 gCO₂/kWh. Baidu does not publish per-token inference PCF. Estimate aligned with CN-hosted flagship-class models. |
| ernie-3.5 | 0.3 | Estimated | Derived: mid-tier ERNIE; smaller than 4.0. CN grid 555 gCO₂/kWh. No vendor PCF. |
| ernie-speed | 0.1 | Estimated | Derived: efficiency-optimised ERNIE variant; GPT-3.5-class size on CN grid 555 gCO₂/kWh. |
| doubao-pro | 0.5 | Estimated | Derived: ByteDance Doubao Pro, GPT-4o-class dense model on CN grid 555 gCO₂/kWh. No vendor inference PCF published. |
| doubao-lite | 0.12 | Estimated | Derived: lightweight Doubao variant; GPT-3.5-class size. CN grid 555 gCO₂/kWh. |
| glm-4 | 0.48 | Estimated | Derived: Zhipu GLM-4, dense transformer comparable to GPT-4o class, CN grid 555 gCO₂/kWh. Zhipu AI (open.bigmodel.cn) does not publish per-token inference PCF. |
| glm-4-flash | 0.1 | Estimated | Derived: distilled/quantised GLM-4 Flash; small efficient model. CN grid 555 gCO₂/kWh. |
| glm-3-turbo | 0.15 | Estimated | Derived: GLM-3 Turbo, lighter than GLM-4. CN grid 555 gCO₂/kWh. |
Mesuré : Mistral Large 2 (ACV Carbone 4 / ADEME) ; famille Gemini (blog Google Cloud, mai 2025 — gCO₂e médian par prompt ; coefficients mis à l'échelle pour 1k tokens selon les notes méthodologiques).
Benchmarké : GPT-4o / GPT-4o-mini / Claude (Ni et al. 2025 arXiv:2505.09598 ; Dauner et al. Frontiers 2025) ; Llama 3 (Nature Scientific Reports 2024 ACV comparative ; divulgations Meta).
Estimé : tiers sans ACV éditeur ni article de benchmark unique — méthodologie Gravity Climate / Grove AI et tranches du leaderboard HF.
Mistral AI — ACV Large 2 (2025)
Première ACV complète relue par les pairs pour un grand modèle de langage, avec Carbone 4 et ADEME. Détails : mistral.ai.
Google Cloud — Inférence Gemini
Méthodologie et ordres de grandeur (énergie, émissions, eau) pour les prompts Gemini Apps : Measuring the environmental impact of AI inference.
Ni et al. — Énergie, eau et carbone de l'inférence LLM (2025)
Benchmarks de l'empreinte opérationnelle pour 30+ modèles (dont GPT-4o, Claude) : arXiv:2505.09598.
Dauner et al. — Coût énergétique de la communication avec l'IA (2025)
CO₂ empirique pour 14 LLM sur MMLU (500 questions × 2 formats) : Frontiers in Communication.
Nature Scientific Reports — Empreinte LLM vs humaine (2024)
Analyse comparative de cycle de vie (dont Llama-3-70B) : s41598-024-76682-6.
Gravity Climate — Méthodologie IA
« Developing an Emissions Accounting Methodology for AI » (en partenariat avec Grove). Utile lorsque le fournisseur n'a pas publié d'ACV : gravityclimate.com.
GHG Protocol — Scope 3
Guide de calcul Scope 3 (catégorie 1, biens et services achetés) : Corporate Value Chain (Scope 3) Standard · Scope 3 Calculation Guidance.
- •Variabilité du mix réseau : les émissions réelles dépendent du mix réseau du datacenter au moment de l'inférence, qui peut varier significativement.
- •Données estimées : pour les modèles sans données publiées, nous utilisons des estimations qui peuvent diverger de la réalité.
- •PUE et réseau : les coefficients agrégés peuvent ne pas refléter votre région ou le PUE de votre site ; une analyse locale peut affiner l'estimation.
- •Périmètre ACV : selon la source, l'ACV peut exclure certains éléments (par ex. le terminal utilisateur, ou isoler l'inférence vs entraînement / matériel) ; comparez les périmètres avant de comparer deux études.
- •Évolution des modèles : les coefficients peuvent devenir obsolètes à mesure que les fournisseurs optimisent leurs modèles.
Nos rapports PDF incluent les informations généralement nécessaires aux divulgations de type CSRD :
- Méthodologie de calcul détaillée
- Sources des coefficients avec traçabilité
- Références aux normes (GHG Protocol, ESRS E1)
- Section sur les limites et l'incertitude
- Énoncé d'alignement Scope 3 cat. 1
- Équivalents pour la mise en contexte
Selon les ESRS E1 et le GHG Protocol, les facteurs d'activité (tokens × coefficient documenté) sont des approches d'estimation de niveau 2-3 lorsque les données fournisseur directes ne sont pas disponibles — l'essentiel est de documenter les hypothèses, les sources et les pistes d'amélioration de la qualité des données.
Note : confirmez le niveau d'assurance attendu avec votre auditeur avant tout reporting CSRD formel.
ESRS E1 — table de correspondance des preuves (indicative)
Les thèmes attendus dans les divulgations climatiques se retrouvent dans les rubriques du PDF mensuel (même mapping que l'annexe PDF). Ne constitue pas un avis juridique.
| Thème de divulgation | Emplacement dans le PDF mensuel |
|---|---|
| Narratif GHG Scope 3 (services achetés) | Totaux d'ouverture ; « 6. Déclaration de périmètre (Scope 3 — indication) » |
| Données d'activité et facteurs d'émission | Événements, tokens, CO₂e ; « 3. Sources des coefficients (traçabilité) » |
| Méthodologies et hypothèses | « 2. Méthodologie de calcul (détail) » |
| Incertitude et qualité des données | « 5. Limites et incertitude » ; métriques dérivées (mix de confiance) |
| Références normatives | « 4. Références normatives (cadre) » |
| Contexte organisationnel optionnel | « 7. Scope 3 — contexte organisation » lorsque vous incluez l'annexe optionnelle dans l'export |
Des questions sur notre méthodologie ?