L'intérêt pour l'empreinte environnementale des grands modèles de langage (LLMs) a grandi parallèlement à leur adoption. Les chercheurs publient désormais des analyses de cycle de vie (ACV), des cadres de modélisation de bout en bout, et des études empiriques sur l'entraînement, le fine-tuning, et l'inférence. Cet article cartographie une sélection de publications et rapports influents—sans prétendre que le domaine s'est accordé sur un seul chiffre pour « une réponse ChatGPT ». Les méthodologies diffèrent ; ce qui importe pour les praticiens, ce sont des données d'activité transparentes (tokens, énergie, région) et des facteurs d'émission documentés.

Suivre ce poste en production →

Envoyez les volumes de tokens vers notre API — mêmes coefficients que cet article. Offre gratuite, sans carte bancaire.

Créer un compte gratuit Essayer le calculateur

Le contexte macro : que représentent les centres de données dans le bilan mondial ?

Avant d'entrer dans les articles de recherche, un repère de cadrage : selon l'Agence internationale de l'énergie (AIE), les centres de données ont consommé entre 200 et 250 TWh en 2022, soit environ 1 à 1,5 % de la consommation électrique mondiale. L'AIE projette que cette consommation pourrait doubler d'ici 2026 avec l'essor des charges de travail IA — dont l'inférence LLM représente une part croissante. Ce chiffre d'ordre de grandeur, issu d'une source institutionnelle, est utile pour ancrer les conversations avec des parties prenantes non techniques et pour contextualiser les inventaires Scope 3 liés aux appels API.

Pourquoi les titres se contredisent

Les comparaisons entre LLMs et le travail humain, les voitures ou les vols intercontinentaux utilisent des unités fonctionnelles différentes (par page, par requête, par cycle d'entraînement), des périmètres différents (opérationnel uniquement vs. matériel incorporé), et des intensités carbone du réseau différentes. Une ACV publiée dans une revue à comité de lecture peut donc aboutir à des conclusions différentes de celles d'un billet de blog qui extrapole à partir du blog d'un fournisseur ou d'une seule expérience. Les études ci-dessous sont utiles comme repères d'orientation, pas comme des coefficients interchangeables.

ACV comparatives et cadrage « humain vs. modèle »

Reconciling the contrasting narratives on the environmental impact of large language models (Scientific Reports, 2024) applique une ACV comparative sur les dimensions énergie, carbone, eau et métriques économiques, en analysant des modèles tels que Llama-3-70B et Gemma-2B-it dans un scénario structuré. L'article illustre comment les récits peuvent diverger selon les périmètres systémiques et les hypothèses retenues—utile comme contexte lorsque vos parties prenantes citent des chiffres apparemment contradictoires en « grammes par page ».

Petits modèles de langage et transparence

Assessing the carbon footprint of language models: Towards sustainability in AI (Belcak et al., Science of the Total Environment, 2025) met l'accent sur un reporting transparent et standardisé de la consommation d'énergie et compare les émissions issues de l'entraînement—notamment pour les modèles plus petits comme TinyLlama et nanoGPT—avec celles de l'inférence. L'enseignement pour les équipes produit : le choix du modèle et l'adéquation au cas d'usage influencent l'empreinte carbone autant que le nombre brut de paramètres.

Modélisation de bout en bout : LLMCarbon

LLMCarbon: Modeling the End-To-End Carbon Footprint of Large Language Models (Faiz et al., arXiv, 2023) propose un cadre couvrant l'entraînement, l'inférence, l'expérimentation et le stockage, en distinguant le carbone opérationnel du carbone incorporé, et en abordant le PUE des centres de données ainsi que l'intensité carbone de l'électricité. Des travaux de conférence ultérieurs affinent les étapes du cycle de vie (par ex. le carbone incorporé du stockage) ; voir par ex. Research on carbon footprint in the whole process of LLM based on refined modeling (ACM ADMIT 2024) comme exemple de construction sur cette lignée.

Études d'entraînement de référence : BLOOM, Strubell et al., Patterson et al.

Le chiffre le plus cité dans la presse généraliste provient de Strubell et al. (2019) : entraîner un modèle Transformer avec recherche d'architecture neuronale (NAS) a produit environ 283 tonnes de CO₂e — soit environ cinq fois les émissions sur la durée de vie d'une voiture américaine moyenne. Ce chiffre, repris par le MIT Technology Review et largement diffusé, correspond à un scénario d'entraînement extrême (NAS complet, sans accélérateurs efficaces) et non à un entraînement de production standard. Il reste utile comme borne haute pour les discussions stratégiques, à condition d'en préciser le contexte.

Estimating the Carbon Footprint of BLOOM, a 176B Parameter Model (Journal of Machine Learning Research, 2024) reste une référence pour distinguer l'énergie d'entraînement, les émissions dynamiques du réseau, et le matériel incorporé—rapportant de l'ordre de 25 tonnes CO₂éq pour les émissions liées à l'énergie d'entraînement dans leur comptabilité (les chiffres exacts doivent être lus dans les tableaux de l'article).

Carbon Emissions and Large Neural Network Training (Patterson et al., 2021) a démontré que la localisation de l'entraînement (mix du réseau) et les choix matériels peuvent modifier l'empreinte carbone de plusieurs ordres de grandeur—motivant l'accent mis aujourd'hui sur les facteurs régionaux et le reporting transparent dans les publications ML.

Green AI, CodeCarbon et expériences à l'échelle de la salle de classe

Green AI: exploring carbon footprints, mitigation strategies, and trade offs in large language model training (Discover Artificial Intelligence, Springer, 2024) utilise des outils tels que CodeCarbon pour suivre le CO₂ pendant l'entraînement et le fine-tuning, et discute d'architectures plus légères (par ex. ALBERT, DistilBERT) comme leviers d'atténuation—pertinent lorsque votre produit peut substituer un LLM généraliste par un modèle plus petit sur certaines routes.

Revues, outils et guides pour praticiens

How to estimate carbon footprint when training deep learning models? A guide and review (PMC, 2024) passe en revue les outils de mesure (CarbonTracker, MLCO₂, Green Algorithms, etc.) et souligne que les grands cycles d'entraînement peuvent atteindre des centaines de tonnes CO₂éq dans les estimations publiées—encore une fois, très dépendant du scénario.

Inférence et « coût énergétique d'une réponse »

L'entraînement domine les manchettes, mais l'inférence évolue avec l'usage. Energy costs of communicating with AI (Zhao et al., Frontiers in Communication, 2025) évalue plusieurs LLMs sur des tâches de type MMLU et met en relation précision, usage des tokens et CO₂éq—illustrant les compromis entre taille du modèle et coût environnemental au moment de la requête.

Des articles de synthèse et de commentaire—par ex. Cutter Consortium, Columbia Climate School—aident à communiquer l'ampleur du phénomène aux non-spécialistes, mais doivent être recoupés avec les études primaires lorsque vous avez besoin de citations de qualité audit.

Preuves connexes : systèmes de recommandation

Green Recommender Systems: Understanding and Minimizing the Carbon Footprint of AI-Powered Personalization (2025) n'est pas spécifique aux LLMs, mais illustre comment les normes expérimentales et les choix matériels ont fait évoluer les émissions sur une décennie de publications RecSys—analogie utile pour les équipes qui effectuent des benchmarks répétés ou des tests A/B sur GPU.

Mises à jour 2025 : premières divulgations officielles par requête

Deux développements de 2025 ont substantiellement mis à jour le panorama de la recherche :

Divulgation officielle de Google Gemini (août 2025) — Google est devenu le premier grand fournisseur d'IA à publier des chiffres environnementaux par requête pour un LLM en production : 0,03 g CO₂e et 0,24 Wh par requête texte médiane. Il s'agit d'un chiffre d'inférence uniquement, sur base marché (sans amortissement de l'entraînement). Il fournit une borne inférieure significative pour un déploiement à grande échelle optimisé, et la première référence comparable que le domaine ait obtenue d'un fournisseur frontier.

Modèles de raisonnement et l'écart de 50× (Frontiers, juin 2025) — Une étude portant sur 14 modèles a constaté que les prompts complexes génèrent jusqu'à 50× plus de CO₂ que les simples. Le facteur explicatif : les modèles de raisonnement génèrent en moyenne 543 tokens de « réflexion » par question contre 38 pour les modèles concis— chaque token supplémentaire représente du calcul supplémentaire. L'étude a également constaté qu'aucun modèle ne maintient les émissions en dessous de 500 g CO₂e tout en atteignant une précision supérieure à 80 %, confirmant un véritable compromis précision–durabilité.

Étude de benchmarking arXiv (mai 2025) — "How Hungry is AI?" a stratifié les LLMs en cinq classes matérielles (Nano <7B à Large >70B) et a benchmarké l'énergie, l'eau et le carbone selon les configurations, constatant que l'inférence domine désormais les impacts du cycle de vie pour les déploiements populaires où le modèle est interrogé en continu.

Ce que faire dans votre infrastructure

Mesurer les tokens et les identifiants de modèle depuis les API des fournisseurs—les mêmes données d'activité que ces articles estiment devoir être publiques dans la recherche.
Appliquer des facteurs documentés (ACV, régions du réseau) et les versionner lors des mises à jour méthodologiques.
Séparer les environnements test et productionpour que le reporting de durabilité ne confonde pas les expériences R&D avec l'inférence orientée client.

Avertissement. Cette vue d'ensemble est éducative et ne remplace pas des études ACV adaptées à votre infrastructure. Les chiffres cités dans des synthèses tierces (entraînement « équivalent à cinq voitures », etc.) varient selon la méthodologie ; référez-vous toujours à l'article original pour les définitions et les périmètres.

Lectures complémentaires (liens sélectionnés)

Notre méthodologie CO₂ →Documentation API →