/
Accueil
Comparatif honnête · maintenu par carbon-llm

AI Energy Score (HF) ou carbon-llm ?

Le AI Energy Score, lancé par Salesforce avec Hugging Face en février 2025, note l'énergie d'inférence des modèles open source sur un benchmark standardisé. carbon-llm mesure ce que votredéploiement consomme dans la vraie vie. C'est deux questions complémentaires — pas concurrentes.

TL;DR : AI Energy Score pour comparer des modèles avant choix (procurement, sélection technique). carbon-llmpour mesurer l'empreinte réelle après déploiement, en multi-fournisseur, et le déclarer dans votre rapport ESRS.

Comparatif détaillé

Sources : AI Energy Score Leaderboard (HF), méthodologie Salesforce 2025. Mis à jour mai 2026.

CritèreAI Energy Scorecarbon-llm
Type de mesureScore normatif a priori (1-5 étoiles)Mesure agrégée a posteriori par token réel
Modèles couvertsModèles ouverts hébergés sur Hugging FaceOpenAI, Anthropic, Mistral, Google, Cohere, open source self-hosted
GranularitéPar modèle, sur jeu standardiséPar appel API, par projet, par tenant, par jour
MéthodologieInférence en conditions normalisées (10 tâches, hardware standardisé)Coefficient × tokens, ajusté par modèle (LCA Mistral, Google, Jegham 2025)
Mise à jourManuelle, au gré de la communautéContinue (chaque appel ajoute une mesure)
Action commercialeChoix entre modèles avant déploiementReporting CSRD + optimisation FinOps + GreenOps continu
Couverture closed-source (GPT, Claude, Gemini)yes (via méthodologie publique)
Multi-tenant
Méthodologie de reporting
Traçabilité des coefficients
Reasoning tokens / extended thinking
PrixGratuit (consultation publique)Phase d'accès anticipé, tout est gratuit

Pourquoi les deux ensemble

Le AI Energy Score répond à « quel modèle choisir » ; carbon-llmrépond à « combien j'ai consommé » et « comment je le déclare ». Workflow recommandé :

Phase 1 — Choix du modèle

Avant de déployer une fonctionnalité IA, consultez le AI Energy Score pour le top 3 des modèles candidats. Cela élimine déjà les options manifestement gourmandes pour des gains modestes d'accuracy. Les notes 4-5 étoiles vous mettent dans la zone frugale du marché.

Phase 2 — Déploiement et mesure réelle

Une fois en production, branchez l'API /api/v1/track ou l'extension pour capter les vrais volumes. Le AI Energy Score donne 0,3 Wh par requête sur 100 tokens ; vos utilisateurs réels font des requêtes 800 tokens. Le delta est essentiel pour le reporting.

Phase 3 — Déclaration ESRS / SB 253

Le AI Energy Score est un classement de modèles, pas un suivi de votre usage réel. carbon-llmmesure le CO₂ de chaque réponse et exporte l'usage en CSV. Vous citez la méthodologie publique sur /methodology et joignez votre annexe de période, coefficients et limites.

Limites du AI Energy Score à connaître

  • Couverture closed-source: le score n'existe pas pour GPT-4o, Claude Sonnet, Gemini 2.5 — les modèles dominants en enterprise. Vous ne pouvez pas comparer Llama 70B et Claude Opus sur la même échelle.
  • Conditions normalisées: 10 tâches standardisées n'épuisent pas la diversité des cas d'usage. Un modèle bon pour le résumé peut être nul pour le code.
  • Pas de tracking: c'est un benchmark, pas un suivi. Vous ne pouvez pas dire à un auditeur « notre consommation 2026 = X » sur la base du AI Energy Score seul.
  • Maintenance communautaire : la mise à jour des modèles dépend du bon vouloir des contributeurs. Certains modèles populaires manquent.

Questions fréquentes

Les 6 questions qu'on nous pose le plus souvent au sujet du choix AI Energy Score vs carbon-llm.

Le AI Energy Score couvre-t-il GPT-4o, Claude Sonnet ou Gemini ?
Non — le AI Energy Score (Salesforce + Hugging Face) ne couvre que les modèles open source hébergés sur Hugging Face. Les modèles dominants en enterprise (GPT-4o, Claude Sonnet, Gemini 2.5) ne sont pas notables sur la même échelle car Hugging Face ne peut pas les exécuter en conditions normalisées. carbon-llm couvre OpenAI, Anthropic, Mistral, Google et Cohere via méthodologie publique.
Que mesure exactement le score 1-5 étoiles du AI Energy Score ?
L'énergie consommée par inférence d'un modèle open source sur 10 tâches standardisées (résumé, code, QA, génération…) exécutées sur du hardware standardisé Hugging Face. C'est un score normatif a priori — pas ce que VOUS consommez en production avec vos requêtes réelles. Utile pour comparer plusieurs modèles avant déploiement.
Le AI Energy Score est-il suffisant pour un rapport CSRD ESRS E1-6 ?
Non. C'est un benchmark, pas un suivi. Vous ne pouvez pas dire à votre commissaire aux comptes « notre consommation 2026 = X kgCO2e » sur la base du AI Energy Score seul — il faut des mesures agrégées sur la période de reporting, une méthodologie datée et des limites explicites. carbon-llm fournit la base de mesure et la documentation méthodologique.
Quelle différence entre score normatif (a priori) et mesure réelle (a posteriori) ?
A priori (AI Energy Score) : « ce modèle, sur tâches standardisées, consomme X étoiles d'énergie ». A posteriori (carbon-llm) : « VOS appels API en production sur cette période ont émis Y gCO2e, par projet, par tenant ». Les deux sont complémentaires : a priori pour choisir, a posteriori pour rendre des comptes.
Peut-on combiner AI Energy Score (choix modèle) et carbon-llm (suivi production) ?
Oui — c'est même l'usage recommandé. Vous utilisez le AI Energy Score pour benchmarker plusieurs modèles open source avant de choisir (« Llama 70B est-il plus efficace que Mixtral 8x22B ? »), puis vous suivez la consommation réelle avec carbon-llm dès le premier appel API en production. Vous avez les deux flux : a priori normalisé pour comparer, réel agrégé pour la CSRD.
Le AI Energy Score est-il mis à jour automatiquement quand un nouveau modèle sort ?
Non — la mise à jour dépend de contributions communautaires. Certains modèles populaires manquent ou ont du retard. La cadence de mise à jour est très inférieure à la fréquence de sortie des modèles enterprise. carbon-llm intègre les nouveaux modèles dès qu'un coefficient public est disponible (LCA constructeur ou Jegham 2025 pour les API closed-source).

Choisir vite, mesurer dans la durée

Utilisez le AI Energy Score pour vos choix initiaux, et démarrez le tracking carbon-llm dès le premier appel API en production. Vous aurez les deux flux : a priori normalisé pour comparer, réel agrégé pour rendre des comptes.