La génération augmentée par récupération (RAG) est souvent présentée comme un moyen d'obtenir des modèles plus petits et des informations plus fraîches. D'un point de vue carbone, la bonne question est de savoir si votre pipeline de bout en bout — embeddings, récupération, reclassement et un ou plusieurs appels LLM — surpasse un unique appel à un grand modèle pour le même résultat métier.

Suivre ce poste en production →

Envoyez les volumes de tokens vers notre API — mêmes coefficients que cet article. Offre gratuite, sans carte bancaire.

Essayer le calculateur Voir l'API

Essayez les outils (mesure)

Estimez le CO₂e à partir des tokens, consultez les coefficients ou affichez les valeurs dans le navigateur — pilier 1 de la série éditoriale.

Pourquoi le seul comptage des tokens induit en erreur

Les méthodes standards par coefficients (voir tokens → CO₂e) associent des émissions aux tokens de prompt et de complétion sur l'appel de génération final. Un pipeline RAG dépense également de l'énergie pour les modèles d'embedding, la recherche vectorielle, le reclassement par cross-encoder optionnel, et parfois des passes LLM supplémentaires pour l'ancrage ou la vérification. Des travaux récents sur les chatbots climatiques spécialisés décomposent l'usage à l'inférence en composantes de récupération, génération et vérification des hallucinations, et constatent que les pipelines les plus « agentiques » peuvent sensiblement augmenter l'énergie sans gain de qualité proportionnel — la conception compte plus que le mot à la mode.

Étapes liées au CPU vs au GPU

La récupération est souvent liée au CPU ou au réseau ; les passes de génération et de vérification reposent sur des accélérateurs. Cette distinction est importante pour les tableaux de bord : si vous ne mesurez que la complétion de chat, vous sous-estimez le pipeline RAG. Pour les narratifs de type CSRD, documentez le périmètre que vous déclarez (API uniquement vs pipeline complet) et renvoyez les relecteurs vers votre page de méthodologie.

Pratiques pour garder le pipeline RAG sobre

Resserrez la récupération avant d'élargir le contexte : une meilleure précision/rappel réduit les tokens de prompt et la génération inutile.
Évitez les appels LLM de vérification redondants sauf si la mesure montre qu'ils changent les résultats ; chaque passe ajoute du temps GPU.
Réutilisez les embeddings pour les corpus stables et mettez en cache les résultats de requêtes fréquentes lorsque la confidentialité le permet — le chevauchement sémantique des requêtes en production est élevé dans de nombreux domaines.

Lien avec la déclaration

Si l'IA générative est significative, les discussions sur le Scope 3 doivent s'appuyer sur des données d'activité défendables — souvent les journaux d'usage fournisseur auxquels s'ajoute une note interne sur la surcharge RAG. Notre article sur les premiers pas Scope 3 présente l'angle de reporting correspondant.

Sources et lectures complémentaires

Les pages externes sont indépendantes ; carbon-llm n’approuve pas et ne contrôle pas le contenu tiers.

Avertissement. Les architectures RAG varient ; considérez les études citées comme des illustrations, non comme des garanties pour votre pile technologique.

Calculateur carbone LLM →Champs d'usage API pour la comptabilité carbone →