/
Blog
·8 min de lecture

Où lire les tokens de prompt et de complétion (APIs style OpenAI) pour la comptabilité carbone

Un guide champ par champ des métadonnées d'usage : quoi journaliser après chaque appel LLM, comment ça s'associe à /track, et pourquoi les estimations du tokenizer sont un dernier recours en production.

La comptabilité carbone pour l'inférence LLM commence par les données d'activité : combien de tokens ont été traités, pour quel modèle, sur quelle période. La plupart des API hébergées retournent ces informations dans un objet usage (ou équivalent) dans la réponse — pas dans la requête. Votre mission est de persister ces nombres à côté de vos clés métier (par ex. tenant_id) et de les transmettre à votre pipeline carbone.

Suivre ce poste en production →

Envoyez les volumes de tokens vers notre API — mêmes coefficients que cet article. Offre gratuite, sans carte bancaire.

Ce qu'il faut capturer après chaque appel

  • Identifiant du modèle — chaîne stable qui correspond à votre table de coefficients (par ex. gpt-4o, noms spécifiques au fournisseur inclus).
  • prompt_tokens et completion_tokens (ou un total documenté si votre fournisseur n'expose qu'un agrégat unique).
  • Horodatage pour le reporting mensuel et les graphiques de tendances.
  • Environnement — clés de test ou de production, si votre périmètre de reporting les traite différemment.

Pourquoi les comptages fournisseurs sont préférables aux estimations locales

Les tokenizers côté client et les heuristiques sur les caractères sont utiles pour les démonstrations ; pour les déclarations et les dashboards clients, préférez les comptages issus de la réponse API. Ils correspondent à ce qui a réellement été facturé et réduisent les écarts de réconciliation lorsqu'un auditeur vous demande comment vous avez obtenu vos données d'activité.

Correspondance avec une API carbone

Une fois que vous disposez du modèle et des comptages de tokens, vous pouvez appeler un endpoint d'estimation pour les aperçus ou utiliser /track en mode append-only pour l'historique en production. carbon-llm n'a besoin que des métadonnées — pas du corps du prompt — ce qui simplifie les revues de confidentialité et de sécurité.

Conseil. Si votre stack utilise le streaming, assurez-vous de lire quand même le bloc d'utilisation final (certains SDK l'exposent à la fin du stream). Omettre les completion tokens de manière systématique sous-estime l'impact.

Avertissement. Les noms des champs varient selon les fournisseurs ; cet article présente un schéma général, pas une liste exhaustive de fournisseurs. Alignez-vous sur votre version d'API et votre stratégie de journalisation.

Quelle IA tourne dans votre boîte ?

Installez l'extension carbon-llm. Tableau de bord perso pour chaque collaborateur, vue d'ensemble pour la direction.

Gratuit pendant la phase d'accès anticipé. Aucun prompt n'est lu, uniquement les compteurs de tokens et le modèle. Désinstallable en un clic.