Prompt management: Comment gérer son catalogue de prompts

Le prompt engineering est en pleine transformation. Avec l'intégration croissante des modèles de langage (LLMs) dans les stacks technologiques des startups et grandes entreprises, gérer efficacement une base de prompts devient une nécessité. 

Il faut passer du “prompt engineering” au “prompt management”. 

Créer un "Prompt Council"

Quand une organisation dépend des LLMs, une gouvernance claire est indispensable pour éviter le chaos, assurer la cohérence et capitaliser sur l'intelligence collective.

Pour une team ou une entreprise, la création d'une instance de gouvernance, un Prompt Council ou une AI Guild, est une étape clé. Cette équipe transverse, composée d'ingénieurs, de product managers et d'experts métier, a plusieurs responsabilités :

  • Définir les Standards : Établir les conventions de nommage, la structure des prompts, et les templates de base. Elle est gardienne du repository GitHub.
  • Valider les "Core Prompts" : Les prompts les plus critiques pour le business doivent être validés par ce conseil pour garantir leur alignement avec les objectifs stratégiques et leur robustesse.
  • Gérer la "Prompt Library" : Maintenir une bibliothèque centralisée de prompts validés et documentés. Chaque prompt doit avoir un "owner", une description claire de son objectif, les versions existantes et les résultats des tests de performance.
  • Partager la Connaissance : Organiser des sessions de partage, documenter les "learnings" (par exemple, "nous avons observé que l'instruction 'Pense étape par étape' augmente la précision de 15% sur les tâches de raisonnement complexe").

Structuration d’équipe

Prompt Committee (3-5 personnes)

  • Définir les Standards
  • Gérer la “prompt library”
  • Choisir les outils et processus
  • Partager la connaissance

Prompt Owner (1 par catégorie)

  • Maintenance technique des prompts
  • Amelioration continue
  • Performance monitoring

Review Committee (3-5 personnes par categorie)

  • Validation des évolutions
  • Performance monitoring regulier

Contributors (toute l'équipe)

  • Soumission de nouveaux prompts
  • Feedback sur performance en “best effort”
  • Proposition d'améliorations

GitHub comme "Single Source of Truth" pour vos Prompts

L'ère du prompt "stocké dans un Google Doc" ou "copié-collé dans Slack" est révolue. Un prompt est un asset de production au même titre que du code. Il doit être traité avec la même rigueur.

Des outils spécialisés comme promptpanda se développent. En attendant que les outils deviennent plus matures, je recommande Github.

Pourquoi GitHub ?

  • Version Control : La raison la plus évidente. Chaque modification d'un prompt, même le changement d'une seule virgule, peut altérer radicalement la performance du LLM. Git permet de tracer chaque itération, de comprendre l'évolution, d'identifier les régressions et de revenir à une version antérieure stable en cas de problème. git blame devient aussi pertinent pour un prompt que pour une ligne de code.
  • Collaboration et Review : Les Pull Requests (PRs) sont un mécanisme essentiel pour le quality control. Une nouvelle version d'un prompt ou un nouveau prompt doit passer par un processus de relecture. L'équipe peut commenter, suggérer des améliorations et valider la logique avant toute fusion dans la branche principale (main). Cela garantit que la connaissance n'est pas silotée et que les best practices sont partagées.
  • Structure et Organisation : Organisez vos prompts dans un repository dédié. Une arborescence claire est non-négociable. On peut imaginer une structure par cas d'usage, puis par version :

/prompt-database/
├── /categories/
│   ├── /category1/
│   ├── /category2/
│   ├── /category3/
│   └── /category4/
├── /templates/
│   ├── base-template.md
│   └── testing-template.md
├── /metrics/
│   ├── performance-logs.json
│   └── ab-test-results.csv
└── /deprecated/

Cette structure, couplée aux tags Git, offre une visibilité totale sur l'évolution de votre base de prompts.

  • Versioning and Templating : Chaque prompt suit un template standardisé incluant metadata, objectifs, variables de contexte et métriques de performance, garantissant la cohérence et la reproductibilité. 

Data driven: Testing Systématique

La qualité d’un prompt ne se juge pas à l’intuition. Il faut des tests.

To store prompt testing results and track their evolution across modifications, you can set up a structured prompt testing framework in your GitHub repo. Here's a practical, scalable method:

/prompts/
  promptA.md
  promptB.md
/tests/
  promptA/
    001-input.json
    001-output.md
    002-input.json
    002-output.md
  promptB/
    ...
/results/
  promptA/
    history.csv
    snapshots/
      2024-06-01-output.md
      2024-06-15-output.md

Create a history.csv per prompt to log the results:

Date

Prompt Version

Test ID

Accuracy

Latency

Cost

Notes

2024-06-01

v1.0

001

85%

2.3s

$0.04

Baseline

2024-06-15

v1.1

001

78%

1.8s

$0.03

Régression qualité

2024-06-20

v1.2

001

92%

2.1s

$0.04

Optimisation réussie

Protocole de Test :

  1. Définition des métriques : Accuracy, relevance, cost-per-token, latency
  2. Échantillonnage : Minimum 100 tests par version pour la significativité statistique
  3. Blind testing : Évaluation sans connaissance de la version testée
  4. Période d'observation : 7 jours minimum pour capturer les variations

La gestion des prompts n'est pas un problème technique annexe ; c'est un pilier central de la performance et de la scalabilité de votre stratégie AI. Passer d'une approche artisanale à une gestion industrielle, en s'appuyant sur des outils robustes comme GitHub, des méthodologies analytiques comme l'A/B testing, et une gouvernance claire, est la seule voie pour construire un avantage compétitif durable. 

Read more