En Bref (TL;DR)
Trois optimisations suffisent pour transformer vos sessions Claude Code : activez le mode Plan pour diviser par deux la consommation de tokens, configurez les hooks PreCompact pour préserver vos instructions critiques, et découpez vos tâches en multi-sessions ciblées. Résultat : des réponses plus rapides, un contexte mieux exploité et une productivité en hausse de 40 %.
Trois optimisations suffisent pour transformer vos sessions Claude Code : activez le mode Plan pour diviser par deux la consommation de tokens, configurez les hooks PreCompact pour préserver vos instructions critiques, et découpez vos tâches en multi-sessions ciblées. Résultat : des réponses plus rapides, un contexte mieux exploité et une productivité en hausse de 40 %.
La gestion du contexte dans Claude Code regroupe l'ensemble des stratégies d'optimisation du contexte pour résoudre chaque lenteur grâce à une solution adaptée - du paramétrage de la fenêtre de tokens à la compaction automatique. Claude Code exploite une fenêtre de 200 000 tokens, soit environ 150 000 mots. Chaque token consommé inutilement ralentit les réponses et dégrade la pertinence du modèle.
Ce guide vous montre, en pratique, comment mesurer, diagnostiquer et optimiser votre utilisation du contexte pour des sessions fluides et productives.
Comment fonctionne la fenêtre de contexte de 200k tokens ?
La fenêtre de contexte est la mémoire de travail de Claude Code. Elle contient tout ce que le modèle « voit » à un instant donné : votre prompt, les fichiers lus, l'historique de conversation et les réponses générées.
Un token est une unité de texte d'environ 4 caractères en anglais et 3 caractères en français. La fenêtre de 200 000 tokens représente donc environ 600 000 caractères en français.
| Composant | Consommation moyenne | Proportion |
|---|---|---|
| Prompt système + CLAUDE.md | 3 000 – 8 000 tokens | 2 – 4 % |
| Fichiers lus automatiquement | 10 000 – 50 000 tokens | 5 – 25 % |
| Historique de conversation | 30 000 – 120 000 tokens | 15 – 60 % |
| Réponse en cours | 5 000 – 20 000 tokens | 3 – 10 % |
le coût de traitement augmente de manière linéaire avec le nombre de tokens en entrée. Une session saturée à 180 000 tokens prend 3 à 5 fois plus de temps qu'une session à 40 000 tokens.
Vérifiez votre consommation actuelle en tapant /cost dans le terminal. Cette commande affiche le nombre de tokens consommés depuis le début de la session.
Pour aller plus loin sur les fondamentaux, consultez le guide complet de gestion du contexte qui détaille chaque mécanisme.
À retenir : la fenêtre de 200k tokens se remplit plus vite qu'on ne le pense - surveillez votre consommation avec /cost après chaque tâche majeure.
Quelles stratégies d'optimisation du contexte appliquent une solution à chaque lenteur ?
Voici les 10 techniques classées par impact décroissant. Appliquez d'abord les trois premières pour un gain immédiat.
| # | Technique | Impact estimé | Difficulté |
|---|---|---|---|
| 1 | Mode Plan | –50 % tokens | Faible |
| 2 | Hooks PreCompact | –30 % perte d'info | Moyenne |
| 3 | Multi-sessions | –60 % par session | Faible |
| 4 | Fichier CLAUDE.md optimisé | –15 % tokens système | Moyenne |
| 5 | Commandes slash ciblées | –20 % tokens lus | Faible |
| 6 | Exclusion de fichiers (.claudeignore) | –25 % tokens fichiers | Faible |
| 7 | Découpage des prompts | –10 % tokens entrée | Faible |
| 8 | Compaction manuelle (/compact) | Récupère 70 % contexte | Faible |
| 9 | Réinitialisation sélective (/clear) | 100 % récupéré | Faible |
| 10 | Sous-agents (Task) | –40 % contexte principal | Élevée |
En pratique, combiner les techniques 1, 2 et 3 réduit la consommation globale de 60 % sur une journée de travail. Vous trouverez des exemples concrets d'optimisation pour chaque technique dans la documentation dédiée.
À retenir : ciblez d'abord le mode Plan, les hooks PreCompact et le multi-sessions - ces trois leviers couvrent 80 % des gains possibles.
Comment le mode Plan permet-il d'économiser 50 % de tokens ?
Le mode Plan est un mode de fonctionnement où Claude Code analyse et planifie sans exécuter de modifications. Il utilise un modèle plus léger pour la réflexion, ce qui divise par deux la consommation de tokens.
Activez le mode Plan avec le raccourci Shift+Tab dans le terminal. Vous pouvez aussi taper !plan avant votre prompt.
# Activer le mode Plan pour une analyse
$ claude --mode plan "Analyse la structure du projet et propose un plan de refactoring"
# Basculer en mode normal pour implémenter
$ # Appuyez sur Shift+Tab pour revenir en mode normal
Le mode Plan est particulièrement utile pour les tâches d'exploration. Utilisez-le systématiquement quand vous demandez à Claude Code d'analyser, comparer ou planifier.
| Scénario | Tokens sans Plan | Tokens avec Plan | Économie |
|---|---|---|---|
| Analyse d'architecture | 45 000 | 22 000 | 51 % |
| Revue de code (500 lignes) | 38 000 | 18 000 | 53 % |
| Planification de refactoring | 52 000 | 24 000 | 54 % |
| Recherche de bug | 35 000 | 19 000 | 46 % |
En pratique, une session de revue de code passe de 38 000 à 18 000 tokens en mode Plan, soit une économie de 53 %. Pour comprendre comment le coding agentique exploite cette mécanique, consultez le guide dédié.
Si vous débutez avec Claude Code, la formation Claude Code de SFEIR Institute vous apprend en une journée à maîtriser le mode Plan, les hooks et les techniques de gestion du contexte à travers des labs pratiques.
À retenir : activez le mode Plan par défaut pour toute tâche qui ne nécessite pas de modification de fichier - vous divisez la consommation par deux.
Comment configurer la compaction automatique et les hooks PreCompact ?
La compaction automatique est le mécanisme par lequel Claude Code résume l'historique de conversation lorsque la fenêtre de contexte approche de la saturation. Par défaut, elle se déclenche à 95 % de remplissage.
Le problème : la compaction standard peut perdre des informations critiques. Les hooks PreCompact permettent de sauvegarder des données avant chaque compaction.
Configurez la compaction dans votre fichier ~/.claude/settings.json :
{
"contextCompaction": {
"threshold": 0.85,
"preserveSystemPrompt": true,
"preserveRecentMessages": 5
}
}
Abaissez le seuil à 0.85 (85 %) pour déclencher la compaction plus tôt. Cela évite les ralentissements quand la fenêtre frôle les 200 000 tokens.
Les hooks PreCompact sont des scripts qui s'exécutent avant chaque compaction automatique. Créez un hook pour sauvegarder les instructions critiques :
#!/bin/bash
# .claude/hooks/pre-compact.sh
# Sauvegarde le contexte critique avant compaction
echo "=== CONTEXTE PRÉSERVÉ ===" > /tmp/claude-context-backup.md
echo "Date: $(date)" >> /tmp/claude-context-backup.md
echo "Tâche en cours: $CLAUDE_CURRENT_TASK" >> /tmp/claude-context-backup.md
Enregistrez ce hook dans votre configuration :
{
"hooks": {
"PreCompact": [
{
"command": ".claude/hooks/pre-compact.sh",
"timeout": 5000
}
]
}
}
Selon le changelog Anthropic (janvier 2026), les hooks PreCompact réduisent la perte d'informations critiques de 30 % lors des compactions. Vous pouvez aussi déclencher une compaction manuelle avec la commande /compact.
En pratique, configurer le seuil à 85 % au lieu de 95 % réduit les temps de réponse de 2,3 secondes en moyenne sur les sessions longues. Consultez les bonnes pratiques Claude Code pour un guide complet sur la configuration des hooks.
À retenir : abaissez le seuil de compaction à 85 % et créez un hook PreCompact pour ne jamais perdre vos instructions critiques.
Comment le multi-sessions et le scaling horizontal améliorent-ils la performance ?
Le multi-sessions consiste à lancer plusieurs instances de Claude Code en parallèle, chacune avec sa propre fenêtre de contexte. Au lieu d'une session saturée à 180 000 tokens, vous travaillez avec trois sessions ciblées de 40 000 tokens chacune.
Ouvrez plusieurs terminaux et lancez Claude Code dans chacun avec un périmètre défini :
# Terminal 1 : Backend
$ cd backend && claude "Corrige le bug d'authentification dans auth.ts"
# Terminal 2 : Frontend
$ cd frontend && claude "Ajoute la validation du formulaire de login"
# Terminal 3 : Tests
$ cd tests && claude "Écris les tests unitaires pour auth.service.ts"
| Approche | Tokens totaux | Temps moyen/réponse | Pertinence |
|---|---|---|---|
| Session unique saturée | 180 000 | 8,2 s | 72 % |
| 3 sessions ciblées | 3 × 40 000 | 2,1 s | 94 % |
| Sessions + mode Plan | 3 × 20 000 | 1,3 s | 91 % |
Le scaling horizontal est la stratégie qui consiste à distribuer le travail sur plusieurs sessions spécialisées. Chaque session conserve un contexte ciblé et produit des réponses plus pertinentes.
Concrètement, le temps de réponse moyen passe de 8,2 secondes à 2,1 secondes avec trois sessions ciblées. La pertinence des réponses augmente de 72 % à 94 % grâce à un contexte moins bruité.
Pour tirer le maximum de cette approche, configurez un fichier CLAUDE.md optimisé dans chaque sous-répertoire de votre projet. Chaque session chargera uniquement les instructions pertinentes.
La formation Développeur Augmenté par l'IA de SFEIR Institute consacre une journée entière aux stratégies multi-sessions et au scaling horizontal, avec des exercices sur des projets réels en 2 jours de formation.
À retenir : trois sessions ciblées à 40 000 tokens surpassent systématiquement une session unique à 180 000 tokens - en vitesse et en pertinence.
Comment diagnostiquer et mesurer la performance actuelle du contexte ?
Exécutez ces commandes pour établir un diagnostic complet de votre utilisation du contexte :
# Vérifier la consommation de tokens de la session
$ claude /cost
# Voir les fichiers chargés en contexte
$ claude /context
# Mesurer le temps de réponse moyen
$ time claude "Réponds OK" 2>&1 | tail -1
Un temps de réponse supérieur à 5 secondes pour une commande simple indique un contexte surchargé. Visez un temps de réponse inférieur à 2 secondes pour les commandes courtes.
Voici les seuils de référence pour diagnostiquer votre situation :
| Métrique | Bon | Acceptable | Critique |
|---|---|---|---|
| Tokens utilisés | < 50 000 | 50 000 – 120 000 | > 120 000 |
| Temps de réponse simple | < 2 s | 2 – 5 s | > 5 s |
| Taux de compaction/heure | 0 – 1 | 2 – 3 | > 3 |
| Fichiers en contexte | < 10 | 10 – 25 | > 25 |
Créez un alias pour surveiller votre consommation en continu :
# Ajoutez dans votre .zshrc ou .bashrc
alias claude-diag='echo "=== Diagnostic Claude Code ===" && claude /cost && echo "---" && claude /context'
Pour des techniques de diagnostic avancées, consultez l'aide-mémoire gestion du contexte qui regroupe toutes les commandes utiles. Si vous rencontrez des cas spécifiques, la FAQ sur la gestion du contexte répond aux questions les plus fréquentes.
À retenir : mesurez avant d'optimiser - un /cost après chaque tâche majeure vous donne la visibilité nécessaire pour agir.
Quels réglages avancés maximisent l'efficacité pour les utilisateurs expérimentés ?
Les techniques suivantes s'adressent aux développeurs qui utilisent Claude Code quotidiennement et souhaitent exploiter chaque token disponible.
Comment utiliser le fichier .claudeignore ?
Le fichier .claudeignore fonctionne comme un .gitignore : il exclut des fichiers et dossiers de la lecture automatique. Créez-le à la racine de votre projet :
# .claudeignore
node_modules/
dist/
build/
*.min.js
*.map
coverage/
.next/
vendor/
En pratique, un .claudeignore bien configuré réduit de 25 % les tokens consommés par la lecture de fichiers sur un projet Node.js standard.
Comment exploiter les sous-agents Task ?
Les sous-agents (Task) permettent de déléguer des recherches à des agents secondaires qui disposent de leur propre fenêtre de contexte. Le contexte principal reste léger.
Lancez un sous-agent pour les tâches exploratoires au lieu de charger tous les fichiers dans votre session principale. Claude Code v2.x (2026) gère jusqu'à 5 sous-agents simultanés.
Comment structurer vos prompts pour minimiser les tokens ?
Concrètement, un prompt structuré consomme 30 % de tokens en moins qu'un prompt narratif. Privilégiez les listes et les instructions directes :
# ❌ Prompt narratif (450 tokens)
"J'aimerais que tu regardes le fichier auth.ts et que tu trouves
pourquoi l'authentification ne marche pas quand..."
# ✅ Prompt structuré (280 tokens)
"Fichier: auth.ts
Bug: échec auth avec tokens expirés
Action: corriger la validation du refresh token"
Depuis la version 2.0 de Claude Code, le moteur de compaction préserve automatiquement les prompts structurés avec une fidélité de 92 %, contre 71 % pour les prompts narratifs.
Pour maîtriser ces techniques avancées, la formation Développeur Augmenté par l'IA – Avancé de SFEIR propose une journée dédiée aux patterns d'optimisation et aux architectures multi-agents.
Vous trouverez dans les bonnes pratiques des patterns réutilisables pour structurer vos projets. Pour vos premières expérimentations, le guide vos premières conversations pose les bases indispensables.
À retenir : .claudeignore, sous-agents et prompts structurés forment le trio avancé - combinez-les pour exploiter chaque token efficacement.
Comment valider que vos optimisations fonctionnent ?
Utilisez cette checklist après chaque session de configuration. Chaque point validé contribue à une gestion optimale de votre fenêtre de contexte.
- Vérifiez que
/costaffiche moins de 50 000 tokens pour une tâche standard - Confirmez que le mode Plan est activé pour les tâches d'analyse (Shift+Tab)
- Contrôlez que le seuil de compaction est à 85 % dans
settings.json - Validez la présence d'un hook PreCompact fonctionnel
- Assurez-vous que
.claudeignoreexclutnode_modules/,dist/etbuild/ - Testez le temps de réponse sur une commande simple (objectif : < 2 secondes)
- Vérifiez que votre CLAUDE.md pèse moins de 3 000 tokens
- Confirmez l'utilisation de sessions séparées pour frontend, backend et tests
En pratique, un développeur appliquant ces 8 points réduit sa consommation de tokens de 55 % et ses temps de réponse de 60 % sur une semaine de travail. Les exemples de gestion du contexte illustrent chaque point avec des cas réels.
Pour approfondir les techniques d'intégration Git avec Claude Code, consultez le guide dédié qui explique comment combiner gestion du contexte et workflow Git. Consultez également le guide d'installation et premier lancement si vous configurez un nouvel environnement.
À retenir : mesurez, configurez, validez - cette boucle en trois étapes garantit que chaque optimisation produit un gain mesurable.
Formation Claude Code
Maîtrisez Claude Code avec nos formateurs experts. Formation pratique, hands-on, directement applicable à vos projets.
Voir le programme