InsightsTech7 min de lecture

1 million de tokens de contexte : ce que ça change concrètement

Thomas Gros
Fenêtre de contexte de 1 million de tokens - Claude et Gemini changent la donne pour les développeurs

Le contexte de 1M tokens arrive en GA partout

TL;DR Le contexte de 1M tokens est maintenant en GA chez les deux principaux fournisseurs. Gemini 3.1 Pro l'a proposé en premier (février 2026, 2-4$/M tokens). Claude Opus 4.6 et Sonnet 4.6 suivent en mars 2026 (3-5$/M tokens), sans surcoût long-context. Anthropic met en avant la qualité de retrieval (78.3% MRCR v2 vs 26.3% pour Gemini 3 Pro). Résultat concret : un LLM peut ingérer un codebase entier ou maintenir des sessions d'agents de plusieurs heures sans perte de contexte.

Gemini a ouvert la voie. Dès février 2026, Gemini 3.1 Pro proposait 1M tokens de contexte en GA sur Vertex AI et Google AI Studio. C'était le premier modèle frontier à offrir cette capacité en production, à un tarif compétitif de 2$/12$ par million de tokens.

Le 13 mars 2026, Anthropic suit en passant Claude Opus 4.6 et Sonnet 4.6 en GA avec la même fenêtre de 1M tokens. Trois changements concrets :

1. Plus de surcoût - une requête de 900K tokens est facturée au même tarif par token qu'une requête de 9K. Fini le multiplicateur long-context

2. Débit standard sur toute la fenêtre - les rate limits ne sont plus réduites au-delà de 200K tokens

3. 6x plus de médias - jusqu'à 600 images ou pages PDF par requête, contre 100 avant

Pas de header bêta requis. Pas de changement de code. Si vous êtes sur Max, Team ou Enterprise, c'est automatique.

Combien ça coûte ?

ModèleInputOutput
Opus 4.65$ / M tokens25$ / M tokens
Sonnet 4.63$ / M tokens15$ / M tokens

Le prix est identique quelle que soit la longueur du contexte. Une requête de 1M tokens d'entrée sur Sonnet coûte 3$. Sur Opus, 5$.

Pour comparaison, Gemini 3.1 Pro facture 2$/12$ par million de tokens jusqu'à 200K, puis 4$/18$ au-delà. Sur les contextes longs, Gemini reste moins cher en input mais Anthropic a supprimé son multiplicateur.

La taille ne fait pas tout : la qualité du retrieval

Avoir 1M tokens de contexte ne sert à rien si le modèle oublie ce qu'il a lu à la page 50. C'est le problème historique du "lost in the middle" : les modèles perdent en précision sur les informations situées au milieu de la fenêtre.

Le benchmark MRCR v2 (Multi-needle Retrieval over Complex Reasoning) mesure spécifiquement cette capacité : retrouver et raisonner sur des informations dispersées dans un long contexte.

ModèleMRCR v2
Claude Opus 4.678.3% (record)
Gemini 3 Pro26.3%
Claude précédent (meilleur)18.5%

Sur ce benchmark, Opus 4.6 se dégrade nettement moins que ses concurrents quand le contexte s'allonge. C'est l'argument principal d'Anthropic : la fenêtre est non seulement grande, mais la qualité de retrieval tient sur toute sa longueur. A noter que ce benchmark compare Gemini 3 Pro (pas 3.1 Pro), et que Google n'a pas encore publié de score MRCR v2 pour 3.1 Pro.

Pourquoi 1M de contexte change la donne ?

La fin du "context engineering"

Jusqu'ici, une part importante du travail avec les LLMs consistait à gérer le contexte : découper les documents, résumer les passages clés, choisir quoi inclure et quoi exclure, compresser les conversations longues. Avec 1M de tokens, ce travail disparaît pour la majorité des cas d'usage.

1 million de tokens, c'est environ :

  • ~750 000 mots - l'équivalent de 10 livres
  • Un codebase complet - la plupart des projets tiennent dans 1M de tokens
  • Des milliers de pages de contrats, de documentation technique, de rapports

Les agents peuvent enfin fonctionner longtemps

C'est l'impact le plus concret pour les deux écosystèmes. Un agent IA qui exécute une tâche complexe accumule du contexte : appels d'outils, résultats d'observation, raisonnement intermédiaire. Avec une fenêtre limitée, l'agent doit compresser (compaction) et perd de l'information.

Chez Anthropic, Jon Bell (CPO) rapporte "une baisse de 15% des événements de compaction. Nos agents maintiennent maintenant tout le contexte et tournent pendant des heures sans oublier ce qu'ils ont lu en page 1."

Côté Google, Gemini CLI et les agents ADK bénéficient du même avantage. Un agent ADK 2.0 qui orchestre plusieurs sous-agents sur Gemini 3.1 Pro peut maintenir l'intégralité du contexte de la tâche sans compression.

Côté Anthropic, dans Claude Code, les sessions utilisent automatiquement la fenêtre complète sur Opus 4.6. Anton Biryukov (Software Engineer) : "Claude Code peut brûler 100K+ tokens en recherche. Avec 1M de contexte, je cherche, re-cherche, agrège les edge cases et propose des fixes, le tout dans une seule fenêtre."

Le codebase complet en une seule requête

Avant, analyser un projet de taille moyenne nécessitait de sélectionner les fichiers pertinents, de naviguer entre les modules, de reconstruire mentalement les dépendances. Maintenant, on charge tout. Le modèle voit l'ensemble du projet : les imports, les types, les tests, la configuration, la documentation.

Les implications pour le développement :

  • Code review : le modèle lit tout le code touché par une PR, plus le code adjacent
  • Refactoring : le modèle comprend les impacts à travers tout le codebase
  • Debugging : traces complètes, logs, code source, tout dans la même fenêtre
  • Documentation : le modèle génère de la documentation en ayant lu l'intégralité du projet

Gemini vs Claude : deux approches du 1M tokens

Les deux offrent 1M tokens en GA. Les stratégies diffèrent.

Gemini 3.1 ProClaude Opus 4.6Claude Sonnet 4.6
Contexte1M in / 64K out1M in1M in
GA depuisFévrier 2026Mars 2026Mars 2026
Input pricing2-4$ / M tokens5$ / M tokens3$ / M tokens
Output pricing12-18$ / M tokens25$ / M tokens15$ / M tokens
MRCR v226.3%*78.3%-
Médias par requête-600600

*Score de Gemini 3 Pro. Pas de benchmark MRCR v2 publié pour Gemini 3.1 Pro.

Gemini a été le pionnier du 1M en production, avec un pricing plus agressif. C'est le choix logique pour les équipes Google Cloud et les cas d'usage où le volume d'appels prime.

Claude arrive un mois plus tard mais met en avant la qualité de retrieval : Opus 4.6 se dégrade moins sur les contextes longs, selon MRCR v2. C'est l'argument pour les cas où la précision sur l'ensemble de la fenêtre est critique (code review, analyse juridique, debugging).

En pratique, les deux fonctionnent. Le choix se fait sur l'écosystème cloud, le pricing et le cas d'usage.

Pour aller plus loin

Le contexte de 1M tokens transforme la façon de travailler avec les LLMs. Notre formation Claude Code enseigne comment exploiter cette capacité : sessions longues, chargement de codebases complets, agents persistants. La formation Développeur Augmenté par l'IA couvre plus largement l'intégration des LLMs dans le workflow de développement, y compris la gestion du contexte et le prompt engineering.

Questions fréquentes

Environ 750 000 mots, soit un projet de ~30 000 fichiers de taille moyenne. La plupart des codebases de projets d'entreprise tiennent dans 1M tokens. Les très gros monorepos dépassent cette limite.
Historiquement, oui. Les premiers modèles avec contexte long perdaient en précision sur les informations situées au milieu de la fenêtre ("lost in the middle"). Opus 4.6 atteint 78.3% sur MRCR v2, ce qui montre que le retrieval fonctionne effectivement sur toute la fenêtre.
Non. Le pricing est au token : si vous envoyez 10K tokens, vous payez 10K tokens. La fenêtre de 1M est un maximum, pas un minimum. Utilisez-la quand le contexte complet ajoute de la valeur.
Oui. Sur Max, Team et Enterprise avec Opus 4.6, Claude Code utilise automatiquement la fenêtre complète. Les sessions sont plus longues, avec moins de compactions et plus de contexte conservé.
Oui. Gemini 3.1 Pro offre 1M tokens en entrée et 64K en sortie, en GA depuis février 2026. Le pricing est de 2$/12$ (≤200K) ou 4$/18$ (>200K). Sur MRCR v2, Opus 4.6 montre une meilleure qualité de retrieval.
Gemini propose déjà 2M tokens en preview sur certains modèles. La tendance est à l'augmentation. Mais au-delà de la taille brute, c'est la qualité du retrieval sur le contexte long qui fait la différence. Un contexte de 2M inutilisable est moins utile qu'un contexte de 1M fiable.

Tags

#claude#ia-generative#anthropic#gemini#google-cloud#llm#agentic-coding#contexte#ia