Le contexte de 1M tokens arrive en GA partout
TL;DR Le contexte de 1M tokens est maintenant en GA chez les deux principaux fournisseurs. Gemini 3.1 Pro l'a proposé en premier (février 2026, 2-4$/M tokens). Claude Opus 4.6 et Sonnet 4.6 suivent en mars 2026 (3-5$/M tokens), sans surcoût long-context. Anthropic met en avant la qualité de retrieval (78.3% MRCR v2 vs 26.3% pour Gemini 3 Pro). Résultat concret : un LLM peut ingérer un codebase entier ou maintenir des sessions d'agents de plusieurs heures sans perte de contexte.
Gemini a ouvert la voie. DÚs février 2026, Gemini 3.1 Pro proposait 1M tokens de contexte en GA sur Vertex AI et Google AI Studio. C'était le premier modÚle frontier à offrir cette capacité en production, à un tarif compétitif de 2$/12$ par million de tokens.
Le 13 mars 2026, Anthropic suit en passant Claude Opus 4.6 et Sonnet 4.6 en GA avec la mĂȘme fenĂȘtre de 1M tokens. Trois changements concrets :
1. Plus de surcoĂ»t - une requĂȘte de 900K tokens est facturĂ©e au mĂȘme tarif par token qu'une requĂȘte de 9K. Fini le multiplicateur long-context
2. DĂ©bit standard sur toute la fenĂȘtre - les rate limits ne sont plus rĂ©duites au-delĂ de 200K tokens
3. 6x plus de mĂ©dias - jusqu'Ă 600 images ou pages PDF par requĂȘte, contre 100 avant
Pas de header bĂȘta requis. Pas de changement de code. Si vous ĂȘtes sur Max, Team ou Enterprise, c'est automatique.
Combien ça coûte ?
| ModĂšle | Input | Output |
|---|---|---|
| Opus 4.6 | 5$ / M tokens | 25$ / M tokens |
| Sonnet 4.6 | 3$ / M tokens | 15$ / M tokens |
Le prix est identique quelle que soit la longueur du contexte. Une requĂȘte de 1M tokens d'entrĂ©e sur Sonnet coĂ»te 3$. Sur Opus, 5$.
Pour comparaison, Gemini 3.1 Pro facture 2$/12$ par million de tokens jusqu'à 200K, puis 4$/18$ au-delà . Sur les contextes longs, Gemini reste moins cher en input mais Anthropic a supprimé son multiplicateur.
La taille ne fait pas tout : la qualité du retrieval
Avoir 1M tokens de contexte ne sert Ă rien si le modĂšle oublie ce qu'il a lu Ă la page 50. C'est le problĂšme historique du "lost in the middle" : les modĂšles perdent en prĂ©cision sur les informations situĂ©es au milieu de la fenĂȘtre.
Le benchmark MRCR v2 (Multi-needle Retrieval over Complex Reasoning) mesure spécifiquement cette capacité : retrouver et raisonner sur des informations dispersées dans un long contexte.
| ModĂšle | MRCR v2 |
|---|---|
| Claude Opus 4.6 | 78.3% (record) |
| Gemini 3 Pro | 26.3% |
| Claude précédent (meilleur) | 18.5% |
Sur ce benchmark, Opus 4.6 se dĂ©grade nettement moins que ses concurrents quand le contexte s'allonge. C'est l'argument principal d'Anthropic : la fenĂȘtre est non seulement grande, mais la qualitĂ© de retrieval tient sur toute sa longueur. A noter que ce benchmark compare Gemini 3 Pro (pas 3.1 Pro), et que Google n'a pas encore publiĂ© de score MRCR v2 pour 3.1 Pro.
Pourquoi 1M de contexte change la donne ?
La fin du "context engineering"
Jusqu'ici, une part importante du travail avec les LLMs consistait à gérer le contexte : découper les documents, résumer les passages clés, choisir quoi inclure et quoi exclure, compresser les conversations longues. Avec 1M de tokens, ce travail disparaßt pour la majorité des cas d'usage.
1 million de tokens, c'est environ :
- ~750 000 mots - l'équivalent de 10 livres
- Un codebase complet - la plupart des projets tiennent dans 1M de tokens
- Des milliers de pages de contrats, de documentation technique, de rapports
Les agents peuvent enfin fonctionner longtemps
C'est l'impact le plus concret pour les deux Ă©cosystĂšmes. Un agent IA qui exĂ©cute une tĂąche complexe accumule du contexte : appels d'outils, rĂ©sultats d'observation, raisonnement intermĂ©diaire. Avec une fenĂȘtre limitĂ©e, l'agent doit compresser (compaction) et perd de l'information.
Chez Anthropic, Jon Bell (CPO) rapporte "une baisse de 15% des événements de compaction. Nos agents maintiennent maintenant tout le contexte et tournent pendant des heures sans oublier ce qu'ils ont lu en page 1."
CĂŽtĂ© Google, Gemini CLI et les agents ADK bĂ©nĂ©ficient du mĂȘme avantage. Un agent ADK 2.0 qui orchestre plusieurs sous-agents sur Gemini 3.1 Pro peut maintenir l'intĂ©gralitĂ© du contexte de la tĂąche sans compression.
CĂŽtĂ© Anthropic, dans Claude Code, les sessions utilisent automatiquement la fenĂȘtre complĂšte sur Opus 4.6. Anton Biryukov (Software Engineer) : "Claude Code peut brĂ»ler 100K+ tokens en recherche. Avec 1M de contexte, je cherche, re-cherche, agrĂšge les edge cases et propose des fixes, le tout dans une seule fenĂȘtre."
Le codebase complet en une seule requĂȘte
Avant, analyser un projet de taille moyenne nécessitait de sélectionner les fichiers pertinents, de naviguer entre les modules, de reconstruire mentalement les dépendances. Maintenant, on charge tout. Le modÚle voit l'ensemble du projet : les imports, les types, les tests, la configuration, la documentation.
Les implications pour le développement :
- Code review : le modÚle lit tout le code touché par une PR, plus le code adjacent
- Refactoring : le modĂšle comprend les impacts Ă travers tout le codebase
- Debugging : traces complĂštes, logs, code source, tout dans la mĂȘme fenĂȘtre
- Documentation : le modÚle génÚre de la documentation en ayant lu l'intégralité du projet
Gemini vs Claude : deux approches du 1M tokens
Les deux offrent 1M tokens en GA. Les stratégies diffÚrent.
| Gemini 3.1 Pro | Claude Opus 4.6 | Claude Sonnet 4.6 | |
|---|---|---|---|
| Contexte | 1M in / 64K out | 1M in | 1M in |
| GA depuis | Février 2026 | Mars 2026 | Mars 2026 |
| Input pricing | 2-4$ / M tokens | 5$ / M tokens | 3$ / M tokens |
| Output pricing | 12-18$ / M tokens | 25$ / M tokens | 15$ / M tokens |
| MRCR v2 | 26.3%* | 78.3% | - |
| MĂ©dias par requĂȘte | - | 600 | 600 |
*Score de Gemini 3 Pro. Pas de benchmark MRCR v2 publié pour Gemini 3.1 Pro.
Gemini a Ă©tĂ© le pionnier du 1M en production, avec un pricing plus agressif. C'est le choix logique pour les Ă©quipes Google Cloud et les cas d'usage oĂč le volume d'appels prime.
Claude arrive un mois plus tard mais met en avant la qualitĂ© de retrieval : Opus 4.6 se dĂ©grade moins sur les contextes longs, selon MRCR v2. C'est l'argument pour les cas oĂč la prĂ©cision sur l'ensemble de la fenĂȘtre est critique (code review, analyse juridique, debugging).
En pratique, les deux fonctionnent. Le choix se fait sur l'écosystÚme cloud, le pricing et le cas d'usage.
Pour aller plus loin
Le contexte de 1M tokens transforme la façon de travailler avec les LLMs. Notre formation Claude Code enseigne comment exploiter cette capacité : sessions longues, chargement de codebases complets, agents persistants. La formation Développeur Augmenté par l'IA couvre plus largement l'intégration des LLMs dans le workflow de développement, y compris la gestion du contexte et le prompt engineering.


