InsightsTech7 min de lecture

1 Million Context Tokens: What It Actually Changes

Thomas Gros‱
FenĂȘtre de contexte de 1 million de tokens - Claude et Gemini changent la donne pour les dĂ©veloppeurs

Le contexte de 1M tokens arrive en GA partout

TL;DR Le contexte de 1M tokens est maintenant en GA chez les deux principaux fournisseurs. Gemini 3.1 Pro l'a proposé en premier (février 2026, 2-4$/M tokens). Claude Opus 4.6 et Sonnet 4.6 suivent en mars 2026 (3-5$/M tokens), sans surcoût long-context. Anthropic met en avant la qualité de retrieval (78.3% MRCR v2 vs 26.3% pour Gemini 3 Pro). Résultat concret : un LLM peut ingérer un codebase entier ou maintenir des sessions d'agents de plusieurs heures sans perte de contexte.

Gemini a ouvert la voie. DÚs février 2026, Gemini 3.1 Pro proposait 1M tokens de contexte en GA sur Vertex AI et Google AI Studio. C'était le premier modÚle frontier à offrir cette capacité en production, à un tarif compétitif de 2$/12$ par million de tokens.

Le 13 mars 2026, Anthropic suit en passant Claude Opus 4.6 et Sonnet 4.6 en GA avec la mĂȘme fenĂȘtre de 1M tokens. Trois changements concrets :

1. Plus de surcoĂ»t - une requĂȘte de 900K tokens est facturĂ©e au mĂȘme tarif par token qu'une requĂȘte de 9K. Fini le multiplicateur long-context

2. DĂ©bit standard sur toute la fenĂȘtre - les rate limits ne sont plus rĂ©duites au-delĂ  de 200K tokens

3. 6x plus de mĂ©dias - jusqu'Ă  600 images ou pages PDF par requĂȘte, contre 100 avant

Pas de header bĂȘta requis. Pas de changement de code. Si vous ĂȘtes sur Max, Team ou Enterprise, c'est automatique.

Combien ça coûte ?

ModĂšleInputOutput
Opus 4.65$ / M tokens25$ / M tokens
Sonnet 4.63$ / M tokens15$ / M tokens

Le prix est identique quelle que soit la longueur du contexte. Une requĂȘte de 1M tokens d'entrĂ©e sur Sonnet coĂ»te 3$. Sur Opus, 5$.

Pour comparaison, Gemini 3.1 Pro facture 2$/12$ par million de tokens jusqu'à 200K, puis 4$/18$ au-delà. Sur les contextes longs, Gemini reste moins cher en input mais Anthropic a supprimé son multiplicateur.

La taille ne fait pas tout : la qualité du retrieval

Avoir 1M tokens de contexte ne sert Ă  rien si le modĂšle oublie ce qu'il a lu Ă  la page 50. C'est le problĂšme historique du "lost in the middle" : les modĂšles perdent en prĂ©cision sur les informations situĂ©es au milieu de la fenĂȘtre.

Le benchmark MRCR v2 (Multi-needle Retrieval over Complex Reasoning) mesure spécifiquement cette capacité : retrouver et raisonner sur des informations dispersées dans un long contexte.

ModĂšleMRCR v2
Claude Opus 4.678.3% (record)
Gemini 3 Pro26.3%
Claude précédent (meilleur)18.5%

Sur ce benchmark, Opus 4.6 se dĂ©grade nettement moins que ses concurrents quand le contexte s'allonge. C'est l'argument principal d'Anthropic : la fenĂȘtre est non seulement grande, mais la qualitĂ© de retrieval tient sur toute sa longueur. A noter que ce benchmark compare Gemini 3 Pro (pas 3.1 Pro), et que Google n'a pas encore publiĂ© de score MRCR v2 pour 3.1 Pro.

Pourquoi 1M de contexte change la donne ?

La fin du "context engineering"

Jusqu'ici, une part importante du travail avec les LLMs consistait à gérer le contexte : découper les documents, résumer les passages clés, choisir quoi inclure et quoi exclure, compresser les conversations longues. Avec 1M de tokens, ce travail disparaßt pour la majorité des cas d'usage.

1 million de tokens, c'est environ :

  • ~750 000 mots - l'Ă©quivalent de 10 livres
  • Un codebase complet - la plupart des projets tiennent dans 1M de tokens
  • Des milliers de pages de contrats, de documentation technique, de rapports

Les agents peuvent enfin fonctionner longtemps

C'est l'impact le plus concret pour les deux Ă©cosystĂšmes. Un agent IA qui exĂ©cute une tĂąche complexe accumule du contexte : appels d'outils, rĂ©sultats d'observation, raisonnement intermĂ©diaire. Avec une fenĂȘtre limitĂ©e, l'agent doit compresser (compaction) et perd de l'information.

Chez Anthropic, Jon Bell (CPO) rapporte "une baisse de 15% des événements de compaction. Nos agents maintiennent maintenant tout le contexte et tournent pendant des heures sans oublier ce qu'ils ont lu en page 1."

CĂŽtĂ© Google, Gemini CLI et les agents ADK bĂ©nĂ©ficient du mĂȘme avantage. Un agent ADK 2.0 qui orchestre plusieurs sous-agents sur Gemini 3.1 Pro peut maintenir l'intĂ©gralitĂ© du contexte de la tĂąche sans compression.

CĂŽtĂ© Anthropic, dans Claude Code, les sessions utilisent automatiquement la fenĂȘtre complĂšte sur Opus 4.6. Anton Biryukov (Software Engineer) : "Claude Code peut brĂ»ler 100K+ tokens en recherche. Avec 1M de contexte, je cherche, re-cherche, agrĂšge les edge cases et propose des fixes, le tout dans une seule fenĂȘtre."

Le codebase complet en une seule requĂȘte

Avant, analyser un projet de taille moyenne nécessitait de sélectionner les fichiers pertinents, de naviguer entre les modules, de reconstruire mentalement les dépendances. Maintenant, on charge tout. Le modÚle voit l'ensemble du projet : les imports, les types, les tests, la configuration, la documentation.

Les implications pour le développement :

  • Code review : le modĂšle lit tout le code touchĂ© par une PR, plus le code adjacent
  • Refactoring : le modĂšle comprend les impacts Ă  travers tout le codebase
  • Debugging : traces complĂštes, logs, code source, tout dans la mĂȘme fenĂȘtre
  • Documentation : le modĂšle gĂ©nĂšre de la documentation en ayant lu l'intĂ©gralitĂ© du projet

Gemini vs Claude : deux approches du 1M tokens

Les deux offrent 1M tokens en GA. Les stratégies diffÚrent.

Gemini 3.1 ProClaude Opus 4.6Claude Sonnet 4.6
Contexte1M in / 64K out1M in1M in
GA depuisFévrier 2026Mars 2026Mars 2026
Input pricing2-4$ / M tokens5$ / M tokens3$ / M tokens
Output pricing12-18$ / M tokens25$ / M tokens15$ / M tokens
MRCR v226.3%*78.3%-
MĂ©dias par requĂȘte-600600

*Score de Gemini 3 Pro. Pas de benchmark MRCR v2 publié pour Gemini 3.1 Pro.

Gemini a Ă©tĂ© le pionnier du 1M en production, avec un pricing plus agressif. C'est le choix logique pour les Ă©quipes Google Cloud et les cas d'usage oĂč le volume d'appels prime.

Claude arrive un mois plus tard mais met en avant la qualitĂ© de retrieval : Opus 4.6 se dĂ©grade moins sur les contextes longs, selon MRCR v2. C'est l'argument pour les cas oĂč la prĂ©cision sur l'ensemble de la fenĂȘtre est critique (code review, analyse juridique, debugging).

En pratique, les deux fonctionnent. Le choix se fait sur l'écosystÚme cloud, le pricing et le cas d'usage.

Pour aller plus loin

Le contexte de 1M tokens transforme la façon de travailler avec les LLMs. Notre formation Claude Code enseigne comment exploiter cette capacité : sessions longues, chargement de codebases complets, agents persistants. La formation Développeur Augmenté par l'IA couvre plus largement l'intégration des LLMs dans le workflow de développement, y compris la gestion du contexte et le prompt engineering.

Frequently Asked Questions

Environ 750 000 mots, soit un projet de ~30 000 fichiers de taille moyenne. La plupart des codebases de projets d'entreprise tiennent dans 1M tokens. Les trÚs gros monorepos dépassent cette limite.
Historiquement, oui. Les premiers modĂšles avec contexte long perdaient en prĂ©cision sur les informations situĂ©es au milieu de la fenĂȘtre ("lost in the middle"). Opus 4.6 atteint 78.3% sur MRCR v2, ce qui montre que le retrieval fonctionne effectivement sur toute la fenĂȘtre.
Non. Le pricing est au token : si vous envoyez 10K tokens, vous payez 10K tokens. La fenĂȘtre de 1M est un maximum, pas un minimum. Utilisez-la quand le contexte complet ajoute de la valeur.
Oui. Sur Max, Team et Enterprise avec Opus 4.6, Claude Code utilise automatiquement la fenĂȘtre complĂšte. Les sessions sont plus longues, avec moins de compactions et plus de contexte conservĂ©.
Oui. Gemini 3.1 Pro offre 1M tokens en entrĂ©e et 64K en sortie, en GA depuis fĂ©vrier 2026. Le pricing est de 2$/12$ (≀200K) ou 4$/18$ (>200K). Sur MRCR v2, Opus 4.6 montre une meilleure qualitĂ© de retrieval.
Gemini propose déjà 2M tokens en preview sur certains modÚles. La tendance est à l'augmentation. Mais au-delà de la taille brute, c'est la qualité du retrieval sur le contexte long qui fait la différence. Un contexte de 2M inutilisable est moins utile qu'un contexte de 1M fiable.

Tags

#claude#ia-generative#anthropic#gemini#google-cloud#llm#agentic-coding#contexte#ia