Question 1

Pourquoi l'observabilité est-elle indispensable en production Kubernetes ?

Accepted Answer

Réponse directe : Sans observabilité, vous pilotez votre cluster à l'aveugle et ne découvrez les problèmes que lorsque vos utilisateurs les signalent. Kubernetes abstrait l'infrastructure sous-jacente, ce qui vous apporte flexibilité et scalabilité. Mais cette abstraction crée également de la com...

Question 2

1. Comment structurer les trois piliers de l'observabilité ?

Accepted Answer

Réponse directe : Implémentez métriques, logs et traces de manière complémentaire pour obtenir une vision complète. Métriques : Collectez des données numériques agrégées (CPU, mémoire, requêtes/seconde). Utilisez Prometheus avec les annotations suivantes sur vos pods : metadata: annotations: prom...

Question 3

2. Quelles métriques devez-vous surveiller en priorité ?

Accepted Answer

Réponse directe : Concentrez-vous sur les métriques USE (Utilization, Saturation, Errors) pour l'infrastructure et RED (Rate, Errors, Duration) pour les applications. Votre checklist métriques Kubernetes doit inclure : Configurez vos requests et limits pour chaque conteneur. Sans ces définitions,...

Question 4

3. Comment configurer des alertes actionnables ?

Accepted Answer

Réponse directe : Chaque alerte doit inclure un runbook et permettre une action immédiate ; éliminez le bruit. Les alertes inefficaces créent de la fatigue et vous font ignorer les vrais problèmes. Appliquez ces règles : - Spécificité : Alertez sur les symptômes visibles par vos utilisateurs, pas...

Question 5

4. Pourquoi devez-vous standardiser le logging structuré ?

Accepted Answer

Réponse directe : Les logs non structurés sont impossibles à analyser à grande échelle ; le JSON vous permet de filtrer et corréler efficacement. Définissez un schéma de logging pour toutes vos équipes : { "timestamp": "2026-02-28T10:15:30Z", "level": "error", "service": "payment-api", "trace_id"...

Question 6

5. Comment implémenter le tracing distribué ?

Accepted Answer

Réponse directe : Utilisez OpenTelemetry comme standard et propagez les contextes de trace à travers tous vos services. Le tracing distribué est la seule façon de diagnostiquer les problèmes de latence dans une architecture microservices. Votre implémentation doit : Instrumenter automatiquement a...

Question 7

6. Quelle stratégie de rétention adopter pour vos données ?

Accepted Answer

Réponse directe : Définissez des durées de rétention différenciées selon la criticité et le coût de stockage. Configurez le downsampling automatique pour vos métriques anciennes. Thanos ou Cortex vous permettent de conserver des métriques longue durée à moindre coût. Pour un dévis formation Kuber...

Question 8

7. Comment sécuriser votre stack d'observabilité ?

Accepted Answer

Réponse directe : Traitez vos données d'observabilité comme des données sensibles : chiffrement, RBAC, et audit. Vos logs contiennent potentiellement des données personnelles, des tokens, et des informations confidentielles. Implémentez : - Masquage automatique des données sensibles (emails, toke...

Question 9

8. Quels dashboards construire pour chaque audience ?

Accepted Answer

Réponse directe : Créez des dashboards spécifiques par rôle (SRE, développeur, management) avec les métriques pertinentes pour chacun. Dashboard SRE/Ops : - Santé globale du cluster (nodes, pods, API server) - Alertes actives et historique - Capacité et tendances Dashboard Développeur : - Métriqu...

Question 10

9. Comment valider votre observabilité avant un incident réel ?

Accepted Answer

Réponse directe : Pratiquez le chaos engineering et les game days pour tester vos runbooks et dashboards. Exercices recommandés : Supprimez un pod et vérifiez que vous détectez le problème en moins de 2 minutes Saturez la mémoire d'un conteneur et validez vos alertes OOMKilled Introduisez de la l...

Question 11

10. Comment documenter et maintenir votre stack ?

Accepted Answer

Réponse directe : Maintenez une documentation vivante incluant architecture, runbooks, et procédures d'escalade. Votre documentation observabilité doit inclure : - Architecture diagram de votre stack (collecteurs, stockage, visualisation) - Runbooks pour chaque alerte avec étapes de résolution - ...

Catégorie	Métriques clés	Seuil d'alerte recommandé
Node CPU	`node_cpu_seconds_total`	>85% pendant 5min
Node Memory	`node_memory_MemAvailable_bytes`	<15% disponible
Pod Restarts	`kube_pod_container_status_restarts_total`	>3 en 1h
API Server Latency	`apiserver_request_duration_seconds`	p99 >1s

Type de données	Rétention recommandée	Justification
Métriques haute résolution	15 jours	Diagnostic immédiat
Métriques agrégées	13 mois	Comparaisons YoY
Logs applicatifs	30 jours	Compliance, debug
Logs d'audit	1 an minimum	Réglementaire
Traces	7 jours	Coût élevé

Checklist observabilité Kubernetes en production : les bonnes pratiques

Points clés