Table of Contents
Fiche pédagogique
- Objectifs SMART : définir SLO/SLA, déployer une stack Prometheus/Loki/Tempo et exécuter un game day Chaos Engineering en 12 jours.
- Durée : 14 h (5 h théorie, 9 h pratique)
- Prérequis : Kubernetes ou VM, notions monitoring.
- Niveau : Intermédiaire → Avancé.
Sommaire
- Principes Observabilité & SRE
- Stack métriques/logs/traces
- Alerting, runbooks & chaos
- Cas réel : incident majeur & postmortem
- Labs, quiz, checklist
- Ressources & synthèse
1. Principes Observabilité & SRE
- 3 piliers (metrics, logs, traces), signaux RED & USE.
- SLO/SLA/SLE, budgets d’erreur, SRE Book.
- Culture blameless, TOIL & automatisation.
2. Stack complète
- Métriques : Prometheus, Loki, Tempo.
- Agent unique : Grafana Agent ou OpenTelemetry Collector.
- Dashboards : Grafana, exemplars, drill-down.
scrape_configs:
- job_name: 'kubernetes-nodes'
kubernetes_sd_configs:
- role: node
relabel_configs:
- action: labelmap
regex: __meta_kubernetes_node_label_(.+)
3. Alerting, runbooks & chaos
- Alertmanager + routes, notifications Slack/PagerDuty.
- Runbook : contexte, commande, rollback.
- Chaos : Chaos Mesh, Litmus.
- Postmortem : modèle Google (Impact, timeline, causes, actions).
4. Cas réel
Incident latence API : alerte sur budget d’erreur, runbook applique scaling & purge cache, postmortem propose SLO plus strict + tests charge.
5. Labs, quiz, checklist
| Lab | Objectif | Livrable |
|---|---|---|
| Lab Stack | Déployer kube-prometheus + Loki + Tempo | Captures dashboards |
| Lab SLO | Définir 3 SLO + budgets | Doc SLO + alerte |
| Lab Chaos | Game day Chaos Mesh | Rapport & postmortem |
Quiz : différence SLA/SLO/SLE, signaux RED, rôle Alertmanager, phases postmortem. Checklist : SLO versionné, alertes reliées à runbooks, tests chaos réguliers.
6. Ressources & synthèse
- Google SRE, OpenTelemetry, Grafana blog.
- Outils : Honeycomb, Datadog, Lightstep.
- Veille : o11y.news, SRE Weekly.
À retenir : mesurer ce qui compte, déclencher des alertes actionnables, documenter et apprendre de chaque incident.