Formation Observabilité & SRE

Fiche pédagogique

  • Objectifs SMART : définir SLO/SLA, déployer une stack Prometheus/Loki/Tempo et exécuter un game day Chaos Engineering en 12 jours.
  • Durée : 14 h (5 h théorie, 9 h pratique)
  • Prérequis : Kubernetes ou VM, notions monitoring.
  • Niveau : Intermédiaire → Avancé.

Sommaire

  1. Principes Observabilité & SRE
  2. Stack métriques/logs/traces
  3. Alerting, runbooks & chaos
  4. Cas réel : incident majeur & postmortem
  5. Labs, quiz, checklist
  6. Ressources & synthèse

1. Principes Observabilité & SRE

  • 3 piliers (metrics, logs, traces), signaux RED & USE.
  • SLO/SLA/SLE, budgets d’erreur, SRE Book.
  • Culture blameless, TOIL & automatisation.

2. Stack complète

scrape_configs:
  - job_name: 'kubernetes-nodes'
    kubernetes_sd_configs:
      - role: node
    relabel_configs:
      - action: labelmap
        regex: __meta_kubernetes_node_label_(.+)

3. Alerting, runbooks & chaos

  • Alertmanager + routes, notifications Slack/PagerDuty.
  • Runbook : contexte, commande, rollback.
  • Chaos : Chaos Mesh, Litmus.
  • Postmortem : modèle Google (Impact, timeline, causes, actions).

4. Cas réel

Incident latence API : alerte sur budget d’erreur, runbook applique scaling & purge cache, postmortem propose SLO plus strict + tests charge.

5. Labs, quiz, checklist

Lab Objectif Livrable
Lab Stack Déployer kube-prometheus + Loki + Tempo Captures dashboards
Lab SLO Définir 3 SLO + budgets Doc SLO + alerte
Lab Chaos Game day Chaos Mesh Rapport & postmortem

Quiz : différence SLA/SLO/SLE, signaux RED, rôle Alertmanager, phases postmortem. Checklist : SLO versionné, alertes reliées à runbooks, tests chaos réguliers.

6. Ressources & synthèse

À retenir : mesurer ce qui compte, déclencher des alertes actionnables, documenter et apprendre de chaque incident.