PASCAL MIETLICKI

INGÉNIEUR INSA – MASTER IAE/TSM – ADMINISTRATEUR SYSTÈMES ET RÉSEAUX – DÉVELOPPEUR PHP/LARAVEL/IONIC/FLUTTER – ADMINISTRATEUR BUSINESS OBJECTS – ADMINISTRATEUR RANCHER/KUBERNETES – DEVOPS

PASCAL MIETLICKI

Formation Observabilité & SRE

14 novembre 2025
Formation Observabilité

Table of Contents

Fiche pédagogique

Objectifs SMART : définir SLO/SLA, déployer une stack Prometheus/Loki/Tempo et exécuter un game day Chaos Engineering en 12 jours.
Durée : 14 h (5 h théorie, 9 h pratique)
Prérequis : Kubernetes ou VM, notions monitoring.
Niveau : Intermédiaire → Avancé.

Sommaire

Principes Observabilité & SRE
Stack métriques/logs/traces
Alerting, runbooks & chaos
Cas réel : incident majeur & postmortem
Labs, quiz, checklist
Ressources & synthèse

1. Principes Observabilité & SRE

3 piliers (metrics, logs, traces), signaux RED & USE.
SLO/SLA/SLE, budgets d’erreur, SRE Book.
Culture blameless, TOIL & automatisation.

2. Stack complète

Métriques : Prometheus, Loki, Tempo.
Agent unique : Grafana Agent ou OpenTelemetry Collector.
Dashboards : Grafana, exemplars, drill-down.

scrape_configs:
  - job_name: 'kubernetes-nodes'
    kubernetes_sd_configs:
      - role: node
    relabel_configs:
      - action: labelmap
        regex: __meta_kubernetes_node_label_(.+)

3. Alerting, runbooks & chaos

Alertmanager + routes, notifications Slack/PagerDuty.
Runbook : contexte, commande, rollback.
Chaos : Chaos Mesh, Litmus.
Postmortem : modèle Google (Impact, timeline, causes, actions).

4. Cas réel

Incident latence API : alerte sur budget d’erreur, runbook applique scaling & purge cache, postmortem propose SLO plus strict + tests charge.

5. Labs, quiz, checklist

Lab	Objectif	Livrable
Lab Stack	Déployer kube-prometheus + Loki + Tempo	Captures dashboards
Lab SLO	Définir 3 SLO + budgets	Doc SLO + alerte
Lab Chaos	Game day Chaos Mesh	Rapport & postmortem

Quiz : différence SLA/SLO/SLE, signaux RED, rôle Alertmanager, phases postmortem. Checklist : SLO versionné, alertes reliées à runbooks, tests chaos réguliers.

6. Ressources & synthèse

Google SRE, OpenTelemetry, Grafana blog.
Outils : Honeycomb, Datadog, Lightstep.
Veille : o11y.news, SRE Weekly.

À retenir : mesurer ce qui compte, déclencher des alertes actionnables, documenter et apprendre de chaque incident.

Formation Observabilité & SRE

Fiche pédagogique

Sommaire

1. Principes Observabilité & SRE

2. Stack complète

3. Alerting, runbooks & chaos

4. Cas réel

5. Labs, quiz, checklist

6. Ressources & synthèse

J’aime ça :

Articles similaires

Faire un don ponctuel

Faire un don mensuel

💎 Boostez vos finances avec ces offres exclusives ! 🚀

Fiche pédagogique

Sommaire

1. Principes Observabilité & SRE

2. Stack complète

3. Alerting, runbooks & chaos

4. Cas réel

5. Labs, quiz, checklist

6. Ressources & synthèse

Partager :

J’aime ça :

Articles similaires