PASCAL MIETLICKI

INGÉNIEUR INSA – MASTER IAE/TSM – ADMINISTRATEUR SYSTÈMES ET RÉSEAUX – DÉVELOPPEUR PHP/LARAVEL/IONIC/FLUTTER – ADMINISTRATEUR BUSINESS OBJECTS – ADMINISTRATEUR RANCHER/KUBERNETES – DEVOPS

PASCAL MIETLICKI

Module 6 – Observabilité, supervision et troubleshooting

Maîtrisez kubectl debug, les logs, les métriques, Prometheus, Grafana et les upgrades pour garder votre cluster Kubernetes en forme.

14 novembre 2025
Formation Kubernetes

Savoir déployer ne suffit pas : il faut aussi observer, diagnostiquer et maintenir le cluster. Ce module regroupe les outils indispensables.

Table of Contents

Objectifs

Diagnostiquer les incidents avec kubectl, events et logs.
Mettre en place une stack observabilité (Prometheus, Grafana, Loki).
Planifier les opérations : upgrades, backups, tests de reprise.

Plan

kubectl debug et collecte d’informations.
Logs et agrégation (Loki, Elasticsearch).
Métriques et alerting (Prometheus, Alertmanager).
Tracing distribué (OpenTelemetry, Jaeger).
Opérations : upgrade control plane/nœuds, sauvegarde etcd.
Lab complet.

1. kubectl debug

kubectl debug deploy/webapp -it --image=busybox --target=webkubectl describe pod webapp-XXXkubectl get events --sort-by=.lastTimestamp

Utilisez kubectl top nodes et kubectl top pods (metrics-server requis).

2. Logs

kubectl logs -f deploy/webapp
Stack Loki + Promtail + Grafana (ou EFK) pour centraliser.
Structurer les logs (JSON) et ajouter des labels.

3. Prometheus & Grafana

Installez kube-prometheus-stack via Helm :

helm repo add prometheus-community https://prometheus-community.github.io/helm-chartshelm install monitoring prometheus-community/kube-prometheus-stack -n observability --create-namespace

Créez un dashboard Grafana ciblant les métriques container_cpu_usage_seconds_total et kube_deployment_status_replicas_available.

4. Tracing

Déployez Jaeger ou Tempo, instrumentez avec OpenTelemetry SDK. Exportez les traces via OTLP.

5. Opérations

Upgrade : suivez la matrice version kubeadm / kubelet / kubectl.
Backup etcd : ETCDCTL_API=3 etcdctl snapshot save /backup/etcd-$(date +%F).db.
Chaos testing : utilisez kubectl delete pod aléatoirement, ou LitmusChaos.

6. Lab

Déployez kube-prometheus-stack et exposez Grafana en NodePort.
Créez un tableau de bord avec CPU, mémoire et latence (Prometheus + custom metrics).
Utilisez kubectl debug pour analyser un Pod crashLoopBackOff (injectez un bug).
Réalisez un snapshot etcd, restaurez-le dans un cluster de test.

Checklist

✅ Vous savez collecter events, logs et métriques.
✅ Vous pouvez installer une stack Prometheus/Grafana.
✅ Vous connaissez la procédure de backup et d’upgrade.

Ressources

Solution détaillée

kubectl debug
kubectl debug deploy/webapp -it --image=busybox --target=web ouvre un shell dans un Pod éphémère. Vérifiez que /proc/1/cmdline correspond à votre conteneur cible.
Events & logs
kubectl get events --sort-by=.lastTimestamp | tail montre les derniers incidents.
kubectl logs deploy/webapp renvoie les logs applicatifs ; avec -f pour le suivi.
Prometheus / Grafana
kubectl get pods -n observability doit montrer les composants prometheus, alertmanager, grafana.
Exposez Grafana : kubectl port-forward svc/monitoring-grafana -n observability 3000:80, connectez-vous (admin/prom-operator par défaut) et créez un dashboard avec container_cpu_usage_seconds_total.

Snapshot etcd
Depuis le control plane :

export ETCDCTL_API=3
sudo ETCDCTL_API=3 etcdctl snapshot save /tmp/etcd-$(date +%F).db   --endpoints=https://127.0.0.1:2379   --cacert=/etc/kubernetes/pki/etcd/ca.crt   --cert=/etc/kubernetes/pki/etcd/server.crt   --key=/etc/kubernetes/pki/etcd/server.key

Puis test de restauration dans un cluster de labo.

Chaos léger
kubectl delete pod -n staging -l app=webapp --now : le Deployment recrée les Pods. Notez le temps de résilience.

Conservez les captures Grafana et les extraits de logs/snapshots dans votre dépôt de formation pour prouver la mise en place de l’observabilité.

Module 6 – Observabilité, supervision et troubleshooting

Objectifs

Plan

1. kubectl debug

2. Logs

3. Prometheus & Grafana

4. Tracing

5. Opérations

6. Lab

Checklist

Ressources

Solution détaillée

J’aime ça :

Articles similaires

Faire un don ponctuel

Faire un don mensuel

💎 Boostez vos finances avec ces offres exclusives ! 🚀

Objectifs

Plan

1. kubectl debug

2. Logs

3. Prometheus & Grafana

4. Tracing

5. Opérations

6. Lab

Checklist

Ressources

Solution détaillée

Partager :

J’aime ça :

Articles similaires

Publications similaires

Formation Kubernetes : feuille de route complète

Module 0 – Préparer son environnement Kubernetes

Module 1 – Architecture et API de Kubernetes