DR (Disaster Recovery)

Définition

La Disaster Recovery (DR) est l’ensemble des politiques, outils et procédures permettant la récupération ou la poursuite d’infrastructures et de systèmes technologiques vitaux suite à une catastrophe naturelle ou causée par l’homme. La DR est un sous-ensemble de la planification de la continuité des activités.

La DR se concentre sur la restauration des systèmes IT et des données, tandis que la continuité des activités englobe les opérations de l’ensemble de l’organisation.

Métriques clés

Métrique Définition Cible typique
RTO (Recovery Time Objective) Temps d’arrêt maximal acceptable Minutes à heures
RPO (Recovery Point Objective) Perte de données maximale acceptable Minutes à heures
MTO (Maximum Tolerable Outage) Temps maximal avant des dommages irréversibles Heures à jours

Stratégies DR (de la plus à la moins chère)

Stratégie RTO RPO Coût Description
Pilot Light Minutes Minutes Moyen Systèmes core toujours en fonctionnement sur le site DR
Warm Standby Heures Minutes Moyen-High Environnement DR réduit prêt à être étendu
Hot Standby Minutes Proche de zéro Élevé Environnement DR complet, toujours actif
Backup & Restore Heures-Jours Heures Faible Restauration à partir des backups après la catastrophe
Multi-site Active-Active Secondes Zéro Très élevé Tous les sites servent le trafic simultanément

Composants DR

Composant Objectif
Systèmes de backup Backups de données (full, incremental, differential)
Site DR Emplacement physique ou cloud pour la récupération
Réplication Réplication de données en temps réel ou quasi-temps réel
Failover Basculement automatique ou manuel vers le site DR
Failback Retour au site principal après récupération
DNS failover Rediriger le trafic vers le site DR
Load balancer failover Rediriger le trafic vers l’infrastructure DR

Cloud DR

Fournisseur Service DR Notes
AWS AWS Backup, DR on AWS, Cross-Region Replication DR cloud le plus mature
Azure Azure Site Recovery, Backup Vault DR hybride solide
GCP Cloud Backup and DR, Cross-Region Replication Intégré aux services GCP
OpenStack Sahara, Heat templates Automatisation DR open-source

Tests DR

  • Exercise tabletop : Parcourir le plan DR verbalement
  • Simulation : Simuler une catastrophe sans affecter la production
  • Failover partiel : Basculer les systèmes non critiques
  • Failover complet : Test DR complet avec bascule de tous les systèmes
  • Fréquence : Trimestrielle ou biannuelle recommandée

Termes associés

  • Backup — la DR s’appuie sur les backups mais inclut plus (failover, RTO/RPO)
  • High Availability — la HA prévient les temps d’arrêt ; la DR récupère après
  • Cloud — le cloud permet des stratégies DR rentables
  • Vpc — point d’accès pour la gestion du site DR

Références