DR (Disaster Recovery)

Définition

La Disaster Recovery (DR) est l’ensemble des politiques, outils et procédures permettant la récupération ou la poursuite d’infrastructures et de systèmes technologiques vitaux suite à une catastrophe naturelle ou causée par l’homme. La DR est un sous-ensemble de la planification de la continuité des activités.

La DR se concentre sur la restauration des systèmes IT et des données, tandis que la continuité des activités englobe les opérations de l’ensemble de l’organisation.

Métriques clés

Métrique	Définition	Cible typique
RTO (Recovery Time Objective)	Temps d’arrêt maximal acceptable	Minutes à heures
RPO (Recovery Point Objective)	Perte de données maximale acceptable	Minutes à heures
MTO (Maximum Tolerable Outage)	Temps maximal avant des dommages irréversibles	Heures à jours

Stratégies DR (de la plus à la moins chère)

Stratégie	RTO	RPO	Coût	Description
Pilot Light	Minutes	Minutes	Moyen	Systèmes core toujours en fonctionnement sur le site DR
Warm Standby	Heures	Minutes	Moyen-High	Environnement DR réduit prêt à être étendu
Hot Standby	Minutes	Proche de zéro	Élevé	Environnement DR complet, toujours actif
Backup & Restore	Heures-Jours	Heures	Faible	Restauration à partir des backups après la catastrophe
Multi-site Active-Active	Secondes	Zéro	Très élevé	Tous les sites servent le trafic simultanément

Composants DR

Composant	Objectif
Systèmes de backup	Backups de données (full, incremental, differential)
Site DR	Emplacement physique ou cloud pour la récupération
Réplication	Réplication de données en temps réel ou quasi-temps réel
Failover	Basculement automatique ou manuel vers le site DR
Failback	Retour au site principal après récupération
DNS failover	Rediriger le trafic vers le site DR
Load balancer failover	Rediriger le trafic vers l’infrastructure DR

Cloud DR

Fournisseur	Service DR	Notes
AWS	AWS Backup, DR on AWS, Cross-Region Replication	DR cloud le plus mature
Azure	Azure Site Recovery, Backup Vault	DR hybride solide
GCP	Cloud Backup and DR, Cross-Region Replication	Intégré aux services GCP
OpenStack	Sahara, Heat templates	Automatisation DR open-source

Tests DR

Exercise tabletop : Parcourir le plan DR verbalement
Simulation : Simuler une catastrophe sans affecter la production
Failover partiel : Basculer les systèmes non critiques
Failover complet : Test DR complet avec bascule de tous les systèmes
Fréquence : Trimestrielle ou biannuelle recommandée

Termes associés

Backup — la DR s’appuie sur les backups mais inclut plus (failover, RTO/RPO)
High Availability — la HA prévient les temps d’arrêt ; la DR récupère après
Cloud — le cloud permet des stratégies DR rentables
Vpc — point d’accès pour la gestion du site DR

Références

Wikipedia: https://en.wikipedia.org/wiki/Disaster_recovery
NIST DR guidelines: https://csrc.nist.gov/pubs/sp/800-34/final
AWS DR on AWS: https://aws.amazon.com/disaster-recovery/