Disaster Recovery auf Knopfdruck: Wunsch oder Wirklichkeit?

Nicht zuletzt durch die zahlreichen Ransomware-Attacken der vergangenen Monate erlangte das Thema “Backup und Disaster Recovery” in vielen Unternehmen eine Art Comeback, nachdem diese Aufgaben lange Zeit nur als notwendiges Übel betrachtet wurden. Im Gastbeitrag für silicon.de gibt Thorsten Eckert ein Update.

Zahlreiche Unternehmen legen regulär täglich Backups an und halten diese 30 bis 60 Tage lang vor. Sie verwenden Deduplizierung, um den Bedarf an Speicherplatz und Bandbreite zu reduzieren. Damit haben sie eine Backup-Erfolgsquote von 98 Prozent und fühlen sich dazu fähig, Instant Recoveries, also sofortige Wiederherstellungen, durchzuführen. Bei den meisten internen Backup-Experten liegt ein Disaster-Recovery-Run-Book in einer Kalkulationstabelle vor. In der Kalkulationstabelle werden Informationen wie die Reihenfolge, in der VMs wiederhergestellt werden müssen, die Netzwerkkonfiguration, Firewall-Regeln, DNS-Umleitungsanforderungen und so weiter erfasst.

**Thorsten Eckert, der Autor dieses Gastbeitrags für silicon.de, ist Sales Director DACH bei Actifio (Bild: Actifio)**

In Disaster-Recovery-Tests, die je nach Unternehmen mehr oder weniger häufig durchgeführt werden, können oft wie gewünscht auch alle VMs wiederhergestellt werden. In den allermeisten Fällen ist jedoch erhebliche Koordination zwischen dem DR-, Backup-, Storage-, VMware- und Netzwerk-Team erforderlich. Nicht selten dauert es über 12 Stunden, bis der Test tatsächlich gestartet werden kann. In diesem – viel zu langen – Zeitraum ist ein riesiges, funktionsübergreifendes Projektmanagement nötig, um den Job zu erledigen. Die eigentlichen RTO-Ziel (Recovery Time Objective) werden so oft nicht erfüllt.

Typisches Muster zeigt Schwächen auf

Nach Beobachtungen von Actifio wird bei solchen Tests ein Muster deutlich, das bei vielen Unternehmen in Erscheinung tritt:

Instant Recovery ist nicht wirklich skalierbar. Es herrscht die Illusion, dass eine VM schnell wieder eingeschaltet werden kann. Aber in der Realität muss dies in Chargen und mittels Storage vMotion erfolgen.
Es wird viel Zeit für manuelle sequentielle Schritte aufgewendet. Anhand der Tabellenkalkulation wird festgestellt, welche VMs in welcher Reihenfolge wiederhergestellt werden müssen. Zum Beispiel: Die Datenbank-VM muss zuerst wiederhergestellt werden, dann ein Satz von Anwendungsserver-VMs und dann ein Satz von Webserver-VMs.
Weitere manuelle Schritte wie die Zuweisung von IP-Adressen, VLAN-Port-Gruppe und DNS-Server für jede VM benötigen nicht nur Zeit, sondern sind auch fehleranfällig. In der Regel muss eine intensive Fehlersuche stattfinden, falls einige VMs in einem falschen Netzwerk platziert wurden.
Es erfordert eine beträchtliche Anzahl von Mann-Stunden vieler verschiedener Teams, um die DR-Tests durchzuführen. Das alles ist stressig, fehleranfällig und eine Erfahrung, die jeder vergessen will und´von der er hofft, sie nie wieder machen zu müssen.

Um diese Defizite zu beheben, wäre Folgendes erforderlich:

Stressfreies, automatisiertes, zuverlässiges Disaster Recovery auf Knopfdruck oder gleich eine “1-Click”-Disaster-Recovery-Lösung.
Eine Lösung, die sogar einen Schritt weiter geht und geplante, unbeaufsichtigte, vollautomatische Wiederherstellungstests einmal im Monat oder im Quartal selbstständig durchführt.
Eine Lösung, die einen Compliance-Bericht liefert, der wiederholte DR-Tests pro Monat oder Quartal belegt. Dies stärkt das Vertrauen, dass das Produktivsystem tatsächlich innerhalb eines garantierten Zeitrahmens wie etwa vier Stunden wiederhergestellt werden kann.

Welche Disaster-Recovery-Funktionen erforderlich sind

Um diese Ergebnisse zu liefern, gilt es eine Lösung auszusuchen, die über die folgenden Funktionen verfügt:

Die Möglichkeit, DR-Pläne auf einer Web-Oberfläche anstatt in einer Tabellenkalkulation zu erstellen.
Für jeden DR-Plan mehrere logische Anwendungsgruppen zu unterstützen. Eine logische Anwendungsgruppe ist nur eine logische Sammlung von VMs. Jede Anwendungsgruppe kann unabhängig voneinander wiederhergestellt werden und vorzugsweise gleichzeitig die RTO niedrig halten.
Dabei gilt es in jeder logischen Anwendungsgruppe die Reihenfolge anzugeben, in der VMs wiederhergestellt werden sollen. Für jede VM müssen die vCPU, vMemory und Netzwerk-Informationen wie IP-Adressen, DNS-Server und VLAN-Port-Gruppe spezifiziert werden.
Außerdem sollte sie die Flexibilität bieten, Pre- und Post-Scripts vor und nach jeder VM- oder Anwendungs-Gruppe festzulegen. Dies bietet die Möglichkeit, externe Firewall-Regeln oder Stop/Start-Dienste innerhalb der VMs oder jeder anderen Anpassung festzulegen. Diese Skripts können auch verwendet werden, um Datenintegritätsprüfungen in automatisierten geplanten DR-Tests durchzuführen.
Sobald diese DR-Pläne definiert und gespeichert sind, muss sich der Administrator zum Zeitpunkt des Tests – oder auch im Ernstfall – an der Web-Oberfläche anmelden und eine oder mehrere Anwendungsgruppen auswählen, die er wiederherstellen möchte. Dann muss er angeben, ob es sich um einen echten DR-Fall oder einen DR-Test handelt und auf eine Schaltfläche drücken. Das gesamte Disaster Recovery sollte nun automatisiert ablaufen. Damit werden die Wiederherstellung von VMs, die Zuweisung von Ressourcen, die Zuweisung von Netzwerken und der Aufruf von Pre- und Postscripts orchestriert.
Berichte dokumentieren die wiederhergestellten VMs, den Benutzer, der die Wiederherstellung angestoßen hat, die benötigte Zeit und Fehlerursachen (falls vorhanden).
Eine rollenbasierte Zugriffskontrolle ermöglicht es, dass Administratoren DR-Pläne erstellen können und Anwendungsbesitzer DR-Tests in einem Self-Service-Verfahren durchführen können.

Plattformen zur Copy-Data-Virtualisierung, liefern die gesamte beschriebene Funktionalität – einfach und skalierbar für Umgebungen mit 100, 300, 500, 1000 und mehr VMs. “1-Klick”-orchestrierte Disaster Recovery kann damit erfüllt werden.

**Plattformen zur Copy-Data-Virtualisierung liefern die in modernen Rechenzentren erforderliche Funktionalität für Disaster Reovery und DR-Tests. (Grafik: Actifio)**

Eine solche Plattform zur Virtualisierung von Datenkopien …

bietet Backups mit flexibler Retention für Tage, Wochen, Monate, Jahre oder Jahrzehnte
ermöglicht skalierbare Instant Recovery
bietet „1 Klick“-DR-Orchestrierung mit allen Anforderungen
unterstützt eine flexible RPO von 1 Stunde bis 24 Stunden
bildet die gesamte Funktionalität auf jedem Speicher ab, so dass eine vollständig speicherunabhängige Lösung zur Verfügung steht.

Die Tage, an denen fünf bis zehn Personen an Disaster Recovery or DR-Tests beteiligt sein mussten, sind vorbei. Geplante, automatisierte, unbeaufsichtigte DR-Tests können jeden Monat durchgeführt werden. Diese Tests, die mit Hilfe einer Plattform zur Virtualisierung von Datenkopien effizient und automatisiert durchgeführt werden, bilden die Grundlage dafür, dass im Ernstfall der Re-Start tatsächlich so rasch gelingt, dass der Geschäftsbetrieb nur minimal beeinträchtigt wird.

Lesen Sie auch : Migration von VMware zu einer kosteneffizienten Kubernetes-Lösung