- silicon.de - http://www.silicon.de -

Virtualisierung von Datenkopien löst viele Herausforderungen

Der kontinuierliche Anstieg der Datenmengen sorgt dafür, dass die Komplexität und Kosten des Datenmanagements in die Höhe schnellen. Bei der derzeitigen Geschwindigkeit wird die Welt bis Ende dieses Jahres mehr digitale Informationen produzieren, als sie speichern kann.

Maßgeblich verantwortlich für das Problem der ausufernden Datenmenge ist die Verbreitung physischer Datenkopien. IDC schätzt [1], dass Datenkopien 60 Prozent des Speichervolumens auf Festplatten beanspruchen. Unternehmen benötigen diese Kopien für die Datensicherung, Anwendungsentwicklung, Einhaltung gesetzlicher Vorschriften, Geschäftsanalyse und Disaster-Recovery-Maßnahmen. IDC zufolge halten Unternehmen bis zu 120 Duplikate von physischen Datenkopien vor und geben für die Verwaltung von Datenkopien 44 Milliarden Dollar im Jahr aus.

Viele IT-Experten konzentrieren sich nur darauf, wie sie die Berge von Daten, die durch beabsichtigtes und unbeabsichtigtes Kopieren erzeugt werden, bewältigen können. Weit weniger gehen der Ursache für die Datenflut auf den Grund. In gleicher Weise, wie Vorbeugen besser als Heilen ist, sollte es eine Priorität sein, die unkontrollierte Datenverbreitung zu reduzieren.

Datenvirtualisierung basierend auf einer Master-Kopie

Datenvirtualisierung entkoppelt die Daten von der bestehenden physischen Infrastruktur, ebenso wie es ein Jahrzehnt zuvor die Virtualisierung von Servern vorgemacht hatte. Genauer gesagt, geht es hier um die Virtualisierung von Datenkopien, auch als Copy-Data-Virtualisierung bezeichnet. Das Grundkonzept dieser Methode zur Verwaltung von Datenkopien beruht darauf, von den zu sichernden Produktionsdaten zunächst eine “goldene Kopie” anzulegen. Von dieser Master-Kopie lassen sich beliebig viele virtuelle Kopien erstellen, die jederzeit und überall unmittelbar verfügbar sind.

Daten (Shutterstock/BeeBright). [2]

Hierbei kommt eine physische oder virtuelle Appliance für das “Copy Data Management” (CDM), also die Verwaltung der Datenkopien, zum Einsatz. Auf dieser CDM-Appliance werden Kopien der Produktionsdaten oder ganzer Datenbanken vorgehalten.

Die CDM-Plattform erfasst hierzu mittels Snapshots im Primärspeicher gespeicherte Daten auf Blockspeicherebene in ihrem nativen Anwendungsformat. Daraus wird die goldene Kopie in einem sekundären Speichersystem einmalig erstellt und gespeichert. Diese wird nach dem “Incremental forever”-Prinzip nur mittels der geänderten Datenblöcke inkrementell aktualisiert. Die Reads in allen virtuellen Kopien werden abgerufen von der goldenen Kopie. Die Writes auf jede virtuelle Kopie werden jeweils für diese virtuelle Kopie auf der goldenen Kopie gespeichert.

[highlightbox id="41634275"]

Ein weiterer Aspekt sind die Kosteneinsparung bei Lizenzen für Software für das Datenmanagement. Firmen zahlen für eine große Zahl von Backup-Agenten, De-Duplizierungs-Software und WAN-Optimierungstools. Müssen keine Daten kopiert werden, sind auch keine Lizenzen für das Datenmanagement erforderlich. Durch den Wegfall überflüssiger Datenkopien wird aber insbesondere teure Speicherkapazität reduziert – und mit ihr alle damit verbundenen Management- und Infrastrukturkosten. Das Ergebnis ist ein schlankeres, innovationsfreudiges Unternehmen und eine Verbesserung der Wettbewerbsfähigkeit.

Backup-Lösung auch für große Datenbankumgebungen

Herkömmliche Backup-Ansätze erweisen sich gerade bei sehr großen Datenbankumgebungen als zeit- und kostenintensiv – sowie nervenaufreibend für die Administratoren. Zudem sind sie nicht nahtlos auf die Cloud anwendbar. Auch hier erweist sich Copy-Data-Virtualisierung als zeitgemäße, effiziente Alternative.

[highlightbox id="41634270"]

In großen Unternehmen sind mittlerweile Umgebungen mit 50- und 100-TB-Oracle-Datenbanken oder 10- bis 20-TB-Microsoft-SQL-Server-Instanzen nichts Ungewöhnliches. Die Datenbank- und Backup-Administratoren sind aber oftmals nicht zufrieden mit ihren aktuellen Datensicherungs-Tools. Das Wiederherstellen solch großer Datenbanken ist eine nervenaufreibende Angelegenheit.

Eine vollständige Sicherung einer 100-TB-Datenbank, die ein 10-Gbit/s-Netzwerk komplett auslastet, würde unter idealen Bedingungen etwa 24 Stunden in Anspruch nehmen. Dies setzt voraus, dass der Produktionsspeicher, der Backup-Zielspeicher und die Media-Server alle in der Lage sind, einen so hohen Durchsatz ohne Störungen zu bewältigen; und dass keine anderen Arbeitslasten auf dem Netzwerk laufen. Vollständige Backups in dieser Größenordnung werden daher über das Wochenende durchgeführt. Kommt es während dieser Zeit auch nur zu einem kleinen Problem, wird der IT-Administrator zum Beispiel mittels Pager alarmiert.

Die Probleme hören an dieser Stelle aber nicht auf. Wenn am Wochenende vollständige und an den übrigen Wochentagen inkrementelle Backups erstellt werden, wie sieht es dann mit Wiederherstellungen aus? Denn es gilt dann nicht nur, eine vollständige 100-TB-Datenbank wiederherzustellen, sondern auch die inkrementellen Restores zu berücksichtigen.

Diese Restores kommen höchstwahrscheinlich von einer Bandbibliothek oder einem Deduplizierungs-Festplatten-System, woraus extrem langsame Restore-Geschwindigkeiten resultieren, was 48 bis 72 Stunden Zeitaufwand bedeuten kann. Um die Herausforderungen für Datenbank- und Backup-Administratoren anzugehen, setzen CIOs immer mehr auf die Nutzung von Clouds wie AWS, Azure oder Oracle. Wer jedoch Speicher-Array-Snapshots und Replikation an einen Datenrettungsstandort nutzen will, bedenkt nicht, dass proprietäre Replikationstechnologien in der öffentlichen Cloud nicht funktionieren werden.

Beim bestehenden Ansatz dreht sich alles um Instrumente und Ansätze aus der Vergangenheit, etwa Speicher-Replikation zwischen Hardware des gleichen Herstellers. Dies eignet sich nicht für große Datenbanken, in der Public Cloud oder mit unterschiedlichen Speichersystemen. Mittels Copy-Data-Virtualisierung lassen sich die beschriebenen Backup-Probleme auf elegante Weise lösen. Die Sicherung und Wiederherstellung von Datenbanken lassen sich damit überall durchführen: im eigenen Rechenzentrum oder in der jeweils bevorzugten Cloud, unter Verwendung beliebiger Speicherhardware von jedem Anbieter und auch für Datenbanken über Oracle, SQL oder DB2.

Ist “Instant Recovery” skalierbar?

Viele Backup-Lösungen versprechen “sofortige Wiederherstellung”, scheitern in VM-Umgebungen mit 100 oder mehr virtuellen Maschinen (VMs) aber an der Skalierbarkeit. Mit der Instant-Recovery-Funktion einer gängigen Backup-Lösung können fünf bis sieben VMs schnell wiederhergestellt werden. Die Benutzer können sich dann an den wiederhergestellten VMs anmelden, während der Rest wiederhergestellt wird.

In der Zwischenzeit beschweren sich diese Benutzer jedoch über die geringe Performance der wiederhergestellten VMs. Wenn solche “sofortigen Wiederherstellungen” in einer Multi-Tenant-Umgebung eines Serviceproviders angestoßen werden, kann dies möglicherweise noch größere negative Auswirkungen haben. Die Wiederherstellung von VMs für einen Kunden kann sich auf den Rest der Kunden auswirken, da die Sicherung von derselben Appliance durchgeführt wird.

[highlightbox id="41636025"]

Simultane Schreib- und Lesevorgänge von Deduplizierungs-Appliances stellen ein großes Problem in Sachen Performance dar. Werden nun Instant-Wiederherstellungen durchgeführt, während einige Backups noch erfolgen, hat dies Auswirkungen auf beides, also die Backups und die VMs, die wiederhergestellt wurden. Um die Beeinträchtigungen zu minimieren, soll die Speicherung mit vMotion in Chargen durchgeführt werden.

Wird Copy-Data-Virtualisierung für Instant Recovery verwendet, müssen die Wiederherstellungen nicht in Chargen erfolgen. Es werden alle 100 oder mehr VMs wiederhergestellt und dann nach Belieben Storage vMotion auf allen diesen VMs angewendet.

Dieses Verfahren ist nicht nur auf virtuelle Maschinen beschränkt. Wenn es sich bei dem wiederhergestellten System um eine Oracle-Datenbank handelt, die ASM verwendet, kann ein ASM-Rebalancing durchgeführt werden und die Blöcke werden automatisch aus dem Actifio Snapshot-Pool in den Produktionsspeicher verschoben.

Wie Copy-Data-Virtualisierung das Testdaten-Management unterstützt

Unternehmen, die intern Software entwickeln, stehen oft vor einem typischen Problem: Entwicklungs- und Qualitätssicherungsteams haben damit zu kämpfen, ihre verschiedenen Testprozesse wie Unit-Tests, Build-Integrationstests und QA-Tests (Quality Assessment) schnell genug durchzuführen – trotz Automatisierung. Die Verantwortlichen stellen immer wieder fest, dass zu viele kritische Probleme erst spät gefunden werden während der Benutzerakzeptanztests (UATs, User Acceptance Tests). Dies verzögert die Release-Zyklen und führt zu stressigen Situationen im Unternehmen.

Bei Untersuchungen zur Ursache der Qualitätsprobleme zeigte sich, dass anstelle von vollständigen Produktionsdaten für 80 Prozent des Release-Zyklus synthetische Testdaten zum Einsatz kommen. Diese bilden die Produktionsumgebung aber nicht zuverlässig ab. Wird nun Programmcode gegen solche abgespeckten “Dummy”-Daten getestet, bleiben Programmierfehler lange unentdeckt – und können nicht schon früher in den Testzyklen erkannt werden.

Genau an dieser Stelle kann Copy Data-Virtualisierung helfen, Test- und Qualitätsprobleme zu lösen, indem sie für die Qualitätssicherung vollständige virtuelle Kopien von echten Datenbanken zum Testen zur Verfügung stellt.

Damit sind die Möglichkeiten dieser Technologie aber noch nicht erschöpft. Eine mittels Copy Data Management intelligent verwaltete virtuelle Datenbasis kann nicht nur bei TestDev-Prozessen, sondern auch im laufenden IT-Betrieb anspruchsvolle Anforderungen an Backup und Disaster Recovery erfüllen. Auch die Umsetzung von DevOps-Szenarien wird durch Copy-Data-Virtualisierung erleichtert und ermöglicht es, das Effizienzpotenzial von DevOps vollends zu erschließen.

Schlanke Lösung für große Herausforderungen

Big Data, die Cloud, das Software-definierte Rechenzentrum und neue Ansätze wie DevOps machen das Datenmanagement immer anspruchsvoller. Bislang mussten Unternehmen immer wieder die Speicherkapazität erweitern, neue Backup-Systeme anschaffen oder WAN-Optimierung einsetzen. Durch Herstellerbindung, Upgrade-Pfade, Wartungsverträge und Lizenzen für Datenmanagement-Software gehen viele Unternehmen nach wie vor diesen herkömmlichen Weg, der durch die Marktpräsenz etablierter Speicherhersteller vorgegeben scheint.

Mittels Copy-Data-Virtualisierung sind viele dieser Investitionen verzichtbar und können durch eine zentrale herstellerunabhängige Lösung ersetzt werden. Dies rechnet sich nicht nur betriebswirtschaftlich. Eine schlankere, agilere IT trägt zur Verbesserung der Wettbewerbsfähigkeit ihren Teil bei. Die Vorteile der Copy-Data-Virtualisierung werden in Zusammenhang mit verschiedenen Herausforderungen des modernen IT-Alltags deutlich. Nicht umsonst hat sich diese Technologie bereits vielfach in der Praxis bewährt. Ebenso wie vor Jahren Server- und Netzwerkvirtualisierung für einen Effizienzschub im Rechenzentrum sorgten, hat die Datenvirtualisierung großes Potenzial, die IT in ähnlicher Weise zu revolutionieren.

Tipp: Was haben Sie über Datenbanken gespeichert? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de. [3]