Deduplizierung ist Diät für die Speicherressourcen

Die alte Leier hat ausgedudelt: Statt die wachsende Menge an Daten zu bejammern, wäre es doch schön, wenn man sie auf das Wesentliche reduzieren könnte. Deduplizierung kann das.

Es ist wie bei einer Diät. Die Pfunde sollen runter, die Masse muss weg. Eine erfolgreiche Schlankheitskur zeichnet sich durch Zuführung wichtiger und durch das Weglassen überflüssiger Bestandteile der Nahrung aus. Was der Körper braucht, bekommt er, mehr aber nicht. Nur so purzeln die Kilos und eine geringere Fülle ist die Folge. Im Datenzentrum sieht es im Grunde nicht anders aus. Die explodierende Masse an Daten aus den verschiedensten Quellen lässt den Speicherbereich anschwellen. Täglich kommt neue Nahrung in Form von Bits und Bytes dazu. In Zeiten kleinerer Budgets muss der Administrator nicht zuvorderst über größere Kapazitäten, sondern über effizientere Speichermethoden nachdenken.

Die großen Informationsmengen stressen zudem das Backup. Die zeitlichen Rahmen für tägliche oder gar stündliche Datensicherungen sind klein und doch sollen immer mehr Informationen in sichere Gefilde gebracht werden. Das ist kaum unter einen Hut zu bringen. Im nächsten Schritt erinnert sich der Administrator dann auch noch an das Archiv, das unaufhaltsam anschwillt und ebenfalls eine Reduzierung der Datenflut gut gebrauchen könnte.

Was also passieren muss, ist letztlich ganz einfach – in der Theorie: Wenn sich schon die Datenmenge bei der Produktion nicht verringern lässt, muss zumindest der Umfang der Backups und Archive sinken. Nutzer wie Applikationen könnten gezwungen werden, weniger Daten zu produzieren. Darüber braucht man nicht weiter zu reden, das funktioniert nicht, zumal Unternehmen Geschäftsprozesse der Effizienz wegen immer häufiger digital abwickeln. Seit einiger Zeit und zuletzt durch die Übernahme von ‘Dedupe’-Spezialist Avamar durch EMC sorgt eine Methode aber zumindest für Entspannung: Deduplizierung.

Redundante Daten fallen durch das Raster

Deduplizierung ist, vereinfacht ausgedrückt, eine Technologie, bei der Daten niemals doppelt gespeichert werden. Die Methode vergleicht den zu speichernden Datensatz, Dateien oder Datenblöcke mit den Informationen, die bereits abgelegt sind. Werden redundante Files oder Datenblöcke identifiziert, versieht die Dedupe-Lösung den neu eingegangenen Datensatz an der Stelle der Dopplung mit so genannten Referenz-Pointern. Die verweisen auf die bereits gespeicherte Sequenz und beanspruchen weniger Platz als die Originaldaten. Der neu hinzugekommene Datensatz wird somit kleiner, da weniger Informationen erneut gespeichert werden müssen.

Ein Beispiel: Ohne Deduplizierung müsste folgendes Lied bei jeder Strophe immer wieder komplett gespeichert werden:

Auf der Mauer, auf der Lauer, sitzt ne kleine Wanze.
Seht euch mal die Wanze an wie die Wanze tanzen kann.
Auf der Mauer, auf der Lauer, sitzt ne kleine Wanze.

Bekanntlich lässt der Sänger mit jeder Strophe bei den Wörtern ‘Wanze’ und ‘tanzen’ einen Buchstaben weg, also ‘Wanz’, ‘Wan’, ‘tanz’, ‘tan’ und so weiter. Mit Deduplizierung ist der Hauptteil des Liedes bereits abgelegt, hinzu kommen lediglich noch die neuen, veränderten Begriffe. Fordert eine Anwendung oder ein Benutzer nun einen bestimmten Datensatz an, wird der von der entsprechenden Software erst wieder zusammengesetzt und als vollständiger Satz geliefert.

Das klingt ein bisschen wie Daten-Kompression. Der Vergleich ist erlaubt, allerdings können Komprimierungstechniken nicht mit der Deduplizierung mithalten. In den meisten Fällen wird im Verhältnis 2:1 komprimiert, da heißt, der Datenbestand kann etwa um die Hälfte reduziert werden. Adic – der Hersteller ist von Quantum übernommen worden – spricht davon, dass mit Deduplizierung bis zu 40 Mal mehr Speicherplatz beim Disk Backup zur Verfügung steht. “Bisher konnte man nur Daten von ein paar Tagen auf einer Platte ablegen. Jetzt passen da Monate drauf”, erläuterte Steve Mackey, Director of Produkct Marketing EMEA bei Quantum während der Präsentation des Dedupe-Produktpalette der Dxi-Series. Avamar spricht gar von einer Verringerung im Verhältnis 300:1. Die Kalkulation basiert laut Hersteller auf der Menge an Daten, die täglich als ‘Full Backup’ gespeichert wird.

Dedupe an der Quelle oder am Ziel?

Mehrere Hersteller, mehrere Ansätze. Die Meinungen darüber, was Deduplizierung ist, gehen ausnahmsweise einmal nicht auseinander. Wo der Prozess stattfinden soll, dazu haben Hersteller der verschiedenen Ansätze allerdings ihre ganz eigenen Argumente, die es zu zementieren gilt.

Es gibt Lösungen, die haben sich darauf spezialisiert, Daten bereits zu reduzieren, bevor sie an das Speichermedium übergeben werden. Der Neue bei EMC beispielsweise geht so vor. Avamar sichert und schreibt ausschließlich neue Datensätze auf die Platte. Die Redundanzen sind schon herausgefiltert, dafür sorgt eine Software, die im Server sitzt, mit Agents arbeitet und Daten während der Sicherung reduziert. “Dem Anwender ist freigestellt, ob er mit der Dedupe-Software seine existierende Backup-Lösung ersetzen oder ergänzen will”, erklärt Jed Yueh, Gründer von Avamar, im Gespräch mit silicon.de. In der Regel läuft es aber darauf hinaus, dass die Backup-Software ausgemustert wird.