Neue Speichertechnologien: Das Exabyte-Zeitalter kündigt sich an

Big DataData & Storage

Die ungeheuren Datenmassen, die nach übereinstimmenden Prognosen von Marktforschern und Herstellern in den kommenden Jahren entstehen und – möglichst in Echtzeit – verarbeitet werden müssen, fordern komplett neu ausgedachte Speichertechnologien, insbesondere einen anderen Umgang mit den Daten.

Die Stichworte sind sattsam bekannt: Internet of Things (IoT) oder of Everything (IoE), Smart City, Big Data Analytics, Industrie 4.0. Was sie alle gemeinsam haben, ist die blitzschnelle Verarbeitung und Analyse bisher kaum vorstellbarer Datenmassen, erzeugt von Sensoren allenthalben, sozialen Medien und anderen Quellen, beispielsweise medizinischen Bildgebungsverfahren. Während die üblichen Datenvolumina, mit denen Unternehmen umgehen, sich heute im Tera- und unteren Petabyte-Bereich bewegen, wird man in Zukunft von Exa-, Zetta- und Yottabyte sprechen.

(Bild: Shutterstock/Mark Carrel)

Das stellt die Speicherindustrie vor völlig neue Aufgaben: Platz- und Strombedarf steigen exponentiell, ungewöhnliche Formate wie Video, Audio, Sensor-Logs oder Social-Media-Streams sind zusammenzuführen, zu durchsuchen, zu analysieren und in handlungsleitende Erkenntnisse umzusetzen – am besten in Mikro- statt der heute üblichen Millisekunden, denn so schnell muss sein, wer zukünftig autonome Fahrzeuge, Stromnetze oder Produktionsstraßen unfallfrei steuern will.

Derzeit widmet sich eine neue Generation von Start-ups diesen Herausforderungen. Ein Beispiel ist die 2013 gegründete Firma Noobaa, deren Software man testhalber kostenlos aus dem Web herunterladen kann. Ein Volumen bis 20 TByte ist frei, ab Februar soll eine kommerzielle Version folgen. Geplante Kosten: 15 Dollar pro TByte und Monat.

Der Hersteller bindet brachliegende Speicherressourcen auf beliebigen Medien außer Band durch eine zentrale, intelligente Instanz, das sogenannten Brain, das auf einem dedizierten Server läuft, zu einem einheitlichen Namensraum mit zentraler Verwaltung zusammen. Einzige Voraussetzung: der Speicher muss einem Host zugeordnet sein. Das gilt für Laptops und PCs genau wie für direkt an Server angebundene Platten oder zugewiesene Arrays.

Aufbau der Noobaa-Lösung: Daten und Metadaten, Daten- und Befehlspfade sind konsequent getrennt (Bild: Noobaa)
Aufbau der Noobaa-Lösung: Daten und Metadaten, Daten- und Befehlspfade sind konsequent getrennt (Bild: Noobaa)

Zum “Brain” gehört eine hochleistungsfähige Mongo DB, die redundant sämtliche Metadaten speichert. Eine anzubindende Speicherressource muss lediglich über einen Host ansprechbar sein und auf den anzuschließenden Geräten muss ein Softwarestück, ein sogenannter Demon, installiert werden, der 16 Gbyte freien Speicher benötigt.

Die Daten der Applikationen, die Noobaa nutzen, werden von ihren jeweiligen Hosts kontrolliert. Eine Ressource kann die Menge des Noobaa zur Verfügung gestellten Speichers jederzeit erhöhen oder verringern, je nachdem, was die dort bereits residenten Applikationen verbrauchen. Die zentrale Software vereinigt alle Daten zu einem einzigen Namensraum und besitzt intelligente, auf den Metadaten operierende Mechanismen, die die Daten verteilen, replizieren oder migrieren.

Daten und Metadaten sowie Daten- und Befehlspfad sind dabei konsequent getrennt, was den Aufwand für entsprechende Datenoperationen extrem verringert. Die Metadaten werden durch mehrfache Redundanzmechanismen geschützt und auf SSDs gespeichert, was die Geschwindigkeit von Daten-Transaktionen erhöht. Cloud-Storage ist hier eine einfache Speicherressource, nicht nur nachgelagerte Speicherschicht.

Zeitstempel statt Snapshot

Ein weiteres Beispiel für eine grundlegend andere Speichertechnologie ist Reduxio. Der Hersteller teilt mit seinem Betriebssystem Time OS alle Daten bereits am Eingang zum Speichersystem in Stücke auf, die nur ein einziges Mal in einem sogenannten “Bucket” gespeichert werden. Jedes Stück erhält einen Namen, der einmalig ist. Dazu kommt eine Art Etikett, das den Kontext beschreibt, in dem das Datenstück jeweils auftaucht. Es enthält einen sekundengenauen Zeitstempel. Taucht dasselbe Datenstück noch einmal auf, wird zum System lediglich ein neues Etikett mit einem anderen Zeitstempel und weiteren kontextbezogenen Merkmalen hinzu.

Futuristische Benutzerschnittstelle von Reduxio (Bild: Reduxio)
Futuristische Benutzerschnittstelle von Reduxio (Bild: Reduxio)

Alle Etiketten werden in einer Metadaten-Datenbank gespeichert, die auf sehr schnellem Speicher, DRAM oder SSD, liegt. Abfragen und Datenoperationen laufen über diese Metadaten. Durch das Verfahren werden gleichzeitig Dubletten verhindert und das sekundengenaue Zurückfahren auf jeden beliebigen früheren Zustand des Datenvolumens ermöglicht. Dafür waren bisher Snapshots zuständig. Das Speicher-Gesamtsystem kann durchaus aus mehreren voneinander unabhängigen Buckets bestehen. Als Produkt kann man von Reduxio derzeit die HX 550 kaufen, eine Box mit DRAM, SSD und Disks sowie allen beschriebenen Softwaremechanismen.

Ein Datenformat für alle Daten

Auch Iguazio geht völlig andere Wege als bisher, fokussiert sich aber auf Objektdaten und NoSQL-Umgebungen: Auf die heterogene Speicherlandschaft für alle ins System eingebrachten Daten wird hier eine dreischichtige Lösung aufgesetzt. Sie besteht aus einer unteren Metadaten-Ebene, die auf SSDs liegt und neben dem Metadaten-Speicher auch einen Daten-Cache enthält.

Die mehrschichtige Architektur der Iguaz.io-Lösung baut auf einem vereinheitlichten Datenformat für alle Anwendungen und Speicherschichten auf (Bild: Iguazio)
Die mehrschichtige Architektur der Iguazio-Lösung baut auf einem vereinheitlichten Datenformat für alle Anwendungen und Speicherschichten auf (Bild: Iguazio)

Auf die SSDs kann von den Anwendungen mit 100 GBit/s direkt zugegriffen werden. Aufgelagert sind eine zentrale Verarbeitungsebene für alle datenbezogenen Softwareoperationen, der sogenannte Unified Data Processor, der die Daten auch in das vereinheitlichte Speicherformat bringt, mit dem sie gemeinsam zugänglich gemacht werden. Dieses vereinheitlichte Datenformat ist der Clou der Lösung, denn üblicherweise verschlingt gerade die Behandlung und händische oder halbautomatische Angleichung unterschiedlicher Datenformate sehr viel Zeit.

Darüber liegt eine zentrale Firewall. Alle Datenzugriffe der angeschlossenen Anwendungen wie Suche, Analyse oder anderes, müssen zunächst diese Firewall passieren. Deren Regelwerke werden auf der Datenprozessorebene festgelegt und von der Firewall lediglich umgesetzt. Die oberste Schicht bilden Anwendungen wie Spark, Kinesis oder beliebige Dateisysteme, die auch aus dem Hintergrund auf die Daten zugreifen können.

Zielmärkte von Iguazio sind unter anderem Finanzdienstleister und Internet-of-Things-Anwendungen. Sechs Implementierungen der derzeitigen Box, die unter anderem acht bis 24 Module mit über Ethernet angebundenen Flash-Speichermodulen als Metadatenspeicher enthält, gibt es schon.

Ein Dateisystem für das SSD-Zeitalter

Voll auf die Möglichkeiten nichtflüchtiger Speichermedien fokussiert sich Weka.io mit seiner Lösung, die sich als schneller, SSD-basierender Primärspeicher versteht. Das Unternehmen hat dafür ein komplett neues Betriebssystem gebaut. Weka.io implementiert seine Lösung als virtuelle Maschine auf einer Hardware, an die direkt ein oder mehrere SSD-Module angebunden sind.

Storage funktioniert bei Weka.io als Anwendung, die auf einer virtuellen Maschine im System läuft (Bild: Weka.io)
Storage funktioniert bei Weka.io als Anwendung, die auf einer virtuellen Maschine im System läuft (Bild: Weka.io)

Das System wächst durch Hinzufügen neuer Maschinen mit weiteren angebundenen SSD-Modulen. Werden lediglich neue SSDs hinzugefügt, steigt die Kapazität, kommen neue VMs hinzu, steigt die Leistung. In keiner der beiden Richtungen sind Grenzen gesetzt. Cloud-Speicher wird als nachgelagerte Objekt-Speicherschicht angebunden.

Jede virtuelle Maschine enthält eine Schicht mit File Services, über die sie sich mit allen anderen zum System gehörenden Knoten in Verbindung setzt. In die Redundanzmechanismen sind so automatisch alle Knoten im System gleichmäßig eingebunden, auch die Metadaten liegen übers Gesamtsystem verteilt, was Datenverluste sehr unwahrscheinlich macht. Weka.io erreicht mit seiner Lösung Zugriffszeiten von unter 300 Mikrosekunden und hat bereits einige Pilotimplementierungen erfolgreich hinter sich gebracht.

Mehr zum Thema

Hyperkonvergente Systeme

Weniger Komplexität, einheitlicher Einkauf, vorintegrierte und aufeinander abgestimmte Komponenten sowie weniger Sorgen und Kosten beim Betrieb durch Abstraktion und Automatisierung, das versprechen die Anbieter "hyperkonvergenter Systeme". Im silicon.de-Special finden sie aktuelle Nachrichten und umfassende Hintergrundartikel zu dem Marktsegment.