Big Data erfordert neue Regeln

Die Datenflut überschwemmt uns. Vor allem bei den unstrukturierten Daten ist ein deutlich überproportionales Wachstum festzustellen. Von Schwergewichten der IT-Branche wie IBM erwarten die Anwender ein durchgängiges Information Management. Die Arbeit an Big-Data-Lösungen gewinnt zunehmend an Fahrt.

Auf dem IBM Information Management Forum 2011 in Darmstadt konnte Rüdiger Spies, Analyst von IDC Deutschland, konkreter werden und wichtige Konsequenzen für die IT in Unternehmen ableiten. Zunächst die jüngsten verfügbaren Fakten des explodierenden Datenvolumens: Von 2009 auf 2020 wird das Volumen nach Untersuchungen der Marktforscher um den Faktor 44, die Anzahl der Files sogar um den Faktor 67 anwachsen. In konkreten Zahlen: 2009 lag das Datenvolumen bei 0,8 ZB, im Jahr 2020 wird es voraussichtlich 35 ZB erreichen. ZB steht für Zettabyte oder eine Milliarde Terabyte.

Dabei sei ein deutlich überproportionales Wachstum bei sogenannten unstrukturierten Daten festzustellen. Doch korrekt genommen gibt es keine unstrukturierten Daten, erklärt der Marktforscher. Man könne vielmehr von drei Arten von Datentypen sprechen:

  • Strukturiert: in traditionellen, transaktionsorientierten Datenbanken (SQL),
  • Semi-strukturiert: z.B. HTML/XML-tagged Texte, Bürodokumente,
  • Quasi unstrukturiert: Pixel-Bilder, Audio, Video.

Laut Spies ist ein verstärktes “Verschmelzen” von Daten und Anwendungen zu beobachten, die klassische strikte Trennung von Daten und Applikationen lockert sich. Praktisch ist die Umstellung von analog auf digital abgeschlossen. Gleichzeitig ist ein starker Einfluss von freien Inhalten festzustellen, die von Mitarbeitern stammen. Das erfordert aus Sicht des Marktforschers nicht nur neue Speicher- und Organisationsformen, sondern ruft auch nach neuen Regeln.

In der IT-Branche spricht man in diesem Zusammenhang schon seit geraumer Zeit von “Big Data”. Das sind Datensätze, die so groß werden, dass das gewohnte Management in herkömmlichen Datenbanken (SQL) große Schwierigkeiten bereitet, wenn nicht gar unmöglich ist. Die entsprechenden Größenordnungen liegen dabei bei mehreren Terabytes, Exabytes und Zettabytes an Daten.

Flut der großen Datensätze

Wissenschaftler begegnen solche Datenmengen regelmäßig in der Meteorologie oder Genomik, bei komplexen physikalischen Simulationen, in der biologischen Forschung, sowie in der Internet-, Finanz-und Wirtschaftsinformatik. Darüber hinaus wächst die Datenmenge stetig, weil sie zunehmend in mobilen Geräten wie in Kameras, Mikrofonen, RFID-Lesegeräten oder drahtlosen Sensornetzwerken gesammelt werden.

Spies nannte im Einzelnen vor allem Anwendungsbeispiele wie Electronic Mail Response, Transscripts in Call Centern, Social-Media-Auswertungen sowie in den USA das datenintensive Discovery-Verfahren. Im Gegensatz zu europäischen oder deutschen Gerichtsverfahren kennt das US-Recht das sogenannte “Ausforschungsverfahren” als datenintensive Vorstufe zu einem Prozess. Die gegnerischen Parteien stellen sich wechselseitig schriftliche Beweisfragen, vernehmen Zeugen oder fordern Dokumente zu spezifischen Sachverhalten an.

Bei den Bildverfahren entsteht eine wachsende Datenflut etwa bei der Auswertung von Gesichtserkennung auf Überwachungskameras, bei der Internet-Überwachung von Markenpiraten sowie beim Thema Augmented Reality. Darunter versteht man die computergestützte Erweiterung der Realitätswahrnehmung. Diese Information kann alle menschlichen Sinne ansprechen. Häufig wird jedoch unter erweiterter Realität nur die Ergänzung von Bildern oder Videos mit computergenerierten Zusatzinformationen oder virtuellen Objekten mittels Einblendung/Überlagerung verstanden.

In der Geschäftswelt haben sich E-Mails und digitale Textdateien im Laufe der vergangenen zehn Jahre zu einem kritischen Erfolgsfaktor entwickelt. Bei etwa 75 Prozent aller Gerichtsverfahren zwischen Unternehmen – so belegen vor allem Zahlen aus den USA – spielen der E-Mail-Datenverkehr und die dort gespeicherten und gegebenenfalls versteckten Dateien eine wichtige Rolle. Unter diesem Aspekt ist eine Reihe von Regularien zur Aufbewahrungspflicht elektronischer Dokumente entstanden (Compliance).

Lösungen für die neuen Datenstrukturen

Big Data erfordert neue Technologien zur effizienten Bearbeitung großer Datenmengen. Dazu gehören Datenbanken mit massiv paralleler Verarbeitung (MPP), Datamining Gitter, das Apache Hadoop Framework HPCC / ECL, verteilte Dateisysteme und Datenbanken sowie MapReduce.

IBM zeigte auf seiner Veranstaltung in Darmstadt unter der Leitung von Günter Scholz ein Information Management Portfolio, das Lösungen für alle Unternehmensbereiche, für strukturierte und unstrukturierte Daten bieten will. Dabei seien neben dem Bemühen, die richtige Informationen zur richtigen Zeit am richtigen Ort verfügbar zu haben, auch das Einhalten von Compliance-Richtlinien zur Datenaufbewahrung und die gesetzeskonforme Vernichtung wichtig. Wirtschaftliches Ziel sei es, dadurch Geschäftsprozesse erheblich zu beschleunigen.

Als besonderes Beispiel wurde wie schon auf der CeBIT das Projekt Watson gezeigt, bei dem im US-Fernsehen ein Computer beim Wissensquiz “Jeopardy” seine menschlichen Kontrahenten besiegen konnte. Watson soll künftig auch in Geschäftsprozessen eingesetzt werden.

Als wichtigste heute schon verfügbare Komponenten nannte IBM im Zusammenhang mit Big Data das Produkt InfoSphere BigInsights. Es ermöglicht große Mengen von relationalen und nicht-relationalen Daten (z.B. Text, Audio, Video, Logs) zu speichern und zu analysieren. Das Werkzeug basiert auf Apache Hadoop, will dieses Framework aber erweitern, um die Anforderungen eines Unternehmens an Administration, Workflow, Provisioning und Security zu erfüllen.

IBM will nach eigenen Angaben weitergehende analytische Fähigkeiten aus der IBM-Forschung hinzufügen. Dazu kommt die Integration mit IBM-Datenbanken und Data Warehouses wie DB2, InfoSphere Warehouse, IBM Smart Analytics System und Netezza sowie eine Ergänzung durch die von IBM entwickelte Sprache Jaql.

Auch Hewlett-Packard zeigte auf seiner Kundenkonferenz HP Discover im Rahmen seines Konzepts der ‘Converged Infrastructure’ Einzelheiten von Komponenten zur Bewältigung der genannten Herausforderungen.