Stefan Kolmar

ist Vice President, Field Engineering EMEA & APAC bei Neo4j

Trends 2021 – Vier Entwicklungen bei (Graph)Datenbanken und Datenanalyse

Das Covid-Jahr 2020 konnte die digitale Transformation nicht ausbremsen. Sogar ganz im Gegenteil: Viele Unternehmen haben den Warnschuss gehört und machen sich nun im Eiltempo auf in die Cloud oder wagen die ersten Schritte in Richtung KI, ML und Data Analytics. Eine grundsätzliche Frage betrifft dabei die Wahl der Datenbanken, die Bedeutung von Cloud und Data Science sowie neuen Rollenbildern in Unternehmen. Hier zeichnen sich vier deutliche Trends ab.

Big Data mag als Buzzword ausgedient haben. Für die digitale Transformation sind Daten jedoch noch immer die Grundvoraussetzung für sämtliche Prozesse und Systeme. Dabei geht es heute weniger um das Erheben und Sammeln von Daten als um deren Verknüpfung untereinander. Datensilos werden aufgebrochen und Data Lakes prägen die IT-Landschaft. Die Schlüsselrolle von (vernetzten) Daten lässt auch die Vorreiterrolle von relationalen Datenbanken (SQL) langsam, aber stetig erodieren. Insbesondere wenn es darum geht, die Daten für komplexe Aufgaben zu nutzen kommen immer öfter andere Datenbanktypen zum Zug – für Predictive Analytics und Data Science bis zu Machine Learning-Verfahren und Künstliche Intelligenz.

NoSQL-Datenbanken haben sich hier in den letzten Jahren nicht nur als vielversprechende Alternative zu relationalen Datenbanken gemausert, sondern auch einen festen Platz in der IT-Infrastruktur von Unternehmen eingenommen. Dazu gehören Key-Value-Datenbanken, Dokumentendatenbanken und spaltenorientierte Datenbanken und – für vernetzte Daten – Graphdatenbanken. Die Graphdatenbank Neo4j schaffte es nach einem aktuellen Ranking von DB-Engines dieses Jahr sogar in die Top 20 der weltweit beliebtesten Datenbanksysteme.

Für die zukünftige Entwicklung von Graphdatenbanken zeichnen sich vier wesentliche Trends ab: Das Property-Graph-Modell etabliert sich weiter, Entwickler schlüpfen mehr und mehr in die Rolle von Innovationstreibern, Datenbanken wandern in die Cloud und Graph Data Science wird zum Schlüssel für Anwendungen der Zukunft.

  1. Das Property-Graph-Modell

    Das Jahr 2020 hat verdeutlicht, wie wichtig die Analyse vernetzter Daten wirklich ist – von der Suche nach einem Covid-19-Impfstoff über die Sicherstellung von unterbrechungsfreien Lieferketten bis hin zum Management des Remote Workspace für Kunden, Mitarbeiter und Partner. Es gibt nur wenig Anwendungsfälle, bei denen Beziehungen zwischen Entitäten keine Rolle spielen. Tatsächlich sind die meisten Daten- und Domänenmodelle inhärent vernetzt. In der Praxis hat man lange versucht solche Beziehungsgeflechte in relationale Datenbanken zu pressen, was viel Speicherplatz, viel Aufwand und Kopfschmerzen bei der Perfomance kostete.

    Das Property-Graph-Modell erscheint da als logische Alternative. Es ist speziell auf das Speichern, Verknüpfen und Abfragen von vernetzten Daten konzipiert. Das bedeutet nicht, dass es relationale oder andere Datenbankentypen sofort ersetzt. Property-Graph-Modelle werden komplementär zu anderen Datenbanken genutzt (Polyglotte Persistenz). Das isomorphe Modell stellt sicher, dass die Daten ohne Verlust von einem Modell in das andere transformiert werden können. Unternehmen werden daher stärker denn je abwägen müssen, welches Datenmodell sich für welche Daten und welchen Anwendungsfall eignet. Generell werden das Property-Graph-Modell und der Einsatz von Graphtechnologie allerdings mehr und mehr zum Wegbereiter für innovative und smarte Projekte.

  2. Entwickler als InnovationstreiberIm Zeitalter von Cloud, Container-Anwendungen und Kubernetes heißt die Wachstumsstrategie in vielen Unternehmen: Bottom-Up – „von unten nach oben“ oder „von den Mitarbeitern zum Vorstand“. Anstatt vordefinierten Projektzielen der obersten Führungsebene blind nachzukommen, entwickeln sich Anwendungsentwickler und IT-Experten zu wichtigen Entscheidungsträgern. Sie treiben als Visionäre und Architekten die digitale Transformation in Unternehmen voran. Nicht selten gehen echte Innovationen von den Hunderten oder gar Tausenden von Mitarbeitern hervor, die mit den täglichen Herausforderungen vertraut sind und an neuen effektiven und datengetriebenen Lösungen arbeiten.

    Ein Grund für die Rollenverschiebung ist mitunter die wachsende Fragmentierung der Entwicklungslandschaft, einschließlich Programmiersprachen und Frameworks. Diese Fragmentierung stellt nicht nur die heutigen Entwickler vor Herausforderungen. Anwendungen, die heute realisiert werden, brauchen auch in Zukunft Support und Wartung. Zu den Programmiersprachen der Zukunft zählen diejenigen, die eine Vielzahl von Anwendungsfällen und Plattformen unterstützen. Dazu gehören Java und Python sowie auf spezielle Datenbanktypen ausgerichtete Sprachen. Für Property Graphdatenbanken hat so zum Beispiel das ISO/IEC Joint Technical Committee 1 (JTC1) erst 2019 der Einführung von GQL (Graph Query Language) als internationaler Standard für eine deklarative Abfragesprache zugestimmt.

  3. Cloud und PaaSFür Gartner ist und bleibt die Cloud der Top Trend. So sollen bis 2022 Public Cloud-Dienste für 90% der Innovationen in den Bereichen Daten und Analytik mitverantwortlich sein. Im Report Top 10 Trends in Data and Analytics ist die Erklärung dafür einleuchtend: „Die Flexibilität, die Unternehmen dank Cloud gewinnen, ist heute wichtiger denn je. Unternehmen müssen auf Basis von Daten Veränderungen und Innovationen vorantreiben, um auf Krisen und wirtschaftlichen Abschwung reagieren zu können.“

    Das gilt auch für den Teilbereich “Plattform-as-a-Service (PaaS)”. Viele Unternehmen zögerten anfangs, Hardware und Software komplett über die Infrastruktur eines Anbieters zu beziehen und sich damit in eine Abhängigkeit zu begeben. Mittlerweile überwiegen jedoch für viele die Vorteile, darunter die deutlich schnellere Entwicklung eigener Apps und die Senkung der Kosten. Ein anderer wichtiger Grund für den Weg in die Cloud: die hohe Benutzerfreundlichkeit. Entwickler können sich auf das Programmieren von Anwendungen konzentrieren, ohne sich um die Verwaltung der Infrastruktur kümmern zu müssen.

    Neben klassischen Datenbankservices wie Database-as-a-Service (DBaaS), Data Warehouse und Serverless Computing, schließen sich auch Graphdatenbanken dem Trend „as-a-Service“ an und ziehen in die Cloud. Der Graphdatenbank-Anbieter Neo4j meldete, dass in den letzten zwölf Monaten 90% der Kunden ihre graphbasierten Anwendungen in der Cloud betreiben. Für viele Unternehmen ist es das erste Mal, dass sie Graphtechnologie überhaupt einsetzen. Dass sie es nun gleich in der Cloud tun, zeigt wie wichtig es für Entwickler und IT-Teams ist, neue Wege für die Lösung von datenintensiven Aufgaben zu testen und gleichzeitig die Kontrolle über komplexe Graph-Architekturen zu behalten.

  4. (Graph) Data Science für ML und KI 

    Gartner sieht noch einen weiteren Trend in Bezug auf Datenbanken: Graphtechnologie als Grundlage für die moderne Datenanalytik. Data Science und die Rolle von Data Scientists wiederum gewinnt im Rahmen von Machine Learning und Künstlicher Intelligenz an Bedeutung. Graph Data Science (GDS) vereint diese beiden Entwicklungen.Dabei ist GDS nur der nächste Schritt in der Analyse von Netzwerkstrukturen innerhalb komplexer Datensätze. Einfache Queries liefern Data Scientists einen ersten Überblick über ihre Daten und deren Zusammenhänge. In der Regel bilden sie jedoch nur den Ausgangspunkt für tiefere und weitreichendere Untersuchungen. Tatsächlich neue Erkenntnisse, versteckte Muster und unbekannte Abweichungen lassen sich erst mit Graph-Algorithmen identifizieren. Sie sind in der Lage automatisiert Strukturen und Zusammenhänge aufzudecken, die bei normalen Abfragen weitgehend ungenutzt bzw. unentdeckt bleiben würden. Je nach Suchanfrage und Aufgabe lassen sich Graph-Algorithmen in unterschiedliche Kategorien zusammenfassen: Pathfinding, Centrality, Community Detection, Link Prediction und Similarity.

    Noch eine Stufe weiter geht’s mit dem Einsatz sogenannter Graph Embeddings. Dieser Ansatz nutzt KI-erlernte Algorithmen und liefert rein maschinenlesbare Ergebnisse. Auf dieser Basis operieren ML-Verfahren und optimieren beispielsweise die Vorhersagegenauigkeit von Prognosesystemen. Dabei wird die komplexe Graphstruktur abstrahiert und in ihrer Dimensionalität reduziert. Einfach ausgedrückt hilft Graph Data Science Anwendern, ihre Vorhersagemodelle einfacher und schneller zu erstellen. Google und Facebook sind die einzig bekannten Unternehmen, die Graph Embeddings bereits erfolgreich einsetzen. Mit integrierten Graph Embeddings in modernen Graphdatenbanken (ab Neo4j GDS 1.4) stehen die Graph Machine-Learning-Verfahren seit kurzem nun allen Unternehmen in vollem Umfang zur Verfügung.