NoSQL analysiert Big Data rasend schnell

Big DataData & StorageDatenbank
Daten (Shutterstock/BeeBright).

Relationale Datenbanken haben mit den Anforderungen der neuen Datenwelt zu kämpfen. Unternehmen, die ausschließlich auf ihre alten Legacy-Systeme setzen, werden an Wettbewerbsfähigkeit einbüßen.

Big Data zu sammeln und zu speichern reicht heute nicht mehr. Damit Daten Mehrwert stiften, müssen sie in Sekunden, idealerweise sogar in Echtzeit ausgewertet werden können: Nur dann dienen sie als verlässliche Grundlage für riskante Entscheidungen. Schnell kommen dabei Terabytes an Datenmaterial zusammen, aus dem Internet der Dinge, Billing-Systemen oder e-Commerce-Shops. Solche Daten liegen heute nicht mehr unbedingt nur sauber strukturiert, sondern auch unstrukturiert als Mails, Dokumente, Fotos oder Videos vor. Die klassischen relationalen Datenbank-Managementsysteme (DBMS) mit ihren fixen Tabellenstrukturen kommen mit diesem wilden Daten-Mix zwar auch zurecht, allerdings nur über Umwege und Workarounds. Dadurch steigen die Kosten und die Performance sinkt. Aufwand und Nutzen stehen betriebswirtschaftlich in keinem gesunden Verhältnis mehr zueinander. DBMS-Legacy-Systeme wurden eben für eine andere Datenwelt entwickelt.

Paul Salazar ist Regional Manager Central Europe bei Couchbase. (Bild: Couchbase)
Paul Salazar ist Regional Manager Central Europe bei Couchbase. (Bild: Couchbase)

NoSQL-Datenbanken dagegen gelten als Experten für den poly-strukturierten Daten-Mix von heute. Gleich mehrere Argumente sprechen für die modernen NoSQL-Datenmanager, die speziell für die hohen Anforderungen heutiger Unternehmen konzipiert worden sind. Sie halten einen Großteil der aggregierten Daten im schnellen Arbeitsspeicher (RAM), was die Auswertung beschleunigt. Außerdem speichern sie Daten nicht in fixen Tabellen, sondern in flexibleren JSON-Objekten ab. Jedes JSON-Dokument – JSON ist ein Akronym für JavaScript Object Notation – kann unterschiedliche, auch wechselnde Datentypen beinhalten und die Länge darf je nach vorliegendem Datenmaterial variieren. Demgegenüber haben alle Datensätze einer relationalen Tabelle eine starre, vordefinierten Struktur. Sie eignen sich daher nur für fix definierte, vorgegebene Transaktionen.

Performance-Fresser JOIN-Operator

Als besondere Performance-Bremse bei komplexen Analysen in relationalen DBMS entpuppt sich der SQL-Operator JOIN. Er ist notwendig, weil für umfangreichere Auswertungen in der Regel mehrere relationale Tabellen über Schlüsselindizes miteinander verbunden werden müssen, denn nur in seltenen Fällen befinden sich alle Daten, die ausgewertet werden sollen, in einer einzigen Tabelle. JOIN frisst aber richtig viel Zeit. Dokumenten-Datenbanken dagegen sind in der Lage, die Daten mehrerer relationaler Tabellen in einem einzigen JSON-Objekt abzuspeichern. JSON-Dokumente erlauben Verschachtelungen und können dadurch auch komplexe Strukturen sehr gut abbilden. Der Vorteil: Es ist lediglich eine einzige Lese-Operation nötig und der Analyse-Algorithmus hat sämtliche benötigten Daten im Zugriff.

In der relationalen Welt benötigen Big Data auch teure Big Server, um Queries und Analysen ausreichend performant durchführen zu können. Steigt das Datenvolumen, wird ein leistungsstärkerer Server nötig. NoSQL-Systeme skalieren feingranularer über Nodes, die in Clustern organisiert sind und JSON-Dokumenten-Buckets enthalten. Couchbase hält, das belegen Benchmarks, die Performance-Steigerung über beliebig viele Nodes konstant aufrecht. Dem erhöhten Sicherheitsbedürfnis unternehmenskritischer Anwendungen trägt das System außerdem durch automatisierte Replikationsmechanismen zwischen geografisch voneinander getrennten Datacenter Rechnung. Business Continuity ist dadurch jederzeit gewährleistet.

Moderne NoSQL-Datenbanken sind das Beste aus der alten relationalen und der neuen NoSQL-Datenbankwelt. Entwickler und Business-Analysten müssen zudem keine neue Technologie erlernen. Mit der Couchbase-eigenen Abfragesprache N1QL ist die aus SQL bekannte Syntax und Semantik auch für Queries über JSON-Objekte benutzbar. N1QL funktioniert dabei wie das bekannte SQL, nur laufen die Abfragen über JSON-Cluster und Buckets, das heißt Kollektionen von JSON-Objekten, die strukturierte und semi-strukturierte Daten enthalten.

Datenbanken, die den Ansprüchen heutiger Unternehmen gerecht werden wollen, müssen zudem cloud-nativ und cloud-agnostisch operieren. Firmen kombinieren die Cloud-Dienste, die ihre individuellen Business-Wünsche am besten erfüllen, und wollen dabei nicht mehr länger durch proprietäre Hürden behindert werden. Mit dem „Autonomous Operator for Kubernetes“ zum Beispiel gewährleistet Couchbase Cloud-Portabilität für Container und volle Integration.

Einsatzszenarien für NoSQL

NoSQL-Datenbanken bieten Online Transaction Processing (OLTP) und Online Analytic Processing (OLAP) gleichermaßen. Sie verkürzen Latenzzeiten durch konsequentes Memory-first und eine Scale-out-Speicherarchitektur; sie reduzieren Komplexität durch JSON-Objekte. Dadurch werden sehr schnelle Analysen und N1QL-Abfragen auch über sehr große Datenbestände in Terabyte-Größe möglich. Die nachhaltigsten Performance-Gewinne verspricht eine Migration von einem herkömmlichen Legacy-System auf eine moderne NoSQL-Datenbank. Unternehmen, die vorerst an ihrem alten relationalen Datenbank-Management-Systemen festhalten wollen, erzielen jedoch bereits durch den Einsatz einer NoSQL-Lösung als Cache-Speicher signifikante Geschwindigkeitssteigerungen. Durch Fast-Big-Data-Analysen erhöhen sie ihre Wettbewerbsfähigkeit am Markt.

Autor
Erfahren Sie mehr 
Paul Salazar ist Regional Manager Central Europe bei Couchbase.
Erfahren Sie mehr