Livy: Microsoft und Cloudera wollen Spark vereinfachen

Logo Spark

Die Prozessing Engine Spark soll künftig für Anwendungsentwickler und Data Scientists einfacher zu handhaben sein. Über ein automatisiertes Deployment, Code-Frameworks und Client-APIs vereinfache sich der Einsatz von Spark und eröffnet auch neue Anwendungsfälle.

Gemeinsam wollen Microsoft und Cloudera mit dem Open-Source-Projekt ‘Livy’ den Gebrauch von Spark in Anwendungen vereinfachen. Spark ist zum Hadoop-File Sysytem, HBase, Cassandra und Hive kompatibel und ermöglicht als General Processing Engine auch neue Workloads wie Streaming oder Machine Learing.

Wie Cloudera auf der TDWI-Konferenz in München bekannt gibt, entwickelt das Open-Source-Unternehmen zusammen mit Microsoft den REST-basierten Open-Source-Service. Neben Microsoft sind noch weitere Unternehmen an der Entwicklung des unter der Apache-Lizenz veröffentlichten Service beteiligt. Von Microsoft stammt vor allem die Integration von Livy mit den eigenen Microservices.

Mit Livy wird aus Spark ein mandantenfähiger Service, in dem sich Sitzungen über Nutzeridentitäten isolieren lassen, und es automatisiert Deployment, Konfiguration und Monitoring. Livy bietet in erster Linie eine Schnittstelle zwischen Applikationen und Spark. Diese Schnittstelle übermittelt Jobs und ruft programmatisch Resultate ab.

Den technologischen Kern von Livy bildet ein REST-Server der Spark-Jobs und Spark-Kontexte übermittelt und verwaltet. Über eine Client-API lasen sich Jobs sehr granular justieren und Ergebnisse asynchron abrufen. Dadurch können Spark-Clients auch ohne manuelle Installation und Konfiguration installiert werden. Voraussetzung für einen http-Endpunkt ist lediglich ein schlanker Client.

Die Architektur von Livy. Das Cloudera-Projekt vereinfacht die Verwaltung von Spark. (hier zusammen mit Hue). (Bild: Hue)
Die Architektur von Livy. Das Cloudera-Projekt vereinfacht die Verwaltung von Spark. (hier zusammen mit Hue). (Bild: Hue)

Außerdem erleichtert diese Open-Source-Schnittstelle über den Support für verschiedene Code-Frameworks wie Django oder Play die Steuerung von Spark über Drittanwendungen. Mit geringen Aufwand ist das auch für Anwendungen auf Basis von Node.js oder Go möglich. Zudem lassen sich über REST-basierte Client-APIs in Java Auftragserteilung, Ergebnisabfrage und Management von Spark-Kontexten weiterentwickeln. An den Client-APIs für Scala und Python arbeite Cloudera derzeit noch.

Wie Cloudera betont, vereinfacht Livy auch die Spark-Integration in serviceorientierten oder Microservices-basierte Architekturen. “Microsoft konzentriert sich auf die Vereinfachung von Big Data und moderner Analytik, um Technologien wie Apache Hadoop und Spark für jeden verfügbar zu machen”, kommentiert Tiffany Wissner, Direktorin für Data Platform Marketing bei Microsoft. Durch das Projekt Livy werde die Interaktion mit Spark für Entwickler durch einen REST-Webservice vereinfacht und so Spark für den Einsatz in Unternehmen vorbereitet.

“Wir beobachten bei unseren Kunden und Partnern die natürliche Tendenz, Entwicklungsmöglichkeiten von Spark hinsichtlich Client-Anwendungen mit einfachen Spark-Schnittstellen für sich nutzbar machen zu wollen, und Livy ermöglicht ihnen das”, erklärt Anand Iyer, Senior Product Manager bei Cloudera.

Mit Livy würden sich mit Spark neue Anwendungsfälle ermöglichen. Weil das Projekt sich noch in einer sehr frühen Phase befindet, hofft man bei Cloudera nun auf weiteres Engagement aus der Community. Mehr Informationen über das Projekt gibt es auf Github.

Tipp: Die aktuellen Trends aus der Welt der Business Intelligence finden Sie in unserem Bericht über die “Europäische TDWI-Konferenz in München“.