Categories: Data

IBM engagiert sich bei Apache Spark

Apache Spark 1.4 bringt zum ersten mal Support für die Statistik-Sprache R mit. Dafür haben die Entwickler die so genannte “SparkR API” in das Cluster Computing Framework implementiert.

Die quelloffene In-memory-Datenverarbeitungs-Engine bekommt zudem Zuspruch von IBM. So sollen sich künftig bei IBM bis zu 3500 Entwickler mit Projekten rund um Spark zu tun haben.

In der Version Spark 1.4 führt Spark zudem Unterstützung für Python 3 ein. Und mit einer Dataframe API werden Spark SQL und die DataFrame-Library auch um Fensterfunktionen erweitert, über die sich Statistiken auswerten lassen.

SparkR ist ein ursprünglich von der Unversität Berkeley entwickeltes R-Frontend für Spark. Entwickler Patrick Wendell von Databricks erklärt, damit lasse sich Sparks Engine von einer R-Shell aus nutzen. “Weil SparkR die darunter liegende parallele Engine von Spark verwendet, können Operationen mehrere Maschinen oder Kerne nutzen und so auf Größen skalieren, die reine R-Programme nicht erreichen.”

Wendell zufolge ist die Benutzerstelle (API) für Maschinelles Lernen nun zudem stabil und kann in der Produktion eingesetzt werden. Sie war mit Spart 1.2 eingeführt worden. Zudem werden in Spark 1.4 auch Utilities für visuelles Debugging und Monitoring eingeführt, die Entwicklern einen Eindruck vermitteln, wie Spark-Apps ablaufen und wann bestimmte Abschnitte und Aufgaben erledigt sind. Damit lassen sich auch Durchsätze und Latenzen beobachten.

Der Release 1.4 ebenso wie IBMs Ankündigung, in großem Maßstab auf Spark zu setzen, kommen im Zusammenhang mit der Konferenz Spark Summit in San Francisco diese Woche. IBM will Spark in seine Plattformen für Analytics und E-Commerce integrieren, aber auch als gehosteten Clouddienst anbieten. In der Watson Health Cloud soll es künftig ebenfalls eine Rolle spielen.

IBM teilt mit, im Zeitalter mobiler Apps und des Internets der Dinge sehe es zwei herausragende Vorteile von Spark. Zum einen verbessere es die Leistung datenbasierter Anwendungen dramatisch. Zum anderen habe man beobachtet, dass es die Entwicklung aus Daten lernender “intelligenter” Apps radikal vereinfache.

Spark war 2009 an der Universität Berkeley als Forschungsprojekt gestartet worden, um ein Cluster-Computing-Framework für Arbeitslasten zu schaffen, für die Hadoop schlecht geeignet ist. 2010 erfolgte die Offenlegung des Codes. 2014 trugen mehr als 450 Unterstützer Quelltext bei. Die Erfinder von Spark haben inzwischen das Unternehmen Databricks gegründet, das als Distributor von Spark eine Komplettlösung für Datenwissenschaftler und Entwickler anbietet.

Tipp: Was haben Sie über Datenbanken gespeichert? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Redaktion

Recent Posts

Podcast: Zero Trust zum Schutz von IT- und OT-Infrastruktur

"Das Grundprinzip der Zero Trust Architektur hat sich bis heute nicht geändert, ist aber relevanter…

3 Stunden ago

Malware April 2024: Aufstieg des Multi-Plattform-Trojaners „Androxgh0st“

Androxgh0st zielt auf Windows-, Mac- und Linux-Plattformen ab und breitet sich rasant aus. In Deutschland…

4 Stunden ago

Selbstangriff ist die beste Verteidigung

Mit autonomen Pentests aus der Cloud lassen sich eigene Schwachstelle identifizieren.

23 Stunden ago

Prozessautomatisierung im Distributionslager

Die Drogeriekette Rossmann wird ihr neues Zentrallager in Ungarn mit Software von PSI steuern.

1 Tag ago

Wie autonome Fahrzeuge durch Quantencomputing sicherer werden können

Automobilhersteller planen, Quantentechnologie zunehmend auch bei fortschrittlichen Fahrerassistenzsystemen (ADAS) einzusetzen.

2 Tagen ago

Heineken plant Bedarfe mit KI-Lösung von Blue Yonder

Blue Yonder soll mehr Nachhaltigkeit entlang der Lieferkette der internationale Brauerei ermöglichen.

2 Tagen ago