Apache Spark für IBM z Systems verfügbar

Apache Spark für IBM z Systems verfügbar (Bild: IBM und Apache)

Die neue z/OS-Plattform für Apache Spark soll Datenanalysten sowie Entwicklern einen einfacheren und sichereren Zugriff auf Mainframe-Daten in Echtzeit ermöglichen. Ergänzende ISV-Lösungen helfen bei der schnelleren Gewinnung von Erkenntnissen aus Daten.

IBM will es Unternehmen und Behörden mit der neuen z/OS-Plattform für Apache Spark leichter machen, auf ihre Mainframe-Daten zuzugreifen und diese lokal ohne Offloads und mit Zeitersparnis zu analysieren. Für Datenanalysten sowie Entwickler sollen sich dadurch neue Möglichkeiten ergeben. Sie sollen fortgeschrittene Analytikwerkzeuge für den reichhaltigen Datenbestand auf dem Mainframe einsetzen und mehr Erkenntnisse in Echtzeit gewinnen können.

Die z/OS-Plattform für Apache Spark ermöglicht es Spark, einem Open-Source-Analytik-Framework, nativ auf dem z/OS-Betriebssystem zu laufen. Mit dem neuen Angebot können Experten somit Daten dort analysieren, wo sie entstehen. Indem die Verbindung zwischen der Analytik-Library und dem zugrundeliegenden Dateisystem entfällt, müssen Daten nicht mehr extrahiert, umgewandelt und geladen werden wie beim bekannten ETL-Verfahren (Extract, Transform, Load).

Im kognitiven Zeitalter, in dem Daten die neue natürliche Ressource darstellen und Computersysteme verstehen, bewerten und lernen können, müssen sich Unternehmen auf veränderte Entwicklungen einstellen und Erkenntnisse aus Informationen zunutze machen, bevor diese irrelevant werden. Mit dem neuen Angebot, das auch Akzeleratoren von z Systems-Geschäftspartnern umfasst, können sich Organisationen Mainframe-Daten und -Ressourcen noch einfacher zunutze machen. Dadurch sollen sie imstande sein, Marktveränderungen als auch individualisierte Kundenbedürfnisse besser zu verstehen und Anpassungen ihrer Marktaktivitäten in Echtzeit sowie mit kürzerer Amortisierungszeit vorzunehmen.

z Systems-Großrechner verarbeiten unternehmenswichtige Daten und Transaktionen für viele der weltweit größten Banken, Versicherungen sowie Einzelhandels- und Transportunternehmen. Sie verfügen eigenen Aussagen zufolge über die derzeit schnellsten kommerziellen Mikroprozessoren der Branche und die Fähigkeit, Analytik während Transaktionen durchzuführen. Dabei werden Vorhersagemodelle binnen einer Transaktion in zwei Millisekunden oder weniger mit einbezogen. Organisationen können durch Spark diese Ressourcen jetzt unter Verwendung fortgeschrittener In-Memory-Analytik wirksam einsetzen, ohne Daten vom Großrechner herunterladen zu müssen. Damit sparen sie Zeit und Geld und Risiken werden begrenzt.

“Da sich Unternehmen jeder Größe in digitale Organisationen verwandeln, müssen sie sich ein klares Bild von allen vorhandenen Geschäftsdaten machen können. Der Zeitverlust und die Risiken von Data-Offloads können dabei nicht in Kauf genommen werden”, sagt Rod Smith, IBM Fellow, Emerging Internet Technologies. “Apache Spark, das jetzt originär auf IBM Plattformen inklusive dem Mainframe betriebsbereit ist, ermöglicht Kunden die Durchführung von Analysen bei den Transaktionssystemen, die die wichtigen Daten beherbergen. Gleichzeitig lassen sich kontextbezogene Erkenntnisse von anderen Datenquellen einbinden. Dadurch können Nutzer ihre Kunden besser betreuen und in Echtzeit mehr Umsatz generieren.”

Die IBM z/OS-Plattform für Apache Spark umfasst Open-Source-Ressourcen von Spark, die aus dem Apache Spark Core, Spark SQL, Spark Streaming, der Machine Learning Library (MLlib) und Graphx bestehen, kombiniert mit der branchenweit einzigen Mainframe-basierten Datenabstraktionslösung von Spark. Die neue Plattform unterstützt Unternehmen mit zahlreichen Funktionen, um effizientere und sicherere Erkenntnisse zu erlangen.

Entwickler und Datenanalysten können ihr vorhandenes Know-how mit Programmiersprachen wie Scala, Python, R und SQL einsetzen. Dadurch lässt sich die aufzuwendende Zeit für umsetzbare Erkenntnisse reduzieren. Optimierte Dienste zur Datenabstraktion beheben Komplexität, indem sie mit vertrauten Werkzeugen über Apache Spark-APIs einen nahtlosen Zugriff auf Unternehmensdaten in traditionellen Formaten wie IMS, VSAM, DB2 z/OS, PDSE oder SMF bieten. Apache Spark verwendet einen In-Memory-Ansatz zur Verarbeitung von Daten, um schnell Ergebnisse zu erzielen. Die Plattform umfasst Dienste zur Datenabstraktion und -integration, die z/OS-Analytics-Anwendungen zur Nutzung von Standard-Spark-APIs befähigen. Dadurch können Organisationen Daten “vor Ort” analysieren und mit Offload/ETL verbundene, teure Verarbeitungs- sowie Sicherheitsüberlegungen vermeiden. Die Plattform bietet eine Apache Spark-Distribution der Open-Source-In-Memory-Processing-Engines, die für große Datenmengen ausgelegt ist.

IBM arbeitet auch mit den drei Partnern DataFactZ, Rocket-Software und Zementis, um unter Verwendung von IBM z/OS-Plattform Apache Spark maßgeschneiderte Lösungen zu entwickeln. DataFactZ ist ein neuer Partner und entwickelt gemeinsam mit IBM Spark-Analytik auf der Basis von Spark-SQL und MLlib für Daten und Transaktionen, die auf dem Großrechner verarbeitet werden. Rocket-Software und IBM verbindet eine langjährige Zusammenarbeit, die sich nun um z/OS Apache Spark erweitert. Zum Beispiel wird die neue Launchpad-Lösung von Rocket Kunden ermöglichen, die Plattform auszuprobieren und Daten auf z/OS zu verwenden. Zementis ergänzt sein Angebot von In-Transaktion-Predictive-Analytik für z/OS mit einer standardbasierten Execution-Engine für Apache Spark. Die Lösung ermöglicht Nutzern, fortgeschrittene Vorhersagemodelle anzuwenden und auszuführen. Diese Modelle können sie darin unterstützen, die Bedürfnisse von Endnutzern zu antizipieren, Risiken zu kalkulieren oder Betrugsversuche am Punkt der größten Auswirkungen in Echtzeit zu erfassen, während eine Transaktion verarbeitet wird.

Die neue z/OS-Plattform für Apache Spark und Partner-Lösungen ermöglichen künftig Datenanalysten und -auswertern, die sich zur Sammlung von Daten aus unterschiedlichen Quellen bedienen müssen, bevorzugte Formate sowie Werkzeuge zu nutzen.

IBM kündigte im vergangenen Jahr sein Commitment zu Spark an. Dies umfasst mehr als 3500 Forscher und Entwickler von IBM, die an zugehörigen Projekten arbeiten. Im Rahmen des Commitments, Open-Source-Technologien für Analytik auf dem Mainframe voranzubringen, hat der Geschäftsbereich z Systems eine neue GitHub Organisation für Entwickler gegründet, um gemeinsam Tools rund um z/OS auf Spark zu bauen. Zum Beispiel kann eine Kombination aus dem “Projekt Jupyter” und einer NoSQL-Datenbank eine flexible sowie erweiterbare Datenverarbeitungs- und Analyse-Lösung ermöglichen.

Dieser Ansatz kann helfen, moderne Open-Source-Tools zugänglicher zu machen, indem Entwickler ihre Werkzeuge als auch Sprachen selbst wählen können, neue visuelle Hilfsmittel zur Beobachtung von Analytik-Ergebnissen über unterschiedliche Datenumgebungen hinweg zur Verfügung gestellt werden und damit moderne Datenverarbeitungstechniken sowie -fähigkeiten möglich werden.

Die IBM z/OS-Plattform für Apache Spark steht Entwicklern, die mit z/OS arbeiten, jetzt zum Download bereit.