Stefan Müller

ist Director Business Intelligence & Big Data bei it-novum.

Big DataData & Storage

Operating Pentaho at Scale: Das 5. Pentaho User Meeting

Im März 2018 fand das bereits fünfte Pentaho User Meeting statt – wichtigstes Treffen der Pentaho-Anwender im deutschsprachigen Raum. Rund 100 Personen aus Österreich, der Schweiz und Deutschland nahmen daran teil.

Zwölf Referenten aus verschiedenen Branchen berichteten auf dem Pentaho-Anwendertreffen von ihren Erfahrungen und über die neuesten technischen Entwicklungen bei der BI-Plattform. Einen breiten Raum nahmen wiederum Use Cases für Data Analytics, Datenintegration, Data Warehousing ein.

CERN: Migration von Business Objects zu Pentaho

Gabriele Thiede präsentierte einen sehr spannenden Usecase: der Wechsel von Business Objects zu Pentaho beim CERN, eine der größten Forschungsorganisation der Welt. Gleich zu Anfang ihres Vortrags stellte sie klar: „Sie bekommen von mir keine technischen Informationen, ich bin Fachanwenderin!“ Das CERN ist eine Organisation der Superlative, nicht nur im Forschungsbereich. So ist auch die Verwaltung sehr groß, da bis zu 22.000 Mitarbeiter und Gastforscher versorgt werden müssen. Das reicht vom hauseigenen Sozialversicherungssystem mit Pensionskasse und Arbeitslosenversicherung bis zu selbst betriebenen Hotels. Zusätzlich übernimmt das CERN Formalitäten für die Gastländer wie die Bearbeitung von Aufenthaltsgenehmigungen, KFZ-Zulassungen etc.

Pentaho (Bild: Pentaho)

Auf Infrastrukturebene setzt die Organisation kommerzielle Software zusammen mit selbst gestrickten Lösungen ein. Für den Datenaustausch wurde vor Jahren ein Datapool eingeführt, später kamen Reportinglösungen dazu, die Berichte mit Hilfe von diversen selbst entwickelten Lösungen auf dem Datenpool aufsetzend erstellen konnten. Diese Lösungen waren jedoch irgendwann veraltet, sodass sich das CERN entschied, auf Pentaho zu migrieren. Pentaho setzt die Organisation für viele Bereiche ein. Die Entscheidung fiel zugunsten des Pentaho Analyzers, weil hier vorgefertigte Reports möglich waren, Auswertungs-Dashboards und Ad-Hoc-Analysen basierend auf Cubes. Außerdem verfügt Pentaho über einen Report Designer und Ctools für die Erstellung von Dashboards.

Das Migrationsprojekt startete 2016 und dauert noch bis Mitte/Ende diesen Jahres. Dazu mussten 380 bestehende Business Objects-Reports aus allen Verwaltungsbereichen migriert werden. Von kleinen, übersichtlichen Reports bis zu hochkomplexen Berichten waren alle Arten von Berichten dabei. Deshalb erstellte das Projektteam zunächst eine Übersicht über die bestehenden Reports, deren Merkmale, Benutzungshäufigkeit und Datenquellen und setzte danach Prioritäten bei der Migration.

Bis heute wurden 280 Reports migriert und 17 Dashboards entwickelt. Dabei konnten viele wichtige Erfahrungen gesammelt werden:

  • Pentaho Analyzer ist ein gutes Werkzeug für die Erstellung von Adhoc Datenanalysen und weithin bei den Anwendern akzeptiert.

  • Der Analyzer ist aber kein intuitiv zu bedienendes Tool, weshalb Schulungen organisiert werden mussten. Es zeigte sich, dass diejenigen, die die Schulungen absolviert haben, danach gut mit dem Tool zurecht kamen, während die anderen Anwender mehr Probleme hatten.

  • Das Rechtemanagement des Analyzer ist gut strukturiert, da getrennte Zugänge zu Berichtsordnern und Cubes eingerichtet werden können.

  • Es ist aber nicht möglich, Benutzern, die keinen Zugang zum Cube haben, Zugang zu einzelnen Berichten einzurichten.

  • Generell sind die Möglichkeiten der Report-Erstellung bei Pentaho sehr gut und die Berichte sehr ansprechend. Auch deshalb ist die Benutzerakzeptanz sehr hoch.

  • Verbesserungswürdig ist die Bedienung des Report Designers und die fehlende Integration der einzelnen Komponenten. Auch die Scheduling- und Suchfunktionen von Pentaho waren nicht ausreichend, sodass das CERN eigene entwickeln musste.

  • Das parallele Arbeiten mit der Infrastruktur und an den Reports hat sich als sehr praktikabel erwiesen. Der Nachteil ist, dass dadurch die Erstellung der Reports sehr lange dauert. Deshalb wird für die nächsten Projekte zuerst die notwendige Infrastruktur aufgebaut, die sämtliche Daten aus dem jeweiligen Bereich umfasst.

Als Fazit stellte Gabriele Thiede fest, dass die Migration vor allem ein großer Lernprozess war: Nicht nur musste technisches Wissen über Pentaho aufgebaut werden, sondern die Mitarbeiter mussten sich auch neue Techniken der Report-Erstellung und nicht zuletzt des Projektmanagements aneignen. Das Projekt stellte sich aber auch als große Chance für das CERN heraus, weil im Vorfeld massiv „ausgemistet“, standardisiert und harmonisiert werden musste. Dabei konnten große Synergieeffekte genutzt werden. Der größte Gewinn bei Projekt insgesamt war die starke Verbesserung der Qualität der Daten und des Reportings.

Hitachi Vantara: Smart Rail – ein IoT-Use Case

Jonathan Doering, Data Scientist bei Hitachi Vantara, stellte einen Use Case aus dem IoT-Segment vor. „Smart Rail“ ist ein von der britischen Regierung initiiertes Projekt. Es kommen Lösungen von Hitachi und Pentaho zum Einsatz. Das Projekt fasst Millionen von Sensorendaten zusammen und wertet sie aus, um die Infrastruktur und öffentliche Leistungen zu verbessern. Hintergrund sind die hohen Pendelzeiten im Großraum London, wo täglich hunderttausende Personen mehr als zwei Stunden zum Arbeitsplatz anreisen. Von Smart Rail verspricht sich die Regierung:

  • Einsparungen im Bereich von 20 Millionen Pfund plus langfristige Ersparnisse bei den Instandhaltungskosten

  • Einen zuverlässigeren und kosteneffizienteren Transport

  • Bessere Kundenerfahrung

  • Die Senkung des Kohlenstoffdioxidausstoßes um 12 Prozent

Eine Herausforderung ist die Datenmenge – es fallen über 3,6 Millionen Datenpunkte pro Sekunde an, das bedeutet Petabytes an Daten. Komplexe Auswertungen sollen möglich sein, sowohl in Echtzeit als auch als Batch-Verarbeitung. Zudem will man den Anwendern anpassbare Visualisierungen zur Verfügung stellen.

Im Projekt ist eine Vielzahl von Lösungen, Mechanismen und Programmen im Einsatz. Pentaho ist die Schnittstelle zwischen ihnen und bildet die Datenintegrationsprozesse, Analyseanwendungen und Datenvisualisierungen ab. Damit stellt Pentaho das Backend für eines der größten momentan laufenden Infrastrukturprojekte in Großbritannien. Die Stärken von Pentaho liegen in der schnellen Entwicklung, Skalierung und Verlässlichkeit, der Fähigkeit, große Volumina von Daten zu integrieren und auszuwerten. Deshalb gehört das hierbei angewandte Konzept „Train-as-service“ zu den Pionierprojekten im IoT-Bereich.

Netfonds: Pentaho in einer Kubernetes-Umgebung

Netfonds ist ein Maklerpool für Investmentmakler, Finanzierungsspezialisten und Versicherungsmakler. Mit 160 Mitarbeitern betreut das Unternehmen 4.600 Makler/Vermittler, 11.000 externe Nutzer und 400.000 Endkunden. Angebunden sind 25 Banken und 120 Versicherungen. Wie Nis Christian Carstensen, Leiter EDV bei Netfonds, berichtete, lagerte man vor zirka 15 Jahren Kernsysteme aus. 2016 entschied das Unternehmen, die IT wieder im eigenen Haus zu betreiben, da Daten zur Kernkompetenz des Unternehmens gehören. Netfonds führte eine Microservice-Architektur mit Google Cloud und Kubernetes basierend auf Docker ein. Es kommen MongoDB und MySQL als Datenbanken und Pentaho Data Integration zum Einsatz. Mit dieser Architektur verarbeitet und integriert Netfonds im Versicherungsbereich Versicherungsverträge (XML, CSV, GDV) und Provisionsbuchungen (CSV, XLS, PDF, Papier). Im Investmentbereich geht es um Bestandsinformationen, Transaktionsinformationen, Provisionsbuchungen, Wertpapierstammdaten und Wertpapierkurse.

Beim Einsatz von Pentaho zusammen mit Microservices waren einige Herausforderungen zu meistern. So hat die Kommunikation über den Service zu erfolgen, nicht direkt über die Datenbank. Das macht den Einsatz von REST nötig, was strukturierte Daten verlangt. Die Container sollten möglichst klein sein, d. h. wenig RAM besitzen. Zur Skalierung kann man mehrere Container desselben Typs hochfahren.

Netfonds setzt mit dem Pentaho Scheduler eine selbst entwickelte Software ein. In der Architektur holt der Kubernetes-Pentaho-Cluster die Daten aus den verschiedenen Systemen der angebundenen Banken und Versicherungen, verarbeitet und archiviert sie. Der Pentaho Scheduler übernimmt die komplette Planung, Ausführung und Logging von Pentaho Jobs, angefangen vom Hochfahren der Kubernetes Container über die Ausführung der Jobs bis zum Aufräumen der Container nach erfolgreichem Beenden der Jobs.

Nis Carstensen: „Mit einigen Kniffen und selbst geschriebenen Plugins und Schedulern ist Pentaho sehr leistungsfähig und arbeitet extrem gut mit einer Kubernetes-Umgebung zusammen. Microservices lassen sich effizient durch Pentaho befüllen, wenn man im Entwurf der Microservices eng mit Datenmanager und Softwareentwicklern kooperiert. Achtung: Der Bottleneck bei der Microservice-Architektur ist nicht die Datenbank oder die CPU, sondern das Netzwerk! Zusammengefasst läuft Pentaho bei uns als performante, skalierbare, schnelle und günstige Lösung.“

Auswertung von SAP-Daten mit Pentaho

Das Arbeiten mit SAP-Daten ist nicht einfach. Darum schaffen Unternehmen häufig Einzellösungen oder führen einen manuellen, auf Excel basierenden Prozess ein, wenn es um die Auswertung von SAP-Daten und ihre Zusammenführung mit anderen Unternehmensinformationen geht. Diese Lösungen bleiben von ihrer Wirkung her allerdings beschränkt und stoßen spätestens nach einigen Jahren an ihre Grenzen.

Pentaho bietet durch seinen modularen Aufbau die Möglichkeit, Quelldatensysteme jeder Art anzubinden, mit anderen Daten zu integrieren und mit Analysefunktionen auszuwerten. Durch den SAP/Pentaho Connector ist es erstmals möglich, Informationen aus SAP zu erfassen und sie gemeinsam mit Daten aus anderen Unternehmenssystemen auszuwerten. Der Connector bietet viele Verarbeitungsmöglichkeiten von Informationen aus SAP mit Pentaho Data Integration. Unterstützt werden die SAP Steps SAP ERP Table Input, SAP BW/ERP RFC Executor, SAP BW DSO Input und SAP BW Infocube Input.

Mit dem Pentaho/SAP Connector können Anwendungsszenarien und Use Cases wie beispielsweise das Onboarding, Blending oder Offloading von SAP-Daten problemlos realisiert werden. Er wird in Kürze auch auf dem Pentaho Marketplace erhältlich sein.

Aktive Steuerung der IT: ITSM Analytics

Auch in der IT wird das aktive Steuern des Ist-Zustands durch zielgrößenorientierte Kennzahlen immer wichtiger. Technische Kennzahlen allein reichen aber nicht aus, um eine IT-Organisation zu steuern. Unternehmen stehen daher vor der Herausforderung, vom operativen Reporting zur Analyse zu kommen, am besten in Echtzeit. Durch das Verknüpfen von Daten lassen sich ganz neue Erkenntnisse gewinnen, um die IT zukunftssicher aufzustellen.

Für das IT Service Management sind in den meisten Unternehmen viele verschiedene Tools im Einsatz (Monitoring, Ticketsysteme oder Discovery). Sie alle bieten aber keine oder nur unzureichende Auswertungsmöglichkeiten. Die Pentaho-basierte ITSM Analytics- und Reportingsoftware openLIGHTHOUSE bietet Unternehmensleitung und Fachabteilungen als Stakeholdern der IT einen umfassenden Überblick der bezogenen Leistungen. Das Tool umfasst Best Practices für Dashboards und Analysen für die Themen IT-Dokumentation, HelpDesk und Monitoring. Mit Schnittstellen zu verschiedenen Quellsystemen und Dashboards können Nutzer direkt mit ihren Daten arbeiten. Durch den Self-Service-Ansatz lassen sich Auswertungen auch ohne die Hilfe der IT erstellen. Darüber hinaus bietet openLIGHTHOUSE auch Predictive Analytics-Funktionen, um besser vorhersagen zu können, wann Engpässe oder Probleme auftreten.

Das Pentaho User Meeting machte einmal mehr die breiten Einsatzmöglichkeiten von Pentaho sichtbar: vom Management von Datenprozessen über die IoT Analytics bis zur Erstellung von Berichten für verschiedene Zielgruppen. Eine Zusammenfassung aller Vorträge des Pentaho User Meetings gibt es auf dem Blog von it-novum. Das nächste Pentaho User Meeting findet im März 2019 statt.

  • Business Intelligence