Big Data: Einsatzszenarien für Pentaho

Big Data (Bild: Shutterstock)

Im Mittelpunkt des 10. Pentaho Community Meetings stand die Vorstellung diverser Einsatzszenarien. Stefan Müller vom deutschen Pentaho-Partner it-novum gibt im Gastbeitrag für silicon.de einen Überblick über die präsentierten Projekte.

Stefan Müller it-novum (Bild: it-novum)
Stefan Müller, der Autor dieses Gastbeitrags für silicon.de, ist Director Director Big Data & Business Intelligence bei it-novum. (Bild: it-novum).

Pentaho hat sich als Open-Source-Lösung für Datenintegration und -analyse etabliert. Die Plattform ist weltweit in Organisationen und Unternehmen im Einsatz, unter anderem bei der deutschen Bundespolizei. Pentaho unterscheidet sich von anderen BI-Plattformen nicht zuletzt dadurch, dass es quelloffene Werkzeuge für die Integration und Analyse von Big Data anbietet. Das war vor zwei Jahren auch für Hitachi ausschlaggebend, das die Plattform gekauft und in die Produktpalette des neu entstandenen Unternehmens Hitachi Vantara integriert hat.

Auf dem 10. Pentaho Community Meeting im November in Mainz wurden unter anderem unterschiedliche Anwendungsszenarien für die Plattform vorgestellt. Sie zeigen die Vielfalt der Verwendungsmöglichkeiten am besten.

CERN beschleunigt Business Computing mit Pentaho

Den spannendsten Beitrag des Pentaho Community Meetings lieferte Jan Janke vom CERN mit der Vorstellung des riesigen Pentaho-Projekts der Organisation. Die größte Forschungseinrichtung der Welt beschäftigt über 2300 Angestellte, 1600 Forscher und mehr als 12.000 Gastwissenschaftler, die riesige Datenmengen produzieren. Für den Umgang mit BI-, Reporting- und Analyseinfrastrukturen setzt das CERN Pentaho ein. Vor dem Hintergrund der sich rasch ändernden Rahmenbedingungen und Anforderungen schätzt das CERN insbesondere Offenheit, Skalierbarkeit und Flexibilität der Plattform.

Verwendung finden alle Module der Plattform, von der Datenintegration über das Berichtswesen und Ad-hoc-Analysen bis hin zu Datenvisualisierungen. Analysen und Reports beruhen auf einem Data Warehouse, das fast in Realtime arbeitet. Die Frage nach den Datenintegrationsprozessen beantwortete Jan Janke mit dem lakonischen Hinweis, dass es zwar sehr viele gäbe, diese aber “einfach funktionieren müssen”.

Der Pentaho Analyzer wird in verschiedenen Abteilungen im CERN eingesetzt, die das Tool aufgrund seiner leichten Bedienbarkeit und Fähigkeit, schnelle Einsichten in Geschäftsprozesse auf Adhoc-Basis zu gewähren, schätzen. Dass die Software intuitiv bedienbar ist, hat aber auch Schattenseiten: Die Ansprüche der Benutzer sind sehr hoch, weshalb die CERN-Administratoren ständig daran arbeiten, die Performance zu verbessern.

LHC ATLAS (Bild: CERN)
Am CERN hilft Pentaho die Unmengen gewonnener Daten aus dr Forschung in den Griff zu bekommen. (Bild: CERN)

Eine weitere Herausforderung besteht in der geografischen Lage des CERN in Frankreich und dem Nicht-EU-Mitgliedsstaat Schweiz. Die täglichen Probleme im Umgang mit den Zollbestimmungen löst das CERN mit dem Pentaho Report Designer, der die Generierung der zahlreichen Formulare ermöglicht. Daneben nutzt das CERN die offenen Schnittstellen der Plattform, um Pentaho in die internen Anwendungen zu integrieren und so den Mitarbeitern eine Vielzahl verschiedener Reporting-Self-Services zur Verfügung zu stellen. Auch für die Visualisierung von Daten kommt Pentaho flächendeckend zum Einsatz, unter anderem für die Erstellung von Dashboards und die Visualisierung von KPIs für verschiedene Managementebenen.

Als internationale Organisation verarbeitet das CERN viele vertrauliche Informationen, die in normalen Unternehmen nicht anfallen, etwa aus der Sozialversicherung, Krankenversicherung, Kinderbetreuung und sogar medizinische Daten. Aus diesem Grund gibt es besonders hohe Datenschutzvorkehrungen, die sich mit Pentaho abdecken lassen.

Bessere Gesundheitsversorgung in Mosambik

Aus Mosambik angereist war Devan Manharlal von der Nichtregierungsorganisation Jhpiego, die Gesundheitsprojekte in Entwicklungsländern fördert. Devan stellte die Pentaho-basierte Gesundheitsdatenbank von Mosambik vor, die gesundheitsbezogene Informationen aus verschiedenen Drittsystemen integriert. Das erlaubt es, die Versorgung der Bevölkerung mit Krankenschwestern und anderem Pflegepersonal zu verbessern.

Die Nichtregierungsorganisation Jhpiego unterstützt in Mosambik diverse Projekte im Gesundheitswesen, eines davon sorgt mit Hilfe von Pentaho auch für bessere Verteilung von Pflegekräften (Screenshot: silicon.de)
Die Nichtregierungsorganisation Jhpiego unterstützt in Mosambik diverse Projekte im Gesundheitswesen, eines davon sorgt mit Hilfe von Pentaho auch für bessere Verteilung von Pflegekräften (Screenshot: silicon.de)

In Mosambik kümmern sich 7800 Krankenschwestern und -pfleger um die 27 Millionen Einwohner. Zum Vergleich: Hierzulande kommen auf 84 Millionen Deutsche eine Million Pflegekräfte. Darum zählt die WHO den afrikanischen Staat zu den zehn Ländern, die am schlechtesten mit Gesundheitspersonal versorgt sind.

Diesen Zustand verursacht nicht nur die dünne Personaldecke. Auch die geografisch ungleichmäßige Verteilung der Pflegekräfte und die große Anzahl von nicht-arbeitenden Krankenschwestern tragen dazu bei. Das Gesundheitsministerium war aufgrund der schlechten Datenlage nicht in der Lage, die Pflegekräfte im Land gezielt zu verteilen und Maßnahmen zur Aktivierung des passiven Personalbestands zu ergreifen. Die entsprechenden Informationen waren zwar vorhanden, aber auf zahlreiche Systeme in verschiedenen Institutionen verteilt, die teilweise ihre Datenhoheit nicht aufgeben wollten.

Deshalb wurde das National Human Resources for Health Information Systems (HRIS oder eSIP-Sáude) gegründet. Ziel des Systems war es, die bestehenden Informationen im Gesundheitsbereich aus den verteilten Datenquellen zu einer integrierten Datenbank zusammenzuführen, um eine bessere Planung und Organisation von Pflegekräften zu ermöglichen. Als Plattform kam Pentaho zum Einsatz, weil die Plattform offen ist, starke Datenintegrationsfunktionen besitzt und es in Mosambik Java-Entwickler gibt.

eSIP-Sáude verbessert Situation im Gesundheitswesen

eSIP-Sáude hatte durchschlagenden Erfolg: Es schafft nicht nur Klarheit über die aktuelle Situation im Gesundheitswesen (unterversorgte und überversorgte Regionen und Einrichtungen), sondern erlaubt auch zum ersten Mal eine datengestützte Planung von Verbesserungsmaßnahmen der Versorgungssituation. Da Pentaho webbasiert arbeitet, ist es außerdem möglich, Gesundheitsämtern, Ministerien, Krankenhäusern und Krankenstationen Zugriff auf die Daten zu geben. Das war mit den vorherigen Silo-Lösungen unmöglich.

Manharlal betonte, dass ein wichtiger Erfolgsfaktor die Schulung des Personals gewesen sei: Bei einer Tour durch das ganze Land wurden Multiplikatoren geschult, die wiederum die Anwender vor Ort mit der neuen Lösung vertraut machten. In die Schulungen hat man viel Geld und Zeit investiert und sogar ein Pentaho Community Meeting abgehalten, damit sich die Anwender gegenseitig austauschen und von ihren Problemen und Lösungen berichten konnten.

Ausgewähltes Whitepaper

Studie zu Filesharing im Unternehmen: Kollaboration im sicheren und skalierbaren Umfeld

Im Rahmen der von techconsult im Auftrag von ownCloud und IBM durchgeführten Studie wurde das Filesharing in deutschen Unternehmen ab 500 Mitarbeitern im Kontext organisatorischer, technischer und sicherheitsrelevanter Aspekte untersucht, um gegenwärtige Zustände, Bedürfnisse und Optimierungspotentiale aufzuzeigen. Jetzt herunterladen!

Wichtig sei es laut Devan gewesen, die Daten in einem beliebten und weit verbreiteten Format (Excel) zur Verfügung zu stellen, sodass die Benutzer die neue Lösung schnell akzeptierten. Für Schmunzeln sorgte Manharlal Bemerkung, dass er und seine Kollegen in ländlichen Regionen mit Internetproblemen die Dashboards ausgedruckt hätten, um den Umgang damit zu erklären. Tatsächlich nahmen danach die Nutzerzahlen in diesen Regionen signifikant zu.

Anwendern gab Devan die folgenden Tipps mit auf den Weg:

  • Transparenz: Daten so offen wie möglich veröffentlichen und teilen
  • Endanwender an der Definition der Anforderungen beteiligen
  • Bei der Definition der Kennzahlen ist weniger mehr
  • Kontinuierliche Schulungen auf allen Ebenen
  • Klare Projektkommunikation
  • Feedback abfragen

SAP-Daten verfügbar machen: der Pentaho/SAP Connector

74 Prozent aller Transaktionen weltweit berühren ein SAP-System. Entsprechend gefragt sind SAP-Daten. An diese ist aber schwer zu kommen: Sie zu migrieren oder zu exportieren, ist fast unmöglich, weil SAP ein proprietäres Datenformat besitzt und weil die Lernkurve für Entwickler steil ist. Darum sind ABAP-Entwickler oft der Flaschenhals im Unternehmen.

Unternehmen greifen deshalb häufig zu behelfsmäßigen Lösungen, zum Beispiel Excel oder selbst geschriebene Anwendungen, die sich jedoch meistens nicht in anderen Bereichen der Organisation einsetzen lassen. Erschwerend kommt hinzu, dass SAP-Entwickler für viele Unternehmen zu teuer bzw. eine knappe Ressource sind, die nur schwer ersetzbar ist.

Ausgewähltes Whitepaper

CAD-Daten optimal verwalten: ECM-Lösungen vereinfachen Planmanagement

Wie ECM-Systeme CAD-Prozesse verbessern können, was eine gute ECM-Lösung beim Planmanagement auszeichnet und warum sich nscale CAD als spezialisierte Lösung für das Planmanagement anbietet, erklärt dieses Whitepaper.

Alexander Keidel und ich stellten einen von it-novum entwickelten Connector vor, mit dem sich Daten aus SAP nach Pentaho exportieren lassen, um sie dort weiterzuverarbeiten und zusammen mit Daten aus anderen Systemen für Analysen oder Berichte zu nutzen.

Der Connector macht sich die offene Architektur von Pentaho zunutze, mit der sich nahezu alle Arten von Daten integrieren lassen. Er unterstützt die aktuelle Version von Pentaho Data Integration, Metadata Injection, Variablen, Filter, Feldauswahl, das Mapping von SAP- auf Java-Datentypen, das Lesen von SAP-Tabellen und BAPI-Abfragen. Integriert werden können Daten aus SAP ERP und SAP BW.

Integration von Umweltdaten mit Pentaho

Dass sich Pentaho auch für den Einsatz für semi- und unstrukturierte Daten eignet, stellt der Vortrag von Kamil Nešetřil von der Technischen Universität Liberec unter Beweis. Die Universität betreibt das Projekt dataearth.cz, ein Grundwasserinformationssystem. Dataearth basiert auf Pentaho, es verwendet dessen Datenintegrations-, Berichts-, Analyse- und Dashboard-Funktionen.

Das tschechische Grundwasserinformationssystem "Dataearth" verwendet Datenintegrations-, Berichts-, Analyse- und Dashboard-Funktionen von Pentaho. (Screenshot: dataerath.cz)
Das tschechische Grundwasserinformationssystem “Dataearth” verwendet Datenintegrations-, Berichts-, Analyse- und Dashboard-Funktionen von Pentaho. (Screenshot: dataerath.cz)

Die Herausforderung liegt laut Nešetřil in der Integration der Daten aus verschiedenen Systemen, die im Bereich Grundwasser und Umwelt sowohl strukturiert als auch semistrukturiert und unstrukturiert vorliegen. Mit Pentaho ist es möglich, die verschiedenen Datentypen zu integrieren. So erhalten die Anwender einen übergreifenden Blick auf den Zustand des Grundwassers in verschiedenen Regionen und können Prognosen zu möglichen Entwicklungen aufstellen.

Migration von Microsoft auf Pentaho

Die Migration von Microsoft in eine quelloffene Lösung ist für viele Unternehmen eine große Herausforderung. Der Energieversorger Essent Belgium wagte den Schritt, indem er seine On-Premise-Lösung mit Provision auf einen cloud-basierten Ansatz mit Pentaho migrierte.

Für die Migration sprach neben größerer Skalierbarkeit, höherer Effizienz und niedrigeren Kosten vor allem die Starrheit des alten Systems, das den Standorten und externen Usergruppen (Zulieferer, Kunden) nicht zugänglich gemacht werden konnte. Die neue cloud-basierte Lösung kombiniert Pentaho mit Amazon Web Services (AWS) und konnte deshalb einfach für die verschiedenen Unternehmens- und Anwendergruppen ausgerollt werden.

Das Projekt begann 2015 mit der Auswahl der Plattform. Dabei erhielt Pentaho den Vorzug vor Jasper. Im vergangenen Jahr wurden das Unternehmensportal gebaut und die Migration durchgeführt. Im Februar dieses Jahres wurde die erste B2B-Plattform veröffentlicht, die B2C-Version soll Anfang 2018 folgen. Projektleiter Bart Maertens von Essent Belgium hob hervor, dass bei der Projektumsetzung sowohl ein traditionelles BI-Team mit Analysten und Entwickler der ETL-Prozesse, Reports und Dashboards beteiligt war, als auch ein reines Analyseteam mit Data Scientists und Softwareingenieuren.

Mit der Anfangs gewählten agilen Entwicklungsmethode machte das Team gute Erfahrungen, Bart betonte aber, dass der Ansatz konsequent anzuwenden sei. Als schwierig stellte es sich heraus, eine BI-Umgebung ohne Daten “auf dem Trockenen” zu bauen und mithilfe von AWS umzusetzen. Doch Essent hat alle Herausforderungen erfolgreich gemeistert und die Lösung innerhalb pünktlich in Betrieb genommen.

Pentaho ohne Entwickler-Know-how betreiben

Wie man Pentaho ohne die Hilfe von Entwicklern einführt und betreibt, demonstrierte Balázs Bárány aus Wien. Der Data Scientist hat die Webplattform SCO2T umgesetzt, die hinter dem ersten Motorroller-Sharing-Service in Österreich steht. SCO2T basiert ausschließlich auf Open Source-Technologien, hauptsächlich auf Pentaho.

Zu Beginn des Projekts standen die üblichen Herausforderungen von Start-ups: wenig Personal und Kapital sowie mangelnde Erfahrung in der Führung eines Unternehmens. Dazu kamen komplexe regulatorische Rahmenbedingungen und das Fehlen von IT-Spezialisten wie Software-Entwicklern. Aus diesem Gründen entschloss sich Balázs, eine Software zu nutzen, die er bereits kannte: Pentaho.

Pentaho kommt bei SCO2T für fast alle Unternehmensbereiche zum Einsatz: Benutzeranmeldung, Berechnung von Fahrtlänge und -preis, Erstellung der Rechnung, Datenexporte für Buchhaltung und Bankkommunikation oder fahrzeugbezogene Aktionen wie die Ermittlung der Position des Motorrollers. Daneben werden auch Analysen zu Fahrten, Benutzern und KPIs erstellt und visualisiert, zum Beispiel um auf einer Karte die Fahrzeuge neben den Nutzeranfragen anzeigen und entsprechend entscheiden zu können, in welchen Stadtvierteln mehr und in welchen Gegenden weniger Fahrzeuge platziert sein sollten.

Für Balázs sind die Vorteile von Pentaho:

  • Datenbezogene Prozesse lassen sich schnell erstellen
  • Dashboards und Webapplikationen (SCO2T App) können schnell aufgebaut werden (Standard-Open-Source-Technologien, die sich einfach erweitern lassen)
  • Mächtige Plattform, die mehr bietet als klassische BI-Szenarien

Aus der Sicht der SCO2T-Geschäftsführung sind die Vorteile von Pentaho:

  • Im Gegensatz zu anderen Plattformen lassen sich neue Features schnell umsetzen und Change Requests rasch integrieren
  • Einfache Handhabung und gute Benutzerinteraktion
  • Datenexporte und -visualisierungen sind einfach möglich

Tipp: Was haben Sie über Big Data abgespeichert? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Lesen Sie auch : Big Data sinnvoll nutzen