Stefan Müller

ist Director Business Intelligence & Big Data bei it-novum.

CloudData & Storage

Das 6. Pentaho User Meeting: Die Grundlage von allem ist Datenintegration

Die Wetter-App zeigt für Frankfurt Regen an. Der Blick aus dem Fenster sagt jedoch: Sonne und 12 Grad. Die Datenbasis des Wetterdienstes scheint nicht besonders gut zu sein. Oder nur nicht ausreichend integriert? Gute Tipps für Datenintegration hätten die Frankfurter Wetterfrösche direkt vor Ort bekommen können: mit acht Vorträgen und 80 Teilnehmern fand das Pentaho User Meeting zum 6. Mal in der Mainmetropole statt.

Machine und Deep Learning, SAP Analytics, Auswertung von Bewegtbilddaten: die Vorträge der Anwender und Entwickler spiegelten die brennendsten Technologiethemen wider. Dabei klang immer wieder durch, dass ohne eine ausreichende Integration verschiedener Datenquellen, intern wie extern sowie aus der Cloud, keine tiefgehenden Einblicke in Daten möglich sind. Das Pentaho User Meeting wird von it-novum und Pentaho-Hersteller Hitachi Vantara organisiert und dient dem Erfahrungs- und Wissensaustausch zu der Big Data Analytics- und Datenintegrationsplattform.

Daten (Shutterstock/BeeBright).

Daten-Kopfschmerzen

Pedro Alves, der bei Hitachi Vantara das Produkt Pentaho verantwortet, beleuchtete die typischen „Kopfschmerzgründen“ beim Umgang mit Daten. Unternehmen sähen sich neben den immer komplexer werdenden Datenumgebungen vor allem vor die Herausforderung gestellt, Daten zwischen und in verschiedenen Systemen bis hin zu Multi-Cloud-Umgebungen integrieren zu müssen. Als konkrete Beispiele für die ständig betonten Wettbewerbsvorteile, die Unternehmen aus Datenintegration gewinnen können, nannte Pedro Alves:

  • Caterpillar konnte einem Kunden durch Predictive Maintenance helfen, 8 Millionen Dollar zu sparen
  • BT Group konnte die Zeit für die Identifizierung einer Cyber-Attacke von Wochen auf Sekunden reduzieren
  • Carfax konnte Computing-Kosten um 25 Prozent und Storage-Kosten um 55 Prozent senken
  • Stiwa realisierte eine um 15 Prozent gesteigerte Produktivität und um 35 Prozent geringere IT-Integrationskosten

Pentaho-Anwender seit 2009: Deutsche See

Mit zehn Jahren Erfahrung mit Pentaho gehört Deutsche See zu den Anwenderveteranen. Helmut Borghorst, Leiter Verkaufsinnendienst und IT-Systeme, stellte das Reporting- und Analyseportal des Lebensmittelproduzenten vor.

Deutsche See verarbeitet Fisch und Meeresfrüchte aus der ganzen Welt. In den drei Manufakturen in Bremerhaven und 19 Niederlassungen bundesweit arbeiten 1800 Mitarbeiter und beliefern 35.000 Kunden mit 3.500 Artikeln.

Das Pentaho-basierte Reporting- und Analysesystem, einem unternehmensweiten Portal, erlaubt einen ganzheitlichen Blick auf die Kunden, Produkte und Verkäufe. 500 Anwender arbeiten mit dem Portal, das ca. 18.500 Objekte enthält, mehr als 10 Millionen Belege und insgesamt 51 Millionen Datensätze.

Das Portal wurde mit Pentaho Ctools aufgebaut und umfasst mehrere Bereiche:

  • Vorbereitung: hier bekommen die Kundenberater Berichte für ihre jeweiligen Kunden bzw. Kundenbesuche angezeigt, z.B. welche Artikel hat der Kunde gekauft bzw. nicht mehr gekauft? Wieviel Umsatz generiert er?
  • Unternehmen: Finanzen- und Controlling-Berichte für die Unternehmensführung, die als pdf zur Verfügung gestellt werden

  • Verkauf: Verkaufszahlen und Tendenzen
  • Service: Reports zu Services und Logistik
  • Marketing: Top-Listen zu Fischarten und Sortiment
  • Vorlagen: zur Erstellung von Kunden-/Großkundenanalysen

Das Portal generiert die Berichte und Auswertungen in verschiedenen Formaten. Dadurch können neben Pentaho Analyzer/Ctools-Berichten je nach Benutzergruppe auch PDF-, Word- und Excelberichte angezeigt werden. So basieren die Reports zur Profitabilität und Artikelanalyse auf Ctools, während die Planerreichung und das Geschäftsergebnis für Management-Personengruppen in Nicht-Pentaho-Formaten erzeugt werden (pdf, xls, doc).

Herausforderungen im zehnjährigen Betrieb

Wie Helmut Borghorst schilderte, sah sich Deutsche See im Laufe der Zeit mit verschiedenen Problemen bei Aufbau und Betrieb der Lösung konfrontiert:

  • Heterogenität der Anwendergruppen (vom Koch, Servicemitarbeiter und Verkäufer bis zur Geschäftsführung)
  • Benutzeroberfläche: Pentaho ist nicht gleich Excel (bunt, client-basiert)
  • Reglementierung individueller Stammdaten/Hierarchien, da einige Anwender in Excel-Files auch persönliche Stammdaten pflegten
  • Benutzerberechtigungen: um diese richtig steuern zu können, enthält das Portal verschiedene Bereiche für die einzelnen Anwendergruppen. Daten und Berichte werden bereichsabhängig angezeigt
  • Zu niedrige Performance in Spitzenzeiten (vormittags – wenn die Bestellungen eingehen)
  • Vor allem der letzte Punkt stellte eine Herausforderung dar, nachdem in kürzester Zeit der User-Kreis von 250 Anwendern auf 500 Personen anwuchs. Mit diesen Maßnahmen konnte die Performance den neuen Anforderungen angepasst werden:

  • Upgrade des Cores (von zunächst vier auf später acht und schließlich 12) und der Infrastruktur des Pentaho BA Servers für Mittel- und Spitzenlasten
  • Speichererweiterung des BI-Server um 50 Prozent
  • Optimierung der Serverparameter (Anzahl Prozesse/Core-Zuordnung)
  • Genaue Untersuchung aller Analyzer-Berichte; Anwenderschulungen zur richtigen Auswahl der Cubes und performance-schonendem Aufbau der Berichte
  • Anwender geben sofort Feedback, sobald Leistungsprobleme auftreten

(Bild: it-novum)

Machine Learning mit Pentaho

Künstliche Intelligenz ist eine sehr allgemeine Kategorie, um viele verschiedene Dinge intelligent aussehen zu lassen, von denen laut Ken Wood Machine Learning eines ist. Ken Wood leitet die Forschungseinheit Hitachi Labs bei Hitachi Vantara und ist anerkannter Experte für Machine Learning. Er stellte auf dem Pentaho User Meeting ML-Möglichkeiten mit dem Plugin Machine Intelligence (PMI) in Pentaho vor. Das Plugin wurde entwickelt, um Maschinenlernen zu ermöglichen, ohne Code schreiben zu müssen. PMI wurde 2014 in Pentaho eingeführt.

Anders als vergleichbare Tools erlaubt PMI nicht nur das Testen von Modellen, sondern das Lösen von Problemen. So integriert PMI fünf Ausführungsengines und erlaubt als Framework das Einbinden weiterer Plugins. Der Vorteil von PMI liegt in der einfachen Bedienung: wie Ken Wood unterstrich, nutzen umso mehr Anwendergruppen ML-Technologien, je einfacher sie zu bedienen sind. Parallel dazu wächst die Produktivität von Data Scientists. Die Besonderheit von Machine Learning mit Pentaho ist, dass mit ein und demselben ETL-Prozess verschiedene Execution Engines verwendet werden können. Das hat zur Folge, dass sich der Arbeitsaufwand weg vom Machine Learning hin zur Datenaufbereitung verlagert.

Hitachi Vantara plant, PMI in naher Zukunft mit Sprachfunktionen auszustatten, da so ML-Aufträge schneller und leichter erstellt werden können. Ken Wood zeigte dies exemplarisch an der „Hey Ray“-App, die auf Sprachkommando hin Röntgenbilder ML-gestützt auswertet.

Sechsstellige Einsparungen: Pentaho im Energiehandelssektor

Pentaho als Allround-Werkzeug in einem komplexen und stark regulierten Bereich war das Thema des Vortrags von Jens Junker von VNG Handel & Vertrieb. Sechsstellige Einsparungen erzielt der Erdgasgroßhändler durch die Abbildung von Business-Prozessen in Pentaho Data Integration.

Die Daten der Portfoliobewertung (Valuation) bilden die Grundlage für den Handel mit Energiestoffen. Durch immer mehr Transaktionen ist die Portfoliobewertung in den letzten Jahren kontinuierlich gewachsen und immer komplexer geworden. Valuations müssen archiviert und auf Nachfrage den Aufsichtsbehörden vorgelegt werden. Eine Valuation hat 5,3 Millionen Zeilen, pro Tag summiert sich das auf 7,6 Millionen Zeilen á 125 Spalten. Die Archivierung über das Trading-System Allegro war deshalb nicht möglich. Mit Pentaho wurde ein ETL-Prozess erstellt, der eine Kompressionsrate von 91 Prozent erreicht. So spart VNG pro Jahr eine sechsstellige Summe ein.

Viel Zeit spart das Unternehmen auch bei Wirtschaftsprüfungen: benötigen die Prüfer bestimmte Daten, wird schnell eine Transformation in Pentaho erstellt und die Daten exportiert. VNG ist dadurch handlungsfähiger geworden und kann Compliance-Anforderungen besser und schneller erfüllen.
Weiteres Einsparpotenzial durch die Pentaho-gestützte Automatisierung von Business-Prozessen betrifft die Erstellung von UTIs (Unique Transaction Identifiers). Diese werden im Rahmen der EU-Verordnung zur Regulierung des außerbörslichen Derivatehandels benötigt. Alle Handelsgeschäfte, die im Sinne dieser Verordnung gemeldet werden müssen, brauchen eine UTI. Dank Pentaho konnte der manuelle Aufwand zur UTI-Erzeugung auf Null reduziert werden.

Pentaho ist bei VNG seit 2012 im Einsatz. Evaluiert wurden damals auch Talend, SAS und Informatica, am einfachsten zu bedienen war jedoch Pentaho, das laut Jens Junker „viel Design und wenig Code“ bot. Pentaho löste OWB und PowerMart ab und stellte sich auch gegenüber dem 2014 eingeführten Inubit als überlegen heraus, da weniger komplex.

Don´t touch SAP: SAP Analytics

Die Analyse von Daten aus SAP-Systemen ist essentiell, um die richtigen Einblicke in das Geschäftsgeschehen zu erhalten. Sie ist jedoch auch höchst anspruchsvoll, denn an SAP-Daten kommt man (sicherheits)technisch nur schwer ran. Das zeigte der Anwendervortrag von Jürgen Sluyterman, IT-Leiter beim kommunalen Entsorgungsunternehmen RSAG.

Um Stoffströme besser auswerten zu können und dadurch öffentliche Ressourcen zu schonen, integriert RSAG Daten aus SAP und operativen Systemen. Dadurch erhält das Unternehmen einen umfassenden Blick auf die Prozesse und Geschäftszahlen und die verschiedenen Abteilungen können mit einheitlich aufbereiteten Kennzahlen und Datengrundlagen arbeiten.

Da RSAG die SAP-Services über den kommunalen Zweckverband bezieht, war es nicht möglich, auf SAP direkt zuzugreifen. Die Lösung war ein Datenladeprozess in Pentaho über einen Connector. Der Hitachi Data Connector for SAP ERP and Business Warehouse lädt SAP-Informationen in Pentaho, wo sie für Berichte und Analysen gemeinsam mit anderen Daten zur Verfügung stehen.

Die Daten werden täglich geladen, zu bestimmten Zeiten (zum Beispiel vor dem Monatsabschluss) auch öfter. Veränderungen in der Struktur und den Prozessen des kommunalen Zweckverbands spiegeln sich dadurch auch sofort in den Berichten wieder und müssen nicht zeitverzögert manuell angepasst werden. Bei den Schilderungen von Jürgen Sluyterman wurde immer wieder deutlich, wie abhängig Datenanalysen von der Kooperationsbereitschaft interner Stakeholder sind. Lösungen wie der Connector helfen, diese Hürden zu umgehen, indem sie bestehende Systeme und Prozesse unangetastet lassen.

Video Analytics: ungenutzte Datenpotenziale ausschöpfen

Eine der größten ungenutzten Datenquellen stand im Mittelpunkt des Vortrags von Smart Space-Spezialist Gunther Dell. Videos bzw. Bewegtbilddaten werden schon seit langem von Organisationen gespeichert, aber ihre Auswertung steht erst ganz am Anfang. Das hängt mit ihrer Struktur zusammen, die Analysen schwierig macht und große Rechenressourcen benötigt.

Über den Hitachi Video Analytics (HVA) Connector ist es erstmals möglich, Videodaten in Pentaho zu laden und dort zusammen mit Daten aus anderen Quellen zu analysieren. Damit lassen sich zahlreiche Herausforderungen lösen, nicht nur im Bereich Sicherheit im öffentlichen Raum. Gunther Dell präsentierte eine Reihe von spannenden Szenarien, in denen Videodaten ganz neue Möglichkeiten eröffnen – von der Regulierung von Verkehrsströmen über die automatische Auslösung von Sicherheitswarnungen bis hin zum Durchleuchten von Entsorgungsströmen und besseren Nutzung von öffentlichen Ressourcen.

HVA unterstützt das Einlesen von Daten via Batch oder Streaming Mode sowie von 13 Hitachi Video Analytics-Modulen. Er ist vollständig in Pentaho Data Integration integriert und ermöglicht dadurch Analysen zusammen mit Daten aus anderen Systemen, zum Beispiel Cloud-Plattformen, Sensoren oder Warenwirtschaftssystemen.

Alle Vortragsvideos und -präsentationen finden sich auf der Eventseite. Das nächste Pentaho User Meeting findet im Frühjahr 2020 statt.

Stefan Müller ist Director Business Intelligence & Big Data bei it-novum. Nach mehreren Jahren als Business Consultant in den Themengebieten Governance und Controlling sowie Sourcing Management leitet Stefan Müller die Abteilung Big Data Analytics bei it-novum.
Sein Herz schlägt für die vielzähligen Möglichkeiten, die Open Source-Lösungen für Business Intelligence bieten. Seit 2009 setzen er und sein Team erfolgreich Kundenprojekte mit den BI-Suiten von Pentaho und Jedox um.
Die Begeisterung für Business Open Source im BI- und Big Data-Bereich gibt Stefan Müller regelmäßig in Büchern, Fachartikeln und Vorträgen weiter.