Stefan Müller

ist Director Business Intelligence & Big Data bei it-novum.

Big DataData & Storage

Fünf Hürden bei der Datenintegration und bewährte Lösungen aus der Praxis

Die Datenschlacht ist in vollem Gange: Unternehmen, die ihre Daten nicht für die Geschäftsausrichtung nutzen können, werden dem Wettbewerbsdruck nicht standhalten können.

Doch Daten liegen in unterschiedlichen Formaten vor und an verschiedensten Stellen im und außerhalb des Unternehmens. Zudem sind oft nur zu einem geringen Grad miteinander verknüpft. Dabei ist eine tiefgehende Datenintegration die zwingende Voraussetzung, um Daten sinnvoll zu nutzen. Erfahren Sie im folgenden, wie sie fünf typische Problemfelder bei der Datenintegration lösen können.

1. Problem: Wie lassen sich Daten anbinden und verwerten?

Daten sind leider oft nur isoliert und schwer zugänglich. Solche Silos entstehen, wenn Daten separat in einzelnen Enterprise-Applikationen und Abteilungslösungen gespeichert werden. Ohne den Bezug zum restlichen Unternehmen mit seiner Vielzahl an Datenquellen fehlt aber jeglicher Kontext, um wertvolle Erkenntnisse zu gewinnen. Diese Datensilos gilt es aufzulösen.

Beim Auflösen der Datensilos ist die unterschiedliche Beschaffenheit der Daten zu beachten: strukturiert, semi-strukturiert und unstrukturiert. Jede dieser Datenarten bringt eigene Herausforderungen für die Verarbeitung und Integration mit sich. Ein typisches Beispiel für strukturierte Daten sind SAP-Daten. Semi- und unstrukturierte Daten sind beispielsweise Logs, Sensor- und Videodaten.

Die Lösung: Moderne Datenarchitektur mit Daten-Pipelines

Daten-Pipelines gestatten es, strukturierte, semi-strukturierte und unstrukturierte Informationen aus den unterschiedlichsten Quellen zu extrahieren, aufzubereiten und schließlich zu analysieren. Von zentraler Bedeutung hierbei ist die Kontextualisierung von Daten.

Strukturierte Daten: Datenintegrations-(DI) Werkzeuge für die Entwicklung von Daten-Pipelines erlauben einen flexiblen Zugriff auf strukturierte Informationen, einerlei, ob es sich dabei um ein ERP-, CRM- oder ein anderes operatives System handelt. Die Daten werden für die nachgelagerten Business Intelligence-Applikationen optimiert und in einem Data Warehouse (DWH) abgelegt.
Unstrukturierte Daten: Schätzungen zufolge liegen weltweit rund 80 Prozent der Daten in unstrukturierter Form vor. Geht es um ihre Integration, sollte eine DI-Software große Datenmengen durch Parallelisierung verarbeiten können. Ein leistungsstarkes ETL-(Extract, Transform, Load)-Werkzeug ist beispielsweise Pentaho Data Integration (PDI). Damit lassen sich Daten aus allen Arten von Quellsystemen laden, von Logdaten über Fertigungssysteme bis hin zu SAP-Lösungen.

2. Problem: Wie lässt sich die Performance optimieren?

Eine große Herausforderung ist, dass Daten während eines ganz bestimmten Zeitfensters geladen werden sollen. Dafür muss man zunächst die Umgebungsvariablen kennen und dokumentieren. Dann sollte geklärt werden, welche weiteren Abteilungen und Stakeholder involviert sind und ob die aufgetretenen Performance-Probleme wirklich welche sind. Es ist empfehlenswert, für jeden konkreten Fall den Ist-Zustand mit messbaren Parametern zu beschreiben. So lässt sich nach dem Optimieren genau nachvollziehen, ob die Änderungen den Prozess tatsächlich effizienter und/oder leichter handhabbar gemacht haben. Die Verantwortlichen sollten wissen, was die Gesamt-Ladezeit ist, das Zeitfenster, der Zeitaufwand für jeden Task, etc. Danach steht die Entscheidung, wie weiter vorgegangen wird: Lassen sich Tasks überspringen? Kann man Prozesse effizienter machen, indem bestimmte Daten beispielsweise nur noch monatlich statt wöchentlich neu geladen werden? Dabei braucht es die Mitsprache der identifizierten Stakeholder – wie Application Manager, Softwareentwickler oder Hardware Provider. Sie können helfen, potenzielle Bottlenecks aufzulösen. Jede Änderung sollte dazu führen, den Prozess erneut hinsichtlich seiner Effizienz zu analysieren und zu vermessen.

Die Lösung: Der Delta-Mechanismus

Unter Delta-Mechanismus ist das partielle Laden von Daten zu verstehen. Denn: Wozu bei einem Update jeweils den vollständigen Datensatz laden, wenn doch ein großer Teil der Daten gleichgeblieben ist? Es genügt, nur die geänderten Werte zu überschreiben. Diese recht simple Idee ist allerdings nicht so einfach umzusetzen. Folgende Vorgehensweise hat sich bewährt: Die Daten werden zunächst von der Quelle ohne jegliche Änderung oder Anpassung in das Data Warehouse übertragen. Im DWH findet dann die Delta-Bestimmung statt. Das bedeutet, das System findet heraus, wo es Änderungen zum vorherigen Datensatz gibt. Nach der Konsolidierung werden die Daten in Datencubes bereitgestellt. Aus diesen Cubes ziehen sich dann die Dashboards und Reports die aktuell gültigen Werte. Durch den Delta-Mechanismus lassen sich sehr große Datenmengen, die täglich über 24 Stunden hinweg anfallen, mit angereicherter Business Logic über Nacht in nur drei bis vier Stunden verarbeiten. Das ist möglich, weil viele Verarbeitungsschritte parallel ablaufen.

Problem: Wie sorgt man für eine gute Datenqualität?

Schlechte Datenqualität kostet die Wirtschaft beträchtliche Summen. Deshalb sollten doppelte, unvollständige oder inkonsistente Informationen vermieden werden. Sind die gleichen Daten mehrfach im System abgelegt, dann liegt das in der Regel an einem schlechten Integrationsprozess. Redundante Daten beanspruchen nicht nur Speicherplatz, sondern können zu fehlerhaften Handlungen oder Aussagen führen. Eine schlechte Datenintegration kann auch dazu führen, dass Daten gelöscht werden oder verloren gehen. Die Datensätze werden somit unbrauchbar. Inkonsistente Daten bedeutet, dass nicht alle Informationen in einem einheitlichen, vom System lesbaren Format vorliegen. Im einfachsten Fall sind nur schlecht verwaltete Konventionen für die Dateinamen die Ursache.

Ein anderer Grund könnte sein, dass die verschiedenen Datentypen miteinander vermischt sind, etwa wenn in einem Datensatz für Temperaturangaben auch Preise stehen. Auch hier sind die Auswirkungen unschön, denn nicht lesbare Daten sind für das System quasi nicht vorhanden. Wenn die Daten zwar lesbar sind, jedoch nicht im einheitlichen Format vorliegen,fällt ein Mehraufwand an, um sie umzuwandeln.

Die Lösung: Hochwertige Daten automatisiert integrieren

Sind die originären Daten bereits falsch, dann zieht sich dieser Fehler durch den gesamten Prozess. Daher ist es besonders wichtig, dass Unternehmen sehr sorgfältig bei der Aufnahme von Daten vorgehen bzw. die Qualität ihrer Datenquellen genau prüfen. Zwar lassen sich fehlerhafte oder unvollständige Angaben nicht ganz ausschließen, Unternehmen können aber eine technische Unterstützung einbauen. Datenqualitätssoftware erkennt Felder in einer Datenbank, die wahrscheinlich nicht richtig oder ungenau ausgefüllt sind. Je nachdem, welche Datentypen fehlen, kann das System fehlende Informationen auch aus anderen Datenquellen abrufen und ergänzen.

Die meisten der oben aufgeführten Probleme lassen sich lösen, indem man die im Unternehmen anfallenden Daten strukturiert ablegt und sie automatisiert integriert. Zuvor ist eine Planung zwingend, die festlegt, wie die Daten künftig strukturiert sein sollen, welche Datenquellen vorliegen und wie der Prozess der Datenintegration abzulaufen hat. Insbesondere sollte sichergestellt sein, dass die anfallenden Daten standardisierte Bezeichnungen erhalten und nur in den festgelegten Formaten vorliegen. Eine strukturierte, verbindlich festgelegte Datenablage unterstützt insbesondere die IT bei späteren Erweiterungen oder Updates.

Problem: Wie kann man Streaming-Daten verarbeiten?

Viele Unternehmen nutzen ETL-Tools, um Daten aus verschiedenen Systemen – vom CRM-System bis hin zur Fertigungssteuerung – zu extrahieren und in das Data Warehouse zu laden. Herkömmliche ETL-Programme wie das Complex Event Processing (CEP) sind jedoch nicht dafür geeignet, mehrere Anwendungen mit Echtzeit-Datenfeeds synchron zu halten.

Die Data Warehouse-Architektur hat sich für deskriptive Analysen und historisches Reporting bewährt. Die Anforderungen dieser Architektur an Datenextraktion, Staging-Plattformen und die synchronisierte Datenvalidierung und -transformation verzögern jedoch den gesamten Prozess beträchtlich. Für Streaming-Anwendungen mit ihrer hohen Aktualisierungsgeschwindigkeit eignen sie sich zudem nicht.

Die Lösung: Das Data Warehouse mit einer Streaming Engine kombinieren
Um die Datenintegration massiv zu beschleunigen und die Daten nahezu in Echtzeit zu verarbeiten, ist es sinnvoll, dem eigentlichen ETL-Tool eine Streaming Engine, wie etwa Apache Storm, vorzuschalten. Eine solche Engine verarbeitet auch IoT- oder Maschinendaten. Möchte man, dass die Daten unmittelbar auf einem Live-Dashboard erscheinen, sollte die Streaming Engine ein DI-Tool nutzen, das eine Verbindung für das Dashboard bereitstellt. So erhält das Dashboard die Daten direkt aus dem ETL-Tool ohne den Umweg über das DWH. Werden die Streaming-Daten jedoch auch im Data Warehouse benötigt, dann ist es sinnvoll, sie aus der Streaming Engine zusätzlich in das DWH zu übertragen. Das sollte je nach Datenaufkommen mehrfach am Tag bzw. mehrfach pro Stunde geschehen.

Problem: Gesetzliche Vorgaben und ETL-Prozesse

Nicht nur die DSGVO und allgemeine Compliance-Vorschriften bestimmen das Handeln von Unternehmen, sondern auch zahlreiche Regelwerke und Verordnungen auf nationaler, europäischer und internationaler Ebene. Um diese regulatorischen Vorgaben einhalten und Meldepflichten erfüllen zu können, müssen Unternehmen Daten integrieren und verarbeiten.

Die dazu eingesetzten Anwendungen und Datenbanken liegen teils im Unternehmen selbst, teils bei externen Dienstleistern, Agenturen oder Behörden. Zum Beispiel müssen Banken eine Vielzahl von Meldepflichten erfüllen, die vom Nachweis von Eigenmitteln über die Meldung von Großkrediten bis zur Vorlage korrekter Produktbewertungen reichen. Die dahinter liegenden Prozesse integrieren Informationen aus verschiedenen Systemen, von denen die meisten externe Datenquellen sind: Zentralbanken, Ratingagenturen, Schufa oder Marktdatenprovider wie Reuters oder Bloomberg.

Unabhängig davon, ob die Informationen aus internen oder externen Systemen stammen, sind viele dieser Prozesse sehr komplex. Aufgrund der ständigen Zunahme der Regelwerke und ihrer Komplexität ist es längst nicht mehr möglich, diese Prozesse manuell durchzuführen.

Die Lösung: Business-Prozesse digitalisieren

Business-Prozesse, die große Mengen von Daten verarbeiten, lassen sich in IT-Prozessen abbilden und so automatisieren. Dadurch verringern sich nicht nur mögliche Fehlerquellen, es lassen sich auch in kurzer Zeit große Datenmengen verarbeiten und gesetzliche Dokumentationspflichten erfüllen.

Datenintegrationssoftware bildet einzelne Prozessschritte ab und integriert die involvierten Daten. Das reduziert die Zeit für die Aufbereitung und Analyse deutlich, da die manuelle Erfassung von Daten überflüssig wird. So müssen z.B. Compliance-Verantwortliche nicht jedes Mal Daten neu verknüpfen, wenn sie einen Compliance-Bericht erstellen, da die Prozesse bereits eingerichtet sind. Das spart nicht nur Ressourcen, sondern die Prozesse gewährleisten auch, dass regulatorische Vorgaben eingehalten werden können.

Das Whitepaper „So gewinnen Sie die Datenschlacht“ mit einer ausführlichen Beschreibung der Probleme und ihrer Lösungen können Sie sich kostenlos herunterladen.

Stefan Müller ist Director Business Intelligence & Big Data bei it-novum. Nach mehreren Jahren als Business Consultant in den Themengebieten Governance und Controlling sowie Sourcing Management leitet Stefan Müller die Abteilung Big Data Analytics bei it-novum.
Sein Herz schlägt für die vielzähligen Möglichkeiten, die Open Source-Lösungen für Business Intelligence bieten. Seit 2009 setzen er und sein Team erfolgreich Kundenprojekte mit den BI-Suiten von Pentaho und Jedox um.
Die Begeisterung für Business Open Source im BI- und Big Data-Bereich gibt Stefan Müller regelmäßig in Büchern, Fachartikeln und Vorträgen weiter.