Datenqualität: Sehr geehrter Herr Druckpatronen…

EnterpriseNetzwerke

Es gibt Tools gegen solche Peinlichkeiten

Vernachlässigen Unternehmen die Qualität ihrer Daten, geben sie sich der Lächerlichkeit preis und ihnen droht der Verlust von Kapital und Effektivität. Trotzdem scheuen viele Firmen den Aufwand für eine Datenbereinigung oder sie unterschätzen ihn. Dabei gibt es Software-Tools, die geeignet sind, die Daten zu konsolidieren.

Ein Szenario: Irritiert ruft ein Kunde an. Er hat zwei identische Rechnungen erhalten. Die Ursache: irrtümlich doppelt in Datenbanken gespeicherte Adressen. Schlimmer jedoch ist, wenn Tippfehler zu unangemessenen Forderungen führen. Dennoch, das belegen Studien, sind bis zu einem Fünftel aller gespeicherten Unternehmensdaten von unzureichender Qualität. Anders ausgedrückt: Eine Textseite mit fünf Prozent Fehleranteil käme auf 100 Tippfehler.

Fehlerquellen gibt es viele

Für die Doppler und Inkonsistenzen kann es verschiedene Gründe geben, zum Beispiel die Zusammenführung verschiedener Datenhaltungssysteme und die Mehrfacherfassung. Bei einer Bank etwa stimmen Daten, die in der zentralen Kreditabteilung eingegeben wurden, nicht mit jenen Angaben überein, die in der kontoführenden regionalen Zweigstelle gespeichert sind. Auch Fusionen haben es in sich: Beim Abgleich der Datensätze fällt es schwer herauszufinden, welche Kunden der beiden verschmelzenden Firmen identisch sind.

Das Problem ist auch keines von Softwarelaien. So stellte Microsoft fest, dass die in der Sales-Datenbank rund um die Uhr einfließenden Daten über die aktuellen Ergebnisse in den Verkaufskanälen nicht schlüssig sind. So wiesen Informationen, die von verschiedenen Distributoren in die Datenbank eingegeben wurden, deutliche Abweichungen auf. Die Daten waren falsch oder unvollständig. Es ergaben sich untypische Umsatzzahlen. Die Folge: Weil die Datensätze von 14 Millionen neuer Eingaben pro Quartal individuell überprüft und korrigiert werden mussten, zogen sich die Ladezeiten der Reports in die Länge.

Experten und gute Tools

Mit der Lösung solcher Probleme sind in erster Linie IT-Experten befasst. Sie suchen zuerst nach Mängeln in der Datendefinition, also der Metaebene, die Informationen über die gespeicherten Daten aus technischer und fachlicher Sicht vorhält. Oft kommen auf diese Weise falsche Datentypen oder Feldlängen zum Vorschein. Für Klaus Strahl, der das Business Intelligence Centrum der Unternehmensberatung Mummert und Partner leitet, gehört deswegen die Überprüfung solcher Wertebereichen zur grundlegenden Definition von Tools für die Datenqualität. Die Werkzeuge stellen beispielsweise fest, ob ein Feld nur zu einem Prozentsatz ausgefüllt ist.

Außerdem überprüfen sie die Referenzen. Indem sie herausfinden, welche Spalte auf welche weitere verweist, lassen sich auch für schlecht dokumentierte Systeme Datenmodelle erstellen. Die Werkzeuge helfen auch bei der Überprüfung der Plausibilität der aufgedeckten Referenzen. Laut Strahl stimmt zwar nur ein Teil der aufgedeckten Beziehungen. “Doch wenn auch nur einer von zehn Hinweisen richtig ist, hat der Anwender sich ein erhebliches Maß an Arbeit gespart”, so der Experte.

Im gleichen Atemzug nennt Strahl die Überprüfung von Schlüsseln, zum Beispiel Kunden-, Waren- und Produktgruppen. Solche Kennziffern ermöglichen eine eindeutige Identifizierung. Ein Produkt kann im Warenwirtschaftssystem aber einen anderen Schlüssel haben, als in der Kostenstellenrechnung.

Über den Standard hinaus

Darüber hinaus bieten einige Software-Tools “ein gewisses semantisches Verständnis”, so Strahl. Bei solch einer fachlichen Überprüfung entpuppen sich häufig Berechnungsformeln oder abgebildete Geschäftslogiken als fehlerhaft. Die Tools könnten erkennen, dass Mueller und Müller identische Personen sind, wenn sie eine gemeinsame Adresse haben.

Allerdings müssen für die Korrekturen Regeln hinterlegt werden, da diese – wenn einmal durchgeführt – kaum rückgängig gemacht werden können. Deshalb empfiehlt der Spezialist für solche Aufgaben eher “Bewirtschaftungs”-Tools, die Änderungen dokumentieren. Die Tools für die Datenqualität beziehungsweise für das “Data Cleansing” eignen sich seinen Ausführungen zufolge eher für einen Projektstart, etwa für die Einführung eines Customer-Relationship-Managment-Systems.

Zu welchen Konsequenzen fehlerhafte Datendefinitionen beitragen können, zeigt das Beispiel eines missglückten Raketenstarts. Am 4. Juni 1996 explodierte Ariane 5 nur 40 Sekunden nach dem Start, weil die von der Steuerungssoftware ermittelte Geschwindigkeit zu groß für ein Datenfeld war und einen verhängnisvollen Crash provozierte. Gut sieben Milliarden Dollar verpufften in der Atmosphäre.

Falsche Zahlen, Namen und Adressen erzeugen nicht nur Fehlbuchungen und Rücksendungen. Ein Geschäftsbrief mit der Anrede “Sehr geehrter Herr Druckerpatronen GmbH & Co. KG” ist peinlich; er ist die Visitenkarte eines unprofessionell geführten Unternehmens. Allein in den USA werden die Kosten mangelhafter Datenqualität auf zwei bis vier Milliarden Dollar pro Jahr geschätzt.

Führende Anbieter

“Führender Anbieter solcher Lösungen ist die amerikanische Firma Trillium Software”, behauptet Klaus Webersinke, Geschäftsführer der Stepdot Software GmbH. Er vermarktet das Tool in Deutschland. Für Strahl, der häufig im Vorfeld von Data-Warehouse-Anwendungen Datenbereinigung betreibt, stehen allerdings noch zwei Werkzeuge vorn auf der Liste geeigneter gleichwertiger Tools: “Zu dem, was mir über den Weg läuft, gehören ganz sicher die Produkte von Invoke und von Ascential.” Der letztgenannte Anbieter gehe zudem neue Wege. Er fügt das Data-Cleansing in seine Produkte “Meta Stage” und “Data Stage” ein. Die Werkzeuge für das automatisierte Laden, Transformieren und Laden von Daten ermöglichen künftig somit eine ständige Überwachung und damit kontinuierliche Verbesserung des Datenbestands.