Unternehmen horten irrelevante Datenhalden

Trotz Data Mining und Business Intelligence gelingt es immer noch selten, verwertbare Informationen aus Computerdaten zu generieren.

Wer die Kontrolle über Daten hat, beherrscht auch die Wertschöpfungskette. Doch die Erkenntnis ist eine Sache, eine andere die Umsetzung. Denn trotz ausgefeilter Analysetechnik à la Data- und Text-Mining, Online Analytical Processing (Olap) und alle naselang Reports, hapert es an den Grundlagen. Die Daten- und damit die Informationsqualität ist in der Regel schlecht. Nach einer Studie des Data Warehouse Institute verlieren Industrie und Verwaltung in den USA jährlich rund 600 Milliarden Dollar aufgrund schlechter Datenqualität.
So wundert es kaum, dass trotz der scheinbaren Präzision von Computeranalysen das Vertrauen in die Ergebnisse fehlt. In Deutschland trauen beispielsweise nur 18 Prozent der Marketingleiter der Richtigkeit und Vollständigkeit ihrer Daten. Das fand vor kurzem das SAS Institute heraus, ein Hersteller von Software für Business Intelligence, bei der Befragung von 500 Marketingleitern aus Frankreich, Großbritannien, Italien, den Niederlanden und Deutschland. Knapp ein Viertel der in Deutschland Befragten räumen ein, dass zwischen 21 und 30 Prozent ihrer Daten inkorrekt sind. Fast die Hälfte musste gestehen, dass sich ihre Kunden über irrelevante Marketing-Informationen beschweren.

<b>Fehler in der Erfassung</b>

Ursachen dafür, dass man fehlerhafte Daten sammelt, speichert und daraus falsche Erkenntnisse zieht, gibt es viele. Zum Beispiel wenn Fragebögen unvollständig und mit Scheindaten ausgefüllt sind, oder wenn die falschen Fragen gestellt werden. Yang Lee, Professorin an der Northeastern University in Boston, erläutert an einem einfachen Beispiel, wie so etwas zustande kommen kann: In einem Krankenhaus habe sich bei Auswertungen herausgestellt, dass ausgerechnet im Juli ungewöhnlich viele Patienten gegen Infektionen behandelt wurden.

Der Spitzenwert kam zustande, weil die Patienten in der Notaufnahme einen Fragebogen ausfüllen mussten, auf dem unter anderem nach der Art ihrer Erkrankung gefragt war. Da das kaum ein Patient vor seiner Untersuchung richtig angeben konnte, bekamen die Datenverarbeiter darüber auch keine Informationen. Also dachten sich die pfiffigen Informationstechniker, dass die Fachrichtung des behandelnden Arztes auf den Grund einer Behandlung schließen lässt, und implementierten diese Regel: Herzkranke werden von einem Kardiologen untersucht, Patienten mit Knochenbrüchen von einem Orthopäden, Magen- und Darmerkrankte von einem Internisten. Doch im besagten Monat Juli waren sehr viele Ärzte im Urlaub, der Spezialist für Infektionskrankheiten war für den Notdienst abgestellt, und so ergab die Auswertung der Statistik ein überdurchschnittliches Aufkommen von Infektionskrankheiten.

Das Beispiel verdeutlicht gleich mehrere Ursachen, die die Datenqualität beeinträchtigen. Zum einen sind es meist unterschiedliche Personenkreise, die die Daten liefern, aufbereiten und auswerten, deshalb haben sie auch unterschiedliche Ansprüche an die Datenqualität. Für den Patienten in dem Beispiel ist das Ausfüllen des Fragebogens nur lästig, die kommunizierten Informationen haben für sie persönlich keinerlei Relevanz. Sind die meisten Felder im Fragebogen ausgefüllt, glaubt der Patient seine Sache gut gemacht zu haben. Damit hätte er den Datenverarbeiter zufrieden gestellt, der auf Vollständigkeit erpicht ist. Leere Felder in Datensätzen dürfen nicht sein. Der Manager jedoch, der aufgrund der Informationen Personal disponiert, Bestellungen tätigt und mit Notfalldiensten und Krankenkassen abrechnet, ist auf korrekte Daten angewiesen. Vollständigkeit ist zumeist sekundär.

<b>Die Prozesse verstehen</b>

Das Beispiel verdeutlicht aber auch, dass das Management von Datenqualität ein kollaborativer Prozess ist, der von der Benutzerseite her angestoßen werden muss. Was Qualität in Bezug auf Daten eigentlich bedeutet, definiert somit nicht die IT-Abteilung, zumindest nicht ausschließlich. Das ist Sache des Managements und der Analytiker im Unternehmen. “Sind die Unternehmensprozesse bekannt, fließen die richtigen Daten nahezu automatisch von A nach B”, erläutert Richard Wang, Director des Information Quality Program vom Massachusetts Institute of Technology (MIT). Ist der Bedarf an hochwertigen Daten erkannt, steht auch die Notwendigkeit von Qualifizierungsmaßnahmen außer Frage.

Der Kampf um bessere Datenqualität beginnt zwar mit einer Änderung der Denkweise, doch im Tagesgeschäft ist es eine Sisyphus-Arbeit und verlangt viel Disziplin. Hinzu kommt, dass die Unterstützung durch Tools vergleichsweise bescheiden ist.

Datenformate sind eng mit den zugehörigen Applikationen verknüpft. Insbesondere CRM-Projekte (Customer Relationship Management), in denen über ein Data Warehouse eine gesamtheitliche Sicht des Kunden erzeugt werden soll, lassen erkennen, wie schwierig es ist, die Daten konsistent zu konsolidieren. Die meisten Firmen nutzen nicht einmal ein adäquates Werkzeug für das Extrahieren, Transformieren und Laden von Warehouse-Daten. Noch seltener dürfte ein ‘Data Cleansing’ sein, beispielsweise für die Bereinigung von Adressdaten, das mit diesen Routinen verknüpft wird. Ascential, Trillium und Evoke etwa bieten Profiling- beziehungsweise Cleansing-Werkzeuge an.

<b>Die IT ist nur ein Werkzeug</b>

Udo Grimmer gehört zu Forschungsgruppe ‘Information Mining’ im DaimlerChrysler-Konzern und hat sich im Rahmen solcher Projekte seit dem Jahr 2000 bereits mit Datenqualität beschäftigt. Eine seiner Aufgaben besteht darin, Algorithmen zu finden, die Inkonsistenzen im Datenbestand aufspüren können. Das funktioniert unter der Annahme, dass die meisten Daten korrekt sind. Die Abweichungen müssen gefunden und schließlich analysiert werden. Grimmer bestätigt hierbei die Thesen von Wang und Lee, dass nur jene Nutzer, die mit den aus den Daten ermittelten Informationen arbeiten müssen, die tatsächlichen Ausreißer erkennen können. Die IT liefert lediglich die Vorlagen.

Gemeinsam mit den Anwendern identifizieren die Information-Miner aber auch die wichtigsten Datenqualitätsaspekte, die sich dann weitmöglichst automatisch überprüfen lassen sollen. Aktualität beispielsweise ist erfüllt, wenn eine Schadensmeldung spätestens fünf Tage nach Bekanntwerden bei der Werkstatt im System verbucht ist. Eine solche Meldung wäre dann vollständig, wenn neben der Schadensbeschreibung, Schadensschlüssel, Fahrzeug-Identifizierungsnummer, Reparaturkosten und Ersatzteilnummer enthalten sind. Schließlich gilt es die Fehler, die ein Analysewerkzeug findet, zu validieren. Hierbei geht es um die Übereinstimmung der im IT-System diagnostizierten Fehler mit der Wirklichkeit.

Die ständige Verbesserung der Datenqualität kommt bei Grimmer als Selbstverständlichkeit daher. Doch das scheint es vielerorts nicht zu sein. Zum einen wird die Notwendigkeit verkannt, dass in gute Informationen investiert werden muss. Hierzu fehlen aber die qualifizierenden Prozesse. Zum anderen zeigen sich Anwender verschämt, wenn sich bei ihren Prozessen Optimierungsbedarf andeutet und kehren die Tatsache lieber unter den Teppich.

Der MIT-Wissenschaftler Richard Wang spricht von einer noch “jungen Disziplin”. Zur Förderung der Ausbildung von Fachpersonal setzt er nun gemeinsam mit Michael Mielke vom Dienstleistungszentrum Bildung der Deutschen Bahn AG ein internationales Zertifizierungsprogramm auf. Interessenten können sich in mehreren Stufen zum ‘Certified Information Quality Management Professional’, so der vorläufige Titel, qualifizieren. Der erste Kurs auf deutschem Boden wird im Mai/Juni des kommenden Jahres stattfinden, verrät Mielke. Wahlweise können sich Bewerber auch ans MIT in Boston wenden. Letztlich hofft Wang darauf, dass durch die Kurse ein Curriculum entsteht, dass viele Universitäten adaptieren.