Datenqualität entscheidet über KI-Nutzen

Es ist unstrittig, dass generative KI eine Schlüsseltechnologie der Gegenwart ist. Wer hier an der Spitze der Entwicklung mitspielen will, darf sich folgerichtig nicht in Abhängigkeiten begeben. Andernfalls verliert er zwangsläufig seine Gestaltungs- und Entscheidungsfreiheit, und damit seine Souveränität. Diese Freiheit beginnt bei den IT-Plattformen für die KI-Entwicklung, geht über die Fragen nach Sicherheit, Kosten und Schnelligkeit, und endet beim verantwortungsbewussten Umgang mit KI, sprich bei Aspekten wie Transparenz und Datenethik. Nur wer auf all diesen Ebenen souverän, sprich unabhängig ist, kann auch sicher und im besten Sinne wertschöpfend mit KI umgehen. Die KI-Entwicklung auf einer Hyperscaler-Plattform beispielsweise hinterlässt in diesem Punkt berechtigte Zweifel.

Dabei spielen die Daten, deren Herkunft, Qualität und Sicherheit eine zentrale Rolle. Sie sind der Dreh- und Angelpunkt für sinnvolle KI-Anwendungen. Egal, ob es nun um Natural Language Processing (NLP), Large Language Models (LLM) für Chatbots oder um digitale Zwillinge geht, eines ist allen gemeinsam: Sie können nur so gut sein wie die Daten, mit denen sie entwickelt wurden und auf die sie im Betrieb zugreifen können. Wer Datenmüll einspeist, wird Applikationskrücken ernten: Garbage in – Garbage out! Was aber sind „KI-brauchbare“ Daten?

KI-Kriterien für hohe Datenqualität

In diesem Zusammenhang geht es vor allem um vier Aspekte: Die Daten müssen aktuell, sauber, sicher und anwendungsspezifisch sein. Nehmen wir einen Fertigungsbetrieb, der ein KI-System für seine Service-Techniker entwickelt. Sie brauchen vor allem Informationen zu den aktuell bei den Kunden installierten Modellen. Daten zu längst außer Dienst gestellten Geräten nützen ihnen herzlich wenig. Ebenso wenig sinnvoll sind Informationen über Konkurrenzmodelle. Die könnten für Vertrieb oder Marketing relevant sein, nicht aber für Service-Techniker vor Ort. Die Daten müssen also anwendungsspezifisch sein. Sauber und sicher bedeutet, dass keine sensitiven oder sicherheitssensiblen Daten wie Firmennamen, geschützte Produktdaten, Personaldaten oder Informationen über geistiges Eigentum des betreffenden Unternehmens genutzt werden.

Werden diese Qualitätskriterien nicht erfüllt, sind typische KI-Schwächen wie beispielsweise BIAS-Verzerrungen, also diskriminierende Antworten, oder Halluzinationen, sprich frei fantasierte Ergebnisse, die logische Konsequenz. Als potenzieller Ausweg aus diesem Dilemma werden immer wieder synthetische Daten ins Spiel gebracht. Gerade bei den Kriterien praxisnah und anwendungsspezifisch aber können sie mit echten Daten in der Regel nicht mithalten. Deshalb gibt es dafür nur wenige geeignete Use Cases, etwa in der Medizin oder bei autonomen Verkehrssystemen. In der überwiegenden Zahl der Fälle aber repräsentieren echte Daten besser.

Drei Viertel der Daten sind unstrukturiert

Die aktuelle Situation bei der Datenverfügbarkeit klingt paradox: Einerseits klagen Unternehmen über die überbordende Datenflut. Laut Seagate-Report soll die Menge der Unternehmensdaten in den nächsten Jahren um über 40 Prozent pro Jahr wachsen. Andererseits stehen nicht genügend Daten für KI-Entwicklung und -Betrieb zur Verfügung. Wie passt das zusammen? Sie erklärt sich daraus, dass zwar Unmengen von Daten in internen und externen Systemen gespeichert sind, deren Qualität aber bestenfalls zweifelhaft ist. Welches Unternehmen weiß schon, was da alles wann und wo von wem abgelegt wurde. Dazu kommt die Tatsache, dass in der Regel mehr als drei Viertel dieser Daten unstrukturiert sind: sie verstecken sich in Präsentationen, Bildern, Videos, E-Mails und Chat-Verläufen. Viele davon sind zudem veraltet, redundant, trivial oder obsolet, und damit für die KI-Entwicklung ungeeignet oder sogar schädlich.

Any source, any filetype

Unter diesen Umständen kann die unsystematische Suche und Visualisierung korrekter, relevanter und sicherer Daten vor allem in größeren Organisationen mit heterogener Speicherinfrastruktur extrem aufwendig sein. Deshalb werden Tools, respektive Plattformen benötigt, die diese Aufgabe automatisiert erledigen, und zwar „any source, any filetype“, also unabhängig von Speicherort und Datenformat. Im ersten Schritt werden die Datenbestände gescannt, und anschließend von Doubletten und Redundanzen bereinigt. Dann erfolgt die Datenanalyse, die die wertvollen Daten identifiziert und selektiert.

Zu den für spezialisierte KI-Anwendungen besonders wichtigen Informationen zählen dabei auch die jeweils unternehmens- und branchenspezifischen Begriffe und Ausdrücke (Sprachdomänen), die häufig in den unstrukturierten Daten verwendet werden. Bei der Datenanalyse werden idealerweise auch die Metadaten mit einbezogen. Sie sind wichtig, um eine hohe Datenqualität bei der KI-Entwicklung sicherzustellen, etwa beim immer präsenteren Thema Berechtigungsmanagement. KI-Applikationen müssen ein System implementieren, dass unberechtigte Zugriffe verhindert. Metadaten liefern die dafür notwendigen Informationen. Am Ende liegt dann ein schlanker, aber hochwertiger Datenbestand vor, in dem ausschließlich relevante, klassifizierte, indexierte, Compliance-konforme und sicherheitsunkritische Daten zur weiteren Verwendung bereitstehen.

Plattform statt Tools

Das Thema Plattform ist in diesem Zusammenhang unter anderem deshalb so interessant, weil immer mehr LLM-Projekte auf Kollaborations-Plattformen entwickelt werden. Da ist es sinnvoll, Daten nahe an den Projekten zu selektieren und aufzubereiten. Das verkürzt kostbare – und kostenintensive – Entwicklungszeit. Zudem ist Komplexität eines der größten Hindernisse bei der Entwicklung. Die integrierten Funktionsumfänge einer Datenmanagement-Plattform vereinfachen die Datenaufbereitung und beschleunigen die Bereitstellung. Und so neu und bahnbrechend KI auch sein mag, so alt ist manche Regel die für sie gleichermaßen gilt. Eine davon lautet ganz profan: „time is money“.

Ralph-Peter Rembor

ist VP Sales & Marketing EMEA bei APARAVI.

Roger Homrich

Recent Posts

Cloud-Ressourcen sind Hauptziel von Cyber-Angriffen

52 Prozent der Unternehmen Deutschland haben bereits eine Verletzung der Datensicherheit in der Cloud erlebt.

13 Stunden ago

Transport Betz automatisiert Geschäftsprozesse

Rückgrat des Digitalisierungsprogramms ist das ERP-System GUS-OS Suite, das der Logistikdienstleister seit 15 Jahren im…

1 Tag ago

Cyberversicherung auf dem Weg zum Standard

Studie: Mehr als die Hälfte der DACH-Unternehmen haben mittlerweile eine Police. Gesamtosten rund um Cyberversicherungen…

2 Tagen ago

Komplexität reduzieren und mit vorhandenen Ressourcen sicherer werden

"Unternehmen sollten Security-Investitionen neu bewerten, entscheiden, wo sie konsolidieren können und mit ähnlichem Geld sich…

5 Tagen ago

Chemiekonzern Kemira archiviert seine SAP-Daten und Dokumente in der Cloud

Kemira hat sich von langjähriger Archivierungslösung getrennt und vertraut nun der Archivierung in der Cloud…

6 Tagen ago

Use-Case: KI-Integration im deutschen Mittelstand

Auch im deutschen Mittelstand setzen mehr und mehr Unternehmen auf den Einsatz von künstlicher Intelligenz.…

1 Woche ago