Datenethik und künstliche Intelligenz

Von der Krebsfrüherkennung bis zur Überprüfung juristischer Dokumente kann KI im täglichen Leben helfen. Wenn sie jedoch falsch eingesetzt wird, kann sie großen Schaden anrichten.

Für Unternehmen führt kein Weg mehr daran vorbei, einen Rahmen für die ethische Nutzung von Daten zu schaffen, um mögliche negative Auswirkungen von KI zu minimieren. Aber was genau ist Datenethik, und warum müssen wir darauf achten, mit welchen Informationen wir eine KI füttern? 

Die allgemeine Qualität eines KI-Algorithmus hängt ausschließlich vom Faktor Mensch ab, der hinter diesem System steht. Das gilt nicht nur für die Entwickler, die solche Systeme schaffen, sondern auch für die Qualität der Daten, mit denen das Programm für entsprechende Erkenntnisse gefüttert wird. Im besten Fall kann KI als Erweiterung für menschliche Entscheidungen dienen, da sie auf Basis eingespeister Daten Muster und Trends erkennt. Im Zweifelsfall verstärkt sie jedoch eine Vielzahl von Vorurteilen, was uns vor neue Herausforderungen stellt.

Voreingenommenheit von Algorithmen

Was diese Vorurteile nach sich ziehen können, zeigt ein Fall beim Retail-Giganten Amazon. Das Unternehmen entwickelte einen Prototyp-Algorithmus unter Verwendung von Mitarbeiterdaten der letzten 10 Jahre, um eingehende Bewerbungen zu beurteilen und die besten Mitarbeiter:innen auf der Grundlage früherer Leistungsindikatoren einzustellen. KI ist eine Mustererkennungsmaschine, die auf Basis historischer Daten eine ganz bestimmte Aufgabe erfüllt. Dabei ist zu beachten, dass heute in Deutschland nur 17 Prozent der Beschäftigten im Technologiebereich weiblich sind. Wenn man ein KI-Modell mit 1.000 Datenpunkten von erfolgreichen Mitarbeiter:innen füttert und 83 Prozent dieser erfolgreichen Mitarbeiter:innen ein ähnliches Merkmal aufweisen, stellt sich die Frage, was dann das offensichtlichste Muster ist?

In diesem Fall zeigte das statistische Muster, dass mehr Männer als Frauen in ihrer Rolle erfolgreich waren. Dies lag daran, dass mehr Männer als Frauen tatsächlich in diesen Rollen beschäftigt waren. Während wir als Menschen wissen, dass dies ein eindeutiges und negatives Vorurteil ist, hat das KI-Modell Muster in den Daten, mit denen es gefüttert wurde, hervorgehoben – und letztlich Bewerbungen mit dem Begriff „Frauen“ oder „Frauenschachclub“ abgewertet. Amazon beendete das Projekt.

Voraussetzung für Datenethik sind gute Entscheidungsprozesse und zugängliche Daten

Um eine Voreingenommenheit der KI zu vermeiden, gilt es für Unternehmen in erster Linie gute Entscheidungsprozesse zu schaffen. Maschinelle Intelligenz soll die menschliche Mustererkennung und Problemlösung nachahmen – Menschen sind aber nun einmal nicht perfekt. Fehler im Endstadium des maschinellen Lernmodells lassen sich vermeiden, wenn transparente Governance und Prozesse auf fundamentaler Ebene gegeben sind. Entscheidend hierfür ist ein unternehmensweiter Ansatz für transparente und erklärbare KI sowie ein Fokus auf die Datenkette: von den Datenarbeitern in der Abteilung über Data Engineers, Data-Science-Teams und ML-Ingenieuren bis hin zu den Analytic-Ops-Expert:innen.

Die Daten, die Unternehmen in KI-Modelle einspeisen, müssen von angemessener Qualität, strukturiert und genau sein. Die Datenquelle selbst sollte so zugänglich sein, dass Unternehmen sie unter veränderten Governance- oder Datenschutzbestimmungen leicht anpassen können. In den vergangenen Jahren haben Unternehmen die Daten aus verschiedenen Quellen in großen Mengen extrahiert. Diese Methode war nicht nur wenig anpassungsfähig, sondern führte auch schnell zu veralteten Datensätzen – jedes Mal, wenn die Quelldaten aktualisiert wurden. Nach der Datenschutz-Grundverordnung (DSGVO) erfordern beispielweise ein Antrag auf Auskunft und das Recht auf Löschung ein Maß an Datenflexibilität, das noch vor wenigen Jahren nicht üblich gewesen wäre.

Darüber hinaus müssen Unternehmen in der Lage sein, einseitige Datenquellen durch menschliche, statistische oder systembedingte Verzerrungen vor der Einspeisung ins KI-Modell zu identifizieren und abzuschwächen. Dies ist jedoch nur durch die Zugänglichkeit der Daten in Kombination mit Initiativen zur Ausbildung, Weiterbildung und Umschulung von Menschen hinsichtlich ihrer Datenkompetenz möglich. Die Definition und Förderung einer Fehlerkultur, in der Fehler Bausteine für das Lernen darstellen, ist ein zentraler Aspekt zur Erreichung dieses Ziels. Mit diesen Weiterbildungsinitiativen und robusten Governance-Prozessen wird der menschliche Faktor die Kraft hinter der ethischen Datennutzung in der KI.

Synthetische Daten als ethische Alternative

Je größer die Stichprobe, desto aussagekräftiger die Ergebnisse – so eine allgemeine statistische Regel. Diese trifft allerdings nicht unbedingt auf KI zu. Zu wenige Daten führen zwar zu leistungsschwächeren KI-Modellen, dennoch gibt es einen wirtschaftlichen „Sweetspot“, der zu berücksichtigen ist. In Bezug auf die Menge an Trainingsdaten gibt es keine Obergrenze. Ab einem bestimmten, idealen Punkt, dem sogenannten „Sweetspot“ führen jedoch mehr Daten – und die damit verbundenen höheren Kosten – nicht zu einer höheren Effizienz des Modells. Hier gilt es Kosten und Nutzen abzuwägen.

Parallel dazu sollten Unternehmen berücksichtigen, dass die Verfügbarkeit der richtigen Daten ebenso einen Engpass darstellen kann. Große Datensätze sind kontextabhängig üblich. Große Datensätze, die repräsentativ, ethisch vertretbar und von hoher Qualität sind, sind jedoch eine weitaus seltenere – und wesentlich kostspieligere – Ressource. Synthetische Daten stellen hierfür eine praktische Alternative dar, die es Unternehmen ermöglicht, bestehende Datensätze zu skalieren und KI-Modelle mit statistisch signifikanten Daten zu trainieren.

Unter synthetischen Daten wird ein programmatisch generierter Datensatz verstanden, der die statistischen Eigenschaften der zugrunde liegenden Originaldaten imitiert. Unternehmen können somit einen kleinen, ethisch vertretbaren und repräsentativen Datensatz skalieren und auswerten, ohne dass die statistische und demografische Aussage der ursprünglichen Datenpunkte verfälscht wird. Synthetische Daten sind damit nicht nur eine ethische Alternative, sondern auch ein kostengünstiges Mittel für das Training von KI-Modellen.

Ethische Datennutzung lohnt sich

KI eröffnet Unternehmen branchenübergreifend eine Vielzahl an Einsatzmöglichkeiten – eben immer dort, wo sie Entscheidungen auf der Grundlage von Daten treffen wollen. Den wahren Wert von KI zu erkennen und innovativ zu bleiben, erfordert von Unternehmen einen Kulturwandel. Sie müssen weg von der Vorstellung, KI als mystisches System zur Erkenntnisgewinnung zu sehen, das über jeden Verdacht erhaben ist. Stattdessen gilt es KI als das zu verstehen, was sie ist: ein Werkzeug.

Vor diesem Hintergrund ist die Einführung einer abteilungsübergreifenden Weiterbildungsinitiative zur Unterstützung von KI-Projekten von zentraler Bedeutung. Diese Initiative muss sich auf die Verwendung von auf Datenqualität basierenden, ethischen Erkenntnissen fokussieren, um den größten Nutzen aus KI-Systemen zu ziehen. Denn mit den geeigneten Daten können Unternehmen nicht nur schnell agieren, sondern auch in Echtzeit auf Störungen und Herausforderungen reagieren. Ohne eine ethische Datennutzung automatisieren sie jedoch nur schneller schlechte Entscheidungen.

David Sweenor

ist Senior Director of Product Marketing bei Alteryx. Er blickt auf mehr als 20 Jahre Erfahrung im Bereich Analytik zurück, hat mehrere Bücher geschrieben, ist Mitautor verschiedener Patente und ist derzeit für zahlreiche globale Advanced-Analytics-Initiativen verantwortlich.