KI und Datenschutz: Eine kritische Betrachtung

1. EinleitungKI und Datenschutz

Die Grundrechte – auch der Datenschutz – sind seit Jahrzehnten mit technischen Neuerungen konfrontiert. Diese »Innovationen« werden in der Regel dann der Öffentlichkeit bewusst, wenn bestimmte Schlagworte immer wieder in den Vordergrund gerückt werden. Produkte, die man früher vielleicht als Algorithmen, Datamining, BigData, aber auch als statistische Prognosesysteme bezeichnet hätte, werden im derzeitigen Hype als »Künstliche Intelligenz« beworben.

Wenn eine Technologie in der Wahrnehmung allgegenwärtig wird – sei es, weil sie Komponenten bereits vorhandener Technologien enthält, auf diesen aufbaut oder nur neu etikettiert wurde – entsteht gesellschaftlicher Klärungs- und Regelungsbedarf. Technologien, die personenbezogene Daten verarbeiten, berühren in einer Demokratie Grundrechte.

Heutige AI-Programme »lernen« letztendlich durch die schiere Menge an Datenbeispielen. […] Auf diese Weise hängen die Begriffe Artificial Intelligence und Big Data zusammen, denn Big Data ist sozusagen das Material einer AI-Struktur.

Quelle: Lopez, P. (2021). Artificial Intelligence und die normative Kraft des Faktischen. Merkur.

Denn datengetriebene Technologien und Geschäftsmodelle bergen immer auch gesellschaftliche Risiken – Diskriminierung, Massenüberwachung, Generalverdacht, Falschinformationen sind nur einige Beispiele dieser Gefahren.

Datenbasierte algorithmische Systeme (Lopez, 2021) können die alltägliche Realität der Menschen beeinflussen und gleichzeitig eine Wirklichkeit vortäuschen, die menschliche Vorurteile zu bestätigen scheint. Ein »Diskriminierungsrisiko« ist ein untrennbarer Bestandteil ihrer Entwicklung und ihres Einsatzes.

Eine Erdbebenprognose hat keinerlei Auswirkungen auf das tatsächliche Erdbeben. Werden jedoch seismografische Modelle benutzt, um hot spots der Kriminalität vorherzusagen, wie es in den USA unter dem Stichwort des predictive policing getan wird, so ist das eine ganz andere Sache. Denn die aufgrund der Prognosen abgeleiteten Maßnahmen, wie beispielsweise verstärkte Polizeipräsenz, beeinflussen sehr wohl das Geschehen, […].

Quelle: Lopez, P. (2021). Artificial Intelligence und die normative Kraft des Faktischen. Merkur.

Der Unterschied zwischen einer Erdbebenvorhersage und Predictive Policing ist folgender: Die Polizei ist eine Institution. Von Menschen geschaffene Institutionen haben den Zweck, menschliches Verhalten in einer Gesellschaft zu kontrollieren. Jedes IT-System, das der Entscheidungsfindung dient, ist Teil dieser »Kontrollfunktion«. Es ist sozusagen ein Teil des Spiels und kein neutraler, objektiver oder ausstehender Helfer. Hier stellen sich grundsätzliche Fragen nach der Verantwortlichkeit und auch nach der »Handlungsfähigkeit« dieser Institution. Wer entscheidet eigentlich: Der Polizist? Der Programmierer? Die Firma, die das System entwickelt hat?

»Technologischen Innovatoren« beanspruchen zunehmend auch eine gesellschaftliche, soziale und humane Deutungs- und Regelungskompetenz. Recht, Sicherheit, Politik, Medizin, Ethik, Wohlfahrt etc. betreffen uns Menschen unmittelbar. Diese Entwicklung ist nicht neu. Denn schon Mark Zuckerberg nahm für Social Media in Anspruch, die Privatsphäre als überholte gesellschaftliche Norm zu interpretieren.

In diesem Beitrag betrachten wir KI aus der Perspektive des Datenschutzes – insbesondere die Diskriminierungsrisiken, die mit ihrer Anwendung verbunden sind.

Es ist dabei auch wichtig, das Umfeld zu betrachten, das diese Technologie hervorbringt. Denn die Ansichten, Bekenntnisse, Meinungen und Einstellungen der Menschen spiegeln sich unweigerlich in der Technologie wider und beeinflussen auch die Art und Weise, wie wir in der Gesellschaft über sie denken und sprechen.

Gastbeitrag von lacrosse

Lacrosse ist betrieblicher Datenschutzbeauftragter in der Konzerndatenschutzorganisation einer deutschen Unternehmensgruppe. In seiner Freizeit engagiert er sich ehrenamtlich, um gemeinnützigen Vereinen bei der Umsetzung der DSGVO zu helfen.

Feedback und Fragen können direkt an ihn gerichtet werden. Spenden für seine Arbeit möchte er direkt dem Kuketz-Blog zukommen lassen. Ihr könnt also direkt an den Kuketz-Blog spenden.

2. Menschen konstruieren Wirklichkeit

Es ist eigentlich eine Selbstverständlichkeit, Technik nicht zu vermenschlichen oder mit unangemessenen Attributen zu versehen. Das muss aus gutem Grund erwähnt werden: KI kann beispielsweise weder lernen noch denken. Wenn eine Datenbank einen falschen Wert ausgibt, würde niemand sagen, dass sie halluziniert oder lügt (warum dann bei Sprachmodellen?).

Die Vorstellung, dass KI ein Bewusstsein haben kann, ist ein Irrtum. Sie ist nur ein sehr glänzender Spiegel, der den Menschen das widerspiegelt, was wir sehen wollen.

Quelle: Hart, D. B. (2023). The myth of machine consciousness makes Narcissus of us all. Psyche. Übersetzung durch den Autor.

Schon der Begriff Künstliche Intelligenz ist falsch, denn sie »versteht« nicht und ist nicht zur »Erkenntnis« fähig. Wir schreiben der (manchmal) überzeugenden Leistung einer Maschine – die auf den zweiten Blick gar nicht so überraschend ist, wenn man die immense Rechenleistung berücksichtigt – nur menschliche Attribute zu. Diese Leistung ist das Ergebnis ausgelagerter menschlicher Intelligenz, wie Professor Thomas Fuchs in diesem sehenswerten Video erklärt.

Für diesen Beitrag wäre es daher angemessener, von datenbasierten algorithmischen Systemen (Lopez, 2021) zu sprechen – ein sperriger Begriff. Aus Gründen der Lesbarkeit wird weiterhin der Begriff KI verwendet.

Unsere Sprache ist das Werkzeug, mit dem Menschen Wirklichkeit konstruieren – Künstliche Intelligenz ist nicht intelligent, wird aber so genannt. Es ist riskant, eine Maschine mit Begriffen in Verbindung zu bringen, die Lebewesen vorbehalten sind. Damit werden Fähigkeiten unterstellt, die eine Maschine nicht hat. Zum Beispiel wird oft behauptet, dass ein Sprachmodell (wie ChatGPT) die tatsächliche Bedeutung eines Textes versteht. Dies unterstellt fälschlicherweise ein menschliches Verständnis, das eine Maschine nicht hat. Auf diese Gefahr (neben anderen) weisen Bender, Gebru et al. (2021) in »On the Dangers of Stochastic Parrots« hin. Mathematische Lösungen bei Sprachmodellen wie z.B. Word Embedding, d.h. die Vektor-Berechnung der kontextuellen Nähe bestimmter Wörter, sind nicht mit tatsächlichen Verstehen gleichzusetzen.

Es kann auch vorkommen, dass überhöhte Erwartungen an eine Technik nicht erfüllt werden können, weil das Prinzip, auf dem diese Erwartungen beruhen, keine Grundlage hat.

Nehmen Sie zum Beispiel die automatische Emotionserkennung am Arbeitsplatz: Niemand will, dass eine KI ständig auswertet, ob Herr Schmidt gerade grimmig guckt – womöglich während er die E-Mail des Chefs liest. Solche Anwendungsfälle haben wir verboten.

Quelle: Beuth, P. & Fiedler, M. (2023). Wir dürfen es nicht komplett dem Zufall überlassen, wo die besten KIs entstehen. DER SPIEGEL.

Das von Franziska Brantner (Grüne) in einem Interview verwendete Beispiel unterstellt, dass KI in der Lage ist, aus den Muskelbewegungen eines menschlichen Gesichts auf den emotionalen Zustand einer Person zu schließen (daher das Verbot). KI ist zunächst nicht in der Lage, Gefühle zu »erkennen« oder gar zu »verstehen«. Es berechnet lediglich eine Trefferwahrscheinlichkeit, inwieweit die Gesichtsbewegungen von Herrn Schmidt einem vordefinierten, vereinfachten Muster entsprechen.

Andererseits gibt es grundsätzliche konzeptionelle Bedenken hinsichtlich des Zusammenhangs zwischen Gesichtsbewegungen und emotionaler Befindlichkeit – abgesehen von Verzerrungen durch kulturelle und regionale Unterschiede in der menschlichen Mimik.

Kritik an fehlender wissenschaftlicher Grundlage[…]. Ein grundsätzliches Problem stellt nämlich der mutmaßliche Zusammenhang zwischen Gesichtsbewegung und Emotionszustand dar.

Quelle: Peters, R. (2021). Emotionserkennung mittels künstlicher Intelligenz –Perspektiven und Grenzen von Technologien zur Analyse von Gesichtsbewegungen. Bundestag.de. Büro für Technikfolgenabschätzung beim Deutschen Bundestag.

Es ist auch zu berücksichtigen, dass Konzepte wie die Berechnung einer »Emotionswahrscheinlichkeit« einen Menschen notwendigerweise »funktional« reduzieren müssen. Die Realität ist, dass das Gefühlsleben von Herrn Schmidt viel komplexer und z.B. sein ganzer Körper, seine Umgebung eine Rolle spielt. Das bedeutet, dass die Datenlage über Herrn Schmidts emotionalen Zustand lückenhaft ist und bleibt.

Fassen wir zusammen: Menschen schreiben KI (auch aufgrund von Begrifflichkeiten) Fähigkeiten zu, die sie nicht besitzen. Der Begriff Neuronales Netz z.B. suggeriert einen Bezug zu den Nervenzellen des menschlichen Gehirns – nichts könnte weiter entfernt sein. Künstliche Neuronen sind Mathematik und Softwarefunktionen.

Ein unterschwelliges, grundsätzliches Risiko beim Einsatz von KI besteht darin, dass sie aufgrund unzureichender theoretischer Grundlagen und/oder unterstellter, aber nicht vorhandener Fähigkeiten für eine bestimmte Aufgabe ungeeignet ist.

3. Verordnungswettlauf

China hat bereits im Jahr 2022 auf Algorithmen basierende Vorschlagsysteme gesetzlich geregelt. Seit dem 15. August 2023 werden auch generative KI-Anwendungen (Text-, Bilderzeugung etc.) durch die »Interim Measures for the Management of Generative AI Services« reguliert.

Akteure der deutschen Wirtschaft und Zivilgesellschaft sehen die EU gerne in einer regulatorischen Vorreiterrolle – ob die Legalisierung von Geschäftsmodellen und Überwachungsmethoden tatsächlich dem viel beschworenen Grundrechtsschutz dient, muss kritisch hinterfragt werden. Tempomacher ist jedenfalls das Narrativ vom Wettlauf der Systeme. Der europäische Gesetzgeber sah sich veranlasst, den Entwurf zur Regelung der Künstlichen Intelligenz (KI Verordnung) voranzutreiben. Eine grundrechtskritische Frage betrifft dabei den Einsatz von biometrischen Erkennungstechnologien. Weitere Informationen finden sich hier.

Für unsere datenschutzrechtliche Betrachtung ist jedoch relevant, dass die Regelungen der KI-Verordnung grundsätzlich keine Rechtsgrundlage für die Verarbeitung personenbezogener Daten darstellen (siehe z.B. Erwägungsgrund 41). Der Verordnungsgeber ist bemüht, im Verordnungstext immer wieder zu betonen, dass die Regelungen der DSGVO unberührt bleiben. Wie das Zusammenspiel der beiden Rechtsakte funktionieren wird, ist allerdings schwer vorherzusagen. Zumal die Verordnung den nationalen Gesetzgebern Konkretisierungsspielraum lässt.

4. Omnipotenzerwartungen und Glaubensfragen

Vorstellungskraft ist eine wertvolle Eigenschaft bei der Risikoanalyse. Übertreibungen, Heilsversprechen oder gar Endzeitfantasien hingegen nicht. Vor allem dann nicht, wenn Personen oder Organisationen gleichzeitig Claqueure und Mahner sind.

[…] glauben wir, dass ein verstärkter Einsatz von KI weltweit positive Auswirkungen haben wird, und wir möchten dies fördern. […] Je mehr sich unsere Systeme der AGI [Anm. Autor: Artificial General Intelligence] annähern, desto vorsichtiger werden wir […]. Einige Leute in der KI glauben, dass die Risiken von AGI […] fiktiv sind; wir würden uns freuen, wenn sie sich als richtig herausstellen, aber wir werden so handeln, als wären diese Risiken existentiell.

Quelle: Planning for AGI and beyond. (o. D.). Übersetzung durch den Autor.

OpenAI, der Hersteller von ChatGPT, ist eine solche Chimäre aus einem Claqueur und einem Mahner. Hype und CritiHype werden gleichermaßen durch die PR des Unternehmens, Medienberichten und so manch Offenen Brief geschürt. Denn sowohl Heilsversprechen als auch Unheilsprognosen (z.B. KI und Biowaffenentwicklung) nähren Omnipotenz-Erwartungen.

Obwohl es sich um ein reines Sprachmodell handelt, zeigt diese frühe Version von GPT-4 bemerkenswerte Fähigkeiten in einer Vielzahl von Bereichen und Aufgaben, einschließlich Abstraktion, Verständnis, Vision (sic), Kodierung, Mathematik, Medizin, Recht, Verständnis menschlicher Motive und Emotionen und mehr.

Quelle: Bubeck, S., et al. (2023). Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv (Cornell University).

Das außerordentliche, aber letztlich unbewiesene Zukunftsversprechen der kommenden Künstlichen Allgemeinen Intelligenz (AGI) verschärft diese Innovationshyperventilation. Wer sich mit dem Umfeld beschäftigt, in dem Künstliche Intelligenz entsteht, stellt irritiert fest, dass es sich dabei häufig um Glaubensfragen handelt – sei es im Kontext pseudoreligiöser Überzeugungen und/oder menschlicher Ansichten. Was hat nun Glaube mit Technologie zu tun? Schließlich ist unsere Vorstellung, dass Technologie und Glaube (oder Religion) getrennte Sphären sind.

Wir erwarten von unseren technischen Errungenschaften in der Regel weit mehr als bloße Bequemlichkeit, Komfort oder gar Überleben. Wir verlangen Erlösung.

Quelle: Noble, D. F. (1999). The Religion of Technology: The Divinity of Man and the Spirit of Invention. Penguin Books. Übersetzung / Hervorhebung durch den Autor.

Wir verbinden Technologie mit Rationalität. Und wir meinen, sie mit der gleichen Rationalität zu bewerten. Dennoch finden sich religiöse Bezüge in politischen, wissenschaftlichen und technischen Verlautbarungen über und um Künstliche Intelligenz.

[…], künstliche allgemeine Intelligenz oder superintelligente KI zu entwickeln, die so mächtig und leistungsfähig wäre, dass wir sie als »digitalen Gott« betrachten würden.

Quelle: Schumer, C. (2023). Senator Schumer Opening Statement. www.schumer.senate.gov [Eighth AI Insight Forum]. Übersetzung und Hervorhebung durch den Autor.

Die Bandbreite der direkten oder indirekten Verknüpfung von Technologie und Heilsversprechen durch die Politik spiegelt die bereits als Risiko identifizierten überzogenen Erwartungen wider. Die offenkundige Anziehungskraft dieser Haltung liegt in der Erwartung einer Lösung oder besser Erlösung durch eine »höhere Macht«.

Neue Technologien wie Künstliche Intelligenz […] bieten die Chance, die großen Probleme der Menschheit zu bewältigen. Ob Klimawandel, Hunger, der Umgang mit Naturkatastrophen oder Krankheiten […].

Quelle: Digitalcharta Innovationsplattform: D / Beschluss des 32. Parteitags der CDU Deutschland.

Diese beunruhigende Abkehr von Rationalität und Gestaltungsverantwortung muss direkte Auswirkungen auf die Bewertung und Entwicklung dieser Technologie haben. Ein Beispiel ist das »Glaubensbekenntnis« des Tech-Milliardärs, Investors und Facebook Aufsichtsratsmitglied Marc Andreesen. Er arbeitet mit Glaubensformeln und Totschlagargumenten, lehnt jede Regulierung ab und spart nicht mit Feindbildern (z.B. Institutionen).

Wir glauben, dass jede Verzögerung von KI Leben kosten wird. Todesfälle, die durch eine verhinderte KI vermeidbar wären, sind eine Form von Mord.

Quelle: Andreessen, M. (2023). The Techno-Optimist Manifesto. Andreessen Horowitz. Übersetzung durch den Autor.

Die Mischung aus Omnipotenzerwartungen und Technikgläubigkeit hat Folgen. Überzogene Untergangsprognosen wie die Gefahr einer »superintelligenten KI ohne moralischen Kompass, die die Menschheit zerstört« (Jiang et al., 2021), unterstellen vielmehr, dass die Technologie selbst die Lösung ist. So wurde versucht, ethisch-moralische Entscheidungen mit Hilfe von Natural Language Processing (NLP) zu »simulieren«. Das heißt, den fehlenden »moralischen Kompass« technisch zu generieren. Dem geht fatalerweise keine Bewertung voraus, die sich an der Frage orientiert: »Welches Wissen können diese Systeme produzieren – und welches nicht?« (Lopez, 2021).

[…] behandelt Moral fälschlicherweise als einen einfachen Test, den es zu bestehen gilt. Letztlich schließt die Automatisierung ethischer Entscheidungen die Möglichkeiten der Debatte und der Anfechtung aus. Da diese selbst Voraussetzungen des gesellschaftspolitischen Prozesses der ethischen Untersuchung sind, ist eine solche Aufgabe von Natur aus unvereinbar mit dem sozialen Projekt der Ethik.

Quelle: Talat, Z., Blix, H., Valvoda, J., Ganesh, M. I., Cotterell, R. & Williams, A. (2022). On the machine learning of ethical judgments from natural language. Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Übersetzung durch den Autor.

Der Anspruch, jeden gesellschaftlichen Bereich durch Technik zu regeln, verbunden mit der Zukunftswette, dass eine Künstliche Allgemeine Intelligenz (AGI) vor der Tür steht, wird in der Konsequenz zu Systemen führen, deren Zweck völlig unklar ist. »Ein etwas, das in jeder Umgebung alles für jeden tun kann« (Gebru et al. 2023), ist in seiner Zweckbestimmung vollkommen willkürlich.

Die KI-Verordnung (KI-VO) weist indes Verantwortung für den Betrieb der KI-nutzenden Organisation zu (Art. 3 KI-VO, Pflichten in Kapitel 3 KI-VO, und Sanktionen in Art. 71 KI-VO). Die inhärente Intransparenz eines »unscoped system« (Gebru et al. 2023) wird dies jedoch nicht verhindern können. Diese Intransparenz muss sich dann auch auf die Verarbeitungstätigkeiten erstrecken.

Aus datenschutzrechtlicher Sicht kommt der Zweckbestimmung nicht nur wegen der Zweckbindung – Art. 5 (1) lit. b DSGVO – große Bedeutung zu. Mit der Entscheidungshoheit über den Zweck wird auch die Verantwortung zugewiesen (Art. 4 Nr. 7 DSGVO). Und damit verbunden auch die Rechenschaftspflicht nach Art. 5 (2) DSGVO.

5. Unweigerlich datenbasiert

KI-Modelle werden mit riesigen Mengen von »Vergangenheitsdaten« gebaut. Die grundlegende Theorie: »Diese Vergangenheitsanalyse wird – wie bei allen datenbasierten Methoden – zur Prognose unter der Annahme und Voraussetzung, dass sich in der Zukunft die Dinge wie bisher verhalten« (Lopez, 2021). Die Trainingsdaten für KI-Systeme sind »Vergangenheits-Internetdaten«. Diese Datensätze werden von Organisationen wie Common Crawl oder Hugging Face bereitgestellt.

Natürlich enthalten z.B. Textdatensätze auch anstößige Material. Ein Werkzeug zur Bereinigung ist die List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words. Bemerkenswert an dieser »Blacklist« ist, dass sie nicht das Ergebnis eines ethisch-moralischen Diskurses von Experten ist.

In einem Large Language Model (LLM) – auf dem z.B. ChatGPT basiert – werden große Textdatensätze für das automatisierte Pretraining des Sprachmodells verwendet. Ein LLM ist, wie der Name schon sagt, ein Modell von Sprache. Dessen Verwendungszweck ist » [..] Texte automatisiert zu simulieren – diese simulierten Texte sind der Output von ChatGPT.« (Lopez, 2023).

Ein Modell soll also eine vereinfachte Version des Echten sein.

Quelle: Lopez, P. (2023). ChatGPT und der Unterschied zwischen Form und Inhalt. Merkur.

Das Pretraining ist typischerweise eine Phase, in der das Berechnungsmodell für seine Vorhersagewahrscheinlichkeiten generiert wird. Letztlich geht es um die Erkennung von Mustern in großen Datenmengen, die dann in einem Modell verallgemeinert werden. Ein Muster muss in den Daten häufig vorkommen, um als solches erkannt zu werden – es handelt sich bei Mustern also in gewisser Weise um den »Durchschnitt«. Daran schließt sich eine Phase der Feinabstimmung an, die auch durch menschliches Rückkoppelung erfolgen kann. Dazu kann es notwendig sein, ein eigenes Feedbackmodell für diese Rückkopplung zu entwickeln, das wiederum menschliche Gut/Schlecht Bewertungen automatisiert auf eine Ausgabe anwendet.

Insgesamt lässt sich festhalten, dass die Entwicklung von KI ein komplexer, arbeitsteiliger (inkl. menschlicher Arbeit; Crowdworking) und letztlich intransparenter Prozess ist, in dessen Mittelpunkt Daten stehen. Lopez (2023) stellt fest, dass »das Sprachmodell, das ChatGPT zugrundeliegt, ist fundamental datenbasiert«. Damit ist der untrennbare Zusammenhang zwischen den Daten, die dem Modell zugrunde liegen, und seinem Output gemeint. Aber auch die Konsequenz, dass der Output unweigerlich Stereotype produzieren wird, die durch Mustererkennung entstanden sind.

Angesichts der Tatsache, dass Internetdaten personenbezogene Daten enthalten müssen, widmet z.B. OpenAI den Risiken für die Privatsphäre nur eine halbe Seite in der ChatGPT4-Systemkarte. OpenAI beginnt mit einem alten Irrtum: Nämlich, dass Internetdaten – mit Personenbezug – weil sie öffentlich zugänglich sind (»publicly available data sources«), von jedermann und für jeden Zweck genutzt werden können. Dass dem nicht so ist, hat die französische Datenschutzbehörde CNIL festgestellt (Fall ClearviewAI).

Zu den bereits angesprochenen datenschutzrechtlichen Fragen der Verantwortlichkeit und Zweckbindung kommt bei KI-Trainingsdatensätzen die Zulässigkeit der Verarbeitung personenbezogener Daten nach Art. 6 DSGVO hinzu. Es ist jedoch auf ein wesentliches Element des Datenschutzrechts hinzuweisen: Die Eingriffsmöglichkeit des Betroffenen (Art. 12ff DSGVO). Wenn KI-Modelle mit Daten aus dem Internet erstellt werden und ihr Output untrennbar mit diesen Daten verbunden ist, ist es sicher, dass darin enthaltene Daten veraltet, unrichtig und unvollständig sind. Angesichts eines arbeitsteiligen Entstehungsprozesses müssen Wege gefunden werden, die Rechte der Betroffenen durchzusetzen.

6. Algorithmische Unfairness, Breitenwirkung und Handlungsfreiheit

»Alles ist missbrauchsanfällig« (Habeck, 2023). Mit diesem Satz plädierte der Bundeswirtschaftsminister für eine Selbstregulierung von von KI-Grundtechnologie. Doch diese Aussage greift zu kurz. Das Risiko durch algorithmische Systeme liegt nicht nur in der missbräuchlichen, also bewusst schädlichen Anwendung. Vielmehr reicht schon Nachlässigkeit aus. So ist beispielsweise hinreichend belegt, dass biometrische Erkennungstechnologien (wie auch andere KI-Technologien) prinzipiell auch falsch-positive Ergebnisse produzieren können. Die Folge davon kann eine Aneinanderreihung von ungerechtfertigten Handlungen, die Menschen als ungerecht, entwürdigend etc. empfinden.

Eine US-Apothekenkette musste auf Anordnung der Federal Trade Commission die biometrische Echtzeit-Überwachung ihrer Filialen einstellen. Jahrelang hatte das System beim Abgleich der Bilder von Überwachungskameras in den Filialen mit einer internen Bilddatenbank eklatante Fehlalarme produziert – verschärft durch qualitativ unzureichende Bilddaten. Falschmeldungen über vermeintliche Ladendiebe hatten dazu geführt, dass Menschen vom Filialpersonal zu Unrecht beschuldigt, durchsucht oder des Geschäftes verwiesen wurden – ohne dass sie notwendige Medikamente kaufen konnten. Das Unternehmen hatte die Möglichkeit falsch-positiver Meldungen nicht einmal in Betracht gezogen. Die einzigen möglichen negativen Auswirkungen, die das Unternehmen nach einer Pilotphase identifizierte, waren »Medienaufmerksamkeit und Kundenakzeptanz«. Nach europäischen Datenschutzstandards würde das Unternehmen beim Einsatz von Überwachungs-KI an mehreren Punkten scheitern. Insbesondere an Art. Art. 5 DSGVO und ganz klar am Begriff der »Fairness« (Art. 5 (1) lit. a DSGVO) in der englischen Fassung der Verordnung.

Die Erkenntnisse sind jedoch auf andere datenbasierte KI-Systeme übertragbar. Selbst unter optimalen Bedingungen – die in der Realität selten gegeben sind – werden biometrische Erkennungstechnologien (wie auch andere KI-Technologien) falsch-positive Ergebnisse produzieren.

Im Gegensatz zu vorurteilsbehafteten Entscheidungen einzelner Menschen besteht bei algorithmischen Systemen aber die Gefahr, dass der einem System inhärente Effekt über eine skalenmäßig große Anwendung des Systems eine Breitenwirkung entfaltet, die einzelne menschliche Entscheider nie erreichen könnten.

Quelle: Datenethikkommission der Bundesregierung. (2023, 2. November). Gutachten der Datenethikkommission. Bundesministerium Des Innern und für Heimat.

Diese können nur optimiert, nicht aber minimiert werden. Das Kernproblem ist immer die Breitenwirkung einer Technologie – selbst kleinste Fehlerquoten können die Grundrechte vieler Menschen betreffen.

Wenn ein Mensch die Entscheidung nicht mehr selbst mit Argumenten begründen kann, sondern sich auf den Output eines Computers verlässt, verschwimmt die Grenze zwischen menschlicher und algorithmischer Entscheidungsfindung. (Vieth et al. 2017, S. 12)

Quelle: Kolleck, A. & Orwat, C. (2020). Mögliche Diskriminierung durch algorithmische Entscheidungssysteme und maschinelles Lernen – ein Überblick. Büro für Technikfolgen-Abschätzung Beim Deutschen Bundestag (TAB).

Hier zeigt sich ein Phänomen. Nämlich, dass Menschen ihre Handlungsfreiheit an ein technisches System abgeben. In unserem Beispiel wurde beim Betreten einer Apothekenfiliale bei einer Kundin mit schwarzer Hauptfarbe eine falsch-positive Meldung ausgelöst. Das Ladenpersonal rief die Polizei, obwohl das interne Bild eine blonde, weiße Frau zeigte. Dieses Phänomen macht den gut gemeinten Schutz des Art. 22 DSGVO wenig praxistauglich, der eine menschliche Entscheidung als letzte Instanz sieht. Für die Anwendbarkeit des Art. 22 DSGVO müsste die Entscheidung allein von einer Maschine getroffen werden – wer trifft in unserem Beispiel die Entscheidung, Mensch oder Maschine?

Unterstütze den Blog mit einem Dauerauftrag!

Unabhängig. Kritisch. Informativ. Praxisnah. Verständlich.

Die Arbeit von kuketz-blog.de wird vollständig durch Spenden unserer Leserschaft finanziert. Sei Teil unserer Community und unterstütze unsere Arbeit mit einer Spende.

Mitmachen ➡

7. Diskriminierung, Bias und Ersatzdaten

Der Begriff der Diskriminierung ist ausreichend bestimmt. Nach allgemeinem Verständnis geht es um mögliche nachteilige Folgen einer Handlung und damit um eine ungerechtfertigte Ungleichbehandlung. Weiterführende Unterscheidungen finden sich hier.

Diskriminierung ist folglich eine soziale Praxis, die den Zugang zu bestimmten materiellen wie immateriellen Gütern anhand von (vermeintlichen) Gruppenzugehörigkeiten beschränkt. Dabei dient die Abweichung vom jeweils angenommenen Normalfall als Unterscheidungsmerkmal und damit Diskriminierungsanlass.

Quelle: Kolleck, A. & Orwat, C. (2020). Mögliche Diskriminierung durch algorithmische Entscheidungssysteme und maschinelles Lernen – ein Überblick. Büro für Technikfolgen-Abschätzung Beim Deutschen Bundestag (TAB).

Wir haben bereits festgestellt, dass z.B. generative KI (z.B. Sprachmodelle) Stereotypen oder den »Normalfall« produzieren. Datenbasierte KI-Systeme »[…] »sehen« also in einem gewissen Sinn nur die Masse und nicht das Individuum« (Lopez, 2021). Eine grundsätzliche Konsequenz: Die realen Lebensbedingungen der Menschen können nicht abgebildet werden.

Im Kontext von Informationstechnik sieht Hagendorff (2019a, S. 55) eine negative soziale Diskriminierung als gegeben an, »wenn die aus Datenverwertungsverfahren heraus entstehenden Differenzierungen als ungerecht angesehen werden und Handlungsentscheidungen an Persönlichkeitsmerkmalen orientiert werden, welche in keinem relevanten Zusammenhang mit jener Entscheidung stehen« (Hagendorff 2019a, S. 55).

Quelle: Kolleck, A. & Orwat, C. (2020). Mögliche Diskriminierung durch algorithmische Entscheidungssysteme und maschinelles Lernen – ein Überblick. Büro für Technikfolgen-Abschätzung Beim Deutschen Bundestag (TAB).

Diskriminierung wird rechtlich im Zusammenhang mit geschützten Merkmalen definiert, d.h. ein bestimmtes Merkmal ist der Grund für eine ungerechtfertigte Ungleichbehandlung. Grundlegende Merkmale sind in § 1 des Allgemeinen Gleichbehandlungsgesetzes (AGG) aufgeführt.

  • Alter,
  • Behinderung,
  • ethnischen Herkunft & »Rasse«,
  • Geschlecht,
  • Religion oder Weltanschauung,
  • sexuelle Identität.

In ErwG 71 DSGVO und Artikel 9 DSGVO finden sich übereinstimmende und zusätzliche Merkmale:

  • Gewerkschaftszugehörigkeit,
  • politische Meinung,
  • genetische Daten, Gesundheitsdaten,
  • biometrische Daten.

Weitere Informationen finden sich hier. Von der Diskriminierung ist das Bias zu »unterscheiden«. Diskriminierung ist ein juristisch präziser Begriff, während Bias nicht so klar definiert ist. Bias in algorithmischen Systemen können Benachteiligungen, Vorurteile, die Vernachlässigung bestimmter sozialer Gruppen, aber auch »Ungerechtigkeit« sein – meist sind die betroffenen Menschen bereits benachteiligt. Der Übergang von Bias zur Diskriminierung ist fließend. Es gibt mehrere Arten von Bias. Das Beispiel der US-Apothekenkette könnte als Bias durch ungenaue, variierende Treffsicherheit Lopez (2023) bezeichnet werden. 

Trotz hoher Datenschutzstandards müssen wir bei der Suche nach spektakulären Fällen algorithmischer Diskriminierung nicht über den Atlantik schauen. Eine häufige und unvermeidbare Form von Bias und Diskriminierung ist die statistische Diskriminierung. Problematisch für die rechtliche Einordnung ist, dass im Zusammenhang mit statistischer Diskriminierung / Bias häufig Ersatzdaten verwendet werden. Mit anderen Worten: Da kein geschütztes Merkmal verwendet wird, kann rechtlich zunächst nicht von Diskriminierung gesprochen werden. Ein Beispiel (mit mehreren Überschneidungen von Bias und Diskriminierung) aus den Niederlanden ist die Kindergeldaffäre (2021) – unter anderem berechnete ein Algorithmus Risikowerte für möglichen Sozialbetrug beim Kindergeld. Der Algorithmus wurde mit historischen Daten von positiven und negativen Fällen gefüttert. Man glaubte fälschlicherweise, die Maschine mit diesen Daten in die Lage versetzt zu haben, Betrug von Nichtbetrug zu unterscheiden – in Wirklichkeit handelte es sich um Daten von erfolgreichen oder erfolglosen Kontrollen. D.h. das Bias wurde durch korrekte Daten verursacht. Das erkannte Muster verfestigte sich zu einem ethnischen Diskriminierungsmerkmal in Form eines erhöhten Risikowertes für Personen mit doppelter Staatsangehörigkeit oder »Nicht-Niederländer«.

Sie [Anm. Autor: Betrugsrisikosysteme] erkennen nicht tatsächlich Betrug […], sondern leiten lediglich das Risiko eines solchen Verhaltens aus Daten über vergangenes Verhalten ab. Unerwartetes Verhalten, falsche Assoziationen oder ungerechtfertigte Annahmen führen oft zu einem verzerrten Bild der Realität. Es besteht ein erhebliches Risiko der Diskriminierung, […].

Quelle: Dutch Data Protection Authority, Department for the Coordination of Algorithmic Oversight. (2023). Algorithmic Risks Report Netherlands. Abgerufen am 26. Februar 2024.

Die niederländische DPA kam zu dem Ergebnis, dass u.a. keine ausreichende Rechtsgrundlage für die Datenverarbeitung vorlag (Verstoß gegen Art. 5 (1) lit. a) DSGVO i.V.m Art. 6 (1) DSGVO) und das Erfordernis der Zweckbindung gemäß Art. 5 (1) lit. b) DSGVO nicht erfüllt war).

Ein weiteres in den Niederlanden eingesetztes Betrugsrisikosystem namens »SyRI« hatte bereits 2019 die Aufmerksamkeit des UN-Sonderberichterstatters für Menschenrechte erregt. Das KI-System nutzte unter anderem das Ersatzdatum Wasserverbrauch. Alleinlebende Leistungsempfänger erhalten im niederländischen Sozialsystem eine höhere Leistung. War der Wasserverbrauch höher als »normal«, wertete das System dies als Risikoindikator – der Leitungsempfänger wurde verdächtigt, mit jemandem zusammenzuleben. Im Fall von »SyRI« entschied (2020) ein niederländisches Gericht, dass die Gesetzgebung zu dessen Einsatz gegen Artikel 8 (2) der Europäischen Menschenrechtskonvention verstoße und das Recht auf Achtung des Privat- und Familienlebens verletze.

Und hier schließt sich der Kreis zu unserer einleitenden Feststellung (Punkt 1), dass Technologien, die personenbezogene Daten verarbeiten, immer auch Grundrechte berühren. Individuelle Lebenswirklichkeiten verschwinden gleichsam in den stereotypisierenden Mustern datenbasierter Algorithmen. KI-Systeme aber produzieren Entscheidungen für menschliche Lebenswirklichkeiten – der Code wird zum Gesetz. Der Grundkonflikt besteht also darin, dass beispielsweise das übergeordnete und hart erkämpfte Grundrechtsprinzip der individuellen Menschenwürde in einer Maschine und ihrer Struktur nicht existieren kann. Menschenwürde ist kein mathematischer Wert, keine Gleichung, keine binäre Information, sondern Gegenstand eines ständigen zwischenmenschlichen und damit gesellschaftlichen Aushandlungsprozesses. Der KI-Hype zeigt: Der Konflikt zwischen Technik und Grundrechten ist menschengemacht. Und damit auch von Menschen lösbar. Diese Erkenntnis macht Mut.

Über den Autor | Gastbeitrag

Gastbeiträge werden von Autoren verfasst, die nicht zum festen Redaktionsteam des Kuketz-Blogs gehören. Bevor ein Gastbeitrag veröffentlicht wird, findet eine inhaltliche Abstimmung mit mir statt. Dabei übernehme ich die redaktionelle Bearbeitung des Textes, prüfe den Inhalt und bereite den Beitrag sorgfältig für die Veröffentlichung im Blog vor.

Gastbeitrag ➡

SpendeUnterstützen

Die Arbeit von kuketz-blog.de wird zu 100% durch Spenden unserer Leserinnen und Leser finanziert. Werde Teil dieser Community und unterstütze auch du unsere Arbeit mit deiner Spende.

Folge dem Blog

Wenn du über aktuelle Beiträge informiert werden möchtest, hast du verschiedene Möglichkeiten, dem Blog zu folgen:

Bleib aktuell ➡


Diskussion

Ich freue mich auf Deine Beteiligung zum Artikel

HilfeWenn du Ergänzungen oder konkrete Fragen zum Beitrag hast, besuche das offizielle Forum. Dort kann der Beitrag diskutiert werden. Oder besuche den Chat, um dein Anliegen zu besprechen. zur Diskussion ➡

Abschließender Hinweis

Blog-Beiträge erheben nicht den Anspruch auf ständige Aktualität und Richtigkeit wie Lexikoneinträge (z.B. Wikipedia), sondern beziehen sich wie Zeitungsartikel auf den Informationsstand zum Zeitpunkt des Redaktionsschlusses.

Kritik, Anregungen oder Korrekturvorschläge zu den Beiträgen nehme ich gerne per E-Mail entgegen.