Social Bias in großen KI-Modellen und wie man damit umgeht

Dieser Artikel zeigt auf, wie sich Bias in Natural Language Generation (NLG) durch große Sprachmodelle wie GPT-2 und GPT-3 nachweisen lässt und ob bzw. wie man Bias in vortrainierten Modellen abschwächen kann.

Große Sprachmodelle wie GPT-2 oder GPT-3 sind im Trend, denn sie können fließende Texte generieren, die wie vom Menschen verfasst wirken. Groß sind diese Modelle da sie viele Parameter haben und auf Basis vieler Daten trainiert werden. Bei Modellen wie GPT-2 oder GPT-3 sprechen wir über 774 Millionen, respektive 175 Milliarden Modellparameter und 40 GB bzw. 45 TB aus dem Internet gescrapter Textdaten. Für das Training von GPT-2 wurden diese Daten von Reddit und darin verlinkten Webseiten gesammelt. Die Reddit-Nutzerschaft besteht jedoch vor allen Dingen aus weißen Männern zwischen 18 und 29, sodass man von einem Sampling Bias sprechen kann: die Interessen und Ansichten, die auf Reddit kommuniziert werden, repräsentieren nicht die Gesamtgesellschaft, sondern nur eine ausgewählte Gruppe. Ähnliches kann man auch bei Datenbasen anderer KI-Modelle beobachten (siehe z. B. Dodge et al., 2021, Birhane et al., 2021). Ihre Inhalte umfassen auch ungewollte rassistische, sexistische oder homophobe Vorurteile, die den großen KI-Modellen nicht entgehen. In der Folge kann gezeigt werden, dass sie nachweislich beispielsweise rassistische, homophobe (Sheng et al., 2020) oder religiöse Stereotype (Abid et al., 2021) aufgreifen und reproduzieren. Die Ergebnisse meiner Masterarbeit zeigen u. a., dass GPT-2 (in deutscher Variante) und GPT-3 Frauen wesentlich häufiger sexualisieren oder in einem häuslichen Fürsorge-Kontext darstellen als Männer.

In diesem Blogpost möchte ich anhand des Vorgehens und der Ergebnisse meiner Masterarbeit folgende Dinge zeigen:

Wie sich Bias in Natural Language Generation (NLG) nachweisen lässt
Ob und wie man Bias mitigieren, also in vortrainierten Modellen abschwächen kann

Der Einsatz von KI etabliert sich in unserer Gesellschaft zunehmend. Damit vermehren sich auch die Interaktionsschnittstellen zwischen KI und Mensch. Umso dringender müssen sich Entwickler:innen und Forscher:innen ihrer sozialen Verantwortung stellen – soziale Vorurteile sind nur eins von vielen Themen, die hierzu in den Fokus rücken müssen. Vorab möchte ich schon darauf hinweisen, dass die Ursache für diese Vorurteile vor allen Dingen in den Daten liegt, die den KI-Modellen zugrunde liegen. Die eigentliche Lösung wären sorgfältiger kuratierte Daten. Aufgrund des enormen zeitlichen und finanziellen Aufwands ist dies jedoch kaum vereinbar mit dem Trend hin zu immer größer werdenden Modellen mit höherem Datenbedarf (siehe Bender et al., 2021). Hier muss es langfristig ein Umdenken geben. Kleinere und effizientere Modelle sind auch aus ökologischen Gründen ein hoffnungsvoller Forschungszweig (siehe z. B. https://huggingface.co/blog/large-language-models).

Bias Quantifizieren

Die Forschung zu Fairness und Bias in der englischen Textgenerierung hat bereits einige Methoden hervorgebracht, um soziale Vorurteile (Social Bias) quantifizierbar zu machen. Dies lässt sich beispielsweise durch „Valenz-basierte“ Classifier erreichen. Damit meine ich z. B. Sentiment Classifier, welche die Stimmung in einem Satz erkennen, oder Classifier für Toxizität. In meiner Masterarbeit habe ich ein neueres Konzept namens Regard untersucht (Sheng et al., 2019).

Das Konzept Regard

Mit Regard ist die „Achtung“ vor einer Person gemeint, die durch eine Beschreibung dieser Person vermittelt wird. „Die Person war bekannt dafür, dass sie mit ihren Büchern anderen Menschen die Augen öffnete“ ist ein Beispiel für einen Satz mit positivem Regard, da wir auf Basis dieser Beschreibung eher positiv über die Person denken. „Die Person arbeitete als Verkäuferin.“ vermittelt ein neutrales Bild über die Person (neutraler Regard). Der Satz „Die Person wurde betrachtet als wäre sie ein Stück Müll.“ hat zur Folge, dass wir negativ über die Person denken (negativer Regard).

Drei Sprechblasen mit positiven, negativen und neutralen Aussagen über eine Person.

Datensammlung und Entwicklung eines Regard Classifiers

Für das Training des Classifiers habe ich einen eigenen Datensatz über eine webbasierte Umfrage erhoben. Dem oben beschriebenen Regard-Konzept folgend, sollten die Teilnehmenden Personenbeschreibungen erfinden, die eine Person in ein negatives, neutrales oder positives Licht stellen. Jede Beschreibung beginnt mit den Worten „Die Person“ und umfasst einen Satz. Auf diese Weise wurden ca. 1.000 individuelle deutsche Sätze gesammelt.

Fünf unabhängige Annotator:innen wurden dann darum gebeten, alle Sätze nochmals danach zu beurteilen, ob sie die Person negativ, neutral oder positiv dastehen lassen. Die originale Zuweisung wurde natürlich geheim gehalten. Ein Mehrheitsvotum der fünf unterschiedlichen Ratings wurde dann als Goldstandard genutzt. Mithilfe dieser Daten wurde ein Regard Classifier trainiert. Hierzu habe ich mit unterschiedlichen Embeddings (FastText und SentenceBERT) und Classifier-Ansätzen (Gradient Boosted Trees, Gated Recurrent Units und Transformer) experimentiert.

Das beste und finale Modell basiert auf einer multilingualen Version von SentenceBERT. Das ist ein Transformer-basierter Sprach-Enkodierer, der sich besonders für die Repräsentation von Sätzen eignet. BERT-basierte vortrainierte Sprachmodelle bringen sehr viel kontextuelles Vorwissen mit, sodass Begriffe wie z. B. „Menschenrechte“ bereits eine positive Konnotation mit sich bringen. Der Classifier kann den Regard auf den Testdaten mit einer Wahrscheinlichkeit von 78 % vorhersagen, was vergleichbar mit dem englischen Original ist.

Messung von Regard

Der Regard Classifier wurde eingesetzt, um große Mengen generierter Beschreibungen über z. B. Männer und Frauen zu klassifizieren. Der Vergleich der Proportionen von positiven, neutralen und negativen Beschreibungen pro Geschlecht ist schließlich ein direkter Indikator dafür, ob das generierende Sprachmodell einen Bias hat. Werden zum Beispiel mehr positive Beschreibungen über Männer verfasst als über Frauen, können wir folgern, dass das Modell einen Bias zugunsten von Männern reproduziert. In anderen Worten ausgedrückt, hieße es, dass das Modell im Anwendungskontext männliche Subjekte in ein besseres Licht rückt.

Ich habe mit GerPT-2 ca. 1.000 und mit GPT-3 ca. 200 Sätze pro Geschlecht generiert (denn die Nutzung von GPT-3 ist kostenpflichtig), um deren Regard zu klassifizieren. Für die Generierung muss man den Modellen Satzanfänge als Eingabe geben – sogenannte Prompts. Diese bestanden in meiner Arbeit immer aus einer demografischen Nennung („Die Frau“ oder „Der Mann“) sowie einem der Bias-Kontexte aus der folgenden Tabelle. Es gab also zehn unterschiedliche Prompts pro Geschlecht. Auch hier orientierte sich das Vorgehen an Sheng et al. (2019).

Satzteile vom Deutschen ins Englische übersetzt und eingeordnet in ihren Bias Kontext — Bias Contexts angelegt an Sheng et al. (2019) und ins Deutsche übersetzt.

Wie die Ergebnisse hier in den Balkendiagrammen zeigen, hat GerPT-2 mehr positive Äußerungen über Frauen generiert und weniger positive über Männer. Für GPT-3 wurden keine signifikanten Gruppenunterschiede gefunden.

Drei Balkendiagramme mit der Verteilung des Regard Scores pro Geschlecht — Verteilung der Regard Scores pro Geschlecht für GerPT-2. (F = “Die Frau“, M = “Der Mann“)

Negativer versus positiver Sexismus

Um ein besseres Bild von den generierten Texten und assoziierten Labels zu bekommen, habe ich die Daten zusätzlich qualitativ analysiert. Ich habe drei Facetten von Gender Bias identifiziert:

Sexualization Bias: Frauen öfter sexualisiert oder mit Prostitution in Verbindung gebracht
Caregiver Bias: Frauen öfter als Hausfrauen und Mütter dargestellt
Perpetrator Bias: Männer öfter als Täter und Kriminelle dargestellt

Diese Facetten korrespondieren mit der Theorie des Ambivalenten Sexismus, die zwischen positivem und negativem Sexismus unterscheidet. Letzterer entspricht der intuitiven Definition von Sexismus als Abwertung und Objektifizierung von Frauen. Der positive Sexismus hingegen äußert sich darin, dass Frauen oftmals als per se einfühlsam, fürsorglich und häuslich beschrieben werden. Subjektiv gesehen sind solche Attribute weitestgehend positiv gemeint. Indem sie aber in vornehmlich sozialer oder gar mütterlicher Rolle dargestellt werden, werden Frauen auch implizit als dem Mann untergeordnet und materiell von ihm abhängig charakterisiert. Während der beobachtete Sexualization Bias eher mit dem negativen Sexismus korrespondiert, korrespondiert der Caregiver Bias mit positivem Sexismus.

Um meine Beobachtungen mit Zahlen zu untermauern, habe ich ein Keyword-Matching durchgeführt. Dazu habe ich die Daten gesichtet, Begriffe ausgewählt, die für die entsprechenden Facetten bezeichnend sind (z. B. „Terrorist“ für Perpetrator-Inhalte) und pro Facette ein Lexikon erstellt. Die folgenden Diagramme zeigen, dass beide Modelle diese Biases aufweisen.

Zwei Balkendiagramme zu der relativen Anzahl der Keyword-Matches pro Geschlecht in den Sprachmodellen GerPT-2 und GPT-3. — Relative Anzahl der Keyword-Matches pro Geschlecht für GerPT-2 und GPT-3. (F = “Die Frau“, M = “Der Mann“)

Assoziation von geschlechtsstereotypischen Berufen

Zusätzlich habe ich auch die am häufigsten genannten Berufe pro Geschlecht gezählt und geplottet, um das Vorhandensein von Berufsstereotypen zu prüfen. Wie die folgenden Plots zeigen, sieht GerPT-2 Frauen und Männer in unterschiedlichen Berufsarten: Frauen haben eher zuarbeitende und Pflege- oder Fürsorge-assoziierte Berufe. Männer dagegen werden in handwerklichen Berufen verortet. Dass Krankenschwester und Arzt auf einer Ebene sind, ist ein bezeichnender Zufall.

Zwei Balkendiagramme zu der Relativen Anzahl der Top-10 Berufsbezeichnung in den von GerPT-2 generierten Texten pro Geschlecht. — Relative Anzahl der Top-10 Berufsbezeichnung in den von GerPT-2 generierten Texten pro Geschlecht.

Bias Mitigieren

Es wird aktuell an verschiedenen Ansätzen geforscht, um das Auftreten von Social Bias zu vermindern. In meiner Masterarbeit habe ich mit einem Verfahren experimentiert, das man auf trainierte Modelle zur Textgenerierung anwenden kann. Die sogenannten Bias Mitigation Trigger (Sheng et al., 2020) basieren auf dem Adversarial Trigger-Verfahren (Wallace et al., 2019; aus der Welt der Adversarial Attacks). Ein Trigger besteht aus einer Reihe von Token; im Falle von GPT-2 sind diese Token Subwörter. Der Trigger ergibt sich aus einer Gradienten-basierten Suche auf den Modellgewichten, sodass er am Ende ein vordefiniertes Ziel erfüllt. In dieser Arbeit wird ein Trigger gesucht, der dazu führt, dass mehr Texte mit positivem Regard generiert werden und weniger Texte mit negativem. Hierzu wird er einem Prompt vorangestellt und manipuliert dann die Richtung der generierten Ausgabe:

Textboxen mit Satzteilen

Gefundene Trigger können unabhängig vom Eingabetext wiederverwendet werden und lassen sich zum Teil auch auf andere Modelle übertragen. In meiner Arbeit habe ich zum Beispiel die Übertragbarkeit von GPT-2 auf das wesentlich höher parametrisierte GPT-3 untersucht. Der von mir gefundene Trigger lautet: „Aschenkeller KemptenGuten Kaufmann Vielfältigkeit“.

Effekte des Triggers auf Regard

Das nachfolgende Diagramm zeigt, dass der zuvor signifikante Gruppenunterschied unter Einsatz des Triggers verschwindet und positiver Regard generell häufiger vorkommt.

Drei Balkendiagramme zur Verteilung der Regard Scores pro Geschlecht nach Einsatz des Bias Mitigation Triggers für GerPT-2 — Verteilung der Regard Scores pro Geschlecht nach Einsatz des Bias Mitigation Triggers für GerPT-2. (F = “Die Frau“, M = “Der Mann“)

Bei GPT-3 hat sich der positive Regard ebenfalls für beide Geschlechter erhöht. Die Diagramme unten zeigen die Resultate für GPT-3 ohne und mit Trigger. Auch wenn es von vornherein keinen signifikanten Gruppenunterschied zu mitigieren gab, kann man ablesen, dass der Trigger seinen intendierten Effekt auf GPT-3 hat: negativer Regard wird unwahrscheinlicher und positiver wahrscheinlicher.

Balkendiagramme zur Verteilung der Regard Scores pro Geschlecht mit und Bias Mitigation Triggers für GPT-3 — Verteilung der Regard Scores pro Geschlecht mit und Bias Mitigation Triggers für GPT-3. (F = “Die Frau“, M = “Der Mann“)

Negativer Sexismus verschwindet aber positiver bleibt

Ein erneutes Keyword-Matching zeigt, dass der negativ konnotierte Sexismus verschwindet, aber der positive Caregiver Bias bleibt. Das ist keine Überraschung, da der Mitigierungsansatz ja nur via Regard-Valenz definiert ist. Die Ergebnisse hier zeigen, dass eine so eindimensionale Betrachtung im Zweifel dazu führen kann, dass bestimmte Biases überdeckt werden. Wäre die Theorie-geleitete qualitative Analyse ausgeblieben, wäre das Fazit gewesen, dass Bias in GerPT-2 zugunsten der Frauen ausfällt. Eine wichtige Lehre der Masterarbeit ist also, dass der Umgang mit sozialen Vorurteilen in KI-Modellen – sei es die Messung oder der Versuch einer Mitigierung – immer sozialwissenschaftlich fundiert und multidimensional sein sollte.

Balkendiagramme zum negativen und positiven Sexismus pro Geschlecht nach Einsatz der Bias Mitigation Trigger. — Negativer und positiver Sexismus pro Geschlecht nach Einsatz der Bias Mitigation Trigger. (F = “Die Frau“, M = “Der Mann“)

Problematischer Content Shift

Eine weiterer Zufallsbefund zeigt, dass die Nutzung der Trigger eine unerwünschte thematische Einfärbung zur Folge hat. Der oben genannte Trigger beinhaltet das Wort „Kaufmann“. Wie der folgende Plot zeigt, werden die Inhalte in diese Richtung verschoben, sodass plötzlich eine Vielzahl der Personenbeschreibungen kaufmännische Berufsbezeichnungen einschließen. Die berufsbezogenen Geschlechtsstereotypen sind noch erkennbar.

Zwei Balkendiagramme zur relativen Anzahl der Top-10 Berufsbezeichnung in den von GerPT-2 generierten Texten pro Geschlecht unter Verwendung des Bias Mitigation Triggers — Relative Anzahl der Top-10 Berufsbezeichnung in den von GerPT-2 generierten Texten pro Geschlecht unter Verwendung des Bias Mitigation Triggers.

Fazit

Große KI-Modelle, die für die Generierung von Text eingesetzt werden, modellieren und reproduzieren Geschlechtervorurteile. Die Analysen haben gezeigt, dass diese sowohl mit negativem als auch positivem Sexismus korrespondieren. Ein aussagekräftiges Bias-Maß muss mehrdimensional sein, um unterschiedliche Facetten von zum Beispiel Sexismus erkennbar zu machen. Forscher:innen und Entwickler:innen aus technologischen Fächern, die sich mit diesem Thema beschäftigen, sollten die Auseinandersetzung mit sozialwissenschaftlichen Konzepten nicht scheuen. Sie ermöglicht, sozial relevantere und auch aussagekräftigere Analysen zu erzielen.

Die Mitigierung von Bias ist vom zugrunde liegenden Maß und dem theoretischen Konzept abhängig. Das Regard-basierte Verfahren hat zwar negativen Regard reduziert und für einen Ausgleich zwischen Frau und Mann gesorgt, aber auch im positiven Regard fanden sich problematische Biases, die unberührt blieben.

Der Trigger-Ansatz ist attraktiv, da er auf bereits trainierte Modelle anwendbar ist und sogar vermutlich auf größere Modelle generalisiert. Die hier vorgestellte Arbeit gibt dazu zumindest erste Hinweise. Dennoch ist die Anwendbarkeit in echten Anwendungen in der aktuellen Form eher nicht gegeben. Die Trigger wirken nicht nur auf den Regard eines Satzes ein, sondern bringen auch eine thematische Verschiebung mit sich.

Messung und Mitigierung sind nicht trivial und es kann noch eine Weile dauern bis die Forschung gute Lösungen hervorgebracht hat. Bis dahin braucht es vor allen Dingen ein Umdenken im Fachbereich. Die Evaluation von Modellen muss zum Beispiel standardmäßig disaggregiert stattfinden, um eventuelle Biases früh zu entdecken und dokumentierbar zu machen (z. B. mithilfe von Model Cards; Mitchell et al., 2018). Datensätze, ihre Quellen und Annotator:innen-Demographien sollten ebenfalls transparent dokumentiert sein (siehe Datasheets for Datasets; Gebru et al., 2021) und die Inhalte idealerweise kuratiert.

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website
Zweck	Speichert die Einstellungen der Besucher, die in der Cookie Box von Borlabs Cookie ausgewählt wurden.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Cookie von Google für Website-Analysen. Erzeugt statistische Daten darüber, wie der Besucher die Website nutzt.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren
Name	Hotjar
Anbieter	Hotjar Ltd.
Zweck	Hotjar ist ein Analysewerkzeug für das Benutzerverhalten von Hotjar Ltd. Wir verwenden Hotjar, um zu verstehen, wie Benutzer mit unserer Website interagieren.
Datenschutzerklärung	https://www.hotjar.com/legal/policies/privacy/
Host(s)	*.hotjar.com
Cookie Name	_hjClosedSurveyInvites, _hjDonePolls, _hjMinimizedPolls, _hjDoneTestersWidgets, _hjIncludedInSample, _hjShownFeedbackMessage, _hjid, _hjRecordingLastActivity, hjTLDTest, _hjUserAttributesHash, _hjCachedUserAttributes, _hjLocalStorageTest, _hjptid
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren
Name	HubSpot
Anbieter	HubSpot Inc.
Zweck	HubSpot ist ein Verwaltungsdienst für Benutzerdatenbanken bereitgestellt von HubSpot, Inc. Wir nutzen HubSpot auf dieser Website für unsere Online Marketing-Aktivitäten.
Datenschutzerklärung	https://legal.hubspot.com/privacy-policy
Host(s)	*.hubspot.com, hubspot-avatars.s3.amazonaws.com, hubspot-realtime.ably.io, hubspot-rest.ably.io, js.hs-scripts.com
Cookie Name	__hs_opt_out, __hs_d_not_track, hs_ab_test, hs-messages-is-open, hs-messages-hide-welcome-message, __hstc, hubspotutk, __hssc, __hssrc, messagesUtk
Cookie Laufzeit	Sitzung / 30 Minuten / 1 Tag / 1 Jahr / 13 Monate

Akzeptieren
Name	Leadfeeder
Anbieter	Dealfront Group GmbH

Social Bias in großen KI-Modellen und wie man damit umgeht