Transformer-Modelle wie GPT-3 haben in den letzten Jahren die KI-Welt nachhaltig verändert. Doch wie passen ihre beeindruckenden Generalisierungsleistungen zum bekannten No-Free-Lunch-Theorem, laut dem kein Modell alle Aufgaben gleichzeitig gut lösen kann?
In meiner Masterarbeit habe ich untersucht, wie architektonische Induktionsverzerrungen – also strukturelle Vorannahmen in der Architektur – in sogenannten decoder-only Transformern entstehen. Das überraschende Ergebnis: Bereits untrainierte Modelle erzeugen bevorzugt einfache, komprimierbare Ausgaben. Dieses Verhalten wird als Simplicity Bias bezeichnet. In diesem Artikel gehe ich der Frage nach: Woher kommen diese Biases in Transformer-Modellen? Und vor allem: Wie viel davon steckt bereits in der Architektur selbst – bevor überhaupt das Modell trainiert wurde?
Architektur als Quelle des induktiven Bias
Transformer-Modelle revolutionierten NLP mit ihrer Fähigkeit, lange Abhängigkeiten durch sogenannte Self-Attention effizient zu modellieren. Doch die entscheidende Erkenntnis meiner Arbeit ist: Schon ein zufällig initialisierter Transformer bringt strukturelle Vorannahmen mit.
Inspiriert von Theorien rund um Kolmogorov-Komplexität und dem Solomonoff-Prior, habe ich untersucht, ob Transformer-Architekturen verschiedener Größen per se eine Präferenz für einfache, komprimierbare Ausgaben zeigen – ein Phänomen, das als Simplicity Bias bezeichnet wird.
Was ist Simplicity Bias?
Ein Modell zeigt Simplicity Bias, wenn es tendenziell einfache, also strukturell beschreibbare und komprimierbare Outputs generiert. Dies lässt sich formal über eine Approximation der Kolmogorov-Komplexität eines Outputs messen: Die kürzeste Beschreibung (z. B. als Programm oder Regel) bestimmt, wie „einfach“ ein Output ist. Ein Output wie 000000000000 ist zum Beispiel einfacher als 010010011101.
Wenn ein Modell ohne Training Outputs mit niedriger Komplexität erzeugt, deutet das auf eine architektonisch verankerte Vorannahme hin – vergleichbar mit einem „eingebauten Occam’s Razor“.
Das Experiment: Komplexität generierter Outputs messen
Um diesen Bias sichtbar zu machen, habe ich Decoder-only Transformer (GPT-ähnliche Modelle) mit zufälligen Gewichten generieren lassen – ganz ohne Training, Daten oder Loss-Funktion. Die Modelle sollten lediglich binäre Sequenzen erzeugen, z. B. 011010 …
Diese Sequenzen wurden anschließend mithilfe von Kompressionsalgorithmen (z. B. gzip) analysiert. Die zentrale Annahme: Je komprimierbarer ein Output, desto geringer ist seine Kolmogorov-Komplexität.
Die Generierung erfolgte per argmax Sampling, d. h. das Modell wählte zu jedem Schritt stets den wahrscheinlichsten nächsten Token. Diese deterministische Strategie verstärkt den Effekt der architektonischen Verzerrung: Wenn unterschiedliche Eingaben zu ähnlichen internen Repräsentationen führen (z. B. durch Clustering in tiefen Modellen), dann produzieren sie auch identische oder sehr ähnliche Ausgaben. Gerade bei argmax Sampling führt das schnell zu Repetition und strukturell einfachen Sequenzen – ein klarer Indikator für Simplicity Bias.
Ergebnisse auf einen Blick
- Tiefere Modelle erzeugen einfachere Outputs:
Mit wachsender Tiefe der Transformer-Architektur sinkt die durchschnittliche Komplexität der generierten Sequenzen. Das bedeutet: Mehr Layer ⇒ mehr Struktur. - Höhere Embedding-Dimension erhöht Diversität:
Wenn die Anzahl der Dimensionen im Embedding-Space zunimmt, werden die Outputs komplexer und weniger gut komprimierbar. Das legt nahe: Mehr Dimensionen ⇒ mehr Varianz. - Clustering durch Architektur-Mechanismen:
Die Ausgaben tiefer Transformer zeigen eine zunehmende Konvergenz der Token-Repräsentationen, d. h. sie bewegen sich geometrisch auf eng beieinanderliegende Richtungen zu. Dieses Clustering-Verhalten entsteht durch das Zusammenspiel mehrerer architektonischer Elemente – insbesondere der Self-Attention, den residualen Verbindungen und der kumulativen Wirkung über viele Layer hinweg. Durch diese Strukturähnlichkeit im Repräsentationsraum verringert sich die Vielfalt der Ausgaben, was wesentlich zum beobachteten Simplicity Bias beiträgt.
Warum ist das relevant?
Diese Ergebnisse belegen, dass die Architektur allein – ohne Daten oder Training – bereits eine starke Vorstrukturierung der möglichen Outputs erzeugt. Das hat weitreichende Implikationen:
- Generalisation durch Architektur:
Die Fähigkeit von LLMs, neue Aufgaben zu lösen, könnte zu einem großen Teil aus ihrer strukturellen Tendenz zu einfachen Lösungen resultieren – nicht nur aus Pretraining auf riesigen Datenmengen. - Designentscheidungen werden bias-relevant:
Modellparameter wie Tiefe und Embedding-Dimension sind nicht nur technische Details, sondern beeinflussen aktiv die Art der Outputs und damit auch das Lernverhalten. - Verständnis für emergente Fähigkeiten:
Die Tatsache, dass untrainierte Modelle bereits strukturierte Ausgaben erzeugen, könnte eine Grundlage für emergente Fähigkeiten großer LLMs liefern.
Ausblick: Architektur verstehen, nicht nur trainieren
Die zentrale Botschaft meiner Arbeit lautet:
Die Transformer-Architektur ist nicht neutral. Sie bringt einen eigenen induktiven Bias mit – und dieser Bias prägt, was das Modell ohne Training schon „denkt“.
In Zukunft könnten diese Erkenntnisse genutzt werden, um gezielt Modelle zu bauen, die bestimmte Biases fördern oder vermeiden – etwa in Richtung Diversität, Stabilität oder Erklärbarkeit.
Hinweis zur Veröffentlichung: Abschlussdatum 1. Juni 2025 – Thema ist aktuell durch Diskussion um Simplicity Bias und strukturelle Modellverzerrung.