Artikelbild erstellt mit DALL E2 und dem Prompt An abstract hero image that illustrates the concept of generative ai

Generative AI

Generative AI ist ein neues Feld in der Künstlichen Intelligenz. Mit unserem explorativen Ansatz helfen wir Ihnen, das Potenzial für Ihr Unternehmen abzuschätzen und umzusetzen.

(Das Header-Bild dieser Seite wurde mit DALL·E2 und dem Prompt „An abstract hero image that illustrates the concept of generative ai“ erstellt.)

Bei inovex beschäftigen wir uns ausführlich mit den Möglichkeiten, die Generative AI für Unternehmen bereithält. Zusammen mit Ihnen erarbeiten wir neue Anwendungsfälle, verifizieren mögliche Geschäftsmodelle und setzen sie gemeinsam in Projekten um.

Wir unterstützen Sie bei:

Machbarkeit

Haben Sie schon konkrete Ideen? Wir geben eine erste Machbarkeitsanalyse.

Product Discovery

Wir helfen Ihnen, im neuen Feld der Generative AI neue Produktideen zu entwickeln.

Proof of Concepts

Sobald erste Konzepte vorhanden sind, bauen wir Proof of Concepts als ersten Schritt zum neuen Produkt.

Weiterbildungen

Wir forschen und arbeiten an Generative AI und geben unser Wissen gerne an Sie weiter.

Was ist Generative AI?

GPT-3, DALL-E und Stable Diffusion versetzen die Nutzer:innen in die Lage, ihre Ideen sehr schnell zu iterieren und Designs zu konkretisieren. Durch Prompts – kurze Textanweisungen – erzeugt der Computer passende Texte, Bilder oder sogar Videos.

Im Hintergrund arbeiten generative Modelle. Die gibt es zwar schon lange, doch erst kürzlich hat die Qualität der erzeugten Daten einen großen Sprung gemacht. Der Durchbruch gelang bei textuellen Daten mit großen, Transformer-basierten Sprachmodellen wie BERT und GPT-3. Modelle für visuelle Daten zogen etwas später mit Diffusion Models wie DALL-E, Imagen und Stable Diffusion nach.

Einsatz von Generative AI für natürliche Sprache

Beim Prompting nutzen Sie Textanweisungen zum Steuern von generativen Sprachmodellen. So reicht eine kurze Anweisung, um einen Text von Deutsch nach Französisch zu übersetzen oder um das Sentiment eines Filmreviews zu bewerten. Im Gegensatz zur klassischen Herangehensweise mittels Finetuning ist dabei kein explizites Training auf dem jeweiligen Downstream-Task notwendig. Dies ermöglicht den Einsatz von Generativen Modellen auf Problemstellungen, für die nur wenige oder keine annotierten Textdaten zur Verfügung stehen.

Wie das geht, beschreiben Suteera Seeha in ihrem Blogpost zu Prompt Engineering und Pascal Fecht in seinen Vorträgen auf der data2day (PDF downloaden) und auf der AIxIA (PDF downloaden).

Wie man Bias in Sprachmodellen entgegenwirkt

Prompting kann außerdem dem Bias in vortrainierten Sprachmodellen entgegenwirken. Mittels sogenannter Bias Mitigation Trigger kann das Verhalten eines Modells gesteuert werden. In ihrem Blogpost befasst sich Angelie Kraft mit der Neutralisierung von geschlechtsspezifischen Berufsstereotypen in Generativen Modellen.

Mehr Kreativität mit Generative AI

Darüber hinaus haben generative Sprachmodelle als kreativitätsfördernde Werkzeuge einige Aufmerksamkeit erzeugt. Eines der populärsten Beispiele ist der Github Copilot. Dabei sollen Generative Modelle wie Codex (OpenAI) oder AlphaCode (DeepMind) Programmierer:innen die Arbeit erleichtern, indem sie aus Umschreibungen der Nutzer:innen funktionale Code-Fragmente erzeugen.

Auf Write With Transformers können Nutzer:innen spielerisch erfahren, wie es sich anfühlt, wenn Sprachmodelle die eigenen Sätze beenden. Auch hier zeigt sich die Vielseitigkeit der Generativen Modelle. Durch die Auswahl des vortrainierten Sprachmodells und der zugrunde liegenden Trainingsdomäne lässt sich die Textgenerierung in beliebige Richtungen steuern. Nach unserer Erfahrung stellt ein solcher Schwerpunkt einen wesentlichen Erfolgsfaktor beim Einsatz von Sprachmodellen dar. So lassen sich öffentlich-verfügbare Sprachmodelle für die Generierung von Texten nach Vorbild wissenschaftlicher Arbeiten aus der Medizin oder kurzer, prägnanter Neuigkeiten aus der Finanzbranche verwenden. Mittels Domänenadaption können diese Modelle auf das Vokabular und den Stil der eigenen Textdokumente angepasst werden. Mehr Informationen zum Domänenadaption auf Reviews, News, Social Media und wissenschaftlichen Arbeiten finden sich in diesem Blogpost.

inovex-Forschung im Bereich Generative AI

Um mit dem rasanten Entwicklungstempo von Sprachmodellen Schritt zu halten, beschäftigen wir uns mit dem Thema in einem internen Forschungsprojekt. Dabei steht auf der einen Seite das technische Verständnis relevanter Themen wie bspw. Prompting oder Domänen Adaption. Auf der anderen Seite widmen wir uns Fragestellungen, die sich mit dem effektiven Einsatz von großen Sprachmodellen unter verfügbaren Ressourcen und MLOps auseinandersetzen.

Schriftzug und Zeichnung eines Papageis (Parrot).

DALL-E, Stable Diffusion und Co.: Generative AI für visuelle Daten

Aktuelle Modelle wie DALL-E (OpenAI), Imagen (Google), Stable Diffusion (Stability.Ai) und Midjourney basieren alle auf der gleichen Technologie: Diffusion Models. Grundlage dieser Methode ist es, Daten in vielen kleinen Schritten zu zerstören, beziehungsweise in weißes Rauschen zu überführen. Diffusion Models lernen, diese Schritte rückgängig zu machen und somit Daten in vielen kleinen Schritten aus Rauschen zu „rekonstruieren“. Um mit dieser Methode ein Bild zu erzeugen, gehen sie vor wie ein Bildhauer: Ausgehend von Gauß’schem Rauschen wird nach und nach alles Überflüssiges entfernt, bis ein Bild erscheint. Die mathematischen Hintergründe haben wir in einem Vortrag aufbereitet (Vortrag als PDF downloaden).

Mit dieser simplen Technik können bereits viele Anwendungsfälle gelöst werden: Erzeugung neuer Daten, die aussehen wie Trainingsdaten; Inpainting und Outpainting, also Übermalen von unerwünschten Bildbereichen und Erweitern über die Bildränder hinaus; Colorization und Interpolation zwischen zwei Bildern. Mittels Guidance kann das Ergebnis zusätzlich beeinflusst werden. Das bekannteste Beispiel sind Text-Prompt, mit denen zum Beispiel Bilder von Katzen beim Klavierspielen erzeugt werden können.

Machine Learning auf geringer Datenbasis

In einer Masterarbeit hat unser Thesist Anton Wiehe untersucht, wie sich mit der gleichen Technik Trainingsdaten für Machine Learning erzeugen lassen, wenn nur wenige echte Daten verfügbar sind. Durch Domänenadaption können dafür auch vortrainierte Modelle benutzt werden, wenn die Zieldomäne stark von der Ausgangsdomäne abweicht. Die Ergebnisse sind in diesem Paper zusammengefasst.

Neben Text können auch Bilder als Guidance benutzt werden. So ist es möglich, niedrig aufgelöste Bilder auf höhere Auflösungen zu skalieren (Super Resolution), Variationen von Bildern zu erzeugen oder Skizzen zu konkretisieren – wie zum Beispiel mit Ando AI und ai-render.

Der Guidance-Prozess ist aber so allgemein gehalten, dass auch beliebige andere Hinweise denkbar sind. Beispielsweise könnten Nutzerprofile oder Wetterdaten die Bilderzeugung beeinflussen.

Einsatz von Generative AI in Videos

Und auch wenn die meisten Anwendungen im Moment „nur“ Bilder erzeugen: Es gibt bereits Ansätze zur Erzeugung von kurzen Videos (Imagen Video, Phenaki, Make-A-Video) und 3D-Modellen (DreamFusion).

Diffusion Models sind aber nicht auf visuelle Daten beschränkt. Mit kleinen Anpassungen erzeugen Diffusion Models Audio Samples für Musiker (Audio Diffusion, Harmonai), gesprochene Sprache (WaveGrad, DiffWave) oder Zielvorgaben für Roboterarme.

Wie können wir Sie unterstützen?

Hans-Peter Zorn

Head of Artificial Intelligence