
Workshop Generative AI: Vom Hype zum Use Case
Wir helfen Ihnen dabei, den Hype um Generative AI (ChatGPT, DALL-E etc.) vom konkreten Business Case abgrenzen zu können und neue Geschäftsmodelle zu erschließen.
Bei inovex beschäftigen wir uns ausführlich mit den Möglichkeiten, die Generative AI für Unternehmen bereithält. Zusammen mit Ihnen erarbeiten wir neue Anwendungsfälle, verifizieren mögliche Geschäftsmodelle und setzen sie gemeinsam in Projekten um.
Wir unterstützen Sie bei:
Haben Sie schon konkrete Ideen? Wir geben eine erste Machbarkeitsanalyse.
Wir helfen Ihnen, im neuen Feld der Generative AI neue Produktideen zu entwickeln.
Sobald erste Konzepte vorhanden sind, bauen wir Proof of Concepts als ersten Schritt zum neuen Produkt.
Wir forschen und arbeiten an Generative AI und geben unser Wissen gerne an Sie weiter.
ChatGPT, DALL-E, Stable Diffusion und weiter Modelle versetzen die Nutzer:innen in die Lage, ihre Ideen sehr schnell zu iterieren und Designs zu konkretisieren. Durch Prompts – kurze Textanweisungen – generiert der Computer passende Texte, Bilder oder sogar Videos.
Im Hintergrund arbeiten generative Modelle. Die gibt es zwar schon lange, doch erst kürzlich hat die Qualität der erzeugten Daten einen großen Sprung gemacht. Der Durchbruch gelang bei textuellen Daten mit großen, Transformer-basierten Sprachmodellen wie BERT und GPT-3. Sie sind in der Lage, komplexe Texte zu erstellen und sprachlich an sie gestellte Aufgaben zu beantworten. Modelle für visuelle Daten zogen etwas später mit Diffusion Models wie DALL-E, Imagen und Stable Diffusion nach. Mit ihrer Hilfe können mit einfachen Spracheingaben Bilder generiert werden.
Wir helfen Ihnen dabei, den Hype um Generative AI (ChatGPT, DALL-E etc.) vom konkreten Business Case abgrenzen zu können und neue Geschäftsmodelle zu erschließen.
In unserem Workshop erfahren Sie, wie Generative AI die Arbeitsprozesse in Ihrem Unternehmen verändern kann – von einem Blick auf den Status Quo, über mögliche Herausforderungen bis hin zu konkreten Einsatzszenarien.
Beim Prompting nutzen Sie Textanweisungen zum Steuern von generativen Sprachmodellen. So reicht eine kurze Anweisung, um einen Text von Deutsch nach Französisch zu übersetzen, um das Sentiment eines Filmreviews zu bewerten oder einen neuen Text generieren zu lassen. Im Gegensatz zur klassischen Herangehensweise mittels Finetuning ist dabei kein explizites Training auf dem jeweiligen Downstream-Task notwendig. Dies ermöglicht den Einsatz von Generativen Modellen auf Problemstellungen, für die nur wenige oder keine annotierten Textdaten zur Verfügung stehen.
Wie das geht, beschreiben Suteera Seeha in ihrem Blogpost zu Prompt Engineering und Pascal Fecht in seinen Vorträgen auf der data2day (PDF downloaden) und auf der AIxIA (PDF downloaden).
Prompting kann außerdem dem Bias in vortrainierten Sprachmodellen entgegenwirken. Mittels sogenannter Bias Mitigation Trigger kann das Verhalten eines Modells gesteuert werden. In ihrem Blogpost befasst sich Angelie Kraft mit der Neutralisierung von geschlechtsspezifischen Berufsstereotypen in Generativen Modellen.
Darüber hinaus haben generative Sprachmodelle als kreativitätsfördernde Werkzeuge einige Aufmerksamkeit erzeugt. Eines der populärsten Beispiele ist der Github Copilot. Dabei sollen Generative Modelle wie Codex (OpenAI) oder AlphaCode (DeepMind) Programmierer:innen die Arbeit erleichtern, indem sie aus Umschreibungen der Nutzer:innen funktionale Code-Fragmente erzeugen.
Auf Write With Transformers können Nutzer:innen spielerisch erfahren, wie es sich anfühlt, wenn Sprachmodelle die eigenen Sätze beenden. Auch hier zeigt sich die Vielseitigkeit der Generativen Modelle. Durch die Auswahl des vortrainierten Sprachmodells und der zugrunde liegenden Trainingsdomäne lässt sich die Generierung von Texten in beliebige Richtungen steuern. Nach unserer Erfahrung stellt ein solcher Schwerpunkt einen wesentlichen Erfolgsfaktor beim Einsatz von Sprachmodellen dar. So lassen sich öffentlich-verfügbare Sprachmodelle für die Generierung von Texten nach Vorbild wissenschaftlicher Arbeiten aus der Medizin oder kurzer, prägnanter Neuigkeiten aus der Finanzbranche verwenden. Mittels Domänenadaption können diese Modelle auf das Vokabular und den Stil der eigenen Textdokumente angepasst werden. Mehr Informationen zum Domänenadaption auf Reviews, News, Social Media und wissenschaftlichen Arbeiten finden sich in diesem Blogpost.
Um mit dem rasanten Entwicklungstempo von Sprachmodellen Schritt zu halten, beschäftigen wir uns mit dem Thema in einem internen Forschungsprojekt. Dabei steht auf der einen Seite das technische Verständnis relevanter Themen wie bspw. Prompting oder Domänenadaption. Auf der anderen Seite widmen wir uns Fragestellungen, die sich mit dem effektiven Einsatz von großen Sprachmodellen unter verfügbaren Ressourcen und MLOps auseinandersetzen.
In einem unserer Forschungsprojekte haben wir mit „Parrot“ einen Demonstrator für Transformer-Sprachmodelle entwickelt. Er nutzt dieselbe Technologie, die auch bei ChatGPT Verwendung findet – einzig eine Generation älter und um Größenordnungen kleiner, und natürlich nicht mit den Eigenschaften von Billionen-Parameter-Modellen.
Aktuelle Modelle wie DALL-E (OpenAI), Imagen (Google), Stable Diffusion (Stability.Ai) und Midjourney basieren alle auf der gleichen Technologie: Diffusion Models. Grundlage dieser Methode ist es, Daten in vielen kleinen Schritten zu zerstören, beziehungsweise in weißes Rauschen zu überführen. Diffusion Models lernen, diese Schritte rückgängig zu machen und somit Daten in vielen kleinen Schritten aus Rauschen zu „rekonstruieren“. Um mit dieser Methode ein Bild zu erzeugen, gehen sie vor wie ein Bildhauer: Ausgehend von Gauß’schem Rauschen wird nach und nach alles Überflüssige entfernt, bis ein Bild erscheint. Die mathematischen Hintergründe für die Generierung von Texten und Bildern auf diese Art und Weise haben wir in einem Vortrag aufbereitet (Vortrag als PDF downloaden).
Mit dieser simplen Technik können bereits viele Anwendungsfälle gelöst werden: Erzeugung neuer Daten, die aussehen wie Trainingsdaten; Inpainting und Outpainting, also Übermalen von unerwünschten Bildbereichen und Erweitern über die Bildränder hinaus; Colorization und Interpolation zwischen zwei Bildern. Mittels Guidance kann das Ergebnis zusätzlich beeinflusst werden. Das bekannteste Beispiel sind Text-Prompt, mit denen zum Beispiel Bilder von Katzen beim Klavierspielen erzeugt werden können.
In einer Masterarbeit hat unser Thesist Anton Wiehe untersucht, wie sich mit der gleichen Technik Trainingsdaten für Machine Learning erzeugen lassen, wenn nur wenige echte Daten verfügbar sind. Durch Domänenadaption können dafür auch vortrainierte Modelle benutzt werden, wenn die Zieldomäne stark von der Ausgangsdomäne abweicht. Die Ergebnisse sind in diesem Paper zusammengefasst.
Neben Text können auch Bilder als Guidance benutzt werden. So ist es möglich, niedrig aufgelöste Bilder auf höhere Auflösungen zu skalieren (Super Resolution), Variationen von Bildern zu erzeugen oder Skizzen zu konkretisieren – wie zum Beispiel mit Ando AI und ai-render.
Der Guidance-Prozess ist aber so allgemein gehalten, dass auch beliebige andere Hinweise denkbar sind. Beispielsweise könnten Nutzerprofile oder Wetterdaten die Bilderzeugung beeinflussen.
Und auch wenn die meisten Anwendungen im Moment „nur“ Bilder erzeugen: Es gibt bereits Ansätze zur Erzeugung von kurzen Videos (Imagen Video, Phenaki, Make-A-Video) und 3D-Modellen (DreamFusion). Diffusion Models sind aber nicht auf visuelle Daten beschränkt. Mit kleinen Anpassungen erzeugen Diffusion Models Audio Samples für Musiker (Audio Diffusion, Harmonai), gesprochene Sprache (WaveGrad, DiffWave) oder Zielvorgaben für Roboterarme.
Wie können wir Sie unterstützen?