Die data2day ist eine zweitägige Fachkonferenz, die sich seit 2014 als zentraler Treffpunkt für die Themen Data Science, Data Engineering und Data Analytics etabliert hat. Ihr Konzept basiert darauf, Teilnehmende genau dort abzuholen, wo sie oder ihre Unternehmen auf ihrer Daten-Reise gerade stehen. Das Programm ist dafür zweigleisig aufgebaut: Während Data Beginners durch fundierte Grundlagen einen leichten Einstieg in Data Science und Machine Learning finden, bietet die Konferenz erfahrenen Data Professionals tiefgehende Einblicke in komplexe Architekturen, operative Prozesse und moderne Vorgehensmodelle. Damit verbindet sie theoretisches Wissen mit praktischem Erfahrungsaustausch für jedes Skill-Level.
Wir freuen uns sehr, dass unsere Kolleg:innen Denise Hartmann und Max Vieweg mit dem Vortrag Wenn der Weg das Ziel ist: Agenten-Loops systematisch tracen und evaluieren vertreten sein werden.
Abstract:
RAG war gestern, heute bauen wir Agenten – doch arbeitet der auch so wie er soll?
Wer Agenten-Loops nur am Ende per LLM-as-a-Judge prüft, winkt einen Pull Request durch, nur weil die App startet – dass im Hintergrund bei jedem Klick die ganze Datenbank lädt, zeigt erst die nächste Rechnung vom Hyperscaler.
Wir demonstrieren eine moderne Evaluationskette:
- Wie sammelt man Traces für nonlineare Konversationen?
- Welche deterministischen und probabilistischen Metriken bewerten kleinschrittig Tool-Use und Reasoning?
Darauf aufbauend zeigen wir einen erfahrungsbasierten und skalierbaren Workflow zur kontinuierlichen Systemoptimierung.
Wir zeigen Metriken, die fehlerhafte Reasoning-Loops und Tool-Abstürze systematisch entlarven.
Das Ziel: Ein praxiserprobter Workflow, mit dem Sie Ihre Agenten kontinuierlich evaluieren und iterativ stabilisieren.
Stoppen Sie den Blindflug zwischen Prompt und Output!
Außerdem freuen wir uns, dass unsere Kollegen Jan Trienes und Matthias Richter mit dem Vortrag Deploy with Confidence: Generative KI systematisch evaluieren vertreten sein werden.
Abstract:
Dank moderner Frameworks sind LLMs schnell mit eigenen Datenquellen verknüpft. Doch die große Herausforderung liegt in der Messbarkeit: sind generierte Antworten faktisch korrekt oder nur gut klingende Halluzinationen?
Dieser Vortrag zeigt Best-Practices zur Evaluation von generiertem Text, z.B. in RAG-Systemen.
Während Retrieval-Metriken zuverlässig die Suche evaluieren, stoßen NLP-Metriken wie ROUGE bei der Antwortqualität an ihre Grenzen. Anhand von Praxisbeispielen wird demonstriert, wie LLM-as-a-Judge zur Qualitätskontrolle und Optimierung des Systems eingesetzt werden kann, ohne auf händisch erstellte „Golden Answers“ angewiesen zu sein, und welche Fallstricke es zu beachten gibt.