data2day 2024

Download des Vortrags „Praxisnahe Erfahrungen aus dem Data-Quality-Dschungel“ von Florian Gräbe und Marcel Spitzer

Praxisnahe Erfahrungen aus dem Data-Quality-Dschungel

Vortrag von Florian Gräbe und Marcel Spitzer auf der Konferenz data2day 2024

Unter Datenqualität versteht man den Grad der Übereinstimmung von Daten mit den durch sie repräsentierten realen Dingen oder Sachverhalten.

Da es in der Praxis oft schwierig ist, die Qualität von Daten anhand dieser Definition zu beurteilen, wird versucht, die Qualität von Daten über die Abweichung von zuvor definierten Annahmen zu beurteilen, z.B. ob der Temperaturwert eines Sensors in einem erwarteten Wertebereich liegt und dessen Einheiten nur aus einem vordefinierten Set [„Celsius“, „Fahrenheit“] stammen. Qualitative Daten sind für Datenprodukte von immenser Bedeutung, da sie z.B. über Schnittstellen bereitgestellt werden, oder die Prognosequalität von ML-Modellen beeinflussen.

In unserem Vortrag wollen wir neben Data-Quality-Grundlagen von unseren Praxis-Erfahrungen bei der Verwendung der Data Quality Frameworks Soda und Great Expectations berichten.

Vorkenntnisse:

  • Grundlegendes Verständnis von Data Engineering
  • Grundlegendes Verständnis von Datenverarbeitung mit Python/PySpark

Über die Speaker:

Florian Gräbe hat am KIT Wirtschaftinsgenieurwesen studiert. Aktuell arbeitet er bei inovex als Data- und ML Engineer und setzt dort Datenprojekte in der Cloud für Kunden aus verschiedensten Branchen um.

Marcel Spitzer ist Data Engineer bei inovex. Er beschäftigt sich mit der Entwicklung von Streaming- und Batch-Pipelines zur Datenverarbeitung in verteilten Systemen und nutzt Machine Learning um Datenprodukte smart zu machen.

Haben Sie Fragen?

Florian Gräbe

Data & Machine Learning Engineer

Haben Sie Fragen?

Marcel Spitzer

Data Engineer