data2day 2024
Download des Vortrags „Praxisnahe Erfahrungen aus dem Data-Quality-Dschungel“ von Florian Gräbe und Marcel Spitzer
Praxisnahe Erfahrungen aus dem Data-Quality-Dschungel
Vortrag von Florian Gräbe und Marcel Spitzer auf der Konferenz data2day 2024
Unter Datenqualität versteht man den Grad der Übereinstimmung von Daten mit den durch sie repräsentierten realen Dingen oder Sachverhalten.
Da es in der Praxis oft schwierig ist, die Qualität von Daten anhand dieser Definition zu beurteilen, wird versucht, die Qualität von Daten über die Abweichung von zuvor definierten Annahmen zu beurteilen, z.B. ob der Temperaturwert eines Sensors in einem erwarteten Wertebereich liegt und dessen Einheiten nur aus einem vordefinierten Set [„Celsius“, „Fahrenheit“] stammen. Qualitative Daten sind für Datenprodukte von immenser Bedeutung, da sie z.B. über Schnittstellen bereitgestellt werden, oder die Prognosequalität von ML-Modellen beeinflussen.
In unserem Vortrag wollen wir neben Data-Quality-Grundlagen von unseren Praxis-Erfahrungen bei der Verwendung der Data Quality Frameworks Soda und Great Expectations berichten.
Vorkenntnisse:
- Grundlegendes Verständnis von Data Engineering
- Grundlegendes Verständnis von Datenverarbeitung mit Python/PySpark
Über die Speaker:
Florian Gräbe hat am KIT Wirtschaftinsgenieurwesen studiert. Aktuell arbeitet er bei inovex als Data- und ML Engineer und setzt dort Datenprojekte in der Cloud für Kunden aus verschiedensten Branchen um.
Marcel Spitzer ist Data Engineer bei inovex. Er beschäftigt sich mit der Entwicklung von Streaming- und Batch-Pipelines zur Datenverarbeitung in verteilten Systemen und nutzt Machine Learning um Datenprodukte smart zu machen.