Dataprocessing mit Spark (Batch & Stream) Training
Die Teilnehmenden lernen in diesem Hands-on-Kurs, wie moderne Lakehouse-Architekturen in der Databricks Cloud mittels Spark (Verarbeitung) und Delta Lake (Storage) aufgebaut werden können.

Auf einen Blick
Rahmendaten
- 2 Tage
- vor Ort in Karlsruhe oder remote
- de oder en
Zielgruppe
Software-Entwickler:innen mit Grundkenntnissen in Python, Jupyter-Notebooks und im Umgang mit Daten (z. B. SQL, DataFrames etc.)
Anwendungsbeispiele
- Bereitstellung skalierbarer Analysen und Dashboards auf Basis großer Datenmengen
- Entwicklung streamingbasierter Datenapplikationen, z. B. zur Verarbeitung hochvolumiger Sensor- oder Bewegungsdaten
Beschreibung
In diesem Training werden die Grundlagen der skalierbaren Datenverarbeitungs-Engine Apache Spark und der Cloud-Plattform Databricks vermittelt. Kombiniert ermöglichen sie die Entwicklung hochperformanter Batch- und Stream-basierten Applikationen zur Analyse und Transformation großer Datenmengen.
Die Teilnehmenden lernen in diesem Hands-on-Kurs, wie moderne Lakehouse-Architekturen in der Databricks Cloud mittels Spark (Verarbeitung) und Delta Lake (Storage) aufgebaut werden können.
Alle Konzepte werden theoretisch eingeführt und dann mittels Übungen in einer vorbereiteten Databricks-Umgebung vertieft. Der Fokus liegt dabei sowohl auf einem guten technischen Verständnis als auch auf der praktischen Umsetzung, sodass die Teilnehmenden im Anschluss an das Training direkt in der Lage sind, die thematisierten Technologien in eigenen Projekten einzusetzen.
Agenda
- Einführung in die Grundlagen und Architektur von Apache Spark
- Datentransformationen mit Spark SQL und Spark DataFrames
- Databricks Lakehouse Architecture & Unity Catalog
- Databricks Workspaces, Notebooks, Cluster und Workflows
- Delta Lake und optimierte Datenhaltung
- Spark Structured Streaming
- Stateful Streaming mit Watermarks
Typische Fragen, die wir beantworten:
- Welche Vorteile bietet Spark gegenüber anderen Ansätzen?
- Für welche Anwendungsfälle sind Streaming-Architekturen sinnvoll?
- Wie funktionieren Datentransformationen mit Spark?
- Was ist ein Delta Lake und wann setzt man ihn am besten ein?
- Wie kann Stateful Streaming in Spark realisiert werden?
- Wie wird Spark in der Databricks Umgebung am besten eingesetzt?
- Was versteht man unter einer Lakehouse Architektur?
- signiertes Teilnahmezertifikat
- firmeninternes Training
- Anpassungen möglich (Agenda, Tech-Stack, Sprache, usw.)
- kleine Trainingsgruppen
Warum inovex Academy?
Unser AngebotDie inovex Academy hat es sich zur Aufgabe gemacht, Wissen über Methoden und Technologien weiterzugeben, die wir in unseren Projekten bereits erfolgreich einsetzen.
Kuratierte Inhalte
Unsere Trainer:innen erstellen in Absprache mit Ihnen ein individuelles Trainingsangebot auf Basis Ihrer Anforderungen.
Anpassbarer Tech Stack
In den exklusiven Trainings können wir Ihren Tech Stack für die Trainingsinhalte berücksichtigen.
Individuelle Hilfestellung
Bei Bedarf können wir das Training auf einen konkreten Use Case Ihres Unternehmens ausrichten und direkt auf Basis Ihrer Daten arbeiten.
Trainer:innen
Unsere Trainer:innen sind praxiserprobte Expert:innen in ihren Leistungsbereichen. Durch ihren Einsatz in Projekten bauen sie Tag für Tag ihr Wissen aus und vermitteln dieses Know-how in ihren Trainings weiter – anwendungsbezogen und praxisorientiert.

Simon Bachstein
Simon Bachstein entwickelt seit 2019 als Data Engineer mit mathematischem Hintergrund nicht nur smarte und innovative Datenprodukte,sondern gestaltet auch Datenlandschaften mit Fokus auf Qualität, Effizienz, Sicherheit und Nutzerfreundlichkeit.
Als Trainer vermittelt Simon gerne tiefes Verständnis für die Technologie, verliert dabei aber nicht den Bezug zur Praxis und sucht den Austausch zu konkreten Problemstellungen.
Unser Vorgehen bei Trainings
Von der Bedarfsanalyse bis zur Zertifikatsvergabe bieten wir maßgeschneiderte Trainings, die flexibel gestaltet und nach Ihren spezifischen Anforderungen durchgeführt werden.
Wenn Sie an einem Inhouse-Training interessiert sind, beginnen wir im ersten Gespräch, Ihren Bedarf zu ermitteln und Ihre Ziele zu besprechen. Dieses Gespräch bildet die Grundlage für ein erstes Angebot.
Sobald die Rahmendaten geklärt sind, beginnen unsere Trainer:innen mit der Anpassung der Trainingsinhalte. Viele unserer Trainings sind modular aufgebaut und bieten die Möglichkeit, die Agenda flexibel zu gestalten. Trainings, die auf Zertifizierungen vorbereiten, sind dagegen weniger flexibel. Hier können Sie jedoch den inhaltlichen Fokus nach Ihren Wünschen setzen.
Im Vorfeld des Trainings bekommen Sie alle relevanten Informationen zugesendet. Im Anschluss erfolgt das Training in den von Ihnen gewünschten Räumen und zur verabredeten Zeit. Hier richten sich unsere Trainer:innen nach Ihren Anforderungen.
Nach dem Abschluss des Trainings bekommen alle Teilnehmenden eine Urkunde zur Teilnahmebestätigung. Sie bekommen außerdem die Möglichkeit, uns Feedback zu den Inhalten und dem Ablauf zu geben. Wir freuen uns immer über Lob und Verbesserungsvorschläge.
Häufig gestellte Fragen
Was benötige ich für dieses Training?
Welche Art von Übungsaufgaben gibt es?
Benötige ich einen eigenen Databricks Account für das Training?
Ergänzende Informationen

Collin Rogowski
Head of inovex Academy