

Training zu den Architektur-Prinzipien für den Betrieb von Big-Data-Systemen.
Bei immer mehr Anwendungsfällen werden Big-Data-Systeme mit der Herausforderung konfrontiert, Datenströme an Stelle von Dateien zu verarbeiten. Dies erfordert oft eine Umstellung (oder Neuentwicklung) der gesamten Architektur eines Big-Data-Systems, da von einem Batch-Processing auf eine Event-Streaming Paradigma gewechselt werden muss.
In diesem Training werden die Architektur-Prinzipien beleuchtet, welche benötigt werden, um Big Data Systeme zu betreiben, die große, in Echtzeit anfallende Datenmengen verarbeiten und hochverfügbar für Anfragen zur Verfügung stellen können. Hierzu richten die Teilnehmer:innen ein exemplarisches Big Data System mit Spark und Kafka ein, welches in der Lage ist den Stream der Wikipedia-„Edits“ (individuelle Bearbeitungen einzelner Artikel) in Echtzeit zu verarbeiten.
Agenda:
- Event Streams (Broker, Topics, Partitionen in Kafka)
- Stream Processing (Transformationen, Verarbeitungsmuster, Fehlerbehandlung (at-least-once vs. exactly once)
- Offloading / Archivierung von großen Datenmengen (Lambda Architektur, Flume, Kafka Connect, Camus/Gobblin)
- Result store (Caches (HBase, Cassandra, Riak, Redis), Dashboards (ES, Kibana), Umgang mit historischen Daten)
Wie können wir Sie unterstützen?