Inhalt und Ablauf
Immer mehr Projekte setzen zur Implementierung ihrer Daten-Pipelines auf Apache Spark. Dank dessen High-Level-API's und der automatisierten Ausführung der Berechnungen auf Rechen-Clustern hat Spark die Verarbeitung großer Datenmengen stark vereinfacht. Die verteilte Ausführung stellt Entwickler jedoch vor neue Herausforderungen bei der Implementierung von Daten-Pipelines in Apache Spark.
Dieser Workshop vermittelt das notwendige Hintergrundwissen und bewährte Praktiken, um Daten-Pipelines mit Apache Spark implementieren zu können. Ausgehend von einer Einführung in das Thema Daten-Pipelines, lernen die Teilnehmer den Umgang mit Sparks DataFrame API und erhalten einen Einblick in die Arbeitsweise der Spark Engine. Der Workshop endet mit der Vorstellung bewährter Praktiken, um häufige Fehler bei der Entwicklung von Daten-Pipelines mit Apache Spark zu vermeiden.
Das vermittelte Wissen wird innerhalb von Hands-On Sessions vertieft. Dazu wird den Teilnehmern eine interaktive Spark-Umgebung in der Databricks Cloud zur Verfügung gestellt, in welcher die Übungsaufgaben in Kleingruppen bearbeitet werden. Die im Workshop verwendeten Spark-Notebooks werden den Teilnehmern inklusive Musterlösungen anschließend zur Verfügung gestellt. Aufgrund seiner Einsteigerfreundlichkeit setzen wir für Codebeispiele und in den Hands-On Sessions auf die Programmiersprache Python.

Short Facts
- Referent: Simon Kaltenbacher
- Sprache: Englisch
- 16. April 2018
- 10:00 – 17:15
- Data Hub, Sapporobogen 6-8, 80637 München
Lernziele
Formulierung von Daten-Pipelines mit Spark's DataFrame API
Vor- und Nachteile von Apache Spark gegenüber anderen Technologien auf dem Markt
Bewährte Praktiken bei der Implementierung von Daten-Pipelines mit Apache Spark
Referent
Simon Kaltenbacher
ist Head of Technology bei der Alexander Thamm GmbH. Dort berät er Kunden beim Aufbau von Datenplattformen und unterstützt sie bei der Implementierung von Daten-Pipelines. Er verfolgt das Apache-Spark-Projekt intensiv seit Version 0.9 und hat bereits mehrere Schulungen und Vorträge zu dieser Technologie gehalten.

Agenda

10:00 – 10:30: Herausforderungen und allgemeine Techniken von Daten-Pipelines
10:30 – 11:15: Einführung in das Apache Spark Projekt und dessen DataFrame API
11:15 – 11:30: Kaffeepause
11:30 – 13:00: Hands-On Implementierung von Daten-Pipelines mit Spark’s DataFrame API
13:00 – 14:00: Mittagspause
14:00 – 14:30: Arbeitsweise der Spark Engine
14:30 – 15:15: Bewährte Techniken
15:15 – 15:30: Kaffeepause
15:30 – 17:15: Hands-On Bewährte Techniken
Voraussetzungen
- Teilnehmer sollten grundlegende Kenntnisse der Programmiersprache Python mitbringen.
- Erste Erfahrungen mit Apache Spark sind von Vorteil, werden aber nicht zwingend vorausgesetzt.
- Jeder Teilnehmer muss über einen eigenen Rechner verfügen. Jeder Rechner muss über ein zur Verfügung gestelltes W-Lan auf das Internet zugreifen können. Die neueste Version des Firefox oder Chrome Browsers sollte installiert sein.