Spark und Hadoop für Python-Entwickler

Kursbeschreibung

Erwerben Sie in diesem Training ein Grundverständnis über die Funktionsweise von Spark auf einem Hadoop-Cluster und nutzen Sie Python, um Datenmanagement und Machine Learning Anwendungen auszuführen. Lernen Sie die dabei Vorzüge von Spark-DataFrames kennen und manipulieren Sie diese mit den gewohnten Funktionen aus dem Pandas Paket oder mit SQL-Anweisungen. Innerhalb des Trainings werden Sie die Machine Learning Verfahren der nativen Spark Bibliothek MLlib ausführen und diese mit den DeepLearning Verfahren aus dem externen Framework H2O ergänzen. Erfahren Sie außerdem, welche Datentypen und Datenbanksysteme Sie für die Anwendung von Spark benötigen und wie diese mit den Hadoop Systemkomponenten interagieren. Nach dem Kurs sind Sie in der Lage R-Analyseskripte zu erstellen, die auf einem Spark-Rechencluster ausführbar sind. Sie werden dabei ein tieferes Verständnis für die grundlegenden Funktionsweisen von Rechenclustern haben und können Ihre Skripte dementsprechend durch Spark und Hadoop Anweisungen konfigurieren.

Innerhalb des Trainings wird den Teilnehmern ein virtuelles Rechencluster zur Verfügung gestellt, auf dem die Teilnehmer die Kursinhalte nachverfolgen und ausprobieren können. Das Rechencluster steht den Teilnehmern auch nach dem Kurs zur Verfügung. In praxisnahen Beispielen und mit Hilfe von realen Daten werden die Inhalte theoretisch eingeleitet und vorgeführt.

Zielgruppe:

Data Scientists, Data Engineers, Data Architects, Python-Entwickler, Datenanalysten, IT-Entscheider

Lernziele:

+ Einführung in die Grundfunktionsweisen von Spark und Hadoop sowie deren Ecosystemen.

+ Anbindung und Interaktion von Python mit den Systemen.

+ Machine Learning Anwendungen in Spark schreiben.

Inhalte:

  • (Kurz-) Einführung in Hadoop
    • Aufbau & Funktionsweise, Cluster-Computing & Map-Reduce, Datenhaltung, YARN, HDFS, Hive, Konfiguration, Ecosystem, Interaktion mit Spark
  • Einführung in Spark
    • Architektur, Konfiguration, Skript-Deployment & Job Execution, Web Frontend, Shell-Bedienung
  • Einführung in das Cluster-Computing
  • Jupyter-Notebooks als Entwicklungsumgebung
  • Resilient-Distributed-Datasets (RDD) – Cluster-Computing in Spark
  • Spark DataFrames und Datasets – Die neuen Datentypen in Spark
  • Spark SQL – Verarbeiten strukturierter Daten in Spark
  • Spark NoSQL – Verarbeiten semistrukturierter Daten in Spark
  • Spark Streaming – Live-Datenstromverarbeitung
  • MLlib – Mashine Learning in Spark
    • Übersicht über die Bibliothek, Anbindung an Python, Anwendung von Algorithmen
  • H20 – Deep Learning auf dem Spark-Cluster mit pysparkling

 

 

Standorte  
Kassel 5. April
Hamburg 8. November
München 14. Dezember

 

Preis pro Person

Euro 920,- *

Zzgl. MwSt.

 

 

  1. Anmeldung
  2. (required)
  3. (required)
  4. (valid email required)
  5. Rechnungsadresse