Spark und Hadoop für R-Entwickler

Kursbeschreibung

Erwerben Sie in diesem Training ein Grundverständnis über die Funktionsweise von Spark auf einem Hadoop-Cluster und nutzen Sie R, um Datenmanagement und Machine Learning Anwendungen auszuführen. Lernen Sie die dabei Vorzüge von Spark-DataFrames kennen und manipulieren Sie diese mit klassischen dplyr-Funktionen oder SQL-Anweisungen. Innerhalb des Trainings werden Sie die Machine Learning Verfahren der nativen Spark Bibliothek MLlib ausführen und diese mit den DeepLearning Verfahren aus dem externen Framework H2O ergänzen. Erfahren Sie außerdem, welche Datentypen und Datenbanksysteme Sie für die Anwendung von Spark benötigen und wie diese mit den Hadoop Systemkomponenten interagieren. Nach dem Kurs sind Sie in der Lage R-Analyseskripte zu erstellen, die auf einem Spark-Rechencluster ausführbar sind. Sie werden dabei ein tieferes Verständnis für die grundlegenden Funktionsweisen von Rechenclustern haben und können Ihre Skripte dementsprechend durch Spark und Hadoop Anweisungen konfigurieren.

Innerhalb des Trainings wird den Teilnehmern ein virtuelles Rechencluster zur Verfügung gestellt, auf dem die Teilnehmer die Kursinhalte nachverfolgen und ausprobieren können. Das Rechencluster steht den Teilnehmern auch nach dem Kurs zur Verfügung. In praxisnahen Beispielen und mit Hilfe von realen Daten werden die Inhalte theoretisch eingeleitet und vorgeführt.

Zielgruppe:

Data Scientists, Data Engineers, Data Architects, R-Entwickler, Datenanalysten, IT-Entscheider

Lernziele:

+ Einführung in die Grundfunktionsweisen von Spark und Hadoop sowie deren Ecosystemen.

+ Anbindung und Interaktion von R mit den Systemen.

+ Mashine Learning Anwendungen in Spark schreiben.

Inhalte:

  • (Kurz-) Einführung in Hadoop
    • Aufbau & Funktionsweise, Cluster-Computing & Map-Reduce, Datenhaltung, YARN, HDFS, Hive, Konfiguration, Ecosystem, Interaktion mit Spark
  • Einführung in Spark
    • Architektur, Konfiguration, Skript-Deployment & Job Execution, Web Frontend, Shell-Bedienung
  • Einführung in das Cluster-Computing
  • Resilient-Distributed-Datasets (RDD) – Cluster-Computing in Spark
  • Spark DataFrames und Datasets
  • Spark SQL – Verarbeiten strukturierter Daten in Spark
  • Spark NoSQL – Verarbeiten semistrukturierter Daten in Spark
  • Spark Streaming – Live-Datenstromverarbeitung
  • Spark – R Integration
    • Integration von Spark in RStudio, R-Pakage: sparkR, R-Pakage: sparklyr
  • MLlib – Mashine Learning in Spark
    • Übersicht über die Bibliothek, Anbindung an R, Anwendung von Algorithmen
  • H20 – Deep Learning auf dem Spark-Cluster mit rsparkling

 

 

Standorte  
Kassel 7. März
Hamburg 19. Oktober
München 5. Dezember

 

Preis pro Person

Euro 920,- *

Zzgl. MwSt.

 

 

  1. Anmeldung
  2. (required)
  3. (required)
  4. (valid email required)
  5. Rechnungsadresse