Veranstaltungen | Kalender
Workshop Big Data Processing
Scale up your computations to scale up your insights
Kurzbeschreibung:
Das Handhaben von Big Data benötigt einerseits analytische Fähigkeiten, etwa aus dem Bereich des Maschinellen Lernens, andererseits benötigt der Umgang mit großen Datenmengen spezielle Tools sowie konzeptionelles Verständnis aus dem Bereich des parallelen und verteilten Rechnens. Dieser Workshop beschäftigt sich mit dem Umgang von großen Datenmengen von der Akquirierung etwa aus einer Datenbank, dateibasierten Quellen (JSON, XML etc.) bis zur Auswertung der Daten. Der Fokus ist die Toolchain als auch das konzeptionelle Verständnis dieser, wie etwa des Apache Hadoop Ecosystems mit darauf aufbauenden Tools wie Hive und Spark. Themen wie Streaming und Echtzeitanalyse von großen Datenmengen werden ebenfalls behandelt.
Lerninhalte:
Es werden die Grundlagen zur Verarbeitung großer Datenmengen mittels parallelem und verteilten Rechnens auf Clustern (Computernetzwerken) vermittelt. Dies erlaubt die nachfolgende Behandlung des Apache Hadoop Ecosystems wie Hadoop MapReduce, YARN, HDFS und Tools wie Spark, Cassandra, HBASE, Mahout und Spark. Anwendungsbeispiele fokussieren jedoch auf die Datenverarbeitung mittels Spark als auch Hive.
Lernziele:
Nach Abschluss dieser Kurses können Teilnehmende grosse Datenmengen mittels Tools wie Spark, Hive und Mahout analysieren. Sie verstehen auch fundamentale Limitationen, zB. im Bereich Performance, Zuverlässigkeit als auch Möglichkeiten zum parallelen Verarbeiten von grossen Datenmengen auf Clustern.
Zielgruppe:
Der Kurs richtet sich an Personen, welche im Bereich Dataanalyse tätig sind. Die Teilnehmer sollten:
- Grundlagen der Datenanalyse beherrschen
- Programmiergrundlagen beherrschen (idealerweise Python)
Agenda:
Es besteht die Möglichkeit, dass Themen auf Wunsch angepasst werden.
1. Tag, 13:00 Uhr - 17:00 Uhr:
Grundlagen der verteilten Datenanalyse, des Streamprocessings und der funktionalen Programmierung
Aufbau des Hadoop Ecosystems (HDFS, Yarn und MapReduce)
Grundlagen Spark
2. Tag, 09:00 Uhr - 17:30 Uhr:
Überblick über Technologien zum Speichern und Analyse von Daten, insbesondere Streams, Deep Learning via Tensorflow (and Spark) on Clusters
Architekturübersicht:
- Spark auf Hadoop, Kubernetes oder Standalone
Data Management auf Big Data Plattformen:
- Persistenzformate (Parquet, ORC, Hive, HBase, etc.)
- ETL/Data Preparation with SparkSQL
Predictive Analytics:
- Spark MLlib
- SparkR, PySpark, Arrow
Streaming Analytics:
- Spark Streaming vs Spark Structured Streaming
- Integration mit SparkR und PySpark
Termin:
14.3.2019 von 13-17:00
15.3.2019 von 9-17:30
Teilnehmeranzahl:
Die Mindestteilnehmerzahl liegt bei 7 Teilnehmern.
Teilnahmegebühr
CHF 1'250
Anmeldungen:
Bitte bis 4. März 2019
Weitere Informationen zur Anmeldung und zur Veranstaltung finden Sie hier.