Školenie pre analýzu veľkých dát pomocou Apache Spark zahŕňa prehľad základných a pokročilých tém, praktické cvičenia a diskusie na posilnenie znalostí o analýze veľkých dát. Spark je výkonný nástroj na spracovanie veľkých dát, ktorý umožňuje [...]
  • PYTHON_DATAN3
  • Dĺžka 5 dní
  • 50 ITK bodov
  • 4 termíny
  • Bratislava (1 150 €)

    Brno (26 500 Kč)

    Praha (26 500 Kč)

  • Mierne pokročilý

Školenie pre analýzu veľkých dát pomocou Apache Spark zahŕňa prehľad základných a pokročilých tém, praktické cvičenia a diskusie na posilnenie znalostí o analýze veľkých dát. Spark je výkonný nástroj na spracovanie veľkých dát, ktorý umožňuje rýchle vykonávanie analýz a podporuje rôzne úlohy, vrátane dávkového spracovania, streamovania, interaktívnych dotazov a strojového učenia.

»
  • Data Scientist, dátoví analytici, najmä v Big Data prostredí sú primárnymi poslucháčmi tohto intenzívneho kurzu
  • Softvéroví vývojári, ktorí ovládajú jazyk Python aspoň na strednej až pokročilej úrovni a ktorí majú za cieľ vytvárať data-intenzívne aplikácie pomocou enginu SPARK v prostredí Big Data (Cloud)
  • Dátoví architekti

Úvod do Apache Spark a jeho ekosystému

  • Úvod do veľkých dát a ich význam
  • Prehľad ekosystému Apache Spark a jeho porovnanie s inými technológiami veľkých dát
  • Inštalácia a konfigurácia Apache Spark a príprava vývojového prostredia
  • Základy RDD (Resilient Distributed Dataset) a jeho operácie
  • Praktické cvičenie: Vytvorenie prvej Spark aplikácie s využitím RDD
  • Diskusia o výhodách a nevýhodách RDD
  • Úvod do Datasetov a DataFrames pre efektívnejšiu prácu s dátami

Pokročilé spracovanie dát s Apache Spark

  • Podrobný pohľad na DataFrames a operácie s nimi
  • SQL dotazy v Spark a práca so Spark SQL
  • Praktické cvičenie: Transformácia dát a agregácia pomocou Spark SQL a DataFrames
  • Úvod do spracovania prúdových dát s Apache Spark Streaming
  • Praktické cvičenie: Jednoduchá prúdová aplikácia

Strojové učenie a pokročilá analýza dát v Spark

  • Prehľad MLlib (Machine Learning Library) v Sparku
  • Vytváranie a hodnotenie modelov strojového učenia
  • Praktické cvičenie: Klasifikácia, regresia a zhlukovanie s MLlib
  • Integrácia Sparku s inými úložiskami dát (napr. HDFS, Amazon S3)

Optimalizácia a ladenie výkonu Spark aplikácií

  • Monitorovanie a ladenie Spark aplikácií
  • Práca so Spark UI pre analýzu výkonu aplikácií
  • Optimalizácia výkonu pomocou particionovania a perzistencie
  • Praktické tipy a triky pre efektívne spracovanie veľkých dát

Škálovateľnosť a nasadenie Spark aplikácií

  • Architektúra Spark clustera a jeho konfigurácia
  • Škálovanie Spark aplikácií vertikálne a horizontálne
  • Nasadenie Spark aplikácií v produkčnom prostredí
  • Najlepšie postupy pre prácu s Apache Spark
  • Záverečná diskusia, odpovede na otázky a spätná väzba od účastníkov
Aktuálna ponuka
Školiace miesto
Jazyk kurzu

Uvedené ceny sú bez DPH.