Úvod do Apache Spark a jeho ekosystému
- Úvod do veľkých dát a ich význam
- Prehľad ekosystému Apache Spark a jeho porovnanie s inými technológiami
veľkých dát
- Inštalácia a konfigurácia Apache Spark a príprava vývojového prostredia
- Základy RDD (Resilient Distributed Dataset) a jeho operácie
- Praktické cvičenie: Vytvorenie prvej Spark aplikácie s využitím RDD
- Diskusia o výhodách a nevýhodách RDD
- Úvod do Datasetov a DataFrames pre efektívnejšiu prácu s dátami
Pokročilé spracovanie dát s Apache Spark
- Podrobný pohľad na DataFrames a operácie s nimi
- SQL dotazy v Spark a práca so Spark SQL
- Praktické cvičenie: Transformácia dát a agregácia pomocou Spark SQL a
DataFrames
- Úvod do spracovania prúdových dát s Apache Spark Streaming
- Praktické cvičenie: Jednoduchá prúdová aplikácia
Strojové učenie a pokročilá analýza dát v Spark
- Prehľad MLlib (Machine Learning Library) v Sparku
- Vytváranie a hodnotenie modelov strojového učenia
- Praktické cvičenie: Klasifikácia, regresia a zhlukovanie s MLlib
- Integrácia Sparku s inými úložiskami dát (napr. HDFS, Amazon S3)
Optimalizácia a ladenie výkonu Spark aplikácií
- Monitorovanie a ladenie Spark aplikácií
- Práca so Spark UI pre analýzu výkonu aplikácií
- Optimalizácia výkonu pomocou particionovania a perzistencie
- Praktické tipy a triky pre efektívne spracovanie veľkých dát
Škálovateľnosť a nasadenie Spark aplikácií
- Architektúra Spark clustera a jeho konfigurácia
- Škálovanie Spark aplikácií vertikálne a horizontálne
- Nasadenie Spark aplikácií v produkčnom prostredí
- Najlepšie postupy pre prácu s Apache Spark
- Záverečná diskusia, odpovede na otázky a spätná väzba od
účastníkov