- Cvičení každý lichý týden v pondělí 14:00 (dvojcvičení).
- Zápočet:
- Domácí úkoly - celkem 50 bodů
- Semestrální práce - celkem 50 bodů
- Vlastní aplikace, řešený problém pomocí Big Data technologií na BD clusteru
- Zkouška:
- Ústní praktická - demonstrace schopnosti práce s Big Data technologiemi a diskuze o semestrální práci
- PŘIDAT - PŘENOS DAT DO BDP
- SCHEDULING
- organizace semestru, úkoly, bodování, hodnocení
- základní BigData pojmy
- architektura BigData clusteru/plaformy
- služby a přistupové body BDP
- zřízení přístupů a přihlášení do BDP
- overwiew a prohlídka Hortonwork Data Platformy
- jaký je rozdíl mezi tradičními úložišti a výpočetními metodami vs BigData platforma
- HDFS, distribuovaný souborový systém
- přístup na HDFS, princip fungování, replikace, nastavení replikačního faktoru
- ovládání HDFS, základní příkazy, uložení souborů na HDFS, přístup k souborům, nástoje využívající HDFS
- typické formáty uložení dat na HDFS
- interpretace dat uložených na HDFS
- dotazování na data uložená na HDFS
- MapReduce framework, YARN - resource manager, worker nodes, distruce výpočtu, využití MapReduce a nástroje podporující MR
- příklady MR operací, jak napsat MR operaci, seznámení s nástoji podporující MR
- služb Hive a její použití
- dotazování na data, analytické zpracování, formáty použití
- typické použití databáze Hive a vhodnost jejího použití
- představení HBase a rozdíly v použití oproti Hive
- HIve a uložení dat
- partitioning, optimalizace dotazu, návrh Hive databáze a její možnosti
- možnosti CRUD na BDP platformě
- HBase, real time dotazování na data
- mávrh aplikace/zpracování, která vystavuje data skrze Hive a HBase
- HBase API, dotazování HBase
- Zeppelin a Jupyter Notebook - nástroje pro rychlý vývoj a dotazování se na data
- Integrace Zeppelin a Juypter Notebooku do BDP
- vytváření vlastních notebooku a spouštění vlastního kódu
- uživatelé BDP, přístup na EDGE server
- fronty a pooly resource manageru YARN
- Hive datazáze a Hive metastore
- úvod do řízení uživatelských přístupů
- SPARK, všeobecný framework pro práci s MR frameworkem a daty na HDFS
- výhody Sparku, jeho fungování, módy a možnosti práce se Sparkem
- Spark skrze Zeppelin nebo Jupyter Notebook, režimy Sparku (local, cluster...)
- SPARK SQL
- SPARK pokračování
- standalone Spark aplikace a spark-submit příkaz, vlastní kód v Java, Scala, Python
- SPARK ML a další komponenty Sparku
- Apache Kafka a principy fungování front
- napojení na Kafku, vytvoření jednoduché aplikace pro sbírání a přepočet dat
- nastavení vývojového prostředí
- Vytváření aplikace/aplikací pro integraci jednotlivých názorů
- vytváření Spark aplikace dotazující se na data z různých zdrojů
- scheduling a spouštění apkikací
- SPARK streaming, zpracování real-time a near real time dat
- architetura komplexní aplikace pro data v pohybu a pomalu se měnící data
- integrace jednotlivých nástrojů BDP mezi sebou
This README would normally document whatever steps are necessary to get your application up and running.
- Quick summary
- Version
- Learn Markdown
- Summary of set up
- Configuration
- Dependencies
- Database configuration
- How to run tests
- Deployment instructions
- Writing tests
- Code review
- Other guidelines
- Repo owner or admin
- Other community or team contact