Organizace semestru

Cvičení každý lichý týden v pondělí 14:00 (dvojcvičení).
Zápočet:
- Domácí úkoly - celkem 50 bodů
- Semestrální práce - celkem 50 bodů
  - Vlastní aplikace, řešený problém pomocí Big Data technologií na BD clusteru
Zkouška:
- Ústní praktická - demonstrace schopnosti práce s Big Data technologiemi a diskuze o semestrální práci

Program cvičení

BACKLOG

PŘIDAT - PŘENOS DAT DO BDP
SCHEDULING

1. cvičení

organizace semestru, úkoly, bodování, hodnocení
základní BigData pojmy
architektura BigData clusteru/plaformy
služby a přistupové body BDP
zřízení přístupů a přihlášení do BDP
overwiew a prohlídka Hortonwork Data Platformy
jaký je rozdíl mezi tradičními úložišti a výpočetními metodami vs BigData platforma

2. cvičení

HDFS, distribuovaný souborový systém
přístup na HDFS, princip fungování, replikace, nastavení replikačního faktoru
ovládání HDFS, základní příkazy, uložení souborů na HDFS, přístup k souborům, nástoje využívající HDFS
typické formáty uložení dat na HDFS
interpretace dat uložených na HDFS

3. cvičení

dotazování na data uložená na HDFS
MapReduce framework, YARN - resource manager, worker nodes, distruce výpočtu, využití MapReduce a nástroje podporující MR
příklady MR operací, jak napsat MR operaci, seznámení s nástoji podporující MR

4. cvičení

služb Hive a její použití
dotazování na data, analytické zpracování, formáty použití
typické použití databáze Hive a vhodnost jejího použití
představení HBase a rozdíly v použití oproti Hive

5. cvičení

HIve a uložení dat
partitioning, optimalizace dotazu, návrh Hive databáze a její možnosti
možnosti CRUD na BDP platformě

6. cvičení

HBase, real time dotazování na data
mávrh aplikace/zpracování, která vystavuje data skrze Hive a HBase
HBase API, dotazování HBase

7. cvičení

Zeppelin a Jupyter Notebook - nástroje pro rychlý vývoj a dotazování se na data
Integrace Zeppelin a Juypter Notebooku do BDP
vytváření vlastních notebooku a spouštění vlastního kódu

uživatelé BDP, přístup na EDGE server
fronty a pooly resource manageru YARN
Hive datazáze a Hive metastore
úvod do řízení uživatelských přístupů

8. cvičení

SPARK, všeobecný framework pro práci s MR frameworkem a daty na HDFS
výhody Sparku, jeho fungování, módy a možnosti práce se Sparkem
Spark skrze Zeppelin nebo Jupyter Notebook, režimy Sparku (local, cluster...)
SPARK SQL

9. cvičení

SPARK pokračování
standalone Spark aplikace a spark-submit příkaz, vlastní kód v Java, Scala, Python
SPARK ML a další komponenty Sparku

10. cvičení

Apache Kafka a principy fungování front
napojení na Kafku, vytvoření jednoduché aplikace pro sbírání a přepočet dat

11. cvičení

nastavení vývojového prostředí
Vytváření aplikace/aplikací pro integraci jednotlivých názorů
vytváření Spark aplikace dotazující se na data z různých zdrojů
scheduling a spouštění apkikací

12. cvičení

SPARK streaming, zpracování real-time a near real time dat
architetura komplexní aplikace pro data v pohybu a pomalu se měnící data
integrace jednotlivých nástrojů BDP mezi sebou

13. cvičení

14. cvičení

README

This README would normally document whatever steps are necessary to get your application up and running.

What is this repository for?

Quick summary
Version
Learn Markdown

How do I get set up?

Summary of set up
Configuration
Dependencies
Database configuration
How to run tests
Deployment instructions

Contribution guidelines

Writing tests
Code review
Other guidelines

Who do I talk to?

Repo owner or admin
Other community or team contact

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
cviceni/1_2		cviceni/1_2
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Organizace semestru

Program cvičení

BACKLOG

1. cvičení

2. cvičení

3. cvičení

4. cvičení

5. cvičení

6. cvičení

7. cvičení

8. cvičení

9. cvičení

10. cvičení

11. cvičení

12. cvičení

13. cvičení

14. cvičení

README

What is this repository for?

How do I get set up?

Contribution guidelines

Who do I talk to?

About

Releases

Packages

bdvorsky/F7PMIBD-Big-data

Folders and files

Latest commit

History

Repository files navigation

Organizace semestru

Program cvičení

BACKLOG

1. cvičení

2. cvičení

3. cvičení

4. cvičení

5. cvičení

6. cvičení

7. cvičení

8. cvičení

9. cvičení

10. cvičení

11. cvičení

12. cvičení

13. cvičení

14. cvičení

README

What is this repository for?

How do I get set up?

Contribution guidelines

Who do I talk to?

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages