Skip to content

bdvorsky/F7PMIBD-Big-data

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 

Repository files navigation

Organizace semestru

  • Cvičení každý lichý týden v pondělí 14:00 (dvojcvičení).
  • Zápočet:
    • Domácí úkoly - celkem 50 bodů
    • Semestrální práce - celkem 50 bodů
      • Vlastní aplikace, řešený problém pomocí Big Data technologií na BD clusteru
  • Zkouška:
    • Ústní praktická - demonstrace schopnosti práce s Big Data technologiemi a diskuze o semestrální práci

Program cvičení

BACKLOG

  • PŘIDAT - PŘENOS DAT DO BDP
  • SCHEDULING

1. cvičení

  • organizace semestru, úkoly, bodování, hodnocení
  • základní BigData pojmy
  • architektura BigData clusteru/plaformy
  • služby a přistupové body BDP
  • zřízení přístupů a přihlášení do BDP
  • overwiew a prohlídka Hortonwork Data Platformy
  • jaký je rozdíl mezi tradičními úložišti a výpočetními metodami vs BigData platforma

2. cvičení

  • HDFS, distribuovaný souborový systém
  • přístup na HDFS, princip fungování, replikace, nastavení replikačního faktoru
  • ovládání HDFS, základní příkazy, uložení souborů na HDFS, přístup k souborům, nástoje využívající HDFS
  • typické formáty uložení dat na HDFS
  • interpretace dat uložených na HDFS

3. cvičení

  • dotazování na data uložená na HDFS
  • MapReduce framework, YARN - resource manager, worker nodes, distruce výpočtu, využití MapReduce a nástroje podporující MR
  • příklady MR operací, jak napsat MR operaci, seznámení s nástoji podporující MR

4. cvičení

  • služb Hive a její použití
  • dotazování na data, analytické zpracování, formáty použití
  • typické použití databáze Hive a vhodnost jejího použití
  • představení HBase a rozdíly v použití oproti Hive

5. cvičení

  • HIve a uložení dat
  • partitioning, optimalizace dotazu, návrh Hive databáze a její možnosti
  • možnosti CRUD na BDP platformě

6. cvičení

  • HBase, real time dotazování na data
  • mávrh aplikace/zpracování, která vystavuje data skrze Hive a HBase
  • HBase API, dotazování HBase

7. cvičení

  • Zeppelin a Jupyter Notebook - nástroje pro rychlý vývoj a dotazování se na data
  • Integrace Zeppelin a Juypter Notebooku do BDP
  • vytváření vlastních notebooku a spouštění vlastního kódu

  • uživatelé BDP, přístup na EDGE server
  • fronty a pooly resource manageru YARN
  • Hive datazáze a Hive metastore
  • úvod do řízení uživatelských přístupů

8. cvičení

  • SPARK, všeobecný framework pro práci s MR frameworkem a daty na HDFS
  • výhody Sparku, jeho fungování, módy a možnosti práce se Sparkem
  • Spark skrze Zeppelin nebo Jupyter Notebook, režimy Sparku (local, cluster...)
  • SPARK SQL

9. cvičení

  • SPARK pokračování
  • standalone Spark aplikace a spark-submit příkaz, vlastní kód v Java, Scala, Python
  • SPARK ML a další komponenty Sparku

10. cvičení

  • Apache Kafka a principy fungování front
  • napojení na Kafku, vytvoření jednoduché aplikace pro sbírání a přepočet dat

11. cvičení

  • nastavení vývojového prostředí
  • Vytváření aplikace/aplikací pro integraci jednotlivých názorů
  • vytváření Spark aplikace dotazující se na data z různých zdrojů
  • scheduling a spouštění apkikací

12. cvičení

  • SPARK streaming, zpracování real-time a near real time dat
  • architetura komplexní aplikace pro data v pohybu a pomalu se měnící data
  • integrace jednotlivých nástrojů BDP mezi sebou

13. cvičení

14. cvičení

README

This README would normally document whatever steps are necessary to get your application up and running.

What is this repository for?

How do I get set up?

  • Summary of set up
  • Configuration
  • Dependencies
  • Database configuration
  • How to run tests
  • Deployment instructions

Contribution guidelines

  • Writing tests
  • Code review
  • Other guidelines

Who do I talk to?

  • Repo owner or admin
  • Other community or team contact

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published