Weslley Moura
https://www.udemy.com/course/apache-spark-dataframe-scala/
Prepare-se para aprender a usar o framework de processamento de dados distribuído mais utilizado pelos profissionais de data science, Apache Spark!
Entenda como Spark processa dados de forma distribuída, como é feito o gerenciamento de memória e tolerância à falhas. Aprenda os conceitos base sobre planos de execução lógico, físico, tasks e stages, DAG e RDDs.
Sabe aquelas consultas SQL que você costuma fazer? Neste curso você vai aprender a implementá-las no Apache Spark, usando Spark Dataframes.
- Profissionais ou estudantes que queiram aprender a consultar dados no Apache Spark usando Spark Dataframes
- Este curso NÃO é para você se você já tem experiência com Apache Spark
- O foco deste curso é ensinar a consultar dados usando Spark Dataframes. NÃO FAÇA ESTE CURSO SE VOCÊ DESEJA: 1) aprender a configurar e instalar o Spark; 2) Aprender a usar os módulos de ML, GraphX, Streaming do Spark
- Arquitetura geral do Apache Spark (DAG, RDD, actions e transformations, planos de execução, uso de memória, etc...)
- Introdução ao processamento de dados distribuído
- Quando utilizar Apache Spark e sua integração com outros frameworks
- Carregando dados em Spark Dataframes
- Filtrando, ordenando e agrupando dados
- Trabalhando com expressions e funções definidas pelo usuário (UDF)
- Juntando dados com JOIN
- Aplicando funções de agrupamento
- Particionamento de dados
- Introdução aos Datasets e Spark SQL
- Processando dados diretamente nos RDDs
- Noções de SQL
- Noções de programação
- Lógica de programação
Spark - The Definitive Guide Bill Chambers & Matei Zaharia
- Carregando dados no Spark
- Referenciando colunas em um Spark Dataframe
- Trabalhando com o comando SELECT em Dataframes
- Trabalhando com o comando SELECT em Dataframes - Parte 2
- Trabalhando com valores ausentes (missing values)
- Trabalhando com dados complexos
- Interoperabilidade entre Dataframe e RDD
- JOIN
- Trabalhando com funções de agrupamento
- Particionando Dataframes
- Introdução ao Spark SQL
- Introdução aos Datasets
- Manuseando RDDs
- Shared variables e accumulators
- Trabalhando com persistênca de dados
- Trabalhando com User Defined Functions (UDF)