Skip to content

yurivenancio30/PySpark-Project

Repository files navigation

Processando dados com o SparkOperator no Minikube

Pré-requisitos

Certifique-se de ter instalado os seguintes requisitos antes de prosseguir:

Passo a passo para rodar o projeto

  1. Clone este repositório:

    git clone https://github.com/yurivenancio30/PySpark-Project
  2. Navegue até o diretório do projeto:

    cd PySpark-Project
  3. Crie um ambiente virtual com o micromamba através do taskfile:

    task create:env
  4. Suba o Mysql e o Postgres com o docker compose:

    docker compose up
  5. Crie a tabela no Mysql:

    CREATE TABLE `person` ( `id`   BIGINT UNSIGNED NOT NULL   AUTO_INCREMENT, `name`  varchar(10000)  DEFAULT NULL, `age`  BIGINT UNSIGNED  DEFAULT NULL, PRIMARY KEY (`id`));
  6. Aplique o helm chart para subir o operador no cluster:

    helmfile apply
  7. Ative o ambiente virtual com o micromamba:

    micromamba activate spark
  8. Rode o o script em python para gerar os dados fakes no mysql:

    task fake_data:mysql
  9. Após a Criação dos dados, aplique o yaml do sparkapplication contra o cluster minikube para enviar os dados para o postgres:

    task apply:spark

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published