Certifique-se de ter instalado os seguintes requisitos antes de prosseguir:
- Python (versão recomendada: 3.8)
- Micromamba (versão recomendada: 1.4.9)
- Docker (versão recomendada: 24.0.7)
- Docker Compose (versão recomendada: v2.23.3-desktop.2)
- kubectl (versão recomendada: v1.28.2)
- Helmfile (versão recomendada: 0.155.0)
- Taskfile (versão recomendada: 3.22.0)
-
Clone este repositório:
git clone https://github.com/yurivenancio30/PySpark-Project
-
Navegue até o diretório do projeto:
cd PySpark-Project
-
Crie um ambiente virtual com o micromamba através do taskfile:
task create:env
-
Suba o Mysql e o Postgres com o docker compose:
docker compose up
-
Crie a tabela no Mysql:
CREATE TABLE `person` ( `id` BIGINT UNSIGNED NOT NULL AUTO_INCREMENT, `name` varchar(10000) DEFAULT NULL, `age` BIGINT UNSIGNED DEFAULT NULL, PRIMARY KEY (`id`));
-
Aplique o helm chart para subir o operador no cluster:
helmfile apply
-
Ative o ambiente virtual com o micromamba:
micromamba activate spark
-
Rode o o script em python para gerar os dados fakes no mysql:
task fake_data:mysql
-
Após a Criação dos dados, aplique o yaml do sparkapplication contra o cluster minikube para enviar os dados para o postgres:
task apply:spark