Skip to content

gabrielrflopes/Data-Science-Portfolio

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

80 Commits
 
 
 
 

Repository files navigation

Portfolio

Índice

Projetos

Análise Exploratória e Tratamento dos Dados

  1. Analisando os Dados do AirBnb na Cidade de Roma: Neste projeto, utilizei os dados disponíveis no Inside AirBnb para fazer uma análise exploratória completa dos dados, identificando média de preços, tipos de imóveis mais comuns, média de noites, médias de preços por bairros e a distribuição geográfica de imóveis classificados por preço.
  2. Panorama do COVID-19 no Brasil e no Mundo: Nesse projeto, utilizei os dados fornecidos pelo Our World in Data para analisar o panorama do COVID no Brasil e no mundo. O foco foi em avaliar a evolução da pandemia, os países mais afetados e o efeito da vacinação sobre casos e mortes.

Aprendizado Supervisionado e Otimização de Modelos

  1. Detecção de Fraudes em Cartões de Crédito: Desenvolvi modelos supervisionados de Machine Learning que classificam transações fraudulentas e legítimas. Comparei os modelos de regressão logística e de árvore de decisão, visando soluções para problemas de negócios reais que empresas de cartões de crédito podem passar.
  2. Machine Learning Aplicado à Previsão de Rotatividade: Desenvolvi modelos de classificação para previsão de Churn de clientes de uma empresa de telecomunicações a partir de dados históricos. Foram utilizadas técnicas de pré-processamento para codificação das variáveis categóricas, como LabelEncoder para variáveis binárias. Os treinamentos dos modelos foram feitos utilizando técnicas de validação cruzada e GridSearchCV, permitindo otimização de hiperparâmetros visando maximizar a métrica de recall, que se refere à previsão de Churn. Três modelos foram criados com diferentes graus de previsão, podendo se adequar às circunstâncias das empresas segundo as particularidades do problema de negócios em questão.

Auto Machine Learning

  1. AutoML aplicado à previsão de custos de seguros de saúde: Modelos de regressão foram testados para a previsão de custos de seguros de saúde, baseados em atributos demográficos e relacionados a hábitos de vida dos clientes. Os modelos foram construídos e otimizados através de um pipeline de Machine Learning integrado no PyCaret. Os modelos resultantes obtiveram ótimas métricas de generalização para novos exemplos, sendo o Bayesian Ridge o melhor dentre os testados, com R2 de 0,878 e RMSE de 4159.
  2. Classificação de saúde fetal: Este projeto visou explorar dados do exame de CTG para análise de saúde fetal. A partir de pipelines de pré-processamento e ajuste de modelos, foram construídos classificadores para identificar casos graves a partir dos atributos do exame, visando maximizar a métrica recall. Numa primeira abordagem, foram construídos 5 modelos e, nos dados de teste, o que melhor performou foi o Extra Trees com recall de 97%. Na abordagem com AutoML, construiu-se um modelo de análise de discriminannte linear com recall de 94%.

Séries Temporais

  1. Previsão de Demanda de Vendas utilizando Séries Temporais: Este projeto analisou os dados de 219 vinhos distintos e seus respectivos dados de venda ao longo de 3 anos. Com um conjunto de dados de mais de 700 mil entradas, construiu-se uma análise exploratória completa dos produtos, investigando quais possuem maior fluxo de vendas e quais convertem em maior receita. Assim, foi possível vislumbrar uma estratégia logística para o negócio. Da parte da previsão de demanda, utilizou-se o Prophet sobre dados históricos de vendas, construíndo um modelo de série temporal estacionária que obteve um erro absoluto médio (MAE) baixíssimo, de 0,74, e um MAPE abaixo de 10%. Foi possível prever, com um nível aceitável de incerteza, até um ano de vendas futuras.

Projetos de Estudos IBM

Regressão Línear e Regressão Múltipla

  1. Previsão de Emissão de CO2 para Novos Carros Fabricados: Estudo de um conjunto de dados históricos sobre carros fabricados de diversas marcas, visando criar modelos de regressão linear, linear múltipla e polinomial para prever a emissão de CO2 de um novo carro.

Classificação e Clustering

  1. Previsão de Medicamentos com Classificação por Árvore de Decisão: Estudo de dados sobre caractéristicas de pacientes, como colesterol e pressão arterial, visando criar um modelo de classificação de árvore de decisão que possa classificar corretamente qual o medicamento a ser prescrito.
  2. Serviços de Telecomunicações com K-Nearest Neighbours: Estudo com dados históricos de uma empresa de telecomunicações visando criar um classificador baseado no algoritmo de KNN. O objetivo é direcionar grupos de clientes a serviços e estratégias de marketing adequados a cada perfil.
  3. Previsão de Rotatividade com Regressão Logística: Estudo de previsão de rotatividade, criando um modelo de regressão logística para estimar os padrões envolvidos em clientes que rotacionam ou não.
  4. Detecção de Tumores com SVM: Estudo com dados de centenas de células humanas, com o objetivo de criar um modelo baseado em máquinas de vetores de suporte capaz de classificar tumores benignos e malignos. Foi explorado as correlações das variáveis, e a construção do modelo passou por um processo de otimização via Grid Search.
  5. Segmentação de Clientes com K-Means Clustering: Estudo com dados históricos de clientes, baseando-se em atributos como educação, renda e dívidas, por exemplo. O objetivo consistiu de criar grupos de clientes com padrões de compras parecidos, através do algorítmo de clusterização K-Means. Com isto, é possível direcionar estratégias de marketing mais efetivas para cada grupo, economizando recursos para a empresa.

Análise Exploratória

  1. Análise dos Lançamentos do Foguete Falcon 9 da SpaceX: Estudo que consiste da análise exploratória e visualização de dados, utilizando Matplotlib e Seaborn, dos lançamentos do foguete Falcon 9 da SpaceX.

Habilidades

  • Programação: Python, SQL
  • Habilidades Técnicas: Matemática Avançada, Probabilidade e Estatística, Física, Time Series, Metodologia Científica
  • Ferramentas: Numpy, Pandas, Matplotlib, Seaborn, Scikit-learn, PyCaret, TensorFlow, Keras, LaTeX, DataBricks, AWS, Power BI

Soft Skills

  • Pensamento Analítico; Escrita Científica; Oratória; Comunicação interpessoal; Organização.

Idiomas

  • Inglês avançado (B2 - Excelente conversação, escrita e leitura)
  • Espanhol básico (Entende bem, Lê bem)

Certificados

Artigos Sobre os Projetos

Artigos Sobre Data Science

Artigos Acadêmicos

Área: Física da Matéria Condensada

Gabriel R. F. Lopes

Bacharel e Mestre em Física pela Universidade Federal de Itajubá, referência mundial na área de exatas e engenharia. Possuo 6 anos de experiência com projetos de análise de dados, desde a condução de experimentos, coleta de dados, até o tratamento e visualização desses dados para apresentação. Trabalhei para transformar informação em conhecimento através da interpretação de variáveis e conceitos de física e matemática avançadas utilizando dados.

Na minha experiência acadêmica durante o Mestrado, coordenei e supervisionei experimentos, realizei a análise dos dados, construí modelos preditivos e testei hipóteses sobre o comportamento de semicondutores para aplicações em dispositivos eletrônicos. Da pesquisa, resultaram dois artigos publicadods na Applied Physics Letters com estudos inéditos.

Como cientista de dados, construo modelos preditivos baseados em aprendizado de máquina, utilizando das técnicas mais difundidas. Com amplo conhecimento das ferramentas do Python e suas bibliotecas essenciais, além da experiência com SQL, bancos de dados relacionais, Big Data e Cloud, sou capaz de criar soluções visando soluções para problemas de negócios em diversos nichos.

Tenho experiência com modelos de aprendizado supervisionado e não-supervisionado, como regressão (linear, polinomial, bayesiana, lasso), classificação (regressão logística, decision trees, random forest, kNN, SVM), clustering (K-Means, DBSCAN), além de técnicas de Boosting de Gradiente, como XGBoost e LightGBM.

Busco apresentar meus códigos sempre de maneira organiza e bem documentada, seguindo os princípios do data storytelling para melhorar o entendimento e hierarquização das informações. Nas minhas análises, busco seguir uma metodologia científica para tirar conclusões precisas e não-intuitivas.

Links importantes:

About

Repositório dos meus trabalhos e estudos em Data Science

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published