Crear un pipeline que ejecute la limpieza de un archivo de datos y enriquecimiento con datos consguidos a través de scraping y llamando a apis.
El público nunca está de acuerdo con la crítica.
Estudiamos la lista de los 500 mejores discos de la historia según la publicación Rolling Stone. Artículo Cargamos los datos de esta lista con un archivo excel conseguido a través de muscicbrainz
Enriqueceremos estos datos con las siguentes webs:
-
Lista de los discos más reproducidos en Spotify, conseguida a través de la web de Chartmasters. La última actualización data del 11/07/21. (Scrapping)
-
De la web Insider hemos conseguido los datos de los 50 álbumes más vendidos de todos los tiempos. Artículo. (Scrapping)
-
Hemos conectado con las apis de la red social musical de Lastfm y hemos conseguido los siguientes datos:
- El top 50 de los álbumes más escuchados por sus usuarios
- El número total de usuarios y reproducciones que se han registrado de los 500 álbumes del artículo de Rolling Stone
-
Carpeta Data: varios csv de carga y exportación de datos.
-
Carpeta Images: logos para el readme + exportación de los gráficos creados con jupyter Notebooks
-
Carpeta Notebook con los archivos de prueba de manipulación de datos:
- limpieza: carga de datos, limpieza y primer enriquecimiento
- scra_api: con la extración de datos a través de apis y scrapping
- visualización: estudio de los datos a través de gráficos. (ver con nbviewer: visualización)
-
Carpeta Output: archivos creados al ejectuar el archivo main.py
-
Carpeta src:
- archivo apifunc: funciones que se ejecutan para llamar a las apis
- archivo scrappingfunc.py: funciones que se ejecutan para scrapear por las webs
-
Archivo main.py (ejecutables del pipeline)