Turn any website documentation into a prompt-friendly Markdown file.
WebDocScraper
es una herramienta simple que scrapea documentación de sitios web y la convierte en un archivo Markdown estructurado, ideal para alimentar modelos de lenguaje o revisar offline.
- Scraping de documentación: Extrae títulos, párrafos, código y listas de cualquier sitio web.
- Formato Markdown: Genera un archivo
.md
con una estructura de árbol y contenido separado por secciones. - Exploración de dominio: Rastrea todas las páginas enlazadas dentro del mismo dominio, hasta un límite configurable.
- Simple y ligero: Solo necesitas Python y un par de librerías para empezar.
- Python 3.7+
- Dependencias:
requests
,beautifulsoup4
-
Cloná este repositorio (o descargá el script):
git clone https://github.com/tu-usuario/webdocscraper.git cd webdocscraper
-
Instalá las dependencias:
pip install requests beautifulsoup4
Ejecutá el script pasando una URL base como argumento:
python main.py https://python.langchain.com/docs/introduction/
Esto generará un archivo webdocs.md
en el directorio actual con toda la documentación scrapeada del dominio python.langchain.com
.
# Documentación de https://python.langchain.com/docs/introduction/
Páginas scrapeadas: 50
Directory structure:
├── docs
│ ├── introduction
│ ├── modules
│ └── tutorials
================================================
URL: https://python.langchain.com/docs/introduction/
================================================
# Introduction
LangChain es una biblioteca para trabajar con modelos de lenguaje.
- Límite de páginas: Editá
MAX_PAGES
en el script (default: 500) si querés scrapear más o menos páginas. - Delay: Ajustá
REQUEST_DELAY
(default: 1 segundo) para controlar la velocidad de las solicitudes.
¡Las contribuciones son bienvenidas! Si querés mejorar WebDocScraper
, seguí estos pasos:
- Forkeá el repositorio.
- Creá una branch para tus cambios:
git checkout -b mi-mejora
- Hacé tus cambios y commitealos:
git commit -m "Agregué X funcionalidad"
- Pusheá tus cambios y abrí un Pull Request:
git push origin mi-mejora
- Soporte para contenido dinámico (con
selenium
). - Filtros personalizados para incluir/excluir rutas.
- Exportación a otros formatos (JSON, vectores).
- Requests - Para hacer solicitudes HTTP.
- BeautifulSoup - Para parsear HTML.
MIT License - Ver LICENSE para más detalles.
Hecho con ❤️
¿Tenés dudas? Abrí un issue o contactame!