Skip to content

La idea es que haga web scrapping de la documentacion que uno necesita y poder usar ese archivo markdown como contexto para los llm

Notifications You must be signed in to change notification settings

Ranteck/docs_scrapper_to_md

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

WebDocScraper

License Python version

Turn any website documentation into a prompt-friendly Markdown file.

WebDocScraper es una herramienta simple que scrapea documentación de sitios web y la convierte en un archivo Markdown estructurado, ideal para alimentar modelos de lenguaje o revisar offline.

🚀 Features

  • Scraping de documentación: Extrae títulos, párrafos, código y listas de cualquier sitio web.
  • Formato Markdown: Genera un archivo .md con una estructura de árbol y contenido separado por secciones.
  • Exploración de dominio: Rastrea todas las páginas enlazadas dentro del mismo dominio, hasta un límite configurable.
  • Simple y ligero: Solo necesitas Python y un par de librerías para empezar.

📚 Requirements

  • Python 3.7+
  • Dependencias: requests, beautifulsoup4

📦 Installation

  1. Cloná este repositorio (o descargá el script):

    git clone https://github.com/tu-usuario/webdocscraper.git
    cd webdocscraper
  2. Instalá las dependencias:

    pip install requests beautifulsoup4

💡 Usage

Ejecutá el script pasando una URL base como argumento:

python main.py https://python.langchain.com/docs/introduction/

Esto generará un archivo webdocs.md en el directorio actual con toda la documentación scrapeada del dominio python.langchain.com.

Ejemplo de salida

# Documentación de https://python.langchain.com/docs/introduction/

Páginas scrapeadas: 50

Directory structure:
├── docs
│   ├── introduction
│   ├── modules
│   └── tutorials

================================================
URL: https://python.langchain.com/docs/introduction/
================================================
# Introduction

LangChain es una biblioteca para trabajar con modelos de lenguaje.

Opciones avanzadas

  • Límite de páginas: Editá MAX_PAGES en el script (default: 500) si querés scrapear más o menos páginas.
  • Delay: Ajustá REQUEST_DELAY (default: 1 segundo) para controlar la velocidad de las solicitudes.

🤝 Contributing

¡Las contribuciones son bienvenidas! Si querés mejorar WebDocScraper, seguí estos pasos:

  1. Forkeá el repositorio.
  2. Creá una branch para tus cambios:
    git checkout -b mi-mejora
  3. Hacé tus cambios y commitealos:
    git commit -m "Agregué X funcionalidad"
  4. Pusheá tus cambios y abrí un Pull Request:
    git push origin mi-mejora

Ideas para contribuir

  • Soporte para contenido dinámico (con selenium).
  • Filtros personalizados para incluir/excluir rutas.
  • Exportación a otros formatos (JSON, vectores).

🛠️ Stack

Licencia

MIT License - Ver LICENSE para más detalles.


Hecho con ❤️
¿Tenés dudas? Abrí un issue o contactame!

About

La idea es que haga web scrapping de la documentacion que uno necesita y poder usar ese archivo markdown como contexto para los llm

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages