WebDocScraper

Turn any website documentation into a prompt-friendly Markdown file.

WebDocScraper es una herramienta simple que scrapea documentación de sitios web y la convierte en un archivo Markdown estructurado, ideal para alimentar modelos de lenguaje o revisar offline.

🚀 Features

Scraping de documentación: Extrae títulos, párrafos, código y listas de cualquier sitio web.
Formato Markdown: Genera un archivo .md con una estructura de árbol y contenido separado por secciones.
Exploración de dominio: Rastrea todas las páginas enlazadas dentro del mismo dominio, hasta un límite configurable.
Simple y ligero: Solo necesitas Python y un par de librerías para empezar.

📚 Requirements

Python 3.7+
Dependencias: requests, beautifulsoup4

📦 Installation

Cloná este repositorio (o descargá el script):

git clone https://github.com/tu-usuario/webdocscraper.git
cd webdocscraper

Instalá las dependencias:
```
pip install requests beautifulsoup4
```

💡 Usage

Ejecutá el script pasando una URL base como argumento:

python main.py https://python.langchain.com/docs/introduction/

Esto generará un archivo webdocs.md en el directorio actual con toda la documentación scrapeada del dominio python.langchain.com.

Ejemplo de salida

# Documentación de https://python.langchain.com/docs/introduction/

Páginas scrapeadas: 50

Directory structure:
├── docs
│   ├── introduction
│   ├── modules
│   └── tutorials

================================================
URL: https://python.langchain.com/docs/introduction/
================================================
# Introduction

LangChain es una biblioteca para trabajar con modelos de lenguaje.

Opciones avanzadas

Límite de páginas: Editá MAX_PAGES en el script (default: 500) si querés scrapear más o menos páginas.
Delay: Ajustá REQUEST_DELAY (default: 1 segundo) para controlar la velocidad de las solicitudes.

🤝 Contributing

¡Las contribuciones son bienvenidas! Si querés mejorar WebDocScraper, seguí estos pasos:

Forkeá el repositorio.
Creá una branch para tus cambios:
```
git checkout -b mi-mejora
```

Hacé tus cambios y commitealos:

git commit -m "Agregué X funcionalidad"

Pusheá tus cambios y abrí un Pull Request:
```
git push origin mi-mejora
```

Ideas para contribuir

Soporte para contenido dinámico (con selenium).
Filtros personalizados para incluir/excluir rutas.
Exportación a otros formatos (JSON, vectores).

🛠️ Stack

Requests - Para hacer solicitudes HTTP.
BeautifulSoup - Para parsear HTML.

Licencia

MIT License - Ver LICENSE para más detalles.

Hecho con ❤️
¿Tenés dudas? Abrí un issue o contactame!

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
memory-bank		memory-bank
.clinerules		.clinerules
README.md		README.md
cyclotruc-gitingest.txt		cyclotruc-gitingest.txt
digest.txt		digest.txt
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WebDocScraper

🚀 Features

📚 Requirements

📦 Installation

💡 Usage

Ejemplo de salida

Opciones avanzadas

🤝 Contributing

Ideas para contribuir

🛠️ Stack

Licencia

About

Releases

Packages

Languages

Ranteck/docs_scrapper_to_md

Folders and files

Latest commit

History

Repository files navigation

WebDocScraper

🚀 Features

📚 Requirements

📦 Installation

💡 Usage

Ejemplo de salida

Opciones avanzadas

🤝 Contributing

Ideas para contribuir

🛠️ Stack

Licencia

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages