tuwan 妹子图爬取

基于jerryWebSpider的url获取逻辑而转化的python27版本。适用于没有java、mysql环境的同学。

使用方式

设置获取图册的范围

if __name__ == "__main__":
    print "==>start"
    
    gainer = Process_ctl()
    gainer.load_progress()
    # 设置获取相册的起止id即可
    gainer.run_range(start=0,end=2000)
    # gainer.run_queue()
    gainer.save_progress()

    data_dl = gainer.get_progress_data()
    dlobj = DL()
    dlobj.set_dl_data(data_dl)
    dlobj.do_dl_queue()

    print "==>end"

执行爬取

python get_tuwan.py

说明

依赖requests库
图片组归档在./arichive下
已经下载过的图片不会重新下载(根据文件名判断,但是不会对文件内容进行校验)
解析后的图片url会记录在./data/pic_data下

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
data		data
get_tuwan.py		get_tuwan.py
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

tuwan 妹子图爬取

使用方式

说明

About

Releases

Packages

Languages

bignnonster/tuwan_crawler

Folders and files

Latest commit

History

Repository files navigation

tuwan 妹子图爬取

使用方式

说明

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages