Skip to content

Latest commit

 

History

History
54 lines (38 loc) · 1.3 KB

README.md

File metadata and controls

54 lines (38 loc) · 1.3 KB

Recruitment-spider

开发工具

scrapy爬虫框架+mysql8.0+pycharm+selenium

开发技术

cv+google

运行环境

windows10+scrapy0.7.2+python3

项目结构

|——— folder  #项目目录
	|——— spider  #爬虫脚本目录,可以有多个脚本
	|    |——— spider.py #爬虫脚本
	|——— __init__.py #空文件,没个蛋用
	|——— items.py         #定义保存内容
	|——— middlewares.py   #中间件,可添加请求表头和ip代理
	|——— pipelines.py     #处理item并保存数据库
	|——— settings.py       #项目配置文件,可定义爬取速率和数据库配置等
	|——— start.py         #启动文件
	|___ 其他    #一些别的东西可能有用
	
#命令行启动
cd 项目
scrapy crawl [爬虫名]

如图

image-20200718222124038.png

运行效果

image-20200718222210243.png 数据库

image-20200718222439222.png