这是一个简单的网络爬虫,由python实现,主要是爬取淘宝上的淘女郎
###功能:将爬取的淘女郎个人信息,包括名字,身高等信息,存储到本地,且将淘女郎个人信息页面的写真图片也已文件夹的形式保存到本地。
爬取流程:
- 新改版的淘女郎页面,进行翻页时,是通过ajax实现的,而不是老版的通过显示传递页面代码,获取的;所以,通过firefox的网络监控,获取ajax的url,模拟表单提交的信息,获得服务器返回的json数据,其中表单提交最重要的就是页码,
currentPage
; - 解析返回的json数据,获取淘女郎个人信息,接下来根据信息,依次处理即可。
爬取结果展示: