GitHub - yuzeshan/taobaoMM: It is a simple crawler to craw taobao girl by python

这是一个简单的网络爬虫，由python实现，主要是爬取淘宝上的淘女郎

###功能:将爬取的淘女郎个人信息，包括名字，身高等信息，存储到本地，且将淘女郎个人信息页面的写真图片也已文件夹的形式保存到本地。

爬取流程：

新改版的淘女郎页面，进行翻页时，是通过ajax实现的，而不是老版的通过显示传递页面代码，获取的；所以，通过firefox的网络监控，获取ajax的url，模拟表单提交的信息，获得服务器返回的json数据，其中表单提交最重要的就是页码，currentPage;
解析返回的json数据，获取淘女郎个人信息，接下来根据信息，依次处理即可。

爬取结果展示：

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
taobaomm-new.py		taobaomm-new.py
tool.py		tool.py

Provide feedback