spider

这是我学习python爬虫时所写的一些代码和总结

http超文本传输协议

一个url对应网络上的一个资源
浏览器通过http协议进行相应的资源传输
通过url和命令管理资源，每次操作独立无状态，网络通道及服务器成为了黑盒子

Requests库的使用

说明：Requests库中的7个方法分别对应http协议中的7个方法

安装

命令 pip install requests

库的原理

模块最基本的方法是request方法，其它6个方法都是以该方法作为基本方法，并设定一定的默认参数所形成的方法，所以也可以说request库中只有一个方法
request的执行过程是，构造一个向服务器请求资源的request对象，然后服务器响应返回一个包含服务器资源的response对象, 由于其它6个方法都是以request为基本的方法，所以其它6个方法的流程也是如此

response对象

属性

status_code:http请求的返回状态 200代表连接成功，其它和404都是失败
text: url对应页面内容文本形式
encoding: 从http header中猜测的响应内容的编码方式（charset字段标明，如果没有则为iso-8859-1）
apparent_encoding: 从内容中分析出编码方式，通常更可靠
content http响应内容的2进制形式

主要方法

request()构造一个请求，支撑该模块中的其它方法
get() 原型：request.get(url, params=None, ** kwargs) params 是url中的额外参数， kwarges是12个控制访问参数原理源码 def get(url, params=None, **kwargs) kwargs,setdefault('allow redirects', True return request('get', params=params, **kwargs) 获取html网页的主要方法,对应http协议的GET()
head()获取html网页的头信息的方法
post()向网页中提交post请求的方法
put向网页中提交put请求的方法
patch() 向网页中提交局部修改请求的方法
delete() 向网页中提交删除请求的方法

常用控制访问参数

params 用params = {'key1':'value1'}, 这样就可以在url后面构造参数
headers = hd, 可以在字典hd总制定需要更改的headers属性，常常更改user-agent字段来伪装成浏览器

异常

通常是使用response对象中的raise_for_status()方法检测，如果不是200，则抛出异常

ConnectionError 网络连接错误，dns查询失败，拒绝连接等
HttpError http错误异常
URLRequired url缺失异常
TooManyRedirects 重定向异常
等等

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
README.md		README.md
spider.py		spider.py
test.py		test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

spider

http超文本传输协议

Requests库的使用

安装

库的原理

response对象

属性

主要方法

常用控制访问参数

异常

About

Releases

Packages

Languages

oxidegit/spider

Folders and files

Latest commit

History

Repository files navigation

spider

http超文本传输协议

Requests库的使用

安装

库的原理

response对象

属性

主要方法

常用控制访问参数

异常

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages