0%

爬虫

Requests库

Requests的get方法

1
requests.get(url,parmas=None,**kwargs)

url: 获取页面的url链接。
params: url中的额外参数,字典或字节流格式,可选
kwargs: 12个控制访问的参数
get方法发出一个Requests请求,获得一个Respnse对象。

Requests库的异常

异常 说明
ConnectionError 网络连接错误异常
HTTPError HTTP错误异常
URLRequired URL缺失异常
TooManyRedirects 超过最大重定向次数,产生重定向异常
ConnectionTimeout 连接远程服务器超时异常
Timeout 请求URL超时,产生超时异常

r.raise_for_status(): 如果不是200,产生异常requests.HTTPError。

HTTP协议对资源的操作

方法 说明
GET 请求获取URL资源
HEAD 获取资源头部信息
POST 请求后向URL位置的资源附加新的数据
PUT 在URL位置存储一个资源,覆盖原URL位置资源
PATCH 请求局部更新URL位置的资源
DELETE 删除URL位置的资源

Requests库7个主要方法

方法 说明
request 构造一个请求,支撑以下各方法的基础方法
get 获取HTML网页的主要方法
head 获取HTML网页头信息的主要方法
post 向HTML网页提交POST请求
put 向HTML网页提交PUT请求
patch 向HTML网页提交局部修改请求
delete 向HTML网页提交删除请求
1
requests.request(method,url,**kwargs)

**kwargs:控制访问参数,均为可选项
params:字典或字节序列,作为参数增加到url中。
data:字典、字节序列或文件对象,作为Request的内容
json:JSON格式数据,作为Request的内容
headers:字典,HTTP定制头
cookies:字典或CookerJar,Request中的cookie
auth:元组,支持HTTP认证功能
files: 字典类型,传输文件
timeout:设定超时时间,秒为单位
proxies:字典类型,设定访问代理服务器,可以增加登录认证
stream:获取内容是否立即下载