Python爬虫(一)

requests库基本用法

get和post请求

  • get

    1
    2
    index = 'www.xxx.com'
    r = requests.get(index)
  • post

    1
    2
    3
    4
    5
    6
    index = 'www.aaa.com'
    datas = {
    'user':'test',
    'password':'test'
    }
    r = requests.post(index,data = datas)
  • 带header的请求

    1
    2
    3
    4
    5
    6
    index = 'www.aaa.com'
    headers = {
    'host':'sss',
    'UA':'ddddd'
    }
    r = requests.get(index,heders = headers)

带header的post请求同理

  • 带参数的get请求
    get()的参数栏加上params即可,以字典格式传入
  • 总结
    请求的必选参数为请求页index,可选参数
    • headers
    • data (提交post请求)
    • params(用于提交get参数)
    • cookies(用于模拟登陆)
    • proxies(设置代理)
    • 其它

      response

  • 对服务器请求后获取的是response对象,response对象支持下列方法
  • response.text 返回unicode数据
  • response.content 返回字节流数据
  • response.json 返回json数据

    session的利用

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    new = requests.session()
    #新建一个session对象,session对象可以保存cookie的值
    data = {
    'user':'ssss',
    'pas':'sddd'
    }
    r = new.post(index,data = data)
    #登陆操作
    r = new.get(index)
    #登陆后通过new提交其它请求

session支持cookie.clear()方法