爬虫——urllib.request包

时间:2019-07-12 23:42:26   收藏:0   阅读:114

一、引用包

  import urllib.request

二、常用方法

  (1)urllib.request.urlretrieve(网址,本地文件存储地址):直接下载网页到本地

    urllib.request.urlretrieve("http://www.baidu.com","D:\1.html")

  (2)urllib.request.urlcleanup():清理缓存

  (3)查看网页基本内容

    file = urllib.request.urlopen("http://www.baidu.com")

    print(file.info()) #查看网页信息

    print(file.code())#查看网页状态码

    print(file.geturl())#获取当前网页的url

  (4)设置网页超时时间

    urllib.request.urlopen("http"//www.baidu.com",timeout=1)

    timeout就是网页的超时时间设定

三、POST请求

import urllib.request
import urllib.parse 
post_url = "http://www.baidu.com"
post_data = urllib.parse.urlencode{
    "username":"username"
    "password":"password"
    }.encode("utf-8")

req = urllib.request.Request(post_url,post_data) 

四、异常处理

import urllib.request
import urllib.error

try:
    urllib.request.urlopen("http://www.baidu.com")
except urllib.error.URLError as e:
    if hasattr(e,"code"):
        print(e.code)
    if hasattr(e,"reason"):
        print(e.reason)

 

原文:https://www.cnblogs.com/cxys85/p/11178781.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!