第二章爬虫基础之urllib的使用
第二章爬虫基础之urllib的使用
urllib可以实现HTTP请求的发送,还可以把服务器返回的响应转换为python对象。
urllib库包含如下4个模块:
#request:这是最基本的HTTP请求模块,可以模拟请求的发送。就像在浏览器里输入网址然后按下回车一样,只需要给库方法传入URL以及格外的参数,就可以模拟实现发送请求的过程。
#error:异常处理模块。如果出现请求异常,那么我们可以捕获这些异常,然后进行重试或其他操作以保证程序运行不会意外终止。
#parse:一个工具模块。提供了许多URL的处理方法,例如拆分、解析、合并等。
#robotparser:主要用来识别网站的robot.txt文件,然后判断哪些网站可以爬,哪些网站不可以。
发送请求
urlopen
以Python官网为例,把这个网页抓取下来:
import urllib.request
response = urllib.request.urlopen(‘https://www.python.org’)
print(response.read(
共有 0 条评论