第二章爬虫基础之urllib的使用

感冒的梵高 • 2021-12-27 20:40 • 好物分享

第二章爬虫基础之urllib的使用
urllib可以实现HTTP请求的发送，还可以把服务器返回的响应转换为python对象。
urllib库包含如下4个模块：
#request：这是最基本的HTTP请求模块，可以模拟请求的发送。就像在浏览器里输入网址然后按下回车一样，只需要给库方法传入URL以及格外的参数，就可以模拟实现发送请求的过程。
#error：异常处理模块。如果出现请求异常，那么我们可以捕获这些异常，然后进行重试或其他操作以保证程序运行不会意外终止。
#parse：一个工具模块。提供了许多URL的处理方法，例如拆分、解析、合并等。
#robotparser：主要用来识别网站的robot.txt文件，然后判断哪些网站可以爬，哪些网站不可以。

发送请求
urlopen
以Python官网为例，把这个网页抓取下来：
import urllib.request
response = urllib.request.urlopen(‘https://www.python.org’)
print(response.read(

第二章爬虫基础之urllib的使用最先出现在Python成神之路。

版权声明：
作者：感冒的梵高
链接：https://www.techfm.club/p/11042.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

【无标题】

< <上一篇

解决CondaHTTPError:HTTP 000 CONNECTION FAILED for url＜https://mirrors.tuna.tsinghua.edu.cn/anaconda***

下一篇>>

搜索内容

第二章爬虫基础之urllib的使用

取消回复

共有 0 条评论

Ads