python爬虫基础

目录
通用爬虫与聚焦爬虫
urllib库
urllib.request模块
urlopen()函数 向指定url发起请求
将远程目标的文件保存到本地的两种方式
request.Request类:如果想要在请求的时候增加一些请求头,那么就必须使用request.Request类来实现
request.ProxyHandler处理器(代理设置)
urllib.parse模块
urlencode() 方法:把字典数据转换为URL编码的数据,返回字符串类型
parse_qs() 方法:将经过编码后的url参数进行解码,返回字典
urlparse() 方法和 urlsplit() 方法 对url中的各个组成部分进行分割
爬虫自动登录访问授权页面
http.cookiejar模块
使用爬虫模拟登录步骤:
保存cookie到本地
从本地加载cookie

通用爬虫与聚焦爬虫
通用爬虫:通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地,形成

python爬虫基础最先出现在Python成神之路

版权声明:
作者:主机优惠
链接:https://www.techfm.club/p/17227.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>