python爬虫基础
目录
通用爬虫与聚焦爬虫
urllib库
urllib.request模块
urlopen()函数 向指定url发起请求
将远程目标的文件保存到本地的两种方式
request.Request类:如果想要在请求的时候增加一些请求头,那么就必须使用request.Request类来实现
request.ProxyHandler处理器(代理设置)
urllib.parse模块
urlencode() 方法:把字典数据转换为URL编码的数据,返回字符串类型
parse_qs() 方法:将经过编码后的url参数进行解码,返回字典
urlparse() 方法和 urlsplit() 方法 对url中的各个组成部分进行分割
爬虫自动登录访问授权页面
http.cookiejar模块
使用爬虫模拟登录步骤:
保存cookie到本地
从本地加载cookie
通用爬虫与聚焦爬虫
通用爬虫:通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地,形成
python爬虫基础最先出现在Python成神之路。
共有 0 条评论