Python进阶–网络爬虫基础
Python网络爬虫基础
一、网络请求ProxyHandler处理器(代理):request库发送get请求:发送post请求:使用代理requests 处理cookie 信息、处理不信任的SSL证书
二、数据提取XPath语法和lxml模块XPath语法lxml库
BeautifulSoup4库简单使用提取数据
select和css选择器css基本语法css选择器在bs4中使用
正则表达式和re模块单个字符的匹配规则多个字符的匹配规则开始结束和或语法转义字符与原生字符串re模块的部分函数
三、数据存储json文件处理csv文件csv文件的读取csv文件的写入
四、爬虫进阶多线程爬虫threading模块多线程共享全局变量的问题生产者模式和消费者模式Queue线程安全队列
动态网页数据抓取爬取AJ
共有 0 条评论