Python-玩转数据-scrapy之pipeline
一、关于scrapy中pipleline的基本认识
首先我们看看Item Pipeline在Scrapy中的架构,如下图所示。 Item Pipeline又称之为管道,顾名思义就是对数据的过滤处理,其主要的作用包括如下:
清理HTML数据。验证爬取数据,检查爬取字段。查重并丢弃重复内容。将爬取结果保存到数据库。
二、几个核心的方法
创建一个项目的时候都会自带pipeline其中就实现了process_item(item, spider)方法
open_spider(spider)就是打开spider时候调用的close_spider(spider)关闭spider时候调用from_crawler(cls, crawler)一般用来从settings.py中获取常量的process_item(item, spider)是必须实现的,别的都是选用的
三、几个常用方法的介绍
process_item(i
版权声明:
作者:zhangchen
链接:https://www.techfm.club/p/18328.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。
THE END
二维码
共有 0 条评论