Scrapy 框架
1.架构
首先从整体上看一下scrapy框架的架构图(来自scrapy官网) 从上图我们可以看出scrapy框架主要是由5个组件构成:
Engine(引擎):最核心的部位,用来处理整个系统的数据流和事件,是整个框架的核心,负责数据的流转和逻辑的处理,相当于整个系统的CPU Scheduler(调度器):用来接收引擎发过来的request请求并将其加入到队列中,也可以将request发送回Engine(引擎)供Downloader使用,主要负责维护requests的调取逻辑,比如先进先出、先进后出、优先级进出等 Spiders(蜘蛛): 包含多个spider,每个spider里面定义了要爬取站点的爬取逻辑和页面的解析逻辑,主要负责解析响应并生成Item和新的请求,然后发送给Engine处理 Downloader(下载器):向互联网服务器发送请求,得到响应的过程,得到的响应会发送给Engine进行处理 Ite
Scrapy 框架最先出现在Python成神之路。
共有 0 条评论