python基础31-33网络蜘蛛

lichengxin • 2021-12-30 22:06 • 好物分享

1.网络数据采集概述
在理想的状态下，所有 ICP（Internet Content Provider）都应该为自己的网站提供 API 接口来共享它们允许其他程序获取的数据，在这种情况下就根本不需要爬虫程序。国内比较有名的电商平台（如淘宝、京东等）、社交平台（如微博、微信等）等都提供了自己的 API 接口，但是这类 API 接口通常会对可以抓取的数据以及抓取数据的频率进行限制。
robots协议
大多数网站都会定义robots.txt文件，这是一个君子协议，并不是所有爬虫都必须遵守的游戏规则。下面以淘宝的robots.txt文件为例，看看淘宝网对爬虫有哪些限制。
User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

通过上面的文件可以看出，淘宝禁止百度爬虫爬取它任何资源，因此当你在百度搜索“淘宝”的时候，搜索结

python基础31-33网络蜘蛛最先出现在Python成神之路。

版权声明：
作者：lichengxin
链接：https://www.techfm.club/p/11459.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

python单元测试之unittest

< <上一篇

MySQL常见命令

下一篇>>

搜索内容

python基础31-33网络蜘蛛

取消回复

共有 0 条评论

Ads