同花顺财经-财务数据爬取思路详解-python爬虫

倾城 • 2023-04-23 05:10 • 杂文

同样的开头，近日，群友在讨论问题的时候发来一链接，询问如何抓取个股页面上财务指标，好奇心旺盛的博主立马打开网页研究了一番。
网址如下：http://stockpage.10jqka.com.cn/600196/finance/#view
我们的目标是爬取红框中数据。

财务报表

个股数量这么多，我们就以复星医药为例（博主看好这家公司）
首先，进行常规工作，分析页面源码，解析报文信息。页面源码就不上图了，大家可以自行查看一下，很简洁，一点数据都没有。
那么，我们就用开发者工具研究一下。

加载完成后页面

看了上图，我们可以判定出来，这是个JS动态加载的网页。新手的思路是利用selenium的webdriver，这种方法我不多说，效率低下，且相对粗暴。

另外一种思路，相信各位根据上图也能才出来，同花顺财经提供了导出功能，而且把URL也提供了，大家自行修改url中的type和code即可获取个股下载链接，回头整合一下即可。

ok，页面源码分析完毕，我们往报文方向看看，博主试着点击了下按年度，看后台报文如何。

页面加载报文

参数

完美，一个请求出来了，数据来源肯定是在这个请求中，可是我瞅了瞅报文，发现是这家伙就获取了一个空的img，其他啥都木有！
不对，肯定不对。数据肯定存在一个来源，那么我们继续祭出chrome开发者工具，看这个请求的背后到底执行了哪些js。

js执行过程

啊哈！啊哈！啊哈！众里寻他千百度，蓦然回首，那人却在，灯火阑珊处！
同志们，这个setChartData名字一看，妥妥的设置数据呀，看来一切数据的源头都在这个js里面。
此处j省略js研究过程N字。。。
一切的源头既然找到了，那么数据们，请到我的碗里来！
上效果图

数据

2022年7月，新增了API实际请求地址 O(∩_∩)O哈哈~
API接口地址如下：
https://basic.10jqka.com.cn/api/stock/finance/{stock}_main.json

好的爬虫er必须也得有一颗前端的心~
后记：数据抓取---》数据分析---》量化策略~~_妥妥哒
|---》精准营销~~_萌萌哒
注:未经许可不得转载。
原文链接：http://www.jianshu.com/p/3c6952ad9219

版权声明：
作者：倾城
链接：https://www.techfm.club/p/42649.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

难得的安静

跟风

下一篇>>

搜索内容