爬虫笔记41之反爬系列四:字体反爬
一、字体反爬 1、什么是字体反爬? 开发者创作了一种字体(字体代号);网页中显示的就是这种字体代号。 字体反爬也叫CSS反爬,就是因为这个字体是隐藏在我们css文件当中的一个.ttf文件。 2、如何解决字体反爬?(思路:先获取这些文本内容,然后在解决字体的问题) (1)先找到.ttf文件,需并把它转换成xml文件; (2)分析xml文件 + FontCreator(360应用市场搜索下载即可); (3) 找出字体对应的映射关系,和真实的字体做替换。 3、案例 需求:爬取文字字体内容 思路:我们先获取这些文本内容,然后在解决字体的问题。
目标url https://club.autohome.com.cn/bbs/thread/665330b6c7146767/80787515-1.html 第一步 页面分析 (1)爬取要素是否在网页源码中: (2)文本内容://div[@class=“tz-para
共有 0 条评论