上一篇解决了但页面的字体反爬, 这篇记录下如何解决动态字体文件, 编码不同, 文字顺序不同的情况
源码在最后
02冷静分析下页面
打开一个页面, 发现字体文件地址是动态的, 这个倒是好说, 写个正则,...不着急, 还是要冷静下来, 再想想哪里还有突破点
同一个页面的字体文件地址是动态的, 但是, 里面的字体编码和顺序是不会变的呀
可以使用某一个页面的字体文件做一个标准的字体映射表呀!...好像发现了新世界的大门, 可门还没开开, 就被自己堵死了, 就想 做出来映射表然后呢!(又要奔腾了)
突然就想到了, 虽然那么多不一样, 但是, 但是, 相同文字的坐标点相同呀!..., 和新坐标
(这是想, 找出最相近的坐标, 使用新坐标提取出标准编码, 然后用标准编码提取对应的文字, 在替换成使用本页用的编码映射表)
# 准备替换的编码坐标映射表
{"norm_key": local_unicode...download_ttf_file(self, url, file_name):
self.page_html = self.download(url) or ""
# 获取字体的连接文件