昨天写了半天今天打开发现没存上,心态崩了,再来一遍。
目前公募基金2季度的报告基本都已经发完了,所以这次说下怎么用python获取2季度的观点。思路和之前年报观点部分差不多。季报有的基金经理会写的极简,有的还是劳模风。比如下面这个写了两页多的
代码基本上参考之前这两篇,根据季报的格式做微调,点击可跳转。
调整的地方有两个,自己手动调下即可
一个是爬虫部分getpdfurl函数里,category参数
之前取值是category_ndbg_jjgg,这次改成category_jdbg_jjgg,中间部分分别是年度报告和季度报告的缩写,就是这样简单。
改完了把时间区间调整到二季度结束之后,运行,就可以获取到所有的,最后一个参数是上面说的category的中间部分。
运行之后能获取到五千多条季报记录,最后一列是pdf的网站。
根据这个网址,再去爬虫获取pdf,爬pdf的代码 不用调整。因为实在太多了,这里我只爬了股票型和偏股混合型的基金里规模>50亿的这部分,爬下来有七十来份,也不是很全,主要是网站只能获取前100页记录,所以上面这些记录并不是全部的,有缺失。 这部分要优化的话可以一个一个基金分别去爬,这个代码第一篇推文里也有,可以自己调一调,写个循环就可。
爬下来之后从pdf获取文本部分,看几篇季报会发现格式和年报有区别,季报里面观点部分的小标题和年报不一样
另外季报也没有目录,所以获取文本部分的函数需要调整下,调整后是这样的
最后爬下来是这样的
因为代码调整不多,就不发了,自己动手,丰衣足食。