动机
前段时间制定计划,每天上下班路上听点英语演讲音频练练听力,用的手机App是喜马拉雅,上面资源很丰富,但是有两个问题,一是有广告,想想你快睡着的时候突然来15秒字正腔圆的广告是什么感觉,二是费流量,...如常见的标签tag,CSS中的class
爬虫相关的库.
urllib. 提供接口来打开网页,下载资源
BeautifulSoup....标签,获取第一个href即是一个演讲的链接地址
这里要注意给出的链接是需要补齐前缀的
针对每一个具体的演讲的网页,基本都提供了一个音频的播放器
只要点击下载图标按钮,就会切换到另一个网页
分析音频播放器下载按钮的链接...资源链接即是从播放器下载图标中提取出来的链接中的 mp3=xxx的地址
lrc歌词改下后缀即可
提炼总结
根据提供的主页,通过特定的td标签解析出来每一个演讲的链接,即是一个单独的任务
对每个任务,解析...js中window.open后跟的链接,即是最终的资源所在;分别下载mp3和lrc即可
伪码
main_url = "xxx.html"
for td_tag in main_url:
check