因此考虑在PC上提前下载好部分音频,导出到手机,再切换到一个精简去广告的手机App来听,岂不美哉.
学习英语的网站有不少,也可以提供下载,但一个一个右键另存为就不符合咱程序员的身份了,因此爬虫搞起!...href即是一个演讲的链接地址
这里要注意给出的链接是需要补齐前缀的
针对每一个具体的演讲的网页,基本都提供了一个音频的播放器
只要点击下载图标按钮,就会切换到另一个网页
分析音频播放器下载按钮的链接,...class="download">
即mp3资源链接即是从播放器下载图标中提取出来的链接中的 mp3=xxx的地址
lrc歌词改下后缀即可
提炼总结
根据提供的主页,通过特定的td标签解析出来每一个演讲的链接...,即是一个单独的任务
对每个任务,解析js中window.open后跟的链接,即是最终的资源所在;分别下载mp3和lrc即可
伪码
main_url = "xxx.html"
for td_tag in...,而每一个演讲都是独立的,可以使用多进程进行加速
除了多进程,还有异步IO,协程等方式可以加速
参考
小e英语_英语演讲
莫烦python_爬虫基础
BeautifulSoup4.2.0中文文档