基础知识
爬取之前,复习下需要的知识,当然这次任务很简单,这里只是总结下.
python基础. 如文件存取,正则表达式re,多进程multiprocessing
html网页结构....打开主页,上面显示几十个链接,每一个链接分别是一个具体的演讲页面,其中一个表示如下:
class="titlepic">
href="/tingli/...=$(this).attr('href')});
});
重点就是window.open 后的内容,指向最终下载页面的链接....class="download">
即mp3资源链接即是从播放器下载图标中提取出来的链接中的 mp3=xxx的地址
lrc歌词改下后缀即可
提炼总结
根据提供的主页,通过特定的td标签解析出来每一个演讲的链接...,即是一个单独的任务
对每个任务,解析js中window.open后跟的链接,即是最终的资源所在;分别下载mp3和lrc即可
伪码
main_url = "xxx.html"
for td_tag in