和你同年的人只会越来越少 —— 题记
又到了一月一篇的技术专题时间
破解大礼包倾情奉献
新鲜出炉的
一步一步的数据爬取教程。
背景
现在是大数据的时代
打开任意一个网站
绕开各种木马
也不一定能点开你想要的页面
这个时候,需要技术上线
问题
我找到了一个网站
叫盘易搜
网址是 http://www.panyisou.com/file-new/
里面有一个模块,叫最新资源
点开资源,再点击里面的百度云链接
好样的,可以直接看到资源本身了
作为一个影视资源站长
我们想要得到这样一个链接
左边是是剧名,右边是百度云链接
OK,跟我走起。
具体步骤如下,手把手教你爬资源
第一步,找到目标资源页面
http://www.panyisou.com/file-sp-new/
第二步,打开google spreadsheet。(啥,打不开?没关注我吧。。。)
起个名字
第三步,输入
第四步,获取所需元素的xpath
第五步,按照importxml公式的格式,补完
第六步,当当当当!
好像哪里不对
专家说直接复制chrome里自带的xpath有25%的概率不行
并建议好好学学xpath query
好好学学。。。
好像我学过。。。
略
哈哈哈哈
利用残存的记忆憋出来一个公式
=importxml(A2,"//*[@class='c_fn']/a")
还行,意会意会
找规律就好
第七步,百度云链接好像不在这个页面
没事,曲线救国
先获取包含百度云的链接
=importxml(A2,"//*[@class='c_fn']/a/@href")
公式如出一辙
但是出来的结果是相对链接
需要继续补完
/fileview-3593004/
第八步,补完链接
这个网站首页是http://www.panyisou.com
给他补上
=D2&C2
知识点!如何把俩单元格内容串一起!
第九步,获取百度云链接
公式 =importxml(E2,"//*[@class='jubao']/span")
第十步,抓取第二第三页
这个时候发现google也不是那么强大
任务量多了就装傻了
先不管了
到这里就差不多了?
我觉得还有优化的空间吧
1. 新建一个表
2. 发布这个表
3. 获取公开链接
4. https://docs.google.com/spreadsheets/d/e/2PACX-1vTxCBpVUUKwOlU5iTS6A9cfq3Yn2WtTqyRs4JW0atSWY8uT_F2_xWl6JY-O6w8KJIktUGJXR7TNTVFt/pubhtml?gid=1040063939&single=true
5. http://buxiang.com.cn/mw/latest.php
大功告成!
哎,不能只看中间这远点
整张图是方的!
是方的!
领取专属 10元无门槛券
私享最新 技术干货