# Intro
对于使用JS动态加载, 或者将下一页地址隐藏为 JavaScriptvoid(0)的网站, 如何爬取我们要的信息呢本文以 Chrome浏览器为工具, 36Kr为示例网站, 使用 Json...Handle 作为辅助信息解析工具, 演示如何抓取此类网站.
# Detail
Step 1....时间戳 记录当前的浏览时间
最后把原本的 URL 缩减为
https://36kr.com/api/newsflash?...不同的是获取信息不再通过Xpath这些工具, 而是直接通过 JSON 取值
取值方式简单粗暴, 点击对应的内容就可以看路径了
接着用 scrapy shell工具测试下正确性, 然后就可以写代码了....由于新闻来源隐藏在 description, 经过观察, 不难发现它的规律, 写一条正则获取即可, 如果结果为空, 则说明来源是36Kr
# Source Code
Spider
# -*- coding