我想用JS写我自己的网络爬虫。我正在考虑使用node.js解决方案,如
目标是每10分钟进行一次“爬行”,所以我希望我的爬虫每10分钟从网站上获取数据。
我知道我可以编写一个无限循环,例如:
var keeRunning = true;
while (keepRunning) {
// fetch data and process it every 10 minutes
}
如果我一直都有我的电脑,而且我在网站上,这会非常好的工作。
然而,如果我关闭我的电脑,我可以想象它将不再工作了。那么,我应该考虑什么样的解决方案来让脚本一直运行,即使计算机被关闭了呢?
我正在尝试制作一个爬虫,由于数据没有显示在页面源代码中,我只能使用web驱动程序执行javascript并获得响应,然后进行数据分析。脚本被简化了,就像这样,使用Promise。
var res = ""
function f1() {
p = window.Promise
a = p.resolve(5).then(function(value) {
console.log(value)
res = value
return res
})
return a
}
console.log(f1())
我正在编写一个网络爬虫,最终目标是创建爬虫所走路径的地图。虽然我不知道其他爬虫以多快的速度抓取页面,但我的爬虫每分钟大约有2000页。
爬虫使用递归回溯算法,我将其深度限制为15。此外,为了防止爬虫无休止地修改页面,它将访问过的每个页面的url存储在一个列表中,并检查该列表中是否有下一个候选url。
for href in tempUrl:
...
if href not in urls:
collect(href,parent,depth+1)
当这种方法被拉下大约300,000页时,它似乎成了一个问题。在这一点上,爬虫的平均速度是每分钟500页。
所以我的