我正在编写一个网络爬虫,最终目标是创建爬虫所走路径的地图。虽然我不知道其他爬虫以多快的速度抓取页面,但我的爬虫每分钟大约有2000页。
爬虫使用递归回溯算法,我将其深度限制为15。此外,为了防止爬虫无休止地修改页面,它将访问过的每个页面的url存储在一个列表中,并检查该列表中是否有下一个候选url。
for href in tempUrl:
...
if href not in urls:
collect(href,parent,depth+1)
当这种方法被拉下大约300,000页时,它似乎成了一个问题。在这一点上,爬虫的平均速度是每分钟500页。
所以我的