我用urllib2和漂亮汤构建了一个简单的爬虫应用程序,现在我打算把它变成刮擦蜘蛛,但是如何在运行爬虫时处理错误,我的当前应用程序有如下代码,
error_file = open('errors.txt','a')
finish_file = open('finishlink.txt','a')
try:
#Code for process each links
#if sucessfully finished link store into 'finish.txt' file
except Exc
我正在学习爬虫,在一些基本的爬虫之后,我尝试从github下载谷歌学者爬虫大师,看看它是如何运行的,在几个我可以修复的错误之后,我遇到了一个ModuleNotFoundError: No module named 'proxy'错误(middleware.py文件,from proxy import PROXIES行是问题)。
这段代码有一些问题,其中包含python 3.x版本中不再支持/建议的解决方案,包括后来被重命名/移动的模块,但我无法确定这是否也是这种情况,希望能得到帮助。