正在执行深度为200的爬网命令。但在几次迭代之后,获取失败,并出现下面提到的运行时异常。java.lang.RuntimeException: java.lang.IllegalArgumentException: KeyValue size too large
Exception atGoraRecordWriter.class while writing to datastore: KeyValue size too large 爬网命令: /Data/Apach
我目前使用作为我的网络爬虫的选择,我试图自学网络爬虫是如何工作的。我已经开始爬行了,我希望它能在下面的根目录(/ crawlStorageFolder / crawl /crawlStorageFolder)中快速返回爬行过的数据
* crawlStorageFolder is a folder where intermediate crawl data is