我正在尝试运行一个爬虫(用scrapy框架编写),以便从python脚本而不是命令行工具运行。Scrapy是在扭曲的互联网框架上编写的,该框架有一个无法在过程中重新启动的反应器。我一定是在赶上spider_closed signal & the REACTOR HAS STOPPED的时候把它停了。它给出了以下错误消息:我的问题是“如何启动twisted.internet.reactor?”
我需要在Scrapy中运行一些多线程\多处理工作(因为我有一些使用阻塞调用的库),并在完成之后将请求发送回Scrapy引擎。def blocking_call(self, html): # do some work in blocking call return self.blocking_call(response.body)
我怎么能这么做?我认为我应该使用扭曲反应堆和延期对象。但是Scrapy parse回调必须只返回None