我可以做一个相当复杂的搜索,并在1~2秒内找回所有文档ID。但是实际加载所有的命中结果(在我的测试查询中大约是70万)需要几分钟的5+时间。我们没有使用lucene for UI,这是一个进程之间的数据存储,其中我们有数亿个预缓存的数据元素,而我正在处理的部分从每个找到的文档中导出一些特定的字段。(因此,分页不会发生,因为这是进程之间的导出)。
我想从具有相似页面结构的多个页面中提取一些信息。页面的所有URL都保存在一个file.txt中(一行中的每个URL)。我已经创建了代码来从一个链接中抓取所有数据(它可以工作)。但我不知道如何创建一个循环来遍历txt文件中的所有URL列表,并刮取所有数据。Python-FilePy-Thesis-DownLoad/Thesis2.txt', 'r') as f: