假设您有一个很大的CSV文件--假设有10亿行。
您希望文件中的每一行都成为弹性搜索的文档。
您不能将文件加载到内存中--它太大了,因此必须进行流或块处理。
所花的时间不是问题。优先事项是确保所有数据都被索引,没有丢失数据。
你对这种方法有何看法:
第1部分:准备数据
第2部分:上传数据
发布于 2021-03-19 10:43:02
上面提到的步骤看起来不错。确保ES不受负载的其他几件事情:
refresh_interval
的值设置为非常大的值。这将确保文档不被频繁地编入索引。国际海事组织的默认值也可以。阅读更多的这里。正如上面的评论所示,最好从一小批数据开始。当然,如果您使用常量而不是硬编码值,您的任务就会变得更容易。
https://stackoverflow.com/questions/66707339
复制