我试图用gremlin python在最短的时间内插入数百万个顶点和边。我有两件事要考虑:避免顶点和边的重复,避免花费10个小时来插入所有数据
请求的主要时间是查找现有顶点和创建关系。如果我在不检查顶点是否已经存在的情况下插入边,脚本会更快。
我还尝试了批处理事务,如下所示:
g.addV("person").property("name", "X").as_("p1")
.addV("person").property("name", "Y").as_("p2")
.addE("has_address").from("p1").to(g.V().has("address", "name", "street"))
.addE("has_address").from("p2").to(g.V().has("address", "name", "street2")).iterate()
但是我并没有提高性能。
使用重复项,我在查询中会有相同的结果吗?我想以后有重复的查询会更贵,不是吗?
谢谢。
发布于 2021-03-12 11:22:50
我对你上一个问题的answer提供了一些关于如何“快速”加载数据的提示,现在我知道你的大小是数百万,我希望你能考虑这些策略。
如果您碰巧继续使用Gremlin和Python加载,请考虑以下几点:
addV()
和addE()
.再说一次,在这种论坛上不可能真正提供细节,但也许这些想法会激励你找到答案。
https://stackoverflow.com/questions/66596682
复制相似问题