有一个图表,计算星火和存储卡桑德拉。
此外,还有一个REST,它有端点来获取具有边和边的图节点。
这个二次图可能包含多达70000个节点。
目前使用Cassandra作为数据库,但是按键从Cassandra提取大量数据需要花费大量的时间和资源。
我们尝试了TitanDB,Neo4j和OriendDB来提高性能,但卡桑德拉表现出了最好的效果。
现在有了另一个想法。在API服务中持久化RDD (或者可能是GrapgX对象),并在API调用过滤器中筛选来自持久化RDD的必要数据。
我猜当RDD适合内存时,它会工作得很快,但是在它缓存到磁盘的情况下,它将像一个全扫描一样工作(例如,全扫描地板文件)。此外,我期望我们会面对这些问题:
有人有这样的经验吗?
发布于 2017-01-19 08:44:19
火花不是存储引擎。除非每次处理大量数据,否则应考虑:
https://stackoverflow.com/questions/41736147
复制相似问题