文章/答案/技术大牛

发布

社区首页 >问答首页 >在REST中使用spark作为数据源

问在REST中使用spark作为数据源
EN

Stack Overflow用户

提问于 2017-01-19 07:30:24

回答 1查看 491关注 0票数 2

有一个图表，计算星火和存储卡桑德拉。

此外，还有一个REST，它有端点来获取具有边和边的图节点。

这个二次图可能包含多达70000个节点。

目前使用Cassandra作为数据库，但是按键从Cassandra提取大量数据需要花费大量的时间和资源。

我们尝试了TitanDB，Neo4j和OriendDB来提高性能，但卡桑德拉表现出了最好的效果。

现在有了另一个想法。在API服务中持久化RDD (或者可能是GrapgX对象)，并在API调用过滤器中筛选来自持久化RDD的必要数据。

我猜当RDD适合内存时，它会工作得很快，但是在它缓存到磁盘的情况下，它将像一个全扫描一样工作(例如，全扫描地板文件)。此外，我期望我们会面对这些问题：

火花中的记忆泄漏；
更新此RDD (未持久化先前，读取新的和持久化新的)将需要停止API；
并发使用此RDD将需要手动管理CPU资源。

有人有这样的经验吗？

api

apache-spark

graph

graph-databases

回答 1

Stack Overflow用户

发布于 2017-01-19 08:44:19

火花不是存储引擎。除非每次处理大量数据，否则应考虑：

内存中的数据网格.哈泽尔广播，Apache，一致性，GigaSpaces等
卡珊德拉内存- enterprise/inMemory.html
在其他框架/数据库中搜索“内存中”选项

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41736147

复制

相似问题

问在REST中使用spark作为数据源
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在REST中使用spark作为数据源EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在REST中使用spark作为数据源
EN