首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在REST中使用spark作为数据源

在REST中使用spark作为数据源
EN

Stack Overflow用户
提问于 2017-01-19 07:30:24
回答 1查看 491关注 0票数 2

有一个图表,计算星火和存储卡桑德拉。

此外,还有一个REST,它有端点来获取具有边和边的图节点。

这个二次图可能包含多达70000个节点。

目前使用Cassandra作为数据库,但是按键从Cassandra提取大量数据需要花费大量的时间和资源。

我们尝试了TitanDB,Neo4j和OriendDB来提高性能,但卡桑德拉表现出了最好的效果。

现在有了另一个想法。在API服务中持久化RDD (或者可能是GrapgX对象),并在API调用过滤器中筛选来自持久化RDD的必要数据。

我猜当RDD适合内存时,它会工作得很快,但是在它缓存到磁盘的情况下,它将像一个全扫描一样工作(例如,全扫描地板文件)。此外,我期望我们会面对这些问题:

  • 火花中的记忆泄漏;
  • 更新此RDD (未持久化先前,读取新的和持久化新的)将需要停止API;
  • 并发使用此RDD将需要手动管理CPU资源。

有人有这样的经验吗?

EN

回答 1

Stack Overflow用户

发布于 2017-01-19 08:44:19

火花不是存储引擎。除非每次处理大量数据,否则应考虑:

  • 内存中的数据网格.哈泽尔广播,Apache,一致性,GigaSpaces等
  • 卡珊德拉内存- enterprise/inMemory.html
  • 在其他框架/数据库中搜索“内存中”选项
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41736147

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档