我是Spark和GraphX的新手。到目前为止,我一直在使用Titan DB (HBase存储)和Giraph进行处理。我需要一个有大约30亿个顶点和大约50亿条边的图。存储图形的最好方法是什么(通过添加顶点和边来从头开始创建图形,同时我也想放弃用于图形创建的titan API )。我找不到任何关于这方面的直接文档。您能建议我使用GraphX和商用硬件创建/存储图形和流程的最佳方式是什么吗?
谢谢。
我正在尝试使用连接组件,但在伸缩方面遇到了问题。/ get connected components其中,GraphUtil具有辅助函数来返回顶点和边我尝试使用executor-memory 32g,运行一个包含15个节点的集群,其中纱线容器大小为45g。:173)
at org.apache.spark.scheduler.SparkListenerBus$class.onPostEvent(Spa
但是“图”在“映射顶点”中不是空的。Exception failure in TID 2 on host localhost: org.apache.spark.graphx.impl.GraphImpl.mapReduceTriplets(GraphImpl.scala:168)org.apache.spa