如何在java中使用MongoSpark和JavaRdd进行MapReduce

、、

我正在尝试使用MongoSpark和rdd (JavaMongoRdd)在java中实现mapReduce。所以现在，我可以在我的Rdd中检索我的mongo文档，但是我不知道之后该怎么做。实际上，我的文档中有一个字段，它是一个日期，我想使用这个日期中的年份来执行mapReduce，但是我没有找到任何关于如何做到这一点的东西。因此，我在这里询问您是否有一些文档、教程，甚至是如何继续进行的示例。这里的代码，我试图有一个包

浏览 41提问于2019-05-23得票数 0

回答已采纳

2回答

如何用Spark高效读取多个小拼图文件？有CombineParquetInputFormat吗？

、、、、

如何有效地处理生产者和消费者Spark作业中的少量镶木地板文件。

浏览 0提问于2017-01-25得票数 0

1回答

在EMR上运行Spark应用程序很慢

、、、、

我是星火和MApReduce的新手，我在弹性地图减少(EMR) AWS集群上运行星火有问题。问题是在电子病历上运行会占用我很多时间。例如，我在.csv文件中有数以百万计的记录，我在JavaRDD中读取和转换了这些记录。对于Spark，在这个数据集中计算简单的mapToDouble()和sum()函数需要104.99秒。但是，当我没有使用Java8并将.csv文件转换为List时，进行同样的计算时，只需0.5秒。我的全部任务是计算不同的

浏览 0提问于2018-03-12得票数 1

回答已采纳

1回答

将数据加载到Hbase

、、

我需要使用Mapreduce将数据加载到Hbase，如何从Hbase开始，如何将Hbase与Java进行集成，我需要使用任何jar文件。Hbase与MapReduce集成所需的jar文件是什么如何在Java中为MapReduce编写代码

浏览 2提问于2012-08-14得票数 0

回答已采纳

1回答

带有Spark连接器的Cassandra -如何将项目列表插入到Cassandra

、、、

使用Cassandra和Spark 2.12 (3.2.0)和java。Cassandra连接器3.1.0 我的目的是从s3中进行预处理，并并行插入到Cassandra中。我遇到了一个问题，我确实对每个s3文件进行了预处理，其中包括要插入到Cassandra的项目列表，如下所示：JavaRDD<List<SearchEntity>> 我应该如何将它传递给cassandra(如代码示例所示)？<

浏览 31提问于2021-10-24得票数 0

1回答

普通Java程序与MapReduce java程序在HBase表上的区别

、、

我刚接触过Hadoop和Hbase。我想知道编写普通java程序和MapReduce程序(用java编写)之间的区别，当两者对HBase表中的相同数据执行相同的任务时。我知道Pig脚本和Hive查询将转换为MapReduce程序，并将处理HDFS上的数据。甚至HBase也将数据存储在Datanode上。那么，普通的java程序将被转换为mapper任务，并将来自datanode的数据作为批处理过程处理，还是它将线性地处理数据？请告诉

浏览 2提问于2017-01-04得票数 1

回答已采纳

2回答

更改火花流中的输出文件名

、、、

但是，当我使用saveAsTextFile将文件保存到s3桶中时，输出文件的名称为-00000、-00001等格式。有办法改变输出文件名吗？谢谢。

浏览 1提问于2016-06-22得票数 4

回答已采纳

1回答

Apache Spark JavaRDD按2个字段分组，并获取自定义类型对象的第三个字段的总和

、

我正在使用Java8来完成我的spark工作。private String region; 我已经申请了以下处理：REGION1 | milk | 200REGION1 | milk | 100 我想按region和keyword对我的记录进行分组，并添加termFreq

浏览 1提问于2018-09-26得票数 0

1回答

使用apache火花的Mergesort

、

我是Apache的新手，我必须为ApacheSpark.中的合并编写java代码。setMaster("local").setAppName("Merge Sort App");我已经完成了在javaRDD<

浏览 0提问于2016-12-05得票数 1

2回答

在具有hbase的hadoop中使用外部jars

、、、

在JAVA中使用hbase进行mapreduce时，如何在mapper函数中访问外部jars？我可以在主类中访问需要外部jars的对象，但不能在映射器类中访问。

浏览 2提问于2014-07-14得票数 0

1回答

mapreduce程序从配置单元读取数据

、

我是hadoop mapreduce和hive的新手。我想使用Mapreduce程序(在java中)从Hive读取数据，并确定平均值。我不确定如何在mapreduce中实现。请帮助我与样本程序。我使用ibm biginsights 64位在hadoop框架上工作。我无法参考下面的链接。获取找不到页面时出错。

浏览 2提问于2014-02-08得票数 0

1回答

保存Spark，以便将每个RDD值保存到单独文件夹中的单独文件中

、、、

我使用的是Spark2.3和Java1.8JavaRDD<CsvRecordsPerApp> csvRecordsRdd String customerName; String otherFieldName;我希望将其保存在多个文件夹中，以便将每个RDD保存到3个单独的文件夹中，如</e

浏览 0提问于2018-06-22得票数 0

1回答

如何在使用mapPartitionsToPair / PairFlatMapFunction时返回迭代器

、

在使用mapPartitionsToPair / PairFlatMapFunction时，我在网上找到了一个例子，如我发现了call的声明 java.util.Iterator因此，谁能帮我在javaR

浏览 4提问于2017-05-02得票数 0

1回答

Mahout - TestForest无法计算最终分析(混淆矩阵、准确度、kappa等)

、、

我目前正在尝试使用Mahout中随机森林的部分实现来对数据进行分类。虽然我能够使用一组固定的训练森林对特定数量的数据进行分类，但我无法使用更大的数据(大约两倍的大小)和相同的分类器来做到这一点。事实上，在MR过程中完成的分类工作很好，并显示出成功。可悲的是，当计算分析时，它总是以OutOfMemoryException结束，这可能是由于到达的GCOverheadLimit而发生的。我还记得，当我使用mahout的早期版本(我认为是0

浏览 0提问于2015-05-25得票数 1

2回答

如何使用apache spark的MLlib的线性回归？

、、

我是apache spark的新手，在MLlib的文档中，我找到了一个scala的例子，但我真的不知道scala，有谁知道java的例子吗？谢谢!

浏览 1提问于2014-05-30得票数 2

1回答

如何在星火中对不同的工人执行任务？

、

我有以下星火的代码：import java.util.List; }); } 我使用以下命令运行了主节点和</em

浏览 3提问于2017-09-04得票数 1

回答已采纳

1回答

获取java.lang.ClassCastException:运行简单MapReduce程序的类java.lang.String

、、、

我正在尝试执行一个简单的MapReduce程序，其中Map接受输入，将其分成两部分(key=> String和value=>Integer) --还原器每次都会为我获得的相应键汇总值。我无法理解代码中是什么导致了这个错误。: class java.lang.Stringat org.apache.hadoop.mapred.JobConf.getOutputKeyComparato

浏览 0提问于2014-02-12得票数 5

回答已采纳

2回答

带堆的MapReduce排序

、、

我试图分析包含follower和followee对的社交网络数据。我想找到十大用户中使用MapReduce最多的用户。我用一步userID和number_of_followee做了一对MapReduce。有人能解释一下我如何使用</

浏览 0提问于2018-03-20得票数 0

回答已采纳

1回答

"main“java.lang.ClassCastException：[Lscala.Tuple2；在Spark MLlib LDA中不能强制转换为scala.Tuple2

、、、、

我正在使用Spark 1.3.0 (Scala2.10.X) MLlib LDA算法和Spark Java API。当我试图在运行时从LDA模型中读取文档主题分布时，我遇到了以下问题。"main“java.lang.ClassCastException：[Lscala.Tuple2；不能强制转换为scala.Tuple2DistributedLDAModelLDA().setK(3).run(corpus); RDD<Tuple2<Object, Vec

浏览 0提问于2015-07-29得票数 1

1回答

使用多版本java运行Hadoop

、、、

Hadoop运行时有datanode、namenode、scheduler、container等几个组件，可以运行datanode、namenode、java1.8中的scheduler和一些修改过的java中的mapreduce容器吗？

浏览 23提问于2018-01-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何用Spark高效读取多个小拼图文件？有CombineParquetInputFormat吗？

在EMR上运行Spark应用程序很慢

将数据加载到Hbase

带有Spark连接器的Cassandra -如何将项目列表插入到Cassandra

普通Java程序与MapReduce java程序在HBase表上的区别

更改火花流中的输出文件名

Apache Spark JavaRDD按2个字段分组，并获取自定义类型对象的第三个字段的总和

使用apache火花的Mergesort

在具有hbase的hadoop中使用外部jars

mapreduce程序从配置单元读取数据

保存Spark，以便将每个RDD值保存到单独文件夹中的单独文件中

如何在使用mapPartitionsToPair / PairFlatMapFunction时返回迭代器

Mahout - TestForest无法计算最终分析(混淆矩阵、准确度、kappa等)

如何使用apache spark的MLlib的线性回归？

如何在星火中对不同的工人执行任务？

获取java.lang.ClassCastException:运行简单MapReduce程序的类java.lang.String

带堆的MapReduce排序

"main“java.lang.ClassCastException：[Lscala.Tuple2；在Spark MLlib LDA中不能强制转换为scala.Tuple2

使用多版本java运行Hadoop

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐