腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
java
中
使用
MongoSpark
和
JavaRdd
进行
MapReduce
、
、
我正在尝试
使用
MongoSpark
和
rdd (JavaMongoRdd)在
java
中
实现
mapReduce
。所以现在,我可以在我的Rdd
中
检索我的mongo文档,但是我不知道之后该怎么做。实际上,我的文档中有一个字段,它是一个日期,我想
使用
这个日期中的年份来执行
mapReduce
,但是我没有找到任何关于如何做到这一点的东西。因此,我在这里询问您是否有一些文档、教程,甚至是如何继续
进行
的示例。这里的代码,我试图有一个包
浏览 41
提问于2019-05-23
得票数 0
回答已采纳
2
回答
如何用Spark高效读取多个小拼图文件?有CombineParquetInputFormat吗?
、
、
、
、
如何有效地处理生产者
和
消费者Spark作业
中
的少量镶木地板文件。
浏览 0
提问于2017-01-25
得票数 0
1
回答
在EMR上运行Spark应用程序很慢
、
、
、
、
我是星火
和
MApReduce
的新手,我在弹性地图减少(EMR) AWS集群上运行星火有问题。问题是在电子病历上运行会占用我很多时间。例如,我在.csv文件中有数以百万计的记录,我在
JavaRDD
中
读取
和
转换了这些记录。对于Spark,在这个数据集中计算简单的mapToDouble()
和
sum()函数需要104.99秒。但是,当我没有
使用
Java
8并将.csv文件转换为List时,
进行
同样的计算时,只需0.5秒。我的全部任务是计算不同的
浏览 0
提问于2018-03-12
得票数 1
回答已采纳
1
回答
将数据加载到Hbase
、
、
我需要
使用
Mapreduce
将数据加载到Hbase,如何从Hbase开始,如何将Hbase与
Java
进行
集成,我需要
使用
任何jar文件。Hbase与
MapReduce
集成所需的jar文件是什么 如
何在
Java
中
为
MapReduce
编写代码
浏览 2
提问于2012-08-14
得票数 0
回答已采纳
1
回答
带有Spark连接器的Cassandra -如何将项目列表插入到Cassandra
、
、
、
使用
Cassandra
和
Spark 2.12 (3.2.0)
和
java
。Cassandra连接器3.1.0 我的目的是从s3
中
进行
预处理,并并行插入到Cassandra
中
。我遇到了一个问题,我确实对每个s3文件
进行
了预处理,其中包括要插入到Cassandra的项目列表,如下所示:
JavaRDD
<List<SearchEntity>> 我应该如何将它传递给cassandra(
如
代码示例所示)?<
浏览 31
提问于2021-10-24
得票数 0
1
回答
普通
Java
程序与
MapReduce
java
程序在HBase表上的区别
、
、
我刚接触过Hadoop
和
Hbase。我想知道编写普通
java
程序
和
MapReduce
程序(用
java
编写)之间的区别,当两者对HBase表
中
的相同数据执行相同的任务时。我知道Pig脚本
和
Hive查询将转换为
MapReduce
程序,并将处理HDFS上的数据。甚至HBase也将数据存储在Datanode上。那么,普通的
java
程序将被转换为mapper任务,并将来自datanode的数据作为批处理过程处理,还是它将线性地处理数据? 请告诉
浏览 2
提问于2017-01-04
得票数 1
回答已采纳
2
回答
更改火花流
中
的输出文件名
、
、
、
但是,当我
使用
saveAsTextFile将文件保存到s3桶
中
时,输出文件的名称为-00000、-00001等格式。有办法改变输出文件名吗? 谢谢。
浏览 1
提问于2016-06-22
得票数 4
回答已采纳
1
回答
Apache Spark
JavaRDD
按2个字段分组,并获取自定义类型对象的第三个字段的总和
、
我正在
使用
Java
8来完成我的spark工作。private String region; 我已经申请了以下处理:REGION1 | milk | 200REGION1 | milk | 100 我想按region
和
keyword对我的记录
进行
分组,并添加termFreq
浏览 1
提问于2018-09-26
得票数 0
1
回答
使用
apache火花的Mergesort
、
我是Apache的新手,我必须为ApacheSpark.
中
的合并编写
java
代码。setMaster("local").setAppName("Merge Sort App");我已经完成了在
javaRDD<
浏览 0
提问于2016-12-05
得票数 1
2
回答
在具有hbase的hadoop中
使用
外部jars
、
、
、
在
JAVA
中
使用
hbase
进行
mapreduce
时,如
何在
mapper函数
中
访问外部jars?我可以在主类
中
访问需要外部jars的对象,但不能在映射器类
中
访问。
浏览 2
提问于2014-07-14
得票数 0
1
回答
mapreduce
程序从配置单元读取数据
、
我是hadoop
mapreduce
和
hive的新手。我想
使用
Mapreduce
程序(在
java
中
)从Hive读取数据,并确定平均值。我不确定如
何在
mapreduce
中
实现。请帮助我与样本程序。我
使用
ibm biginsights 64位在hadoop框架上工作。 我无法参考下面的链接。获取找不到页面时出错。
浏览 2
提问于2014-02-08
得票数 0
1
回答
保存Spark,以便将每个RDD值保存到单独文件夹
中
的单独文件
中
、
、
、
我
使用
的是Spark2.3
和
Java
1.8
JavaRDD
<CsvRecordsPerApp> csvRecordsRdd String customerName; String otherFieldName;我希望将其保存在多个文件夹
中
,以便将每个RDD保存到3个单独的文件夹
中
,
如</e
浏览 0
提问于2018-06-22
得票数 0
1
回答
如
何在
使用
mapPartitionsToPair / PairFlatMapFunction时返回迭代器
、
在
使用
mapPartitionsToPair / PairFlatMapFunction时,我在网上找到了一个例子,
如
我发现了call的声明
java
.util.Iterator因此,谁能帮我在
javaR
浏览 4
提问于2017-05-02
得票数 0
1
回答
Mahout - TestForest无法计算最终分析(混淆矩阵、准确度、kappa等)
、
、
我目前正在尝试
使用
Mahout
中
随机森林的部分实现来对数据
进行
分类。 虽然我能够
使用
一组固定的训练森林对特定数量的数据
进行
分类,但我无法
使用
更大的数据(大约两倍的大小)
和
相同的分类器来做到这一点。事实上,在MR过程
中
完成的分类工作很好,并显示出成功。可悲的是,当计算分析时,它总是以OutOfMemoryException结束,这可能是由于到达的GCOverheadLimit而发生的。我还记得,当我
使用
mahout的早期版本(我认为是0
浏览 0
提问于2015-05-25
得票数 1
2
回答
如何
使用
apache spark的MLlib的线性回归?
、
、
我是apache spark的新手,在MLlib的文档
中
,我找到了一个scala的例子,但我真的不知道scala,有谁知道
java
的例子吗?谢谢!
浏览 1
提问于2014-05-30
得票数 2
1
回答
如
何在
星火中对不同的工人执行任务?
、
我有以下星火的代码:import
java
.util.List; }); } 我
使用
以下命令运行了主节点
和</em
浏览 3
提问于2017-09-04
得票数 1
回答已采纳
1
回答
获取
java
.lang.ClassCastException:运行简单
MapReduce
程序的类
java
.lang.String
、
、
、
我正在尝试执行一个简单的
MapReduce
程序,其中Map接受输入,将其分成两部分(key=> String
和
value=>Integer) --还原器每次都会为我获得的相应键汇总值。我无法理解代码
中
是什么导致了这个错误。: class
java
.lang.Stringat org.apache.hadoop.mapred.JobConf.getOutputKeyComparato
浏览 0
提问于2014-02-12
得票数 5
回答已采纳
2
回答
带堆的
MapReduce
排序
、
、
我试图分析包含follower
和
followee对的社交网络数据。我想找到十大用户中
使用
MapReduce
最多的用户。我用一步userID
和
number_of_followee做了一对
MapReduce
。有人能解释一下我如何
使用</
浏览 0
提问于2018-03-20
得票数 0
回答已采纳
1
回答
"main“
java
.lang.ClassCastException:[Lscala.Tuple2;在Spark MLlib LDA
中
不能强制转换为scala.Tuple2
、
、
、
、
我正在
使用
Spark 1.3.0 (Scala2.10.X) MLlib LDA算法
和
Spark
Java
API。当我试图在运行时从LDA模型
中
读取文档主题分布时,我遇到了以下问题。"main“
java
.lang.ClassCastException:[Lscala.Tuple2;不能强制转换为scala.Tuple2DistributedLDAModelLDA().setK(3).run(corpus); RDD<Tuple2<Object, Vec
浏览 0
提问于2015-07-29
得票数 1
1
回答
使用
多版本
java
运行Hadoop
、
、
、
Hadoop运行时有datanode、namenode、scheduler、container等几个组件,可以运行datanode、namenode、
java
1.8
中
的scheduler
和
一些修改过的
java
中
的
mapreduce
容器吗?
浏览 23
提问于2018-01-01
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL DataFrame与RDD交互
使用 Apache Spark 构建商品推荐引擎
Spark 和Hadoop MR 之间有什么区别?
从入门到精通-Fayson带你玩转CDH
Hadoop之MapReduce
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券