map-reduce js_map-reduce_mongodb map-reduce返回错误的值 - 腾讯云开发者社区

、、、、

在CouchDB中，您总是必须使用map reduce来查询结果。在MongoDB中，您可以使用它们的查询方法来检索数据，但它们也允许您执行map-reduce。我想知道，我什么时候真正需要map-reduce？这些查询方法是不同于map-reduce的，还是仅仅是map-reduce函数的包装器？

浏览 2提问于2010-09-18得票数 1

回答已采纳

2回答

线程和Map-Reduce处理之间的区别？

、

我的一位同事正在与我争论在我们的应用程序(文本处理)中引入map-reduce概念。他的观点就是为什么我们不应该使用线程的概念，instead.We两者都是这种map-reduce范例的新概念。我认为使用map-reduce概念可以帮助开发人员减少处理线程同步、死锁和共享数据的开销。除了这个之外，还有什么比线程更适合map-reduce的概念吗？

浏览 0提问于2012-12-11得票数 5

1回答

Hive是以什么模式安装的？

配置单元安装有什么特定的模式吗？例如，Hadoop安装有3种模式:独立模式、伪分布式模式和完全分布式模式。类似地，Hive有任何特定类型的分布吗？可以在分布式模式下安装Hive吗？

浏览 0提问于2013-05-30得票数 2

1回答

我有一个map-reduce作业，它的输入是一个大数据集(假设大小为100 of )。这个map-reduce作业所做的是将大数据拆分成块，并写入单独的文件，每个数据块一个文件。也就是说，作业的输出是多个文件，每个文件的大小为64MB。此map-reduce作业的输出用作另一个map-reduce作业的输入。由于新输入由多个文件组成，每个文件的大小为64MB，那么第二个map-reduce作业中的每个映射器是只读取一个文件还是可能读取多个文件？

浏览 1提问于2013-09-21得票数 0

1回答

map reduce可以做哪些工作，而apache crunch不能？

、

我在研究apache crunch。据我所知，crunch是一个基于map-reduce框架的抽象框架。我打算使用crunch而不是map-reduce框架。我的问题是，map-reduce可以做哪些工作，而crunch不能？

浏览 4提问于2015-12-22得票数 2

1回答

计算工作集的过程是什么？

假设我在Mongo DB上有一百万条记录，每条记录都有5KB大小。假设我想对此数据运行Map-Reduce，并估计此应用程序所需的RAM。在map-reduce操作期间，将不会对此数据库进行读或写操作。map-reduce将聚合一些记录，并对聚合的记录进行逻辑比较。我想了解map-reduce如何将数据带入RAM，因此应该如何计算工作集(例如:我是否应该假设1 MM x 5KB将是我的工作集)。

浏览 0提问于2012-05-07得票数 2

回答已采纳

2回答

配置单元始终创建mapreduce作业

、、

我在工作中一直使用hive，当我运行这样的select "Select * from TABLENAME" 配置单元执行mapreduce作业，当我运行 "Select * from TABLENAME LIMIT X" independently of x. 配置单元不执行mapreduce作业。我使用配置单元1.2.1、HDP 2.3.0、色调2.6.1和hadoop 2.7.1 对这个事实有什么想法吗？谢谢!

浏览 3提问于2015-08-03得票数 0

1回答

在mongoDB的system.js中存储库的技术

、、、

在mongoDB的中有没有可靠的技术来存储基于原型的库/框架？我在map-reduce中尝试使用格式时遇到了这个问题。JIRA 解释说，对象的闭包-包括它们的原型-在序列化到system.js集合时会丢失，这是预期的行为。不幸的是，这排除了许多伟大的框架，如、和。有没有办法以某种方式转换或包含库，使它们不依赖于原型？有一些希望在Map-Reduce之前初始化并通过scope对象传递它们，但到目前为止我还没有太多的运气。如果我的方法有缺陷，那么有什么更好的方法可以在mongo中实现服务器端javascript重用呢？

浏览 2提问于2011-12-08得票数 0

回答已采纳

1回答

我应该在哪里写mapreduce程序

、

我应该在哪里写map-reduce程序-在文本文件或任何其他文件中？保存包含Map-reduce程序的文件的文件格式是什么？例如：在java中，文本文件，将java代码保存为filename.java，但对map-reduce程序将是什么呢？因为我非常需要，所以请回答。

浏览 1提问于2013-03-23得票数 0

2回答

为什么Hadoop map reduce作业中允许的计数器数量有限制？

、、

我正在使用Hadoop map-reduce，当我尝试以编程方式创建许多作业计数器时，我得到了一个CountersExceededException。我知道我可以通过配置文件增加允许的计数器数量，但有谁知道： a)为什么对map-reduce计数器有限制和 b)增加map-reduce计数器的最大数量是否是一个好主意？我使用的是hadoop 0.20.2

浏览 2提问于2012-06-28得票数 5

回答已采纳

2回答

如何在倒排索引搜索中使用map-reduce？

、、、、

很容易理解map-reduce是如何用于收集文本和构建大型倒排索引的。但是如何在倒排索引搜索中使用map-reduce呢？

浏览 2提问于2012-01-25得票数 3

回答已采纳

1回答

如果HDFS中的输入数据源不断增加，MapReduce作业会发生什么情况？

、

我们有一个运行HDFS的日志收集代理，即该代理(如Flume)不断从一些应用程序收集日志，然后将其写入HDFS。读写过程不间断地运行，导致HDFS的目标文件不断增加。这里有一个问题，由于输入数据不断变化，如果我将收集代理的目标路径设置为作业的输入路径，MapReduce作业会发生什么情况？ FileInputFormat.addInputPath(job, new Path("hdfs://namenode:9000/data/collect"));

浏览 2提问于2015-06-29得票数 1

1回答

MPI标准与Map-Reduce编程模型的比较？

、、、

因为我已经学习了各种并行范式标准的基础知识，如OpenMP，MPI，OpenCL来编写并行编程。但我对Map-Reduce编程模型了解不多。众所周知，各种流行的公司都在遵循Map-Reduce编程模型来解决其庞大的数据密集型任务。MPI是为大规模并行计算机和工作站集群上的高性能计算而设计的。所以我的第一个困惑是..是否可以使用Map-Reduce模型代替MPI标准，反之亦然？或者这取决于应用程序！它们之间的确切区别是什么？ Which one is better and when?

浏览 0提问于2012-02-24得票数 4

回答已采纳

3回答

在HDFS上未找到Oozie作业配置应用程序目录

、、、、

我在我的Linux机器上安装了Cloudera的伪分发版本，并成功地运行了一些简单的MapReduce示例。然而，我正在尝试让Oozie工作，但在尝试执行一个简单的作业工作流时，我收到的错误完全让我感到困惑： tim@phocion:~$ oozie version Oozie client build version: 3.1.3-cdh4.0.1 将预打包的示例复制到HDFS，并根据文档执行： tim@phocion:~$ oozie job -oozie http://phocion:11000/oozie -config /user/tim/examples/apps/map-redu

浏览 2提问于2012-10-04得票数 5

1回答

如何在mongo中分层存储MapReduce结果

、

我想要对一些指标执行map-reduce操作，并希望存储其聚合和时间序列的结果。存储聚合结果似乎非常简单，但如何以时间序列的方式存储结果，即每当map-reduce函数运行时，该时间间隔的值也应该记录在结果集合中。(即时间序列数据) 假设我的map-reduce聚合中有以下结果： > db.result.find() { "_id" : { "eventId" : 1}, "value" : { "sum" : 21 } } { "_id" : { "eventId" : 2}, "

浏览 0提问于2014-01-04得票数 0

1回答

检查Mongodb MapReduce支持

、

我是MognoDB的新手。如何检查我的机器是否支持Map-reduce？map-reduce的代码可以在另一台机器上运行，但不能在我的机器上运行。

浏览 2提问于2013-02-23得票数 0

回答已采纳

1回答

在mongodb中，哪些示例只能使用map reduce而不能使用聚合框架？

、、

我想知道一些与Mongo DB相关的例子或场景，它们可以通过map-reduce来完成，但不能通过聚合框架来完成？ Map-reduce被认为是一种非常强大的数据聚合工具/机制。那么，你们中的一些人可以分享一些map-reduce不可能做到的场景吗？谢谢&致以最良好的问候。

浏览 0提问于2013-02-24得票数 0

回答已采纳

1回答

使用MongoDB，有什么简单的方法可以重用Map/Reduce结果吗？

、、

例如，在执行分析时，可能会有一个需要10秒的map/reduce运行。在运行后，如果其他网页可以使用该结果，那么它将为每个页面节省10秒。以某种方式缓存map/reduce结果会很好。可以在数据库中以map_reduce_result_[timestamp]的身份记录一个成功的map/reduce运行，然后在MongoDB的db.run_log中保留这个时间戳。例如，此时间戳是UNIX纪元时间。因此，当其他页面需要访问结果时，它们可以获得最大时间戳，然后只需查找存储在MongoDB中的结果。但这样做有点像黑客，想知道是否有更好的方法。

浏览 3提问于2010-09-23得票数 4

回答已采纳

2回答

如何在map-reduce数据库中实现引用？

、、、

我开始研究map-reduce数据库。如何在map-reduce数据库(如CouchDB或MongoDB )中实现引用？例如，假设我有司机和汽车，我想标记某个司机开汽车。在SQL中，它类似于： SELECT person_id, car_id FROM driver, car WHERE driver.car = car.car_id (也就是说，如果我没记错的话--我已经有一段时间没有用SQL编程了。) 在有引用的语言中，这非常简单: Person的实例可以指向Car的实例。与这种关系等价的map-reduce是什么？

浏览 0提问于2010-08-05得票数 3

回答已采纳

2回答

将mapreduce的Python脚本传递到HBase

、、、

我们有一个基于Hadoop的HBase实现。到目前为止，我们所有的Map-Reduce作业都是用Java类编写的。我想知道是否有一个好的方法来使用Python脚本来传递到Map-Reduce的HBase。

浏览 2提问于2013-01-10得票数 3

1回答

如何使用MAP-REDUCE java程序将HBASE表加载到HDFS中

、、、

如何编写将任何表从HBASE加载到HDFS的MAP-REDUCE java程序不使用以下命令，我如何写一个TRANSFORMATION使用MAP-REDUCE java程序，将任何表导出从HBASE和加载到HDFS?？ bin/hbase org.apache.hadoop.hbase.mapreduce.Driver export hdfs://user/etc***

浏览 1提问于2012-05-29得票数 1

1回答

为什么在配置单元中，orc文件比parquet文件消耗更多的空间？

、、、

据我所知，ORC文件应该比拼图文件更小、更压缩。但是，当我在Apache Hive中通过从拼图表格中选择行来填充我的orc表时，orc表最终消耗了大约7倍的磁盘空间。你知道为什么会发生这种情况吗？我的表模式如下。它包含一个由整数0、1和2组成的长度为200000的数组，每个分区大约有10000行。 CREATE TABLE orc_table ( field1 STRING , field2 INT , field3 STRING , field4 STRING , array_field ARRAY < INT > ) PARTITIONED BY ( partit

浏览 11提问于2018-01-30得票数 1

回答已采纳

1回答

访问mongoDB map reduce的输出

、

如何访问以下mongoDB map reduce代码的输出？我假设map reduce函数生成一个名为'session_stat‘的集合，其中包含字段：'dayOfWeek’和'count‘，我可以使用find()和我的printValue函数打印这些集合。但是当我使用'mongo code.js‘执行代码时，我只得到"undefined“。提前谢谢。 db = db.getSiblingDB("mrex"); // simulate saving records that log the lengths of user session

浏览 2提问于2012-10-02得票数 0

回答已采纳

1回答

在eclipse中配置Hadoop2.5

、

我正在尝试使用hadoop版本2.5在eclipse indigo中配置map-reduce。我下载了Hadoop2.5源代码，并在eclipse项目中添加了所有的库。在尝试运行项目时，它显示以下错误 Java路径和类路径设置正确。请帮帮我！是否必须配置cygiwn SSH才能使用eclipse map-reduce？

浏览 1提问于2014-12-03得票数 0

3回答

多核计算机上的Hadoop和map-reduce

、

我读过很多关于Hadoop和Map-Reduce在机器集群上运行的文章。有人知道Apache发行版是否可以在具有多个内核的SMP上运行吗？特别是，是否可以在同一台计算机上运行多个Map-Reduce进程。调度器将负责将它们分布在多个内核中。谢谢。- KG

浏览 1提问于2012-09-30得票数 8

1回答

对集合中的所有文档执行以下查询: mongodb中的this.value = Math.min( this.max，this.value + this.increment)

、

我的文档都有{max，iterate，value}，我希望用this.value = max( this.max + this.increment)遍历所有这些文档。目前，我找到所有的()，对每一个都执行value = Math.min(最大，值+增量)，然后将它们全部保存回服务器(我在mongodb中执行此操作)。如你所见，这是一种可怕的方式。我想对所有文档执行此指令，仅在服务器端。如何做到这一点？对于使用索引来进一步优化这一点或解释为什么索引没有帮助的人来说，这是一个巧克力派。我使用NodeJS作为服务器和原生mongodb库。

浏览 2提问于2013-05-10得票数 0

回答已采纳

4回答

将数组中连续的2个元素合并为新数组中的数组

、、

假设我们有一个数组1,2,3,4,5,6，我想要得到一个新的数组[1,2,3,4,5,6]。我不想使用for循环，我想使用map-reduce或最佳实践来解决这个问题，但是我不知道如何使用map-reduce。请帮帮忙。

浏览 55提问于2016-11-06得票数 1

回答已采纳

1回答

统计mapreduce框架中每个作者的热门词数

、

我有一个文件的集合，每个文件都包含作者的名字和他使用的单词。现在，我正在尝试编写一个map-reduce代码来计算每个作者的前N个单词。棘手的部分是该文件可能包含多个作者。那么我应该如何设计我的map-reduce框架呢？伪代码加上一点解释就足够了。谢谢

浏览 1提问于2013-05-03得票数 0

3回答

运行脚本以响应错误的发生

、、、、

是否有任何方法来运行脚本(Pig，shell)来响应错误的发生？我的意思是:我在Oozie (工作流管理器)中创建工作流，其中一个任务失败并调用错误，如果发生此错误，我希望运行特定的脚本或其他任务。我想提供某种错误处理：当error1发生时-做点什么当error2发生时-做一些其他的事情我很感激你的帮助。

浏览 2提问于2014-07-08得票数 0

回答已采纳

1回答

Oozie现实问题

、

我修改了job.properties文件，我使用的是2.6版本。Job.properties nameNode=hdfs://localhost:54310 jobTracker=localhost:8032 queueName=default examplesRoot=examples oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/apps/map-reduce outputDir=map-reduce ERROR:: Here m using resource manager as j

浏览 3提问于2015-04-28得票数 0

3回答

在eclipse中调试map reduce作业

、、、

我想使用eclipse调试Map-reduce作业(pig、hive)。也就是说，在hadoop源java文件中设置断点，并在运行map-reduce作业时检查元素。为此，我使用eclipse启动了所有服务，并且可以调试一些类文件。但是我不能创建一个完整的调试环境。有人能告诉我是怎么做到的吗？

浏览 0提问于2014-10-29得票数 1

1回答

在Hadoop DistributedCache上存储TreeSet

、、、、

我正在尝试将TreeSet存储在DistributedCache上，以供Hadoop map-reduce作业使用。到目前为止，我有以下方法可以将文件从HDFS添加到DistributedCache Configuration conf = new Configuration(); DistributedCache.addCacheFile(new URI("/my/cache/path"), conf); Job job = new Job(conf, "my job"); // Proceed with remainder of Hadoop map-red

浏览 1提问于2013-04-22得票数 4

1回答

MR jobs的Pig文档

有谁知道Apache pig文档中列出了所有运算符(如group by、streaming等)以及PIG采取的相应操作，即操作符导致的MR作业的类型/数量？我特别感兴趣的是流方面，它如何映射到MR作业。

浏览 1提问于2012-09-10得票数 0

回答已采纳

2回答

使用spark跨hadoop群集复制数据

、、、、

我遇到了这样的情况:我必须将数据/文件从PROD复制到UAT (hadoop群集)。为此，我现在使用'distcp'。但这需要永远的时间。由于distcp在幕后使用map-reduce，有没有办法使用spark使这个过程更快呢？就像我们可以将hive执行引擎设置为'TEZ' (以取代map-reduce)一样，我们可以将distcp的执行引擎设置为spark吗？或者，有没有其他的'spark'方法可以跨集群复制数据，甚至不需要费心使用distcp？这里是我的第二个问题(假设我们可以将distcp执行引擎设置为spark而不是map-reduce

浏览 1提问于2016-08-19得票数 0

1回答

记录的相对陈旧

、

我的系统中有选票，但我希望通过一些选票计算和项目的新鲜度进行排序。我知道在SQL中，做这样的事情应该很容易-使用GETDATE()、DATEDIFF()和一些数学魔术。在Mongo中我该怎么做呢？是否需要使用map-reduce？我记得听说map-reduce是阻塞的--所以不推荐将其用于高流量的网站页面查询？谢谢

浏览 1提问于2011-12-02得票数 0

回答已采纳

1回答

帮助: mongodb find simple test vs mssql select test

我想看看mongodb是否适合我们。所以我有一个简单的测试：行数:1.24mil列: 20 MSSQL： select date,sum(revenue) from sales group by date 结果 1秒内返回 MongoDB $keys = array("date"=>1); $initial = array("rev" => 0); $reduce = "function (obj, prev) { prev.rev += obj.revenue; }"; return $collect

浏览 2提问于2011-05-02得票数 1

回答已采纳

1回答

尝试使用Hazelcast的IMap聚合时出错

、、

我尝试聚合IMap的值，但得到以下错误： com.hazelcast.map.impl.query.QueryPartitionOperation SEVERE: [192.168.99.1]:5701 [dev] [3.12.3] java.lang.IllegalArgumentException: There is no suitable accessor for 'john' on class 'java.lang.String' 这是一个复制者： HazelcastInstance hazelCast = Hazelcast.newH

浏览 50提问于2020-08-11得票数 1

1回答

你能在Mongo中做group by作为map reduce吗？

、、

我有两个收藏。"people“用"location”连接，如下所示： location_id = ObjectId() db.people.insert( { _id : ObjectId(), name : "Nick", location : location_id }); db.locations.insert( { _id : location_id, city : "Cape Town" }); 我想创建一个locations直方图，给出每个city中的人数。但我似乎不能使用Mongo group命令做到这一点，因

浏览 1提问于2012-08-08得票数 0

回答已采纳

1回答

缩放基于Java的树

、、、、

我用Java编写了一个树，它支持多个子节点和边。到目前为止，我还不需要担心如何扩展这个应用程序。现在的用例需要搜索和维护100个或更多的树实例。我在这个领域只做了很少的研究。首先想到的是Spark。我对它的理解是，Spark对事件窗口进行批量处理--几乎去掉了“流中”的部分。时间在这里是非常关键的。所以我在考虑利用Hadoop的文件系统。跨集群对树进行索引，并使用MapReduce进行维护。我不介意读一本好书。如果有任何文章、教程和/或建议，我们将非常感谢。干杯

浏览 0提问于2017-06-07得票数 0

1回答

如何删除mapReduce中的"value“？

、

我想知道是否有可能删除map-reduce中的"value“键，以便最终结果只包含直接的值，而不是在"value”键中。我希望只使用命令(所以没有Javascript变量之类的) 例如，map-reduce输出通常是 [ { "_id" : 0, "value" : { "name" : "Apple",

浏览 0提问于2013-03-11得票数 2

回答已采纳

1回答

具有多个属性的集合的Cypher匹配

、

我在neo4j中创建了4个节点，它们的属性是名称和技能，.How可以使用CQL查找具有一个或多个类似技能的节点。 CREATE (c1:Person {name:'a',skills:['Java','Apache Hadoop','Apache Storm','Apache Solr','Hbase','Map-reduce','Spring']}), (c2:Person {name:'b',skills:['Java','

浏览 3提问于2016-04-02得票数 0

回答已采纳

2回答

与Hadoop的map-reduce相关的查询

、

场景：我有一个数据库子集和一个数据仓库。我把这两样东西都放在HDFS上了。我想要分析基于子集和数据仓库的结果。(简而言之，对于子集中的一条记录，我必须扫描dataware house中的每条记录) 问题：我想使用Map-Reduce算法来完成这个任务。我不明白如何将这两个文件作为mapper的输入，以及如何在map-reduce的map阶段处理这两个文件。请建议我一些想法，以便我能够执行它？

浏览 0提问于2012-01-03得票数 0

回答已采纳

1回答

在Hadoop中如何在作业和任务级别处理输出文件？

、、

根据权威指南，OutPutCommitter的setUpJob()将创建mapreduce输出目录，并为任务设置临时工作区。Mapred.output.dir/_临时然后，书中说，在写入任务输出时，会在任务级别创建临时目录。上面的两个陈述有点令人困惑。

浏览 0提问于2013-12-06得票数 0

1回答

Spark作为Mapreduce的存储层

、、、、

我正面临着一个独特的问题，并希望您的意见在这里。我有一个遗留的map-reduce应用程序，其中多个map-reduce作业顺序运行，中间数据来回写入HDFS。由于中间数据写入HDFS，具有小数据的作业从HDFS的功能中损失大于收益，并且比非Hadoop等效物所花费的时间要长得多。最终，我计划将我所有的map reduce工作转换为Spark DAG，然而这是一个巨大的变化，所以我合理地拖延了。我真正想要的短期解决方案是，改变存储层，这样我就可以继续从map-reduce并行性中受益，但不会为存储层付出太多代价。在这个方向上，我正在考虑使用Spark作为存储层，map-reduce作业将通

浏览 0提问于2016-12-11得票数 0

2回答

是否可以从MongoDB映射/还原函数进行REST调用并处理结果？

、、

我想知道是否可以从Map-Reduce或system.js函数中发出REST请求。我希望能够调用外部服务，并从返回的JSON结果中获取一些I，并将它们用作第二个Mongo查询的BSON ObjectID。一个这样的例子是从Mongo中选择一个ObjectID集合，然后使用这些ids作为图形数据库的参数进行REST调用。然后，图形数据库将返回一个结果/新ids的json列表，然后Mongo将使用该列表进行第二次查找，然后将整个结果集返回给用户。谢谢!

浏览 2提问于2010-11-20得票数 0

2回答

使用Cloudera问题运行Oozie

、

我正在使用vmware中的cloudera快速启动来运行示例Oozie。我正在尝试运行一些在Cloudera中出现的Oozie示例。我正在遵循以下链接：我打开了'oozie-examples.tar.gz‘并获得了示例目录。在运行oozie时，我收到一条错误消息： [cloudera@localhost oozie-3.3.2+92]$ oozie job -oozie http://localhost:11000/oozie -config examples/apps/map-reduce/job.properties -run o/p：属性-run错误: E0901: E

浏览 2提问于2014-04-14得票数 0

回答已采纳

1回答

如何在oozie工作流任务之间传递数据

、、、、

Oozie有一组丰富的指令来描述任务之间期望的控制流。它有什么可以帮助在这些任务之间传递数据的吗？还是传递数据是完全留给用户的练习？更新:我使用shell操作来调用星星之火，所以我需要一个足够通用的解决方案来包含这个用例。

浏览 0提问于2015-07-10得票数 0

回答已采纳

2回答

如何在mongodb中执行map reduce中map reduce结果

、

我想知道我是否可以在之前类似流水线的map reduce函数的结果上执行map reduce，而不是把它写在一个集合上，谢谢大家。我的英语不好，希望你能理解我的问题：

浏览 0提问于2016-03-02得票数 2

1回答

在Debian中运行包含load()和print()函数的JS脚本

、、、

我需要在Debian中运行map-还原JS脚本:该脚本从本地运行的MongoDB实例(mongod)中读取并写入该脚本，并创建一个类似条目的表。问题是脚本包含、load、和打印函数： load("map-reduce-.../somefile.js"); var Db = require('mongodb').Db, MongoClient = require('mongodb').MongoClient, ... var db = new Db('results', new Server('localhost&#

浏览 2提问于2016-05-15得票数 0

1回答