在pig中如何处理分组时的偏斜数据

、

我正在做一个group by操作，其中一个reduce任务运行的时间很长。以下是示例代码片段和对该问题的描述，由于数据中存在偏差，即一个键的值太多，因此一个reducer运行了4个小时。Rest all reduce任务在1分钟左右完成。

浏览 3提问于2016-07-25得票数 0

回答已采纳

1回答

Pig:将大文件拆分成多个小文件

、

我需要拆分由另一个Pig脚本生成的输出零件文件，并生成每个包含1000行的组。这些组将被发布到will服务以进行进一步处理。数据之间没有关系，所以我不能对特定字段的数据进行分组。我如何在Pig中做到这一点？

浏览 1提问于2013-07-19得票数 1

4回答

Apache Pig:减速器的扁平和并行执行

、

当我执行这个脚本时，它会为一个特定的步骤生成许多映射器，但是对于这个步骤只有一个减法器。由于这种情况(许多映射器，一个还原器)，Hadoop集群在执行单个还原器时几乎是空闲的。为了更好地利用集群的资源，我还希望有许多减速器并行运行。pairsFlat = FOREACH

浏览 4提问于2013-11-07得票数 35

1回答

如何处理Apache中的偏度和输出文件大小

、、

当我试图加入两个数据集时，我面临着偏斜的问题。其中一个数据分区(我试图执行联接操作的列)比该分区的其余部分具有偏斜性，因此最终输出部分文件中的一个比输出部分文件的其余部分文件要大40倍。我使用Scala, Apache spark来执行我的计算，使用的文件格式是parquet。首先是如何处理

浏览 1提问于2019-06-08得票数 1

3回答

如何在Pig中处理多个商店-拉丁脚本

、

我有一个pig脚本，输入如下：我有这样的关系，按不同的列分组：Y=B列|总列D|总列E|然后，我需要将X、Y、Z存储到不同的文件夹中，因此会多次调用store。Pig知道如何只加载和处理一次数据，然后再进行存储吗？

浏览 0提问于2013-06-22得票数 1

回答已采纳

1回答

PIG -从一个大的输入优化各种分组结构的最佳方法

、

我正在使用Pig获取一个表单的大txt文件我的目标是接受此输入并按列的不同组合进行分组，以获得如下所示的内容(A列/C列)|计数(F列)|求和(G列)(B列/C列)|计数(F列)|求和(G列) 我想知道是否有办法构建我的pig代码，以便只需要处理数据</

浏览 0提问于2013-06-21得票数 0

回答已采纳

1回答

目标列应在异常值和偏斜管理之前或之后创建。

、

我有一个困扰我的困惑，假设我们有一个数据集，我们需要从数据集中派生目标列。数据中也存在一些异常值和偏斜，是在异常值和偏斜处理之前还是在处理之后创建目标列？

浏览 7提问于2022-04-22得票数 0

2回答

我对Hadoop Mapreduce和Pig环境有疑问。在中，我发现Pig系统对Pig的拉丁代码很感兴趣。首先，我认为Pig使用map和reduce方法创建.jar文件，然后将该文件“发送”到Hadoop Mapreduce环境以运行mapreduce作业(这是Pig开发人员未来的工作)。那么，Pig系统到底什么时候使用Hadoop Mapreduce呢？它是在解释Pig拉丁语代码

浏览 0提问于2012-08-30得票数 2

回答已采纳

1回答

对PIG中的2个数据源进行迭代

、

我有2个数据源1) Params.txt，内容如下item2..2) Data.txt，内容如下任务是查看每行数据文件中是否存在N个参数文件项中的每一项。这是相同的伪代码 FOREACH PARAM IN PARAMS:

浏览 0提问于2020-06-16得票数 0

1回答

Pig内连接产生一个带有1个悬挂式减速机的作业

、、

我有一个我一直在处理的Pig脚本，它有一个来自2个不同数据源的内部连接。此join恰好是导致操作的第一个MapReducing。在手工操作之前，唯一的操作是过滤和前缀。当这个连接被执行时，一切都会完美而快速地抛出map阶段，但当涉及到reduce阶段时，除了1个之外，所有的reduce都会快速完成。然而，1只是坐在阶段的Reduce部分，以非常非常慢的速度处理数据

浏览 0提问于2012-03-30得票数 2

回答已采纳

1回答

通过aws EMR在Kinesis流上运行hadoop pig脚本

、、、、

我正在尝试使用AWS EMR上的pig脚本批量处理kinesis流中的一些数据。我只需要将流数据分组并将其移动到s3。我试着每隔几个小时运行一次。乍一看，它似乎非常适合AWS数据管道，但我不知道如何传递迭代号来用于动态检查点。看起来没有任何方法可以递增一个数字来传递给pig脚本。有没有办法使用我缺少的AWS数据管道来实现这一点？

浏览 0提问于2015-08-13得票数 0

3回答

使用Pig拉丁语在有许多小输入文件时提高性能

、

目前我正在处理大约19G的日志数据，大量的时间被浪费在准备上(大约3小时？)然后mapreduce作业开始了。而且mapreduce作业本身(通过Pig脚本)非常慢，大约需要一个小时。 mapreduce逻辑没有那么复杂，就像按操作分组一样。

浏览 7提问于2013-08-27得票数 0

回答已采纳

2回答

apache pig计数不起作用，转储失败

我有来自class的赋值，以查找由特定条件过滤的条目的数量。样本数据集：1 563355 1235000081 php，错误，gd，图像处理1235000501 2 563355 1235000081 php，错误

浏览 2提问于2016-04-06得票数 0

1回答

Apache Pig从有组的数据集中获取max。

、、、

我在HDFS中存储了一个名为temp.txt的文件中的数据集，如下所示：US,California,56.7India,Jaisalmer,42.4Iran,Lut Desert,70.7现在，我通过以下命令将其加载到Pig内存中： temp_input = LOAD中的<

浏览 1提问于2017-06-21得票数 0

回答已采纳

4回答

hcatalog在hadoop中的用途是什么？

、、、

我是Hadoop的新手。我知道HCatalog是Hadoop的一个表和存储管理层。但它到底是如何工作的，以及如何使用它。请举一些简单的例子。

浏览 46提问于2014-03-20得票数 22

回答已采纳

1回答

Pig: Slow Group By operator

、

在对Hive和Pig进行基准测试后，我发现Pig中的Group By运算符比Hive慢得多。我想知道是否有人经历过同样的情况？人们是否有任何技巧来提高这个操作的性能？(在这里添加一个之前的帖子建议的DISTINCT并没有帮助。我目前正在重新运行基准测试，并启用了LZO压缩)。

浏览 1提问于2013-08-18得票数 1

4回答

hive、pig、map-reduce用例之间的区别

、、、

map-reduce、hive、pig之间的区别我知道在后端，猪和蜂窝都使用map -reduces。我知道map-reduce对于程序员、hive或pig

浏览 0提问于2014-10-29得票数 0

1回答

如何使用MapReduce映射器将数据统一分发给还原器？

、

我对MapReduce只有一个较高层次的理解，但对于实现中允许的内容，我有一个具体的问题。(k,v) -> (proc_id, (k,v)) 其中proc_id是处理器的唯一标识符(假设每个键k都是唯一的)。核心问题是，如果减速器的数量不是固定的(根据输入的大小动态确定；这在实践中</

浏览 1提问于2014-05-10得票数 0

回答已采纳

1回答

在Pig中“group as”是如何工作的？

我在理解foreach循环中group by group_name是如何工作的时候遇到了麻烦。假设我们已经有一个名为grouped_data的变量，它被定义为：然后，我们希望使用添加的聚合列遍历grouped_data中的每条记录。下面是这样写的：

浏览 0提问于2015-04-23得票数 4

5回答

Apache Pig和Apache Hive有什么区别？

、、

Pig和Hive的确切区别是什么？我发现两者具有相同的功能含义，因为它们用于做相同的工作。唯一的事情是实现，这对两者都是不同的。那么什么时候该使用哪种技术呢？有没有明确说明两者在适用性和性能方面的区别的规范？

浏览 3提问于2012-04-23得票数 18

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pig:将大文件拆分成多个小文件

Apache Pig:减速器的扁平和并行执行

如何处理Apache中的偏度和输出文件大小

如何在Pig中处理多个商店-拉丁脚本

PIG -从一个大的输入优化各种分组结构的最佳方法

目标列应在异常值和偏斜管理之前或之后创建。

猪究竟什么时候使用Hadoop MapReduce环境？

对PIG中的2个数据源进行迭代

Pig内连接产生一个带有1个悬挂式减速机的作业

通过aws EMR在Kinesis流上运行hadoop pig脚本

使用Pig拉丁语在有许多小输入文件时提高性能

apache pig计数不起作用，转储失败

Apache Pig从有组的数据集中获取max。

hcatalog在hadoop中的用途是什么？

Pig: Slow Group By operator

hive、pig、map-reduce用例之间的区别

如何使用MapReduce映射器将数据统一分发给还原器？

在Pig中“group as”是如何工作的？

Apache Pig和Apache Hive有什么区别？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐