腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pig
中
如何
处理
分组
时
的
偏斜
数据
、
我正在做一个group by操作,其中一个reduce任务运行
的
时间很长。以下是示例代码片段和对该问题
的
描述,由于
数据
中
存在偏差,即一个键
的
值太多,因此一个reducer运行了4个小时。Rest all reduce任务
在
1分钟左右完成。
浏览 3
提问于2016-07-25
得票数 0
回答已采纳
1
回答
Pig
:将大文件拆分成多个小文件
、
我需要拆分由另一个
Pig
脚本生成
的
输出零件文件,并生成每个包含1000行
的
组。这些组将被发布到will服务以进行进一步
处理
。
数据
之间没有关系,所以我不能对特定字段
的
数据
进行
分组
。我
如何
在
Pig
中
做到这一点?
浏览 1
提问于2013-07-19
得票数 1
4
回答
Apache
Pig
:减速器
的
扁平和并行执行
、
当我执行这个脚本
时
,它会为一个特定
的
步骤生成许多映射器,但是对于这个步骤只有一个减法器。由于这种情况(许多映射器,一个还原器),Hadoop集群
在
执行单个还原器
时
几乎是空闲
的
。为了更好地利用集群
的
资源,我还希望有许多减速器并行运行。pairsFlat = FOREACH
浏览 4
提问于2013-11-07
得票数 35
1
回答
如何
处理
Apache
中
的
偏度和输出文件大小
、
、
当我试图加入两个
数据
集
时
,我面临着
偏斜
的
问题。其中一个
数据
分区(我试图执行联接操作
的
列)比该分区
的
其余部分具有
偏斜
性,因此最终输出部分文件
中
的
一个比输出部分文件
的
其余部分文件要大40倍。我使用Scala, Apache spark来执行我
的
计算,使用
的
文件格式是parquet。 首先是
如何
处理
浏览 1
提问于2019-06-08
得票数 1
3
回答
如何
在
Pig
中
处理
多个商店-拉丁脚本
、
我有一个
pig
脚本,输入如下:我有这样
的
关系,按不同
的
列
分组
:Y=B列|总列D|总列E|然后,我需要将X、Y、Z存储到不同
的
文件夹
中
,因此会多次调用store。
Pig
知道
如何
只加载和
处理
一次
数据
,然后再进行存储吗?
浏览 0
提问于2013-06-22
得票数 1
回答已采纳
1
回答
PIG
-从一个大
的
输入优化各种
分组
结构
的
最佳方法
、
我正在使用
Pig
获取一个表单
的
大txt文件我
的
目标是接受此输入并按列
的
不同组合进行
分组
,以获得如下所示
的
内容(A列/C列)|计数(F列)|求和(G列)(B列/C列)|计数(F列)|求和(G列) 我想知道是否有办法构建我
的
pig
代码,以便只需要
处理
数据</
浏览 0
提问于2013-06-21
得票数 0
回答已采纳
1
回答
目标列应在异常值和
偏斜
管理之前或之后创建。
、
我有一个困扰我
的
困惑,假设我们有一个
数据
集,我们需要从
数据
集中派生目标列。
数据
中
也存在一些异常值和
偏斜
,是
在
异常值和
偏斜
处理
之前还是
在
处理
之后创建目标列?
浏览 7
提问于2022-04-22
得票数 0
2
回答
猪究竟什么时候使用Hadoop MapReduce环境?
、
、
我对Hadoop Mapreduce和
Pig
环境有疑问。
在
中
,我发现
Pig
系统对
Pig
的
拉丁代码很感兴趣。首先,我认为
Pig
使用map和reduce方法创建.jar文件,然后将该文件“发送”到Hadoop Mapreduce环境以运行mapreduce作业(这是
Pig
开发人员未来
的
工作)。那么,
Pig
系统到底什么时候使用Hadoop Mapreduce呢?它是
在
解释
Pig
拉丁语代码
浏览 0
提问于2012-08-30
得票数 2
回答已采纳
1
回答
对
PIG
中
的
2个
数据
源进行迭代
、
我有2个
数据
源1) Params.txt,内容如下item2..2) Data.txt,内容如下任务是查看每行
数据
文件
中
是否存在N个参数文件项
中
的
每一项。这是相同
的
伪代码 FOREACH PARAM IN PARAMS:
浏览 0
提问于2020-06-16
得票数 0
1
回答
Pig
内连接产生一个带有1个悬挂式减速机
的
作业
、
、
我有一个我一直
在
处理
的
Pig
脚本,它有一个来自2个不同
数据
源
的
内部连接。此join恰好是导致操作
的
第一个MapReducing。在手工操作之前,唯一
的
操作是过滤和前缀。当这个连接被执行时,一切都会完美而快速地抛出map阶段,但当涉及到reduce阶段
时
,除了1个之外,所有的reduce都会快速完成。然而,1只是坐在阶段
的
Reduce部分,以非常非常慢
的
速度
处理
数据
浏览 0
提问于2012-03-30
得票数 2
回答已采纳
1
回答
通过aws EMR
在
Kinesis流上运行hadoop
pig
脚本
、
、
、
、
我正在尝试使用AWS EMR上
的
pig
脚本批量
处理
kinesis流
中
的
一些
数据
。我只需要将流
数据
分组
并将其移动到s3。我试着每隔几个小时运行一次。乍一看,它似乎非常适合AWS
数据
管道,但我不知道
如何
传递迭代号来用于动态检查点。看起来没有任何方法可以递增一个数字来传递给
pig
脚本。有没有办法使用我缺少
的
AWS
数据
管道来实现这一点?
浏览 0
提问于2015-08-13
得票数 0
3
回答
使用
Pig
拉丁语在有许多小输入文件
时
提高性能
、
目前我正在
处理
大约19G
的
日志
数据
,大量
的
时间被浪费
在
准备上(大约3小
时
?)然后mapreduce作业开始了。而且mapreduce作业本身(通过
Pig
脚本)非常慢,大约需要一个小时。 mapreduce逻辑没有那么复杂,就像按操作
分组
一样。
浏览 7
提问于2013-08-27
得票数 0
回答已采纳
2
回答
apache
pig
计数不起作用,转储失败
我有来自class
的
赋值,以查找由特定条件过滤
的
条目的数量。样本
数据
集:1 563355 1235000081 php,错误,gd,图像
处理
1235000501 2 563355 1235000081 php,错误
浏览 2
提问于2016-04-06
得票数 0
1
回答
Apache
Pig
从有组
的
数据
集中获取max。
、
、
、
我
在
HDFS
中
存储了一个名为temp.txt
的
文件
中
的
数据
集,如下所示:US,California,56.7India,Jaisalmer,42.4Iran,Lut Desert,70.7现在,我通过以下命令将其加载到
Pig
内存
中
: temp_input = LOAD
中
的<
浏览 1
提问于2017-06-21
得票数 0
回答已采纳
4
回答
hcatalog
在
hadoop
中
的
用途是什么?
、
、
、
我是Hadoop
的
新手。我知道HCatalog是Hadoop
的
一个表和存储管理层。但它到底是
如何
工作
的
,以及
如何
使用它。请举一些简单
的
例子。
浏览 46
提问于2014-03-20
得票数 22
回答已采纳
1
回答
Pig
: Slow Group By operator
、
在对Hive和
Pig
进行基准测试后,我发现
Pig
中
的
Group By运算符比Hive慢得多。我想知道是否有人经历过同样
的
情况?人们是否有任何技巧来提高这个操作
的
性能?(在这里添加一个之前
的
帖子建议
的
DISTINCT并没有帮助。我目前正在重新运行基准测试,并启用了LZO压缩)。
浏览 1
提问于2013-08-18
得票数 1
4
回答
hive、
pig
、map-reduce用例之间
的
区别
、
、
、
map-reduce、hive、
pig
之间
的
区别我知道在后端,猪和蜂窝都使用map -reduces。我知道map-reduce对于程序员、hive或
pig
浏览 0
提问于2014-10-29
得票数 0
1
回答
如何
使用MapReduce映射器将
数据
统一分发给还原器?
、
我对MapReduce只有一个较高层次
的
理解,但对于实现中允许
的
内容,我有一个具体
的
问题。(k,v) -> (proc_id, (k,v)) 其中proc_id是
处理
器
的
唯一标识符(假设每个键k都是唯一
的
)。核心问题是,如果减速器
的
数量不是固定
的
(根据输入
的
大小动态确定;这在实践
中</
浏览 1
提问于2014-05-10
得票数 0
回答已采纳
1
回答
在
Pig
中
“group as”是
如何
工作
的
?
我在理解foreach循环中group by group_name是
如何
工作
的
时候遇到了麻烦。假设我们已经有一个名为grouped_data
的
变量,它被定义为:然后,我们希望使用添加
的
聚合列遍历grouped_data
中
的
每条记录。下面是这样写
的
:
浏览 0
提问于2015-04-23
得票数 4
5
回答
Apache
Pig
和Apache Hive有什么区别?
、
、
Pig
和Hive的确切区别是什么?我发现两者具有相同
的
功能含义,因为它们用于做相同
的
工作。唯一
的
事情是实现,这对两者都是不同
的
。那么什么时候该使用哪种技术呢?有没有明确说明两者
在
适用性和性能方面的区别的规范?
浏览 3
提问于2012-04-23
得票数 18
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在应用机器学习时如何处理不良数据?
智能断路器在处理异常数据时,如何确保数据准确性?
在机器学习中处理缺失数据的方法
如何处理日志中的结构化数据?
如何处理数据中的“类别不平衡”?
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券