在hadoop/pig中导入日志的多级目录

在Hadoop/Pig中导入日志的多级目录，可以通过以下步骤完成：

确保Hadoop集群已经正确安装和配置，并且Pig已经正确安装。
创建一个Hadoop分布式文件系统（HDFS）目录，用于存储日志文件。可以使用以下命令创建目录：

hdfs dfs -mkdir -p /path/to/logs

这将创建一个名为logs的目录，用于存储日志文件。

将日志文件上传到HDFS目录中。可以使用以下命令将本地日志文件上传到HDFS：

hdfs dfs -put /path/to/local/logs/* /path/to/logs

这将把本地/path/to/local/logs/目录下的所有文件上传到HDFS的/path/to/logs/目录中。

在Pig脚本中使用Hadoop的LOAD命令加载日志文件。可以使用以下命令加载多级目录中的日志文件：

logs = LOAD '/path/to/logs/*' USING PigStorage('\t') AS (col1:datatype, col2:datatype, ...);

这将加载/path/to/logs/目录下的所有文件，并将每行数据按照制表符分隔，并指定每列的数据类型。

注意：根据实际情况，你可能需要调整PigStorage函数的参数，以适应你的日志文件格式。

接下来，你可以在Pig脚本中使用logs关系来进行数据处理和分析。

总结：

在Hadoop/Pig中导入日志的多级目录，首先需要创建一个HDFS目录用于存储日志文件，然后将日志文件上传到该目录中。接着，在Pig脚本中使用Hadoop的LOAD命令加载日志文件，并进行数据处理和分析。这样可以方便地处理多级目录中的日志数据。

腾讯云相关产品和产品介绍链接地址：

腾讯云Hadoop：https://cloud.tencent.com/product/emr
腾讯云Pig：https://cloud.tencent.com/product/emr
腾讯云HDFS：https://cloud.tencent.com/product/cfs

在带有java.lang.NoClassDefFoundError的AWS EMR上运行Pig UDF : org/apache/pig/LoadFunc

、、、

我正在开发一个应用程序，试图读取的日志文件存储在弹性块和解析它使用S3 MapReduce。当前日志文件的格式如下 ------------------------------- COLOR=Black Date=1349719200 PID=23898 Program=Java EOE ------------------------------- COLOR=White Date=1349719234 PID=23828 Program=Python EOE 因此，我尝试将文件加载到我的Pig脚本中，但内置的Pig Loader似乎无法加载我的数据，因此我必须创建自

浏览 6提问于2012-12-05得票数 0

1回答

不能跑猪

、、

安装Hadoop后，再安装Pig。然而，我有以下问题:当我试图跑一头猪时，发现它的日志中有一些障碍： coba@dewi-laptop:/home/dewi/Work2/pig-0.8.0-cdh3u0/bin$ ./pig 2011-11-23 10:15:20,865 [main] INFO org.apache.pig.Main - Logging error messages to: /home/dewi/Work2/pig-0.8.0-cdh3u0/bin/pig_1322018120859.log 2011-11-23 10:15:21,364 [main] INFO org

浏览 0提问于2011-11-23得票数 1

1回答

用于Hadoop的Google连接器不适用于Pig

、、

我在HDFS 2.7.1.2.4和Pig 0.15.0.2.4 (Hortonworks HDP 2.4)中使用Hadoop，并尝试使用 (GitHub上的bigdata-interop)。当我试着，比如说， hadoop fs -ls gs://bucket-name 但是，当我在Pig (在mapreduce模式下)尝试以下内容时： data = LOAD 'gs://softline/o365.avro' USING AvroStorage(); data = STORE data INTO 'gs://softline/o366.avro' USING

浏览 4提问于2016-04-13得票数 0

回答已采纳

1回答

在EMR上使用PIG MongoDB-Hadoop连接器时出现"ERROR 6000，Output location validation failed“

、、、、

在EMR上的pig脚本中，我得到了一个“输出位置验证失败”异常。将数据保存回S3时失败。我使用这个简单的脚本来缩小问题的范围： REGISTER /home/hadoop/lib/mongo-java-driver-2.13.0.jar REGISTER /home/hadoop/lib/mongo-hadoop-core-1.3.2.jar REGISTER /home/hadoop/lib/mongo-hadoop-pig-1.3.2.jar example = LOAD 's3://xxx/example-full.bson' USING com.

浏览 2提问于2015-03-24得票数 2

1回答

Apache Pig和Hadoop连接中运行教程脚本的环境设置是什么？

、、

我尝试在Ubuntu中运行pig教程脚本两天，但是我无法让pig连接到hadoop文件系统。它仍然在说：“连接到hadoop文件系统: file:///” 事实上，hadoop和pig都在工作，我可以使用它们，pig安装下的pig脚本也可以连接到hadoop。"Connecting to hadoop file system at: hdfs://localhost:54310“我的hadoop目录在/home/ hadoop /Cluster下，pig安装在/usr/share/pig下，pig教程在home/hadoop/pig下，hadoop安装在/home/someuser/h

浏览 5提问于2010-11-11得票数 2

回答已采纳

2回答

pig到hadoop问题:服务器IPC版本7无法与客户端版本4通信

、

我试着让pig开始，但失败了： $ pig 2013-05-10 18:03:22,972 [main] INFO org.apache.pig.Main - Apache Pig version 0.11.1 (r1459641) compiled Mar 22 2013, 02:13:53 2013-05-10 18:03:22,972 [main] INFO org.apache.pig.Main - Logging error messages to: /Users/barclaydunn/Environment/pig-0.11.1/pig_1368223402970.log

浏览 5提问于2013-05-11得票数 7

回答已采纳

1回答

尝试Edureka教程的猪错误

、、

我一直在尝试运行hadoop和其他组件，比如PIG。我正在尝试本教程：一切正常，但是当我在第2步运行脚本时，它会抛出以下错误： 2018-01-09 13:47:20,682 [JobControl] INFO org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob - PigLatin:output.pig got an error while submitting org.apache.pig.backend.executionengine.ExecException: ERROR 2118: Input path does

浏览 2提问于2018-01-09得票数 0

回答已采纳

4回答

权限被拒绝: user=basi，access=WRITE，inode="/"：

、

我在ubuntu和hadoop的本地用户中安装了pig和hduser.Pig，在mapreduce模式下的小datasets.started pig在本地模式下工作正常，并尝试实现字数统计，但得到许可拒绝错误如下。原因: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException)：权限被拒绝: user=basi，access=WRITE，inode=“/”：hduser:超级组:drwxr-xr-x 在psudomode中启动hadoop，在本地用户: pig -x map

浏览 28提问于2019-05-05得票数 1

5回答

pig中的错误:找不到pig-withouthadoop.jar。执行'ant jar-withouthadoop'，然后重试

、

在从Apache网站安装Pig后，我正在尝试启动MAC上的Pig-0.12.0。在启动Pig shell之前，我在conf Directory中创建了pig env.sh文件后复制了以下4行。 Export JAVA_HOME=/usr Export PIG_HOME=/Users/Hadoop_Cluster/pig-0.12.0 Export HADOOP_HOME=Users/Hadoop_Cluster/hadoop-1.2.1 Export PIG_CLASSPATH=$HADOOP_HOME/conf/ 另外，在pig.properties文件中添加了以下文本： Fs.defau

浏览 1提问于2014-01-02得票数 1

1回答

hadoop猪不能mkdir java抛出IO异常

、

我有一个来自hadoop现实世界解决方案食谱的非常简单的脚本示例，我在amazon clustertogov04 ami上试用它，它给了我无法mkdir的java例外吗？但我有足够的磁盘空间？？ [ec2-user]$ df Filesystem 1K-blocks Used Available Use% Mounted on /dev/xvde1 8255928 3307252 4529300 43% / tmpfs 3757068 0 3757068 0% /dev/s

浏览 4提问于2013-06-20得票数 0

1回答

在本地或mapreduce模式下运行pig时出现问题

、

我已经在我的Ubuntu虚拟机上运行了Hadoop1.2，该虚拟机运行在Windows7机器上。我最近在我的Ubuntu虚拟机上安装了Pig 0.12.0。我已经从apache网站下载了pig-0.12.0.tar.gz。我正确地设置了所有变量，如JAVA_HOME、HADOOP_HOME、PIG_HOME变量。当我尝试在本地模式下启动pig时，我看到的是： chandeln@ubuntu:~$ pig -x local pig: invalid option -- 'x' usage: pig chandeln@ubuntu:~$ echo $JAVA_HOME /usr/

浏览 1提问于2014-07-08得票数 0

2回答

清管器订单命令失败

、

我正在尝试分析apache日志，目标是找出所有用户代理及其在使用中的百分比。当result包含每个用户代理、计数和百分比时，下面的程序可以很好地工作。当尝试按最常用的顺序排序时，程序在最后一行失败。有人能帮帮忙吗？ logs = LOAD '$LOGS' USING ApacheCombinedLogLoader AS (remoteHost, hyphen, user, time, method, uri, protocol, statusCode, responseSize, referer, userAgent); uarows = FOREACH logs GENER

浏览 5提问于2013-04-13得票数 0

1回答

在将多级JSON文件加载到Apache并将其保存为csv时遇到问题

、、

我是apache猪的超级新手，我试图将多级json加载到pig中，并将其保存为csv。我有Json文件- home/vikaspattathe/dataset/sample.json {"_id":{"$oid":"5a1321d5741a2384e802c552"},"reviewerID":"A3HVRXV0LVJN7","asin":"0110400550","reviewerName":"BiancaNicole","helpful&

浏览 13提问于2022-10-29得票数 0

1回答

运行Apache Pig教程中的问题

、

我在运行“标准”猪教程-猪脚本1-hadoop.Pig时遇到一些困难。但是，由于集群设置(用户)，我不得不修改一个示例。标准教程期望HDFS的/上的所有文件(在我的情况下不能使用)，因此我为此创建了/pig dir。 drwxrwxrwx - hdfs hdfs 0 2014-03-31 11:15 /pig 上传的内容 -rw-r--r-- 3 jakub hdfs 10408717 2014-03-31 10:41 /pig/excite.log.bz2 我还修改了pig脚本script1-hadoop.pig，以尊重以下更改(主要用于加载和存储命令)：

浏览 1提问于2014-03-31得票数 0

回答已采纳

1回答

Pig 0.13.0错误:错误2998:未处理的内部错误。org/apache/commons/io/input/ClassLoaderObjectInputStream

、、

似乎在Hadoop版本1和版本2之间存在版本不匹配。环境: Mac OS X 10.9.5 Mavericks Pig 0.13.0 构建的pig 0.13.0包含 $ ant clean jar-all -Dhadoopversion=23 HADOOP_HOME=/Users/davidlaxer/hadoop-2.3.0-src HADOOP_CONF_DIR=/Users/davidlaxer/hadoop-2.3.0-src/src/conf (virtualenv)David-Laxers-MacBook-Pro:pig davidlaxer$ env | grep PIG

浏览 1提问于2014-10-11得票数 0

1回答

无法将猪关系存储到Hbase中

、、、

嗨，我正在尝试将猪的关系存储到HBase中。 store result INTO 'hbase://hourlyAggregation' using org.apache.pig.backend.hadoop.hbase.HBaseStorage('countDetails:ansCount countDetails:divCount countDetails:unansCount countDetails:engCount'); 这在本地运行得很好。当我尝试在mapred模式下运行pig时，我的作业失败，并且我的日志没有显示任何错误 ERROR org.ap

浏览 1提问于2013-11-14得票数 0

2回答

Apache Pig权限问题

、、、

我试图让Apache在我的Hadoop集群上运行，并且遇到了权限问题。Pig本身正在启动并连接到集群--从Pig中，我可以通过ls目录并在其周围进行。但是，当我尝试实际加载数据并运行Pig命令时，我会遇到与权限相关的错误： grunt> A = load 'all_annotated.txt' USING PigStorage() AS (id:long, text:chararray, lang:chararray); grunt> DUMP A; 2011-08-24 18:11:40,961 [main] ERROR org.apache.pig.tools.

浏览 11提问于2011-08-25得票数 7

回答已采纳

1回答

在Pig中读取非字符串分区的Hive表

、、、、

我正在尝试使用Pig从一个蜂巢表中读取数据。详情如下：蜂巢版本1.1 猪0.12 Hadoop 2.6.0 云分布5.4.4 单元表模式： map <string, string> yyyy int mm int dd int Partitions are yyyy(int), mm(int), dd(int) 猪代码： input_data = LOAD ‘dbname.tablename' USING org.apache.hive.hcatalog.pig.HCatLoader() ;

浏览 4提问于2016-08-04得票数 1

回答已采纳

1回答

pig@hadoop:无需多核hdfs即可处理本地文件

、、

如果我在本地模式下运行pig@hadoop (因为我不想使用hdfs)，那么它会在单线程/单进程模式下处理我的脚本。如果我将hadoop设置为伪模式(使用replication=1的hdfs)，那么pig@hadoop不喜欢我的file:///... traj = LOAD 'file:///root/traj' USING org.apache.pig.piggybank.storage.CSVExcelStorage( ';', 'NO_MULTILINE', 'UNIX', 'SKIP_INPU

浏览 1提问于2015-07-25得票数 0

2回答

使用PIG将文件加载到Hbase

、、、

文件内容： one,1 two,2 three,3 文件位置: hdfs:/hbasetest.txt Hbase中的表： create 'mydata', 'mycf' PIG脚本： A = LOAD '/hbasetest.txt' USING PigStorage(',') as (strdata:chararray, intdata:long); STORE A INTO 'hbase://mydata' USING org.apache.pig.backend.hadoop.hbase.H

浏览 2提问于2012-03-13得票数 0

1回答

猪中带有AvroStorage的逗号分隔列表

、、

我试图通过使用逗号分隔的列表在Pig中加载几个AvroStorage文件。我使用的语句是： test_data= LOAD 'repo_1/part-r-00000.avro,repo_2/part-r-00000.avro' USING org.apache.pig.piggybank.storage.avro.AvroStorage(); Pig表示作业中没有指定输入路径。请参阅下面的堆栈跟踪。我尝试了pig版本0.8.1-cdh3u2和0.9.1。有没有人观察到同样的行为？是一个bug还是一个特性？堆栈跟踪： rg.apache.pig.backend.executi

浏览 0提问于2012-01-24得票数 1

6回答

在单节点上安装PIG

、

我在装有Cygwin的Windows7上为单个节点安装了Hadoop (1.0.2)，它正在工作。但是，我无法让PIG (0.10.0)查看Hadoop。 1) "Error: JAVA_HOME is not set." 我将这一行添加到pig (在bin下)：export JAVA_HOME=/cygdrive/c/PROGRA~1/Java/jdk1.7.0_05 2) which: no hadoop in (/usr/local/b.....) cygpath: cannot create short name of C:\pig-0.10.0\logs Cannot

浏览 0提问于2012-07-13得票数 7

1回答

尝试使用面临问题的pig脚本将数据加载到hbase

、、

我写了一个猪脚本如下： REGISTER /home/hduser/hbase/lib/zookeeper-*.jar REGISTER /home/hduser/hbase/lib/hbase-*.jar REGISTER /home/hduser/hbase/lib/hadoop*.jar REGISTER /home/hduser/pig/lib/hbase-0.94.1.jar REGISTER /home/hduser/pig/lib/zookeeper-3.4.5.jar REGISTER /home/hduser/pig/lib/piggybank.jar STOCK_200

浏览 3提问于2014-12-26得票数 0

1回答

什么是Hadoop中的作业历史服务器，为什么在Map模式下启动Pig之前必须先启动历史服务器？

、、、、

在地图还原模式下启动Pig之前，您必须在尝试执行Pig拉丁语语句时启动历史服务器，然后生成下面提到的日志： 2018-10-18 15:59:13,709 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. **Redirecting to job history server** 2018-10-18 15:59:14,713 [main] INFO org.ap

浏览 0提问于2018-10-18得票数 3

回答已采纳

2回答

Amazon Mapreduce中运行的pig脚本中的STREAM关键字

、、、

我有一个猪脚本，它激活了另一个python程序。我可以在我自己的hadoop环境中这样做，但是当我在Amazon map reduce WS中运行我的脚本时，我总是失败。日志上写着： org.apache.pig.backend.executionengine.ExecException:错误2090:处理reduce计划时收到错误：'‘failed with exit status: 127 at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.processOnePa

浏览 0提问于2010-01-24得票数 0

回答已采纳

3回答

Pig和Hadoop连接错误

、、

当我在mapreduce模式下运行pig时，我得到了ConnectionRefused错误。详细信息：我已经安装了猪从tarball(猪-0.14)，并出口的类路径在bashrc。我已经启动并运行了所有Hadoop (hadoop-2.5)守护进程(由JPS确认)。 [root@localhost sbin]# jps 2272 Jps 2130 DataNode 2022 NameNode 2073 SecondaryNameNode 2238 NodeManager 2190 ResourceManager 我在mapreduce模式下运行pig： [root@localhost s

浏览 4提问于2015-01-21得票数 4

回答已采纳

3回答

如何不使用java将数据放入Hbase

、、

是否有任何方法可以读取文件中的数据并将其放入Hbase表，而无需使用任何java？我试图通过以下方法存储pig脚本中的数据 sample = LOAD '/mapr/user/username/sample.txt' AS (all:chararray); STORE deneme INTO 'hbase://sampledata' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('mysampletable:intdata'); 但这给出了这样的错误信息：错误org.apache

浏览 8提问于2012-12-10得票数 1

回答已采纳

1回答

猪:用MongoInsertStorage储存不起作用

、

我在一个猪脚本中执行这个简单的代码： REGISTER /home/myuser/mongodb/mongo-2.10.1.jar REGISTER /opt/cloudera/parcels/CDH-4.5.0-1.cdh4.5.0.p0.30/lib/mongo-hadoop-cdh4-1.2.0/mongo-hadoop-core_cdh4.3.0-1.2.0.jar REGISTER /opt/cloudera/parcels/CDH-4.5.0-1.cdh4.5.0.p0.30/lib/mongo-hadoop-cdh4-1.2.0/mongo-hadoop-pig_cdh4.3.0

浏览 2提问于2014-04-04得票数 0

1回答

pig map-reduce作业完成33%后失败

、、

我在apache pig中运行group by子句，它正在创建map reduce作业，该作业在完成1/3后失败。有没有办法解决这个问题，因为日志不会给出任何失败的原因。我所看的都不是跟随的。找到确切错误的方法(即内存错误，数据类型错误等)任何方法使日志更详细，以便在屏幕上写入更多错误消息。 2016-04-03 22:59:40,252 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1459707650021_000

浏览 0提问于2016-04-04得票数 0

1回答

在Hadoop 2上的pig 15上运行时嵌入pig错误

、

每当我从终端运行apache pig代码时，一切都很顺利，我得到了结果。因此，我得出结论，我在Pig 0.15.0和Hadoop 2.7.0上的安装是正确的。问题是当我从java代码内部运行pigServer时： PigServer pigServer = new PigServer(ExecType.MAPREDUCE, conf); pigServer.setBatchOn(); pigServer.debugOff(); pigServer.setJobName(JobId); pigServer.registerScript(scriptUrl, params); pigS

浏览 1提问于2015-08-14得票数 1

2回答

Apache Pig的登录用户出现权限被拒绝错误

、

当我尝试运行pig -help时，我得到了以下错误。 Exception in thread "main" java.io.IOException: Permission denied at java.io.UnixFileSystem.createFileExclusively(Native Method) at java.io.File.checkAndCreate(File.java:1717) at java.io.File.createTempFile0(File.java:1738) at java.io.File.createTem

浏览 2提问于2012-10-20得票数 0

回答已采纳

1回答

当我尝试转储数据时，Pig给了我这个错误

、、、

在mapreduce模式下使用pig时，我使用了以下3个语句来读取hdfs中存在的数据，然后将数据转储，它给我带来了以下巨大的错误，有人能给我解释一下或提供解决方案吗 grunt> a= load '/temp' AS (name:chararray, age:int, salary:int); grunt> b= foreach a generate (name, salary); grunt> dump b; 2017-04-19 20:47:00,463 [main] INFO org.apache.pig.tools.pigstats.ScriptS

浏览 2提问于2017-04-19得票数 0

1回答

当我试图运行猪+卡桑德拉错误会出现吗？需要帮助

、

root@SudeepMangu pig# bin/pig_cassandra -x本地示例-script.Pig 使用/home/sudeep/pig-0.9.2/pig-0.9.2-withouthadoop.jar.2013-05-30 14:22:20,007主要信息org.apache.pig.Main -日志错误消息到: org.apache.pig.backend.hadoop.executionengine.HExecutionEngine 2013-05-30 14:22:20,133主要信息org.apache.pig.backend.hadoop.executioneng

浏览 2提问于2013-05-30得票数 0

1回答

如何使用Pig和HBaseStorage存储到HBaseStorage中

、、

在HBase shell中，我通过以下方法创建了我的表： create 'pig_table','cf' 在Pig中，下面是我希望存储到pig_table中的别名的结果 DUMP B; 生成包含6个字段的元组： (D1|30|2014-01-01 13:00,D1,30,7.0,2014-01-01 13:00,DEF) (D1|30|2014-01-01 22:00,D1,30,1.0,2014-01-01 22:00,JKL) (D10|20|2014-01-01 11:00,D10,20,4.0,2014-01-01 11:00,PQR) ... 第一个字

浏览 2提问于2014-01-30得票数 1

回答已采纳

1回答

使用pig时hadoop路径出错

、

我已经让pig和hadoop工作了。但由于未知的原因，它停止了对下一个文件的工作。在重新安装hadoop和格式化之后，我遇到了一个新问题。我无法将我的输入文件复制到hadoop： hduser@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -copyFromLocal /home/hduser/pig/tutorial/pigtmp/bigdata.txt /user/hduser hduser@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls /user/hduser Found 1 items -rw-r--r--

浏览 1提问于2013-06-29得票数 0

回答已采纳

2回答

在java中以mapreduce模式启动Pig服务器

、、、、

我试图从java程序中运行Pig命令。我希望Pig在远程hadoop集群上以MapReduce模式运行。这就是我初始化PigServer的方式： Properties configuration = new Properties(); PropertiesUtil.loadPropertiesFromFile(configuration, CONF_FILE); configuration.setProperty("mapred.job.tracker", properties.getProperty(mapredJT_property, mapredJobTracker))

浏览 1提问于2014-02-17得票数 0

回答已采纳

2回答

如何使用Pig访问远程机器上的HDFS？

、、

在远程计算机(example.host.com)上安装了Hadoop。Pig也安装在该机器上。如何从其他机器访问该机器上的hdfs？我不想从远程复制文件。我只想在那些以avro格式存储的文件上运行查询，这些文件也有模式。我在本地机器上安装了Pig，并在pig.properties文件中添加了以下几行 fs.default.name=hdfs://example.host.com:8020 mapred.job.tracker=example.host.com:8021 但是，当我启动pig时，它会给出以下错误 2013-02-15 12:35:26,534 [main] INFO or

浏览 0提问于2013-02-14得票数 0

2回答

在PIG UDF中调试

、、

我是Hadoop/PIG的新手。我有一个基本的问题。我们在PIG UDF中有日志记录设施吗？我已经写了一个UDF，我需要验证我需要记录某些语句来检查流。有可用的日志记录设施吗？如果是，那么Pig日志在哪里？

浏览 0提问于2012-06-13得票数 7

回答已采纳

1回答

Oozie和作业历史记录服务器配置问题

、、、、

问题我正在尝试安装psuedo分布式而不使用CDM。所有的“工作”都通过控制台。然而，当我开始使用Hue时，我在尝试使用Pig时会收到一个错误。 Hue中显示的错误是： JA017:无法查找，启动了hadoop job_local2125047777_0001，它与行动0000000-160112011607704-oozie-oozi@pig有关。这次行动失败了！我相信这是一个错误，是由于错误的沟通，因为一个Oozie工作流问题，连接猪与作业历史服务器。在此之前，我无法使用Hue的Hive，因为Oozie在HDFS上安装Oozie的sharelib有困难。我通过在/etc/ha

浏览 3提问于2016-01-12得票数 7

1回答

hadoop 2.2 pig 0.12.1 Oozie 4.1.0中的oozie pig工作流

、、

我正在尝试执行pig工作流程。但是工作流在运行状态下挂起，我检查了日志文件，发现了这个来自节点管理器的日志文件： 2015-02-25 17:50:06,322 [JobControl] INFO org.apache.hadoop.yarn.client.api.impl.YarnClientImpl - Submitted application application_1424690952568_0091 to ResourceManager at localhost/127.0.0.1:9003 2015-02-25 17:50:06,395 [JobControl]

浏览 3提问于2015-02-26得票数 0

1回答

JobStats无法找到输出文件警告

、、

我使用Pig0.11.1(在CDH4和MR1上)和DBStorage将聚合结果输出到MySql2。该作业似乎运行良好(成功完成并生成一个输出)，但我收到了下面的警告。我做了一些研究，但未能了解警告的含义或可能产生的影响。任何信息都是非常感谢的。 2014-06-05 :42:53,189主要信息org.apache.pig.tools.pigstats.JobStats -使用输出大小阅读器: org.apache.pig.tools.pigstats.JobStats 2014-06-05 :42:53,192主警告org.apache.pig.tools.pigstats.JobStat

浏览 4提问于2014-06-05得票数 1

11回答

Pig拉丁语:从日期范围加载多个文件(目录结构的一部分)

、

我有以下情况- 猪版使用0.70 示例HDFS目录结构： /user/training/test/20100810/<data files> /user/training/test/20100811/<data files> /user/training/test/20100812/<data files> /user/training/test/20100813/<data files> /user/training/test/20100814/<data files> 正如您在上面列出的路径中所看到的，其中一个目录名是日期标记。

浏览 18提问于2010-08-18得票数 29

回答已采纳

2回答

pig + hbase + hadoop2集成

、、

在hadoop-2.20+ hbase-0.98.0 +pig-0.12.0组合的环境中，是否有人成功地将数据从hadoop-2.2.0上的pig-0.12.0加载到hbase-0.98.0，而没有遇到此错误： ERROR 2998: Unhandled internal error. org/apache/hadoop/hbase/filter/WritableByteArrayComparable 使用一行日志跟踪： java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/filter/WritableByteArra 我在网上搜索了

浏览 1提问于2014-03-10得票数 2

1回答

猪与Hbase的整合

、、

我已经在linux中安装了hadoop-2.5.0、pig 0.13.0和HBase 0.98.6.1。当尝试运行简单的pig脚本时，错误发生在 2014-10-14 16:01:54,891主要错误org.apache.pig.tools.grunt.Grunt -错误2998:未处理的内部错误.org.apache.hadoop.hbase.util.Bytes.equals([BLjava/nio/ByteBuffer;)Z详细信息见日志文件: /home/labuser/pig_1413279561970.log 把木头粘在下面..。猪堆痕迹错误2998:未处理的内部错误

浏览 0提问于2014-10-14得票数 0

回答已采纳

2回答

Hadoop Mapreduce在启用权限管理后失败

、、、

我在我的hadoop集群中启用了权限管理，但我在使用pig发送作业时遇到问题。这是一个场景： 1-我有hadoop/hadoop用户 2-我有myuserapp/myuserapp用户运行猪脚本。 3-我们将路径/myapp设置为属于myuserapp 4-我们将pig.temp.dir设置为/myapp/pig/tmp 但是当我们尝试运行这些作业时，我们得到了以下错误： job_201303221059_0009 all_actions,filtered,raw_data DISTINCT Message: Job failed! Error - Job initializ

浏览 2提问于2013-03-26得票数 1

3回答

Pig脚本不适用于MapReduce

、

我试着用Hadoop和Apache Pig。我有一个包含一些数据的.txt文件和一个脚本.pig文件： student = LOAD '/home/srv-hadoop/data.txt' USING PigStorage(',') as (id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray); student_order = ORDER student BY firstname ASC; Dump student_order; 这是我的.tx

浏览 3提问于2017-07-25得票数 1

1回答

用pig编写udf类似于教程

、

我是第一次接触猪..我正在试着写一个udf函数。所以基本上这就是问题的陈述。我有一个这样的虚拟数据.. user_id, movie_id, date_time_stamp 所以我想做的是这样的。如果事务是在 9 am and 11 am --> breakfast and so on 下面是我的小猪脚本 REGISTER path/myudfs.jar in = LOAD 'path/input' USING PigStorage('\\u001') AS (user:long,movi

浏览 6提问于2012-11-12得票数 3

回答已采纳

1回答

访问HDInsight上的pig日志

、、、

如何访问HDInsight上的pig日志文件？当pig错误时，输出会显示： Details at logfile: C:\apps\dist\hadoop-1.2.0.1.3.7.1-01293\logs\pig_1399635949926.log 我在blob存储中找不到任何类似的东西，我也不知道如何访问该路径。干杯。

浏览 4提问于2014-05-09得票数 0

1回答

apache pig未连接到hdfs

、、、

我有Hadoop版本2.6.3和pig-0.6.0，所有的守护进程都在单节点集群中启动并运行。在启动pig命令之后。pig只连接到file:///而不是hdfs，您能告诉我如何连接hdfs吗?下面是我可以看到的信息日志 2016-01-10 20:58:30,431 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: file:/// 2016-01-10 20:58:30,650 [main] INFO org.a

浏览 1提问于2016-01-11得票数 1

2回答

通过python脚本与导入模块进行Pig流式传输

、、、、

使用pigtmp$ pig --版本Apache Pig版本0.8.1-cdh3u1 (已导出)编译Jul 18 2011，08:29:40 我有一个python脚本(c-python)，它导入了另一个脚本，在我的示例中这两个脚本都非常简单：数据示例$ hadoop fs -cat /user/pavel/trivial.log 1 one 2 two 3 three 不带INCLUDE的示例-工作正常示例$ pig -f trivial_stream.pig (1,1,one) () (1,2,two) () (1,3,three) () 其中1) trivial_strea

浏览 1提问于2011-11-23得票数 4