我正在尝试在SSIS 2015中使用Hadoop配置单元任务运行配置单元查询。我尝试运行的查询是:
create table if not exists table_a
as
select * from (
select
code,
md,
name,
region,
dingestdate,
max(dingestdate) over (partition by kode_maindealer) as dingestdate_latest
from dev_stg.stg_ahmsdnssls_xls_master_data_r
刚刚启动了一个单节点集群,并使用新的datastax 4.0运行。效果很好。我们使用hive来构建和查询我们的数据。在服务器上它自己。我可以很好地启动hive $>dse hive和查询表。当我尝试使用最新的Hive ODBC驱动程序来运行相同的查询时,我看到了这个错误。它连接得很好,我可以查询键空间并查看表。但是当我尝试运行查询时。看起来map/red进入了队列,但随后出现了以下错误。
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks not specified. Estimated fro
我使用MongoDB hadoop连接器来使用hadoop中的hive表查询mongoDB。
我能执行
select * from mongoDBTestHiveTable;
但是当我尝试执行以下查询时
select id from mongoDBTestHiveTable;
它抛出以下异常。
下面的类存在于hive文件夹中。
异常堆栈跟踪:
Diagnostic Messages for this Task:
Error: java.io.IOException: Cannot create an instance of InputSplit class = com.mongodb.
我在我的系统上运行hive,在那里我成功地创建了一个数据库和一个表。我已经使用位于我的HDFS上的csv文件加载了该表。
我成功地描述了hive中的表,看到了我想要创建的所有列。
我还成功地运行了返回大量数据的简单SELECT * FROM table;查询。
每当我试图运行一个比这更复杂的查询时,我的问题就开始了。具体地说,当我试图运行一个选择特定列名或选择任何数据聚合的查询时。如果我尝试其他任何操作,我会在map和reduce任务停留在0%一段时间后收到此错误消息。
Diagnostic Messages for this Task:
java.lang.RuntimeException:
我有一个C++服务,它公开了两个接口:
a. Submit():用于向YARNRM提交DistCp作业
查询():用于查询应用程序的状态。
这个服务内部调用一个Java客户机(通过JNI),它有两个静态函数:
提交()
查询()
提交()指定:
DistCp distCp = new DistCp(configuration, distCpOptions);
Job job = distCp.execute();
Parses the "application ID" from the tracking URL and returns it.
Query()做:
我编写了以下配置单元查询。在这里,我尝试在join子句中使用Map数据类型的列(msg)。
select p.p_id, count(*) from prod_json n
inner join res_pan p on n.msg["mid"] = p.id
where n.cat='XYX'
group by p.p_id limit 10;
此查询始终失败,并显示错误消息
[Error getting row data with exception java.lang.ClassCastException:
java.lang.String c
我在本地机器上配置了Hadoop 0.23,并通过一个简单的map-reduce单词计数程序让它工作。我已经将Hive配置为使用它。所有的DDL查询都能正常工作。但是当我触发具有聚合的查询时(这将触发Map-educe作业)
java.io.FileNotFoundException: File does not exist: /Users/varadham/projects/hadoop/hive/lib/hive-builtins-0.9.0.jar
at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(Dist
我需要使用hive-exex jar org.apache.hadoop.hive.ql.parse.ParseDriver,org.apache.hadoop.hive.ql.parse.ASTNode,org.apache.hadoop.hive.ql.parse.ParseUtils,org.apache.hadoop.hive.ql.parse.HiveParser中的以下类来解析hive查询。
for accessing these classes from hive-exec jar i am using following maven dependency in my p
我使用Hadoop/hive,在处理以"00“开头的字符串数据时遇到了问题。
假设"00123“在Hadoop表中存储为string。我的问题是以下两个查询没有显示"00123“的原样。相反,显示的是"123“。
select id from DB.TABLE where id="00123" select cast(id as string) from DB.TABLE where id="00123"
我在Zeppelin上运行了上面的查询。有人能帮上忙吗?不确定问题是由Hadoop还是Zeppelin引起的。
我使用的是hadoop 1.2.1,它有3个数据节点和一个namenode。我的hbase版本是0.94.14。我已经在name node机器上配置了apache hive1.0。我必须将hbase表数据导入配置单元。当我运行查询时,它在日志文件中显示以下错误
ERROR org.apache.hadoop.hbase.mapreduce.TableInputFormatBase - Cannot resolve the host name for /192.168.3.9 because of javax.naming.NameNotFoundException: DNS name not
我已经在hive中创建了一个外部表,比如说employees。这个employees表有3个分区,比如国家、年龄和性别。我对这个外部表使用我自己的自定义输入格式和serde实现。对此外部表执行select查询时,出现以下异常。
java.lang.RuntimeException: java.lang.IllegalArgumentException:无法从org.apache.hadoop.hive.ql.exec.ExecMapper.map(ExecMapper.java:161) at org.apache.hadoop.mapred.MapRunner.run(MapRunner.j
我们正在测试Hive和Hadoop来挖掘我们的数据,我安装了一段时间前Hadoop1.2.1和Hive0.11(是稳定的版本)
测试服务器是4核和16 of的ram。
现在,我想知道切换到Hive0.12和Hadoop2.2是否值得在查询性能方面升级服务器?
查询如下:
SELECT i, day(time), count(distint value), count(*) from table lateral view explode(column) tab AS i group by i, day(time);
所以,在我的查询中使用了一些东西,但是在升级时,我找不到关于性能增益的体面信息。
我正在尝试使用Cqlstoragehandler运行配置单元查询,其中包含以下组件
hive 0.11.0 hadoop 2.5.1 cassandra 2.0.6
在cassandra中创建表之后,我在hive中执行了以下步骤
CREATE EXTERNAL TABLE metric (api string, name string, time timestamp, value double) STORED BY 'org.apache.hadoop.hive.cassandra.cql.CqlStorageHandler' WITH SERDEPROPERTIES("