Hue是一个大数据交互式分析平台,目前在大数据领域中应用还是比较广泛的。它是Cloudera贡献出来的,已经发展得比较成熟了,支持绝大多数常用的大数据组件。虽然Zeppelin发展迅速,对Spark的支持更好,还支持FlinkSQL,并且在CDH7.1.1之后,Zeppelin也被集成到了Cloudera Runtime中。但是短时间内,zepeelin还是无法取代Hue。
之前在使用hue的时候闹过一次乌龙。如下的几条SQL语句,
set SYNC_DDL=1;
drop table if exists kylin_account;
CREATE TABLE `kylin_account`(
`account_id` bigint,
`account_buyer_level` int COMMENT 'Account Buyer Level',
`account_seller_level` int COMMENT 'Account Seller Level',
`account_country` string COMMENT 'Account Country',
`account_contact` string COMMENT 'Account Contact Info');
执行之后出现 AnalysisException:Tablealready exists:default.kylin_account
的错误。由于没有仔细看hue页面上的历史执行记录,当时很困惑,为什么drop掉表后,创建表还会出现表已经存在的情况呢?之前有遇到impala-shell中多次执行drop和create语句,由于impalad更新元数据有几秒的延迟,所以会出现 Tablealready exists
的情况,于是加上了 setSYNC_DDL=1;
语句进行快速同步。但是依然报错。
卡了一段时候之后,回头看了下hue的历史记录,发现drop table语句根据没有执行。这才猛然想起来,自己执行的时候没有选中所有语句,HUE提交SQL默认是只会执行最后一条SQL。选中所有语句后,问题得以解决。
另外,SQL结尾处如果没有显式地增加分号结尾,那么即使全部选中之后再执行,Hue也会将三个SQL当成一条SQL来执行,而不是按照换行符进行分割。因此当我们要批量执行多条SQL的时候,一定要在每条SQL的结尾处加上分号。