目录
ClickHouse
的物化视图是一种查询结果的持久化,它确实是给我们带来了查询效率的提升。用户查起来跟表没有区别,它就是一张表,它也像是一张时刻在预计算的表,创建的过程它是用了一个特殊引擎,加上后来 as select,就是 create 一个 table as select 的写法。 “查询结果集”的范围很宽泛,可以是基础表中部分数据的一份简单拷贝,也可以是多表 join 之后产生的结果或其子集,或者原始数据的聚合指标等等。所以,物化视图不会随着基础表的变化而变化,所以它也称为快照(snapshot)
create 语法,会创建一个隐藏的目标表来保存视图数据。也可以 TO 表名,保存到一张显式的表。没有加 TO 表名,表名默认就是 .inner.物化视图名
CREATE [MATERIALIZED] VIEW [IF NOT EXISTS] [db.]table_name [TO[db.]name]
[ENGINE = engine] [POPULATE] AS SELECT ...
POPULATE
关键字决定了物化视图的更新策略:POPULATE
则在创建视图的过程会将源表已经存在的数据一并导入,类似于 create table ... as
POPULATE
则物化视图在创建之后没有数据,只会在创建只有同步之后写入源表的数据clickhouse
官方并不推荐使用 POPULATE
,因为在创建物化视图的过程中同时写入的数据不能被插入物化视图。1) 建表
#建表语句
CREATE TABLE hits_test (
EventDate Date,
CounterID UInt32,
UserID UInt64,
URL String,
Income UInt8
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)
SETTINGS index_granularity = 8192
2) 模拟数据
INSERT INTO hits_test
SELECT
EventDate,
CounterID,
UserID,
URL,
IncomeFROM hits_v1
limit 10000;
3) **创建物化视图
#创建物化视图语句
CREATE MATERIALIZED VIEW hits_mv
ENGINE=SummingMergeTree
PARTITION BY toYYYYMM(EventDate) ORDER BY (EventDate, intHash32(UserID))
AS SELECT
UserID,
EventDate,
count(URL) as ClickCount,
sum(Income) AS IncomeSum
FROM hits_test
WHERE EventDate >= '2014-03-20' #设置更新点,该时间点之前的数据可以另外通过
#insert into select ...... 的方式进行插入
GROUP BY UserID,EventDate;
##或者可以用下列语法,表 A 可以是一张 mergetree 表 CREATE MATERIALIZED VIEW 物化视图名
##TO 表 A AS SELECT FROM 表 B;
#不建议添加 populate 关键字进行全量更新
4)导入数据
#导入增量数据
INSERT INTO hits_test SELECT
EventDate,CounterID,
UserID,
URL,
Income
FROM hits_v1
WHERE EventDate >= '2014-03-23'
limit 10;
5) 查询物化视图
SELECT * FROM hits_mv;