我在pg中有这个简单的查询。
EXPLAIN ANALYZE
select * from email_events
where act_owner_id = 500
order by date desc
limit 500
第一次查询执行需要很长的时间,大约需要7秒。
"Limit (cost=0.43..8792.83 rows=500 width=2311) (actual time=3.064..7282.497 rows=500 loops=1)"
" -> Index Scan Backward using email_events_idx_d
我有一个很大的域名列表,还有一个很大的单词列表。我想看看在我的列表中有多少域名的末尾有这些单词。我尝试了2个查询,但都花费了太多的时间来执行。尝试找出是否有任何方法可以使查询速度更快。
首先我尝试了这个查询,大约需要50分钟才能返回结果:
SELECT COUNT(*) AS count
FROM table
WHERE domain_name LIKE '%my_word.%';
然后我想如果我去掉它的.%,也许它会更快,所以我试了一下,但它仍然很慢:
SELECT COUNT(*) AS count
FROM table
WHERE SUBSTRING
我刚接触HBase,仍然不确定我将在我的案例中使用Hadoop生态系统的哪个组件,以及稍后如何分析我的数据,所以只是探索各种选择。
我有一个Excel表,其中包含所有类似的客户的摘要,但包含≈400列:
CustomerID Country Age E-mail
251648 Russia 27 boo@yahoo.com
487985 USA 30 foo@yahoo.com
478945 England 15 lala@yahoo.com
789456 USA
我在table1中有带有tags的域名
tags用逗号表示。示例
domain tags
facebook.com facebook,social,networking,friends,community
我想通过一个标签搜索域,比如“社交”,那么我该怎么做呢?
我将这个查询用于多个标签,但它不适用于单个标签。
SELECT * FROM table1 WHERE MATCH (tags) AGAINST ('social')
我已经在table1中启用了全文搜索
如何使用单个标签查询并获取social相关域名的信息
我使用下面的查询作为一些非结构化数据(没有索引、没有集群等)的基线,并且与我向联接列添加索引或将表添加到集群或散列时相比,该查询在非结构数据上的性能更好。我觉得我的基线查询并不理想,我的任务是获取一个基线查询,并找到一个性能最好的结构,但是我尝试过的所有结构都比非结构化结构执行得更糟糕。我能对基线查询做些什么,至少能找到一个比非结构化结构有明显改进的结构吗?
查询:
SELECT Cust_name, price
FROM Customer, Sales
WHERE price > 1000
AND num_sold > 10
AND Sales.Cust_id = Custome