Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ES 查询优化(一)

ES 查询优化(一)

作者头像
YG
发布于 2018-05-23 09:20:18
发布于 2018-05-23 09:20:18
5K10
代码可运行
举报
文章被收录于专栏:YG小书屋YG小书屋
运行总次数:0
代码可运行
1、能用term就不用match_phrase

The Lucene nightly benchmarks show that a simple term query is about 10 times as fast as a phrase query, and about 20 times as fast as a proximity query (a phrase query with slop).

term查询比match_phrase性能要快10倍,比带slop的match_phrase快20倍。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GET /my_index/my_type/_search
{
    "query": {
        "match_phrase": {
            "title": "quick"
        }
    }
}

变为

GET /my_index/my_type/_search
{
    "query": {
        "term": {
            "title": "quick"
        }
    }
}
2、如果查询条件与文档排序无关,则一定要用filter,既不用参与分数计算,还能缓存数据,加快下次查询。

比如说要查询类型为Ford,黄色的,名字包含dev的汽车,一般的查询语句应该如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GET /my_index/my_type/_search
{
    "bool": {
        "must": [
            {
                "term": {
                    "type": "ford"
                }
            },
            {
                "term": {
                    "color": "yellow"
                }
            },
            {
                "term": {
                    "name": "dev"
                }
            }
        ]
    }
}

上述查询中类型和颜色同样参与了文档排名得分的计算,但是由于类型和颜色仅作为过滤条件,计算得分至于name的匹配相关。因此上述的查询是不合理且效率不高的。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GET /my_index/my_type/_search
{
    "bool": {
        "must": {
            "term": {
                "name": "dev"
            }
        },
        "filter": [
        {
            "term": {
                "type": "ford"
            }
        },
        {
            "term": {
                "color": "yellow"
            }
        }]
    }
}
3、如果对查出的数据的顺序没有要求,则可按照_doc排序,取数据时按照插入的顺序返回。

_doc has no real use-case besides being the most efficient sort order. So if you don’t care about the order in which documents are returned, then you should sort by _doc. This especially helps when scrolling. _doc to sort by index order.

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GET /my_index/my_type/_search
{
    "query": {
        "term": {
            "name": "dev"
        }
    },
    "sort":[
        "_doc"
    ]
}
4、随机取n条(n>=10000)数据

1)可以利用ES自带的方法random score查询。缺点慢,消耗内存。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GET /my_index/my_type/_search
{
    "size": 10000,
    "query": {
        "function_score": {
            "query": {
                "term": {
                    "name": "dev"
                }
            },
            "random_score": {
                
            }
        }
    }
}

2)可以利用ES的脚本查询。缺点比random score少消耗点内存,但比random score慢。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GET /my_index/my_type/_search
{
    "query": {
        "term": {
            "name": "dev"
        }
    },
    "sort": {
        "_script": {
            "type": "number",
            "script": {
                "lang": "painless",
                "inline": "Math.random()"
            },
            "order": "asc"
        }
    }
}

3)插入数据时,多加一个字段mark,该字段的值随机生成。查询时,对该字段排序即可。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GET /my_index/my_type/_search
{
    "query": {
        "term": {
            "name": "dev"
        }
    },
    "sort":[
        "mark"
    ]
}
5、range Aggregations时耗时太长
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
{
    "aggs" : {
        "price_ranges" : {
            "range" : {
                "field" : "price",
                "ranges" : [
                    { "from" : 10, "to" : 50 },
                    { "from" : 50, "to" : 70 },
                    { "from" : 70, "to" : 100 }
                ]
            }
        }
    }
}

如例子所示,我们对[10,50),[50,70),[70,100)三个区间做了聚合操作。因为涉及到比较操作,数据量较大的情况下,可能会比较慢。 解决方案:在插入时,将要聚合的区间以keyword的形式写入索引中,查询时,对该字段做聚合即可。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
假设price都小于100,插入的字段为mark,mark的值为10-50, 50-70, 70-100{
    "aggs" : {
        "genres" : {
            "terms" : { "field" : "mark" }
        }
    }
}
6、查询空字符串

如果是要查字段是否存在或丢失,用Exists Query查询即可(exists, must_not exits)。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GET /_search
{
    "query": {
        "exists" : { "field" : "user" }
    }
}

GET /_search
{
    "query": {
        "bool": {
            "must_not": {
                "exists": {
                    "field": "user"
                }
            }
        }
    }
}

这里指的是字段存在,且字段为“”的field。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
curl localhost:9200/customer/_search?pretty -d'{
    "size": 5,
    "query": {
        "bool": {
            "must": {
                "script": {
                    "script": {
                        "inline": "doc['\''strnickname'\''].length()<1",
                        "lang": "painless"
                    }
                }
            }
        }
    }
}'
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017.12.13 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
2 中所使用的不都是查询语句嘛,应该两种方法都不涉及分值计算呀,是我理解的有问题嘛
2 中所使用的不都是查询语句嘛,应该两种方法都不涉及分值计算呀,是我理解的有问题嘛
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
es各种查询
1、GET /lib/user/_search : 查询lib索引下的user类型的全部数据
爱撒谎的男孩
2019/12/31
6.9K0
ES的常用查询与聚合
基于es 5.4和es 5.6,列举的是个人工作中经常用到的查询(只是工作中使用的是Java API),如果需要看完整的,可以参考官方相关文档 https://www.elastic.co/guide/en/elasticsearch/reference/5.4/search.html。
阿泽
2019/09/24
6.5K0
ES的常用查询与聚合
DSL语言高级查询
对一个字段进行匹配查询,match 类型查询,match 类型查询,会把查询条件进行分词,or 关系,多个词条之间是 or 的关系:
程序员NEO
2023/09/27
3900
DSL语言高级查询
elasticsearch深入搜索一之近似匹配
1. 从上面几种分词器的对比中可以看出,拼音分词器主要是把中文转换成拼音的方式进行分词; 2. ik_max_word分词和ik_smart分词器主要是索引单词而不是索引独立的单词; 3. standard分词器主要是索引独立的单词而不对词项进行索引。
山行AI
2019/06/28
2.8K0
ES查询和聚合的基础使用
数据是index为bank,accounts.json 下载地址 (如果你无法下载,也可以clone ES的官方仓库 ,然后进入/docs/src/test/resources/accounts.json目录获取)
Linux运维技术之路
2024/02/29
2810
ES查询和聚合的基础使用
ES 查询优化(二)
接上一篇继续介绍。 1、查询精确匹配 假设有 { "tags" : ["search"] } { "tags" : ["search", "open_source"] } 两个文档,{ "term" : { "tags" : "search" } }都能匹配,但想只搜索包含一个的值,怎么办? 插入数据时多加一个长度字段: { "tags" : ["search"], "tag_count" : 1 } { "tags" : ["search", "open_source"], "tag_coun
YG
2018/05/23
2.6K0
ElasticSearch权威指南:深入搜索(中)
查询很少是简单一句话的 match 匹配查询。通常我们需要用相同或不同的字符串查询一个或多个字段,也就是说,需要对多个查询语句以及它们相关度评分进行合理的合并。
HLee
2021/03/19
3.4K0
ElasticSearch权威指南:深入搜索(中)
Elasticserach Tips
PS:感叹elasticsearch在搜索和大数据聚合上面做的了不起的工作! 细致入微,基本上在工程层面解决了数不清的细节问题,了不起的产品设计和再创造,了不起的工作量! 就像docker重新唤醒容器技术一样,elasticsearch在Lucene之上的构建为个人数据分析和企业数据梳理开创新时代。 如果有条件,我是极为愿意买入他们的股票的。
happy123.me
2019/12/30
4800
Elasticsearch初检索及高级
PUT customer/external/1 :在 customer 索引下的 external 类型下保存 1号数据
乐心湖
2021/01/18
1.1K0
Elasticsearch初检索及高级
ES常用知识点整理第一部分
第三列倒排索引包含的信息为(文档ID,单词频次,<单词位置>),比如单词“乔布斯”对应的倒排索引里的第一项(1;1;<1>)意思是,文档1包含了“乔布斯”,并且在这个文档中只出现了1次,位置在第一个。
大忽悠爱学习
2023/02/13
5280
ES常用知识点整理第一部分
初识 Elasticsearch7.x(二)
REST 即表述性状态传递(英文:Representational State Transfer,简称 REST)是 Roy Fielding 博士在2000年他的博士论文中提出来的一种软件架构风格。REST 是一种规范。即参数通过封装后进行传递,响应也是返回的一个封装对象。一个 REST 的接口就像如下的接口:
Remember_Ray
2022/01/08
2.9K0
Elasticsearch使用:Search 概括
在 Elasticsearch 中的搜索中,有两类搜索:queries和aggregations。
HLee
2021/01/27
1.2K0
Elasticsearch使用:Search 概括
ElasticSearch权威指南:深入搜索(下)
敏锐的读者会注意,目前为止本书介绍的所有查询都是针对整个词的操作。为了能匹配,只能查找倒排索引中存在的词,最小的单元为单个词。
HLee
2021/03/19
2.8K0
ElasticSearch权威指南:深入搜索(下)
[Elasticsearch] 邻近匹配 (三) – 性能,关联单词查询以及Shingles
短语和邻近度查询比简单的match查询在性能上更昂贵。match查询只是查看词条是否存在于倒排索引(Inverted Index)中,而match_phrase查询则需要计算和比较多个可能重复词条(Multiple possibly repeated)的位置。
全栈程序员站长
2022/11/15
6840
开始使用Elasticsearch (2)
在上一篇文章中,我们已经介绍了如何使用 REST 接口来在 Elasticsearch 中创建 index ,文档以及对它们的操作。在今天的文章里,我们来介绍如何利用 Elasticsearch 来搜索我们的数据。Elasticsearch 是近实时的搜索。我们还是接着我们上次的练习“开始使用 Elasticsearch (1)”
腾讯云大数据
2020/07/08
1K0
开始使用Elasticsearch (2)
Elasticsearch使用:Match_phrase查询
我们可以将一个简单的 match 查询作为一个 must 子句。 这个查询将决定哪些文档需要被包含到结果集中。 我们可以用 minimum_should_match 参数去除长尾。 然后我们可以以 should 子句的形式添加更多特定查询。 每一个匹配成功的都会增加匹配文档的相关度。
HLee
2021/03/30
7.3K0
Elasticsearch使用:Match_phrase查询
ElasticSearch Server 扩展的弹性搜索解决方案
索引(相当数据库,包含行(代表文档)和列(字段)的表)、副本(用于控制查询性能及数据故障)、分片(每个分片就是一个Lucene索引)
凹谷
2020/04/11
1.6K0
ElasticSearch Server 扩展的弹性搜索解决方案
017.Elasticsearch搜索操作入门篇
1. 多种搜索方式 1.1 Query String Search:在请求URL中包括search的参数 # 语法 curl -X GET "ip:port/index_name/type_name/
CoderJed
2020/07/06
1.3K0
Elasticsearch搜索特性
方案一、可以是用wildcard通配符,但是要设置不分词,这种方案性能不好 方案二、可以使用ngram分词器 “min_gram”: 2,”max_gram”: 3 单词假设是 abcde0001 ab bc cd abc cde 001.。。。等等 被分词2个字母一组和3个字符一组。。、。
丁D
2022/08/12
7990
elasticsearch 学习笔记01
ES 对它的最小词源(Term) 维护了一个“倒排索引”,即 “从 最小词源 到文档ID 的映射”。 在文档入库时会先分词,完成后可查询。当查询时,比如 中国,人民 这样 的词,在查找时它所对应的 数据记录的ID有,1,14,1001 这样的数据ID。es 把这些ID的记录包含组成结果返回就是查询结果了。
张云飞Vir
2022/09/29
8510
相关推荐
es各种查询
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验