软件编程
位置:首页>> 软件编程>> java编程>> Elasticsearch查询及聚合类DSL语句宝典示例详解

Elasticsearch查询及聚合类DSL语句宝典示例详解

作者:京东云开发者  发布时间:2023-01-10 18:51:46 

标签:Elasticsearch,DSL,聚合查询

前言

随着使用es场景的增多,工作当中避免不了去使用es进行数据的存储,在数据存储到es当中以后就需要使用DSL语句进行数据的查询、聚合等操作,DSL对SE的意义就像SQL对MySQL一样,学会如何编写查询语句决定了后期是否能完全驾驭ES,所以至关重要,本专题主要是分享常用的DSL语句,拿来即用。

一、match

如果match 查询数字,日期,布尔值或者not_analyzed 的字符串时,会精确匹配搜索值,不做分词解析;如果match 查询全文本,会对查询词做分词解析,然后搜索。

比如对keyword 类型的tag 查询,"京东总部"不会分词,必须完全相等的词才会被搜索出来

{
 "query": {
   "match": {
       "content" : {
           "tag" : "京东总部"
       }
   }
 }
}

比如"宝马多少马力"会被分词为"宝马 多少 马力", 所有有关"宝马 多少 马力", 那么所有包含这三个词中的一个或多个的文档就会被搜索出来。并且根据lucene的评分机制(TF/IDF)来进行评分

{
 "query": {
   "match": {
       "content" : {
           "query" : "宝马多少马力"
       }
   }
 }
}

二、match_phrase

如果想要精确匹配所有同时包含"宝马 多少 马力"的文档,就要使用 match_phrase 了

{
 "query": {
   "match_phrase": {
       "content" : {
           "query" : "宝马多少马力"
       }
   }
 }
}

三、mult_match

如果我们希望两个字段进行匹配,其中一个字段有这个文档就满足的话,使用multi_match

{
 "query": {
   "multi_match": {
       "query" : "我的宝马多少马力",
       "fields" : ["title", "content"]
   }
 }
}

四、term

关键字精确匹配,不分词解析。注意 term 包含(contains) 操作,而非 等值(equals)判断。如果文档包含full_text 及其他词,也会命中返回。

使用term要确定的是这个字段是否“被分析”(analyzed),默认的字符串是被分析的。

比如下面的例子,其中的full_text是被分析过的,所以full_text的索引中存的就是[quick, foxes],而extra_value中存的是[Quick Foxes!]

PUT my_index
{
 "mappings": {
   "my_type": {
     "properties": {
       "full_text": {
         "type":  "string"
       },
       "exact_value": {
         "type":  "string",
         "index": "not_analyzed"
       }
     }
   }
 }
}
PUT my_index/my_type/1
{
 "full_text":   "Quick Foxes!",
 "exact_value": "Quick Foxes!"  
}

请求不出数据的,因为full_text分词后的结果中没有[Quick Foxes!]这个分词

GET my_index/my_type/_search
{
 "query": {
   "term": {
     "full_text": "Quick Foxes!"
   }
 }
}

五、terms

指定多值精确匹配,如果字段包含了指定值中的任何一个值,那么文档满足条件。类似sql中的in

{
   "terms": {
       "tag": [
           "search",
           "full_text",
           "nosql"
       ]
   }
}

六、range

数字/时间的区间查询,操作符:

•gt > greater than

•gte >=

&bull;lt < litter than

&bull;lte <=

{
 "query":{
   "range": {
       "age": {
           "gte":  20,
           "lt":   30
       }
   }
 }
}

七、wildcard

通配符索引。* 表示全匹配,? 表示单一匹配。扫描所有倒排索引,性能较差

{
 "query": {
   "wildcard": {
     "companyName": "*京东*"
   }
 }
}

八、regexp

正则索引。扫描所有倒排索引,性能较差

{
   "query": {
       "regexp": {
           "postcode": "W[0-9].+"
       }
   }
}

九、组合多查询(bool查询)

bool 查询后面可以跟这四种匹配模式

&bull;must 必须匹配

&bull;must_not 必须不匹配

&bull;should 匹配任意,等价or

&bull;filter 必须匹配:过滤模式

比如我们想要请求"content 中带宝马,但是tag 中不带宝马"这样类似的需求,就需要用到bool 联合查询。

{
   "query":{
       "bool":{
           "must":{
               "term":{
                   "content":"宝马"
               }
           },
           "must_not":{
               "term":{
                   "tags":"宝马"
               }
           }
       }
   }
}

十、聚合

聚合包含一下两种:

1、 指标聚合(Metric Aggregation):一些数学运算,可以对文档字段进行统计分析

&bull;输出一个值

▪min

▪max

▪sum

▪avg

▪ value_count 统计某字段有值的文档数

▪ cardinality 某字段值去重计数

&bull;输出多个值

▪stats

▪percentiles

▪percentile_ranks

2、桶聚合(Bucket Aggregation) :一些列满足特定条件的文档的集合,相当于sql 的groupby

&bull;terms 对某个字段统计每个不同的内容,以及出现文档的个数

&bull;range 某个范围内文档的个数

默认聚合范围是全文,但是如果有query查询,那么聚合的范围就是query查询的结果。

value_count 统计某字段有值的文档数

{
 "size": 0,
 "aggs": {
   "count": {
     "value_count": {
       "field": "companyName"
     }
   }
 }
}

指定查询语句进行统计

{
 "query": {
   "term": {
     "companyName": "安徽科达智慧能源科技有限公司"
   }
 },
 "aggs": {
   "count": {   //自定义名称
     "terms": {
       "field": "companyName"
     }
   }
 }
}

来源:https://juejin.cn/post/7181645045211070519

0
投稿

猜你喜欢

手机版 软件编程 asp之家 www.aspxhome.com