一区二区三区电影_国产伦精品一区二区三区视频免费_亚洲欧美国产精品va在线观看_国产精品一二三四

聯(lián)系我們 - 廣告服務(wù) - 聯(lián)系電話: 2025年05月16日 15:43 星期五
您的當(dāng)前位置: > 關(guān)注 > > 正文

解析ElasticSearch ElasticSearch字段類型解析

來(lái)源:CSDN 時(shí)間:2023-04-03 10:48:11

ElasticSearch

一、字段的類型Field type的詳解


(資料圖片僅供參考)

下面就是所有的字段類型

字符串類型text,keyword整數(shù)類型integer,long,short,byte浮點(diǎn)類型double,float,half_float,scaled_float邏輯類型boolean日期類型date范圍類型range二進(jìn)制類型binary復(fù)合類型數(shù)組類型array對(duì)象類型object嵌套類型nested地理類型地理坐標(biāo)類型geo_point地理地圖geo_shape特殊類型IP類型ip范圍類型completion令牌計(jì)數(shù)類型token_count附件類型attachment抽取類型percolator

1、字符串類型

1.1、text

會(huì)被分詞器解析, 生成倒排索引, 支持模糊、精確查詢, 不用于排序, 很少用于聚合,常用于全文檢索.

1.2、keyword

不進(jìn)行分詞,直接索引, 支持模糊、精確查詢, 支持聚合。如果需要為結(jié)構(gòu)化內(nèi)容, 比如 id、email、hostnames、狀態(tài)碼、標(biāo)簽等進(jìn)行索引,則推薦使用 keyword類型以進(jìn)行完全匹配. 比如我們需要查詢"已發(fā)貨"的訂單, 標(biāo)記為"已發(fā)布"的文章等.

ES會(huì)對(duì)"數(shù)值(numeric)"類型的字段(比如, integer, long)進(jìn)行優(yōu)化以支持范圍(range)查詢. 但是, 不是所有的數(shù)值類型的數(shù)據(jù)都需要使用"數(shù)值"類型, 比如產(chǎn)品id, 會(huì)員id, ISDN(出版社編號(hào)), 這些很少會(huì)被進(jìn)行范圍查詢, 通常都是精確匹配(term query).

keyword類型的查詢通常比numeric的要快, 如果不需要范圍查詢, 則建議使用keyword類型.

如果不確定使用哪一種, 可以通過(guò)multi-field同時(shí)設(shè)置keyword和numeric類型.

2、數(shù)值類型(numeric)

類型說(shuō)明取值范圍

byte8位有符號(hào)整數(shù)-128 ~ 127

short16位有符號(hào)整數(shù)-32768 ~ 32767

integer32位有符號(hào)整數(shù)-2,147,483,648 ~ 2,147,483,647 即:-2^31 ~ 2^32 - 1

long64位有符號(hào)整數(shù)-2^63 ~ 2^63 - 1

float32位單精度IEEE 754浮點(diǎn)類型, 有限值, 24bits2^-149 ~ (2 - 2^-23) · 2^127

double64位雙精度IEEE 754浮點(diǎn)類型, 有限值, 53bits2^-1074 ~ (2 - 2^-52) · 2^1023

half_float16位半精度IEEE 754浮點(diǎn)類型, 有限值, 11bits2^-24 ~ 65504

scaled_float帶有縮放因子scaling_factor的浮點(diǎn)數(shù), 可以當(dāng)整型看待

2.1、整型

byte, short, integer, long

2.2、浮點(diǎn)型

float, half_float, scaled_float, double 對(duì)于上面展示的3種浮點(diǎn)類型(float, half_float, scaled_float)來(lái)說(shuō), -0.00和+0.00是不同的值,使用term查詢-0.00時(shí)不會(huì)匹配+0.00, 反之亦然。對(duì)于范圍查詢(range query)來(lái)說(shuō)也是如此:如果上邊界是-0.00則無(wú)法匹配+0.00,如果下邊界是+0.00則不會(huì)匹配-0.00

數(shù)值類型使用的注意事項(xiàng):

在滿足業(yè)務(wù)需求的情況下, 盡量選擇范圍小的類型, 這與mysql等關(guān)系型數(shù)據(jù)庫(kù)的設(shè)計(jì)要求是一致的. 字段占用的空間越小, 搜索和索引的效率越高(這個(gè)有點(diǎn)廢話, 數(shù)據(jù)量越小肯定越快了).

如果是浮點(diǎn)數(shù), 則也要優(yōu)先考慮使用scaled_float類型。對(duì)于scaled_float類型, 在索引時(shí)會(huì)乘以scaling_factor并四舍五入到最接近的一個(gè)long類型的值.

如果我們存儲(chǔ)商品價(jià)格只需要精確到分, 兩位小數(shù)點(diǎn), 把縮放因子設(shè)置為100, 那么浮點(diǎn)價(jià)格99.99存儲(chǔ)的是9999.

如果我們要存儲(chǔ)的值是2.34, 而因子是10, 那么會(huì)存儲(chǔ)為23, 在查詢/聚合/排序時(shí)會(huì)表現(xiàn)為這個(gè)值是2.3. 如果設(shè)置更大的因子(比如100), 可以提高精度, 但是會(huì)增加空間需求.

3、Object類型

JSON文檔天生具有層級(jí)關(guān)系: 文檔可能包含內(nèi)部對(duì)象, 而這個(gè)對(duì)象可能本身又包含對(duì)象, 就是可以包含嵌套的對(duì)象.

4、Date

JSON沒(méi)有日期(date)類型, 在ES中date類型可以表現(xiàn)為:

字符串格式的日期, 比如: “2015-01-01”, “2015/01/01 12:10:30”long類型的自 epoch (1970-1-1) 以來(lái)的毫秒數(shù)integer類型的自 epoch (1970-1-1) 以來(lái)的秒數(shù)(時(shí)間戳, timestamp)

在ES內(nèi)部, 日期被轉(zhuǎn)換為UTC格式(如果指定了時(shí)區(qū)), 并存儲(chǔ)為long類型的自 epoch (1970-1-1) 以來(lái)的毫秒數(shù).

查詢時(shí) , date類型會(huì)在內(nèi)部轉(zhuǎn)換為long類型的范圍查詢,聚合和存儲(chǔ)字段的結(jié)果根據(jù)與字段關(guān)聯(lián)的日期格式轉(zhuǎn)換回字符串。

5、ip類型

ip類型的字段只能存儲(chǔ)ipv4或ipv6地址.

二、屬性的詳解

1、fielddata字段數(shù)據(jù)

參考鏈接:https://www.cnblogs.com/rickie/p/11665168.html

默認(rèn)情況下是false

作用:把不能聚合、排序、通過(guò)腳本訪問(wèn)的字段變?yōu)榭梢跃酆稀⑴判颉⑼ㄟ^(guò)腳本訪問(wèn)的字段

text類型是不支持doc_value。所以要想對(duì)text類型的字段擁有聚合等功能,只能設(shè)置屬性的fielddata為true即可

缺點(diǎn):構(gòu)建和管理全部在內(nèi)存,也就是在JVM的內(nèi)存中。這意味著它本質(zhì)上是不可擴(kuò)展的。

fielddata可能會(huì)消耗大量的堆空間,尤其是在加載高基數(shù)(high cardinality)text字段時(shí)。一旦fielddata已加載到堆中,它將在該段的生命周期內(nèi)保留。此外,加載fielddata是一個(gè)昂貴的過(guò)程,可能會(huì)導(dǎo)致用戶遇到延遲命中。這就是默認(rèn)情況下禁用fielddata的原因。

如果需要對(duì) text 類型字段進(jìn)行排序、聚合、或者從腳本中訪問(wèn)字段值,則會(huì)出現(xiàn)如下異常:

Fielddata is disabled on text fields by default. Set fielddata=true on [your_field_name] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory.

但是,在啟動(dòng)fielddata 設(shè)置之前,需要考慮為什么針對(duì)text 類型字段進(jìn)行排序、聚合、或腳本呢?通常情況下,這是不太合理的。

text字段在索引時(shí),例如New York,這樣的詞會(huì)被分詞,會(huì)被拆成new、york 2個(gè)詞項(xiàng),這樣當(dāng)搜索new 或 york時(shí),可以被搜索到。在此字段上面來(lái)一個(gè)terms的聚合會(huì)返回一個(gè)new的bucket和一個(gè)york的bucket,但是你可能想要的是一個(gè)單一new york的bucket。

怎么解決這一問(wèn)題呢?

你可以使用 text 字段來(lái)實(shí)現(xiàn)全文本查詢,同時(shí)使用一個(gè)未分詞的 keyword 字段,且啟用doc_values,來(lái)處理聚合操作。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-qlza4utS-1644556258944)()]

(1) 使用my_field 字段用于查詢;

(2) 使用my_field.keyword 字段用于聚合、排序、或腳本; 注意:但是我試了試,不行,我也不知道為啥

PUT /user3{"mappings": {"properties": {"name":{"type": "text",        "fields": {"keyword":{"type":"keyword"          }        }      }    }  }}POST /user3/_doc{"name":"hello word 的數(shù)據(jù)結(jié)構(gòu) 你真棒"}GET /user3/_search{"query": {"match": {"name": "hello"    }  },   "aggs":{"testq":{"terms":{"field":"name.keyword"      }    }  }}結(jié)果輸出:{"took" : 1,  "timed_out" : false,  "_shards" : {"total" : 1,    "successful" : 1,    "skipped" : 0,    "failed" : 0  },  "hits" : {"total" : {"value" : 1,      "relation" : "eq"    },    "max_score" : 0.2876821,    "hits" : [      {"_index" : "user3",        "_type" : "_doc",        "_id" : "N_X1n34BgddXgx4111ZC",        "_score" : 0.2876821,        "_source" : {"name" : "hello word 的數(shù)據(jù)結(jié)構(gòu) 你真棒"        }      }    ]  },  "aggregations" : {"testq" : {"doc_count_error_upper_bound" : 0,      "sum_other_doc_count" : 0,      "buckets" : [        {"key" : "hello word 的數(shù)據(jù)結(jié)構(gòu) 你真棒",          "doc_count" : 1        }      ]    }  }}

也可以使用 PUT mapping API 在現(xiàn)有text 字段上啟用 fielddata,如下所示:

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-C0iFF2N6-1644556258949)()]

2、doc_value

doc_values

默認(rèn)情況下,大部分字段是索引的,這樣讓這些字段可被搜索。倒排索引(inverted index)允許查詢請(qǐng)求在詞項(xiàng)列表中查找搜索項(xiàng)(search term),并立即獲得包含該詞項(xiàng)的文檔列表。

倒排索引(inverted index):

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-D0WU7j87-1644556258952)()]

如果我們想要獲得所有包含 brown 的文檔的詞的完整列表,我們會(huì)創(chuàng)建如下查詢:

GET /my_index/_search{"query" : {"match" : {"body" : "brown"  } }, "aggs" : {"popular_terms": {"terms" : {"field" : "body"   }  } }}

倒排索引是根據(jù)詞項(xiàng)來(lái)排序的,所以我們首先在詞項(xiàng)列表中找到 brown,然后掃描所有列,找到包含 brown 的文檔。我們可以快速看到 Doc_1 和 Doc_2 包含 brown 這個(gè) token。

然后,對(duì)于聚合部分,我們需要找到 Doc_1 和 Doc_2 里所有唯一的詞項(xiàng)。用倒排索引做這件事情代價(jià)很高: 我們會(huì)迭代索引里的每個(gè)詞項(xiàng)并收集 Doc_1 和 Doc_2 列里面 token。這很慢而且難以擴(kuò)展:隨著詞項(xiàng)和文檔的數(shù)量增加,執(zhí)行時(shí)間也會(huì)增加。

Doc values 通過(guò)轉(zhuǎn)置兩者間的關(guān)系來(lái)解決這個(gè)問(wèn)題。倒排索引將詞項(xiàng)映射到包含它們的文檔,doc values 將文檔映射到它們包含的詞項(xiàng):

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-deqcJ89G-1644556258957)()]

當(dāng)數(shù)據(jù)被轉(zhuǎn)置之后,想要收集到 Doc_1 和 Doc_2 的唯一 token 會(huì)非常容易。獲得每個(gè)文檔行,獲取所有的詞項(xiàng),然后求兩個(gè)集合的并集。

Doc values 可以使聚合更快、更高效并且內(nèi)存友好。Doc values 的存在是因?yàn)榈古潘饕粚?duì)某些操作是高效的。

倒排索引的優(yōu)勢(shì):在于查找包含某個(gè)項(xiàng)的文檔,而對(duì)于從另外一個(gè)方向的相反操作并不高效,即:確定哪些項(xiàng)是否存在單個(gè)文檔里,聚合需要這種訪問(wèn)模式。

在 Elasticsearch 中,Doc Values 就是一種列式存儲(chǔ)結(jié)構(gòu),默認(rèn)情況下每個(gè)字段的 Doc Values 都是激活的,Doc Values 是在索引時(shí)創(chuàng)建的。當(dāng)字段索引時(shí),Elasticsearch 為了能夠快速檢索,會(huì)把字段的值加入倒排索引中,同時(shí)它也會(huì)存儲(chǔ)該字段的 Doc Values。

Elasticsearch 中的 Doc Values 常被應(yīng)用到以下場(chǎng)景:

對(duì)一個(gè)字段進(jìn)行排序?qū)σ粋€(gè)字段進(jìn)行聚合某些過(guò)濾,比如地理位置過(guò)濾某些與字段相關(guān)的腳本計(jì)算

因?yàn)槲臋n值(doc values)被序列化到磁盤,我們可以依靠操作系統(tǒng)的幫助來(lái)快速訪問(wèn)。當(dāng) working set 遠(yuǎn)小于節(jié)點(diǎn)的可用內(nèi)存,系統(tǒng)會(huì)自動(dòng)將所有的文檔值保存在內(nèi)存中,使得其讀寫十分高速;當(dāng)其遠(yuǎn)大于可用內(nèi)存,操作系統(tǒng)會(huì)自動(dòng)把 Doc Values 加載到系統(tǒng)的頁(yè)緩存中,從而避免了 jvm 堆內(nèi)存溢出異常。

因此,搜索和聚合是相互緊密纏繞的。搜索使用倒排索引查找文檔,聚合操作收集和聚合 doc values 里的數(shù)據(jù)。

doc values 支持大部分字段類型,但是text 字段類型不支持(因?yàn)閍nalyzed)。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-LgoL0gRs-1644556258959)()]

(1) status_code 字段默認(rèn)啟動(dòng) doc_values 屬性;

(2) session_id 顯式設(shè)置 doc_values = false,但是仍然可以被查詢;

如果確信某字段不需要排序或者聚合,或者從腳本中訪問(wèn)字段值,那么我們可以設(shè)置 doc_values = false,這樣可以節(jié)省磁盤空間。

3、executionHint

1、global ordinals

(1)what’s this?

當(dāng)我們使用doc values或者fielddata存儲(chǔ)時(shí),在磁盤中存儲(chǔ)的值不是真正的字段值,而是一個(gè)字典值(ordinal)。當(dāng)我們進(jìn)行聚合查詢的時(shí)候,es會(huì)把這個(gè)字典值跟真正字段值的映射字典加載到內(nèi)存中,并對(duì)結(jié)果集做映射,轉(zhuǎn)化為真正的值。這份映射關(guān)系是shard級(jí)別的,為這個(gè)shard里面是所有segment服務(wù),這也是global的體現(xiàn)。

(2)detail

字典關(guān)系是lazy init的,只有第一次使用的時(shí)候才會(huì)加載到內(nèi)存中。在es的內(nèi)存表現(xiàn)中提現(xiàn)成fielddata,這也是全keyword的index為什么也會(huì)有fielddata使用的原因。只會(huì)加載命中的segment的字典不會(huì)加載全部。字典關(guān)系在shard被觸發(fā)refresh以后就會(huì)失效。下次使用的時(shí)候需要再重新構(gòu)建。所以可以提高refresh_interval的值,減少fresh頻率提高字典的生存時(shí)間。

2、eager_global_ordinals

(1)what’s this?

當(dāng)在global ordinals的時(shí)候,refresh以后下一次查詢字典就需要重新構(gòu)建,在追求查詢的場(chǎng)景下很影響查詢性能。可以使用eager_global_ordinals,即在每次refresh以后即可更新字典,字典常駐內(nèi)存,減少了查詢的時(shí)候構(gòu)建字典的耗時(shí)。

(2)使用場(chǎng)景

因?yàn)檫@份字典需要常駐內(nèi)存,并且每次refresh以后就會(huì)重構(gòu),所以增大了內(nèi)存以及cpu的消耗。推薦在低寫高查、數(shù)據(jù)量不大的index中使用。

(3)使用

PUT my_index/_mapping{"properties": {"tags": {"type": "keyword",      "eager_global_ordinals": true    }  }}

3、execution_hint

(1)what’ this?

上面介紹了global ordinal的使用場(chǎng)景,是doc_values以及fileddata的默認(rèn)數(shù)據(jù)架構(gòu)。除了這種模式,還可以選擇map模式。即不再使用字典而是直接把值加載到內(nèi)存中計(jì)算,減去了構(gòu)建字典的耗時(shí)。當(dāng)查詢的結(jié)果集很小的情況下,可以使用map的模式不去構(gòu)建字典。使用map還是global_ordinals的取決于構(gòu)建字典的開(kāi)銷與加載原始字典的開(kāi)銷。當(dāng)結(jié)果集大到一定程序,map的內(nèi)存開(kāi)銷的代價(jià)可能抵消了構(gòu)建字典的開(kāi)銷。

(2)how to use?

GET /_search{"aggs" : {"tags" : {"terms" : {"field" : "tags",                 "execution_hint": "map"              }         }    }}

4、Shard Size

為了提高該聚合的精確度,可以通過(guò)shard_size參數(shù)設(shè)置協(xié)調(diào)節(jié)點(diǎn)向各個(gè)分片請(qǐng)求的詞根個(gè)數(shù),然后在協(xié)調(diào)節(jié)點(diǎn)進(jìn)行聚合,最后只返回size個(gè)詞根給到客戶端,shard_size >= size,如果shard_size設(shè)置小于size,ES會(huì)自動(dòng)將其設(shè)置為size,默認(rèn)情況下shard_size建議設(shè)置為(1.5 * size + 10)。

三、java實(shí)現(xiàn)對(duì)Es的curd

//match查詢age是20的條件 QueryBuilders.matchQuery("age",20);  //term查詢age是20的條件 QueryBuilders.termQuery("age",20);  //terms查詢age是20或者200,或者50的條件 QueryBuilders.termsQuery("age",20,200,50);  //query_string全文檢索“xiumu” QueryBuilders.queryStringQuery("xiumu");  //query_string檢索username是“xiumu” QueryBuilders.queryStringQuery("xiumu").field("username");  //multi_match查詢字段username或者description的值是xiumu QueryBuilders.multiMatchQuery("xiumu","username","description");  //range查詢字段age的范圍是在[18-200]之間 QueryBuilders.rangeQuery("age").gte(18).lte(200);  //exits查詢字段age有值 QueryBuilders.existsQuery("age");  //wildcard查詢字段description是以“男人”結(jié)尾的 QueryBuilders.wildcardQuery("description","*男人");  //bool查詢 BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery(); //bool查詢里添加must多個(gè)條件 boolQueryBuilder.must(QueryBuilders.termQuery("age",20)); boolQueryBuilder.must(QueryBuilders.existsQuery("age")); boolQueryBuilder.must(QueryBuilders.wildcardQuery("description","*男人"));

(1)統(tǒng)計(jì)某個(gè)字段的數(shù)量  ValueCountBuilder vcb=  AggregationBuilders.count("count_uid").field("uid");(2)去重統(tǒng)計(jì)某個(gè)字段的數(shù)量(有少量誤差) CardinalityBuilder cb= AggregationBuilders.cardinality("distinct_count_uid").field("uid");(3)聚合過(guò)濾FilterAggregationBuilder fab= AggregationBuilders.filter("uid_filter").filter(QueryBuilders.queryStringQuery("uid:001"));(4)按某個(gè)字段分組TermsBuilder tb=  AggregationBuilders.terms("group_name").field("name");(5)求和SumBuilder  sumBuilder=AggregationBuilders.sum("sum_price").field("price");(6)求平均AvgBuilder ab= AggregationBuilders.avg("avg_price").field("price");(7)求最大值MaxBuilder mb= AggregationBuilders.max("max_price").field("price"); (8)求最小值MinBuilder min=AggregationBuilders.min("min_price").field("price");(9)按日期間隔分組DateHistogramBuilder dhb= AggregationBuilders.dateHistogram("dh").field("date");(10)獲取聚合里面的結(jié)果TopHitsBuilder thb=  AggregationBuilders.topHits("top_result");(11)嵌套的聚合NestedBuilder nb= AggregationBuilders.nested("negsted_path").path("quests");(12)反轉(zhuǎn)嵌套AggregationBuilders.reverseNested("res_negsted").path("kps ");

package com.robin.elasticsearch;import com.alibaba.fastjson.JSON;import com.robin.elasticsearch.common.DataUtil;import com.robin.elasticsearch.entity.User;import com.robin.elasticsearch.entity.User2;import com.robin.elasticsearch.entity.User3;import com.robin.elasticsearch.reponsity.UserMapper;import org.elasticsearch.action.admin.indices.delete.DeleteIndexRequest;import org.elasticsearch.action.bulk.BulkRequest;import org.elasticsearch.action.bulk.BulkResponse;import org.elasticsearch.action.delete.DeleteRequest;import org.elasticsearch.action.delete.DeleteResponse;import org.elasticsearch.action.get.GetRequest;import org.elasticsearch.action.get.GetResponse;import org.elasticsearch.action.index.IndexRequest;import org.elasticsearch.action.index.IndexResponse;import org.elasticsearch.action.search.SearchRequest;import org.elasticsearch.action.search.SearchResponse;import org.elasticsearch.action.support.master.AcknowledgedResponse;import org.elasticsearch.action.update.UpdateRequest;import org.elasticsearch.action.update.UpdateResponse;import org.elasticsearch.client.RequestOptions;import org.elasticsearch.client.RestHighLevelClient;import org.elasticsearch.client.indices.CreateIndexRequest;import org.elasticsearch.client.indices.CreateIndexResponse;import org.elasticsearch.client.indices.GetIndexRequest;import org.elasticsearch.common.xcontent.XContentType;import org.elasticsearch.index.query.*;import org.elasticsearch.rest.RestStatus;import org.elasticsearch.search.SearchHit;import org.elasticsearch.search.aggregations.Aggregation;import org.elasticsearch.search.aggregations.AggregationBuilders;import org.elasticsearch.search.aggregations.Aggregations;import org.elasticsearch.search.aggregations.BucketOrder;import org.elasticsearch.search.aggregations.bucket.filter.Filters;import org.elasticsearch.search.aggregations.bucket.filter.FiltersAggregationBuilder;import org.elasticsearch.search.aggregations.bucket.filter.FiltersAggregator;import org.elasticsearch.search.aggregations.bucket.histogram.DateHistogramAggregationBuilder;import org.elasticsearch.search.aggregations.bucket.histogram.DateHistogramInterval;import org.elasticsearch.search.aggregations.bucket.histogram.Histogram;import org.elasticsearch.search.aggregations.bucket.histogram.HistogramAggregationBuilder;import org.elasticsearch.search.aggregations.bucket.range.DateRangeAggregationBuilder;import org.elasticsearch.search.aggregations.bucket.range.IpRangeAggregationBuilder;import org.elasticsearch.search.aggregations.bucket.range.Range;import org.elasticsearch.search.aggregations.bucket.range.RangeAggregationBuilder;import org.elasticsearch.search.aggregations.bucket.terms.Terms;import org.elasticsearch.search.aggregations.bucket.terms.TermsAggregationBuilder;import org.elasticsearch.search.aggregations.metrics.*;import org.elasticsearch.search.builder.SearchSourceBuilder;import org.elasticsearch.search.fetch.subphase.highlight.HighlightBuilder;import org.elasticsearch.search.sort.FieldSortBuilder;import org.elasticsearch.search.sort.SortBuilders;import org.elasticsearch.search.sort.SortOrder;import org.junit.jupiter.api.Test;import org.springframework.beans.factory.annotation.Autowired;import org.springframework.boot.test.context.SpringBootTest;import org.springframework.data.domain.PageRequest;import org.springframework.data.elasticsearch.core.AggregationsContainer;import org.springframework.data.elasticsearch.core.ElasticsearchRestTemplate;import org.springframework.data.elasticsearch.core.SearchHits;import org.springframework.data.elasticsearch.core.clients.elasticsearch7.ElasticsearchAggregations;import org.springframework.data.elasticsearch.core.mapping.IndexCoordinates;import org.springframework.data.elasticsearch.core.query.NativeSearchQuery;import org.springframework.data.elasticsearch.core.query.NativeSearchQueryBuilder;import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import java.util.Map;@SpringBootTestclass ESTests {@Autowired    UserMapper userMapper;    @Autowired    RestHighLevelClient restHighLevelClient;    @Autowired    private ElasticsearchRestTemplate elasticsearchRestTemplate;    //創(chuàng)建索引    @Test    void createIndex() throws IOException {CreateIndexRequest request = new CreateIndexRequest("zkwz");        CreateIndexResponse exists = restHighLevelClient.indices().create(request, RequestOptions.DEFAULT);    }    //刪除索引    @Test    void isExistIndex() throws IOException {GetIndexRequest request = new GetIndexRequest("zkwz");        boolean exists = restHighLevelClient.indices().exists(request, RequestOptions.DEFAULT);        System.out.println(exists);    }    //刪除索引    @Test    void deleteIndex() throws IOException {DeleteIndexRequest request = new DeleteIndexRequest("user");        AcknowledgedResponse delete = restHighLevelClient.indices().delete(request, RequestOptions.DEFAULT);        System.out.println(delete.isAcknowledged());    }    //創(chuàng)建文檔    @Test    void createDoc() throws IOException {IndexRequest request = new IndexRequest("user");        User user = new User("111", "cwx", 23);        IndexRequest source = request.id("123").source(JSON.toJSONString(user), XContentType.JSON);        String id = source.id();        IndexResponse index = restHighLevelClient.index(request, RequestOptions.DEFAULT);        System.out.println(index);    }    //獲取文檔的信息    @Test    void getDocInfo() throws IOException {//創(chuàng)建獲取文檔的請(qǐng)求        GetRequest request = new GetRequest("user", "123");        boolean exists = restHighLevelClient.exists(request, RequestOptions.DEFAULT);        System.out.println(exists);        GetResponse documentFields = restHighLevelClient.get(request, RequestOptions.DEFAULT);        String source = documentFields.getSourceAsString();        System.out.println(source);    }    //根據(jù)id更新文檔    @Test    void updateDocById() throws IOException {UpdateRequest request = new UpdateRequest("user", "123");        request.doc(JSON.toJSONString(new User("111", "cwx", 33)), XContentType.JSON);        UpdateResponse update = restHighLevelClient.update(request, RequestOptions.DEFAULT);        RestStatus status = update.status();        System.out.println(status);    }    //根據(jù)id刪除文檔    @Test    void deleteDocById() throws IOException {DeleteRequest request = new DeleteRequest("user", "123");        DeleteResponse delete = restHighLevelClient.delete(request, RequestOptions.DEFAULT);        RestStatus status = delete.status();        System.out.println(status);    }    //批量創(chuàng)建文檔    @Test    void createDocBulk() throws IOException {BulkRequest request = new BulkRequest();        User user1 = new User("777", "thegoodmen", 30);        User user2 = new User("888", "thegoodwomen", 50);        User user3 = new User("999", "thewellboy", 23);        User user4 = new User("100", "thewellgirl", 43);        User user5 = new User("121", "thegirlmen", 12);        ArrayListlist = new ArrayList<>();        list.add(user1);        list.add(user2);        list.add(user3);        list.add(user4);        list.add(user5);        for (User user : list) {request.add(new IndexRequest("user").source(JSON.toJSONString(user), XContentType.JSON));        }        BulkResponse bulk = restHighLevelClient.bulk(request, RequestOptions.DEFAULT);        boolean status = bulk.hasFailures();        System.out.println(status);    }    //基本查詢    @Test    void selectByAge() throws IOException {SearchRequest request = new SearchRequest();        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();        //matchQuery是分詞之后再查詢的、termQuery是直接進(jìn)行匹配(但是這個(gè)查詢不到數(shù)據(jù),換這個(gè)可以matchPhraseQuery)        MatchQueryBuilder builder = QueryBuilders.matchQuery("name", "good");        searchSourceBuilder.query(builder);        request.source(searchSourceBuilder);        SearchResponse search = restHighLevelClient.search(request, RequestOptions.DEFAULT);        Iteratoriterator = search.getHits().iterator();        while (iterator.hasNext()) {System.out.println(iterator.next());        }    }    //單條件查詢    @Test    void select1() throws IOException {//左右模糊查詢,相當(dāng)于MySQL的%good%        SearchHitssearchHits = elasticsearchRestTemplate.search(                new NativeSearchQuery(QueryBuilders.queryStringQuery("good").field("name")),                User.class,                IndexCoordinates.of("user"));        //精準(zhǔn)匹配,相當(dāng)于name="good"        SearchHitssearchHits1 = elasticsearchRestTemplate.search(                new NativeSearchQuery(QueryBuilders.termQuery("name", "good")),                User.class,                IndexCoordinates.of("user"));        //普通匹配,相當(dāng)于name like "%good%"        SearchHitssearchHits2 = elasticsearchRestTemplate.search(                new NativeSearchQuery(QueryBuilders.matchQuery("name", "good")),                User.class,                IndexCoordinates.of("user"));        //模糊匹配        SearchHitssearchHits3 = elasticsearchRestTemplate.search(                new NativeSearchQuery(QueryBuilders.fuzzyQuery("name", "good")),                User.class,                IndexCoordinates.of("user"));        //前綴匹配        SearchHitssearchHits6 = elasticsearchRestTemplate.search(                new NativeSearchQuery(QueryBuilders.prefixQuery("name", "men")),                User.class,                IndexCoordinates.of("user"));        //多字段的模糊匹配        SearchHitssearchHits7 = elasticsearchRestTemplate.search(                    new NativeSearchQuery(QueryBuilders.multiMatchQuery("aaa", "name")),                User.class,                IndexCoordinates.of("user"));        //前綴匹配        SearchHitssearchHits8 = elasticsearchRestTemplate.search(                new NativeSearchQuery(QueryBuilders.wildcardQuery("name", "m*n")),                User.class,                IndexCoordinates.of("user"));        //多內(nèi)容多字段的模糊匹配        String[] strings = {"good", "men"};        SearchHitssearchHits9 = elasticsearchRestTemplate.search(                new NativeSearchQuery(QueryBuilders.moreLikeThisQuery(new String[]{"aaa"}, MoreLikeThisQueryBuilder.Item.EMPTY_ARRAY)),                User.class,                IndexCoordinates.of("user"));        for (org.springframework.data.elasticsearch.core.SearchHite1 : searchHits9.getSearchHits()) {System.out.println(e1.getContent());        }    }    //多條件查詢    @Test    void select2() throws IOException {//數(shù)值型、日期、Ip的范圍查詢,相當(dāng)于 between 80 and 90 ,80包含,90不包含        SearchHitssearchHits1 = elasticsearchRestTemplate.search(                new NativeSearchQuery(QueryBuilders.boolQuery().must(QueryBuilders.rangeQuery("age").from(80).to(90).includeLower(true).includeUpper(false))),                User.class,                IndexCoordinates.of("user"));        //范圍查詢、大于50小于等于90        SearchHitssearchHits2 = elasticsearchRestTemplate.search(                new NativeSearchQuery(QueryBuilders.boolQuery().must(QueryBuilders.rangeQuery("age").gt(50).lte(90))),                User.class,                IndexCoordinates.of("user"));        for (org.springframework.data.elasticsearch.core.SearchHite1 : searchHits1.getSearchHits()) {System.out.println(e1.getContent());        }    }    //多條件查詢    @Test    void select3() {// 排序        FieldSortBuilder price = SortBuilders.fieldSort("age").order(SortOrder.DESC);        // 高亮顯示        HighlightBuilder highlightBuilder = new HighlightBuilder().field("name");        // 分頁(yè)        PageRequest pageRequest = PageRequest.of(0, 2);        // 查詢條件        BoolQueryBuilder queryBuilder1 = new BoolQueryBuilder().must(new MatchQueryBuilder("name", "陳萬(wàn)祥"));        BoolQueryBuilder queryBuilder2 = new BoolQueryBuilder().must(new MatchPhraseQueryBuilder("loc", "武威市"));        BoolQueryBuilder queryBuilder3 = new BoolQueryBuilder().must(QueryBuilders.queryStringQuery("蘭州市").field("name"));        //求和        SumAggregationBuilder field = AggregationBuilders.sum("sum").field("age");        //求平均值        AvgAggregationBuilder avgAggregationBuilder = AggregationBuilders.avg("avg").field("age");        ValueCountAggregationBuilder countAggregationBuilder = AggregationBuilders.count("count").field("name");        // 組裝上述查詢條件        NativeSearchQuery searchQuery = new NativeSearchQueryBuilder().withQuery(queryBuilder1)                .withSorts(price)                .withHighlightBuilder(highlightBuilder)                .withPageable(pageRequest)                .build();        NativeSearchQuery searchQuery2 = new NativeSearchQueryBuilder()                .withAggregations(field)                .withAggregations(avgAggregationBuilder)                .withAggregations(countAggregationBuilder)                .build();        SearchHitsuser = elasticsearchRestTemplate.search(searchQuery, User2.class, IndexCoordinates.of("user"));        for (org.springframework.data.elasticsearch.core.SearchHithit : user.getSearchHits()) {System.out.println(hit.getContent());            MaphighlightFields = hit.getHighlightFields();            System.out.println(highlightFields.toString());        }        AggregationsContainer aggregations = user.getAggregations();        ElasticsearchAggregations aggregations1 = (ElasticsearchAggregations) aggregations;        Aggregations aggregations2;        if (aggregations1 != null) {aggregations2 = aggregations1.aggregations();            Sum sum = aggregations2.get("sum");            Avg avg = aggregations2.get("avg");            ValueCount count = aggregations2.get("count");            System.out.println(DataUtil.rmZeroSuper(sum.getValue()));            System.out.println(DataUtil.rmZeroSuper(avg.getValue()));            System.out.println(DataUtil.rmZeroSuper(count.getValue()));        }    }    //最基礎(chǔ)的聚合查詢    @Test    void select4() throws IOException {SearchRequest request = new SearchRequest("user");        SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();        sourceBuilder.query(QueryBuilders.matchQuery("name", "yyy"));        TermsAggregationBuilder termsAggregationBuilder = AggregationBuilders.terms("ageAvg").field("age").size(10);        sourceBuilder.aggregation(termsAggregationBuilder);        AvgAggregationBuilder sumAggregationBuilder = AggregationBuilders.avg("avg").field("age");        sourceBuilder.aggregation(sumAggregationBuilder);        request.source(sourceBuilder);        SearchResponse searchResponse = restHighLevelClient.search(request, RequestOptions.DEFAULT);        Aggregations aggregations = searchResponse.getAggregations();        Avg ageAvg = aggregations.get("avg");        System.out.println(ageAvg.getValue());        Terms terms = aggregations.get("ageAvg");        for (Terms.Bucket e1 : terms.getBuckets()) {System.out.println("年齡是" + e1.getKeyAsString() + "=====>" + "人數(shù)是" + e1.getDocCount());        }    }    //先分組再得到不同分組的指標(biāo)查詢    @Test    void select5() {//先分組,并按指標(biāo)排序        TermsAggregationBuilder termsAggregationBuilder1 = AggregationBuilders.terms("team_count").field("team").order(BucketOrder.aggregation("max_age", true));        termsAggregationBuilder1.subAggregation(AggregationBuilders.max("max_age").field("age"));        termsAggregationBuilder1.subAggregation(AggregationBuilders.avg("avg_age").field("age"));        termsAggregationBuilder1.subAggregation(AggregationBuilders.min("min_age").field("age"));        termsAggregationBuilder1.subAggregation(AggregationBuilders.sum("sum_age").field("age"));        NativeSearchQuery searchQuery = new NativeSearchQueryBuilder()                .withAggregations(termsAggregationBuilder1)                .build();        SearchHitsuser = elasticsearchRestTemplate.search(searchQuery, User3.class, IndexCoordinates.of("user1"));        for (org.springframework.data.elasticsearch.core.SearchHithit : user.getSearchHits()) {System.out.println(hit.getContent());        }        AggregationsContainer aggregations = user.getAggregations();        ElasticsearchAggregations aggregations1 = (ElasticsearchAggregations) aggregations;        Aggregations aggregations2;        if (aggregations1 != null) {aggregations2 = aggregations1.aggregations();            Terms terms = aggregations2.get("team_count");            //獲取聚合值的兩種方法            for (Terms.Bucket bucket : terms.getBuckets()) {Max max_age = bucket.getAggregations().get("max_age");                Min min_age = bucket.getAggregations().get("min_age");                Sum sum_age = bucket.getAggregations().get("sum_age");                Avg avg_age = bucket.getAggregations().get("avg_age");                System.out.println(bucket.getKeyAsString() + "的最大值是:" + max_age.getValue() + "的最小值是:" + min_age.getValue() + "的和是:" + sum_age.getValue() + "的平均值是:" + avg_age.getValue());            }            for (Terms.Bucket bucket : terms.getBuckets()) {MapasMap = bucket.getAggregations().asMap();                double max_age = ((ParsedMax) asMap.get("max_age")).getValue();                double min_age = ((ParsedMin) asMap.get("min_age")).getValue();                double sum_age = ((ParsedSum) asMap.get("sum_age")).getValue();                double avg_age = ((ParsedAvg) asMap.get("avg_age")).getValue();                System.out.println(bucket.getKeyAsString() + "的最大值是:" + max_age + "的最小值是:" + min_age + "的和是:" + sum_age + "的平均值是:" + avg_age);            }        }    }    //區(qū)間分組查詢    @Test    void select6() {HistogramAggregationBuilder histogramAggregationBuilder = AggregationBuilders.histogram("his_age").field("age").interval(10);        NativeSearchQuery searchQuery = new NativeSearchQueryBuilder()                .withAggregations(histogramAggregationBuilder)                .build();        SearchHitsuser = elasticsearchRestTemplate.search(searchQuery, User3.class, IndexCoordinates.of("user1"));        for (org.springframework.data.elasticsearch.core.SearchHithit : user.getSearchHits()) {System.out.println(hit.getContent());        }        AggregationsContainer aggregations = user.getAggregations();        ElasticsearchAggregations aggregations1 = (ElasticsearchAggregations) aggregations;        Aggregations aggregations2;        if (aggregations1 != null) {aggregations2 = aggregations1.aggregations();            Histogram terms = aggregations2.get("his_age");            for (Histogram.Bucket bucket : terms.getBuckets()) {System.out.println(bucket.getKeyAsString() + "的數(shù)量是:" + bucket.getDocCount());            }        }    }    //時(shí)間區(qū)間分組查詢    @Test    void select7() {/*          calendarInterval表示時(shí)間間隔是類型、minDocCount設(shè)置最小值、format設(shè)置輸出時(shí)間的格式化、          missing當(dāng)那個(gè)統(tǒng)計(jì)字段為null的時(shí)候,填充某個(gè)值,然后按照填充的值,統(tǒng)計(jì)計(jì)算         */        DateHistogramAggregationBuilder aggregationBuilder = AggregationBuilders.dateHistogram("his_birth")                .field("birth")                .calendarInterval(DateHistogramInterval.MONTH)                .minDocCount(0)                .format("yyyy-MM-dd")                .missing("2021-07-27");        NativeSearchQuery searchQuery = new NativeSearchQueryBuilder()                .withAggregations(aggregationBuilder)                .build();        SearchHitsuser = elasticsearchRestTemplate.search(searchQuery, User3.class, IndexCoordinates.of("user1"));        for (org.springframework.data.elasticsearch.core.SearchHithit : user.getSearchHits()) {System.out.println(hit.getContent());        }        ElasticsearchAggregations aggregations = (ElasticsearchAggregations) user.getAggregations();        if (aggregations != null) {Histogram terms = aggregations.aggregations().get("his_birth");            for (Histogram.Bucket bucket : terms.getBuckets()) {System.out.println(bucket.getKeyAsString() + "的數(shù)量是:" + bucket.getDocCount());            }        }    }    //指定范圍區(qū)間分組查詢    @Test    void select8() {/*          calendarInterval表示時(shí)間間隔是類型、minDocCount設(shè)置最小值、format設(shè)置輸出時(shí)間的格式化、          missing當(dāng)那個(gè)統(tǒng)計(jì)字段為null的時(shí)候,填充某個(gè)值,然后按照填充的值,統(tǒng)計(jì)計(jì)算         */        RangeAggregationBuilder aggregationBuilder = AggregationBuilders.range("range_age")                .field("age")                .addUnboundedTo(10)                .addRange(11, 30)                .addRange(31, 50)                .addUnboundedFrom(100);        NativeSearchQuery searchQuery = new NativeSearchQueryBuilder()                .withAggregations(aggregationBuilder)                .build();        SearchHitsuser = elasticsearchRestTemplate.search(searchQuery, User3.class, IndexCoordinates.of("user1"));        for (org.springframework.data.elasticsearch.core.SearchHithit : user.getSearchHits()) {System.out.println(hit.getContent());        }        ElasticsearchAggregations aggregations = (ElasticsearchAggregations) user.getAggregations();        if (aggregations != null) {Range terms = aggregations.aggregations().get("range_age");            for (Range.Bucket bucket : terms.getBuckets()) {System.out.println(bucket.getKeyAsString() + "的數(shù)量是:" + bucket.getDocCount());                //起始范圍值                Object from = bucket.getFrom();                //終止范圍值                Object to = bucket.getTo();                System.out.println(from + "\t" + to);            }        }    }    //指定時(shí)間范圍區(qū)間分組查詢    @Test    void select9() {DateRangeAggregationBuilder aggregationBuilder = AggregationBuilders.dateRange("data_range_birth")                .field("birth")                .format("yyyy")                .addUnboundedTo("2000")                .addRange("2001", "2010")                .addRange("2011", "2020")                .addUnboundedFrom("2021");        NativeSearchQuery searchQuery = new NativeSearchQueryBuilder()                .withAggregations(aggregationBuilder)                .build();        SearchHitsuser = elasticsearchRestTemplate.search(searchQuery, User3.class, IndexCoordinates.of("user1"));        for (org.springframework.data.elasticsearch.core.SearchHithit : user.getSearchHits()) {System.out.println(hit.getContent());        }        ElasticsearchAggregations aggregations = (ElasticsearchAggregations) user.getAggregations();        if (aggregations != null) {Range terms = aggregations.aggregations().get("data_range_birth");            for (Range.Bucket bucket : terms.getBuckets()) {System.out.println(bucket.getKeyAsString() + "的數(shù)量是:" + bucket.getDocCount());            }        }    }    //指定ip區(qū)間分組查詢    @Test    void select10() {//TODO 這個(gè)地方的ip類型不能用來(lái)聚合,加上.keyword也不行,不知如何解決        IpRangeAggregationBuilder aggregationBuilder = AggregationBuilders.ipRange("ip_range")                .field("ip")                .addUnboundedTo("192.168.0.0")                .addRange("192.168.0.1", "192.168.0.122")                .addRange("192.168.5.0", "192.168.7.134")                .addUnboundedFrom("192.168.12.122");        NativeSearchQuery searchQuery = new NativeSearchQueryBuilder()                .withAggregations(aggregationBuilder)                .build();        SearchHitsuser = elasticsearchRestTemplate.search(searchQuery, User3.class, IndexCoordinates.of("user1"));        for (org.springframework.data.elasticsearch.core.SearchHithit : user.getSearchHits()) {System.out.println(hit.getContent());        }        ElasticsearchAggregations aggregations = (ElasticsearchAggregations) user.getAggregations();        if (aggregations != null) {Range terms = aggregations.aggregations().get("ip_range");            for (Range.Bucket bucket : terms.getBuckets()) {System.out.println(bucket.getKeyAsString() + "的數(shù)量是:" + bucket.getDocCount());            }        }    }    //指定過(guò)濾條件分組查詢    @Test    void select11() {FiltersAggregationBuilder aggregationBuilder = AggregationBuilders.filters("filter",                new FiltersAggregator.KeyedFilter("men", QueryBuilders.termQuery("sex", "true")),                new FiltersAggregator.KeyedFilter("women", QueryBuilders.termQuery("sex", "false")));        // 高亮顯示        HighlightBuilder highlightBuilder = new HighlightBuilder().field("sex").preTags("").postTags("");        NativeSearchQuery searchQuery = new NativeSearchQueryBuilder()                .withAggregations(aggregationBuilder)                .withHighlightBuilder(highlightBuilder)                .build();        SearchHitsuser = elasticsearchRestTemplate.search(searchQuery, User3.class, IndexCoordinates.of("user1"));        for (org.springframework.data.elasticsearch.core.SearchHithit : user.getSearchHits()) {MaphighlightFields = hit.getHighlightFields();            System.out.println(hit.getContent());            System.out.println(highlightFields.toString());        }        ElasticsearchAggregations aggregations = (ElasticsearchAggregations) user.getAggregations();        if (aggregations != null) {Filters terms = aggregations.aggregations().get("filter");            for (Filters.Bucket bucket : terms.getBuckets()) {System.out.println(bucket.getKeyAsString() + "的數(shù)量是:" + bucket.getDocCount());            }        }    }}

四、命令的方式實(shí)現(xiàn)對(duì)Es的curd

DELETE /user3PUT /user{"settings": {"number_of_replicas": 2,    "number_of_shards": 3  },   "mappings": {"properties": {"name":{"type": "text",        "analyzer": "ik_max_word"      },      "sex":{"type": "boolean"      },      "age":{"type": "long"      },      "loc":{"type": "text",        "analyzer": "ik_max_word"      },      "team":{"type": "keyword"      },      "birth":{"type": "date"      },      "id":{"type": "ip"      },      "country":{"type": "keyword"      },      "habby":{"type": "text"      },      "balance":{"type": "float"      }    }  }}POST /user/_doc/{"name":"陳萬(wàn)祥",  "age":12,  "sex":true,  "loc":"甘肅省武威市",  "team":"red",  "birth":"1998-01-10",  "ip":"192.168.0.3",  "country":"china",  "habby":["basketball","sing","dance"],  "balance":8700.12}POST /user/_doc/{"name":"陳萬(wàn)祥",  "age":122,  "sex":true,  "loc":"甘肅省武威市",  "team":"blue",  "birth":"1998-01-10",  "ip":"192.168.0.",  "country":"france",  "habby":["basketball","sing"],  "balance":82111}POST /user/_doc/{"name":"勞霞明",  "age":21,  "sex":true,  "loc":"廣西欽州市",  "team":"red",  "birth":"1997-01-10",  "ip":"192.168.3.11",  "country":"china",  "habby":["swming","dance"],  "balance":800.12}POST /user/_doc/{"name":"汪明",  "age":24,  "sex":false,  "loc":"天津市",  "team":"green",  "birth":"1998-02-10",  "ip":"192.165.0.3",  "country":"china",  "habby":["sing","read"],  "balance":9000}POST /user/_doc/{"name":"蔡徐坤",  "age":12,  "sex":true,  "loc":"甘肅省蘭州市",  "team":"green",  "birth":"1998-03-10",  "ip":"192.167.0.0",  "country":"france",  "habby":["game","eat"],  "balance":2300}POST /user/_doc/{"name":"愛(ài)英斯坦",  "age":45,  "sex":true,  "loc":"甘肅省張掖市",  "team":"blue",  "birth":"2003-06-10",  "ip":"192.168.0.32",  "country":"england",  "habby":["basketball","sing","dance"],  "balance":6900}POST /user/_doc/{"name":"歐拉",  "age":65,  "sex":false,  "loc":"甘肅省天水市",  "team":"blue",  "birth":"2021-08-10",  "ip":"192.168.6.3",  "country":"china",  "habby":["basketball","dance"],  "balance":4300}POST /user/_doc/{"name":"上帝",  "age":22,  "sex":false,  "loc":"西方世界",  "team":"black",  "ip":"192.168.3.3",  "country":"england",  "habby":["eat","game","sing"],  "balance":12000.12}GET /user/_doc/_searchGET /user/_doc/_search{"query":{"term":{"name":"陳萬(wàn)祥"    }  },  "from":0,  "size":10,  "sort":[{"age":"desc"  }],  "highlight":{"fields":{"name":{}    }  }}#求出user索引的和GET /user/_doc/_search{"aggs":{"user1_sum":{"sum":{"field":"age"      }    }  }}#求出user索引的最大值GET /user/_doc/_search{"size":0,  "aggs":{"user1_max":{"max":{"field":"age"      }    }  }}#根據(jù)team字段聚合分組、并得到每個(gè)分組的求和、最大值、最小值、平均值GET /user/_doc/_search{"size":0,  "aggs":{"user1_term":{"terms":{"field":"team"      },      "aggs":{"term_sum":{"sum":{"field":"age"        }        },        "term_max":{"max":{"field":"age"        }},        "term_min":{"min":{"field":"age"        }},        "term_avg":{"avg":{"field":"age"        }}      }    }  }}#查看工資范圍的百分比GET /user/_search{"size": 0,   "aggs": {"balance_a": {"percentile_ranks": {"field": "balance",        "values": [2000,4000,6000,8000,10000]      }    }  }}#查看一些計(jì)數(shù)、最小值、最大值、平均值、求和分別是多少GET /user/_search{"size": 0,   "aggs": {"balance_a": {"stats": {"field": "balance"      }    }  }}#查看一些其他的指標(biāo)結(jié)果GET /user/_search{"size": 0,   "aggs": {"balance_a": {"extended_stats": {"field": "age"      }    }  }}#查看對(duì)字段sex的聚合GET /user/_search{"size": 0,   "aggs": {"sex_a": {"terms": {"field": "sex"      }    }  }}#聚合并排序GET /user/_search{"size": 0,   "aggs": {"sex_a": {"terms": {"field": "team",        "order": {"max_a": "desc"        }      },        "aggs":{"max_a":{"max":{"field": "age"            }          }        }          }  }}#聚合支持腳本GET /user/_search{"size": 0,   "aggs": {"sex_a": {"terms": {"script": "doc["team"].value"      }    }  }}#篩選出包含指定詞語(yǔ)和不包含的GET /user/_search{"size": 0,   "aggs": {"term_a": {"terms": {"field": "age",        "include": "*.市"      }    }  }}#------------------------------------------------DELETE user3#多字段聚合的實(shí)現(xiàn)方式:#1、通過(guò)腳本合并字段#2、使用copy_to方法合并兩個(gè)字段PUT /user3{"mappings": {"properties": {"name":{"type": "text",        "fielddata": true              }    }  }}PUT /user3{"mappings": {"properties": {"name":{"type": "text",        "fields": {"keyword":{"type":"keyword"          }        }      }    }  }}POST /user3/_doc{"name":"hello word"}GET /user3/_search{"query": {"match": {"name": "hello"    }  },   "aggs":{"testq":{"terms":{"field":"name.keyword"      }    }  }}PUT test3POST test3/stu{"name":"cwx"}POST test3/tes{"name":"lxm"}

五、集群

六、優(yōu)化

1、聚合為什么慢?

大多數(shù)時(shí)候?qū)蝹€(gè)字段的聚合查詢還是非常快的, 但是當(dāng)需要同時(shí)聚合多個(gè)字段時(shí),就可能會(huì)產(chǎn)生大量的分組,最終結(jié)果就是占用 es 大量?jī)?nèi)存,從而導(dǎo)致 OOM 的情況發(fā)生。 實(shí)踐應(yīng)用發(fā)現(xiàn),以下情況都會(huì)比較慢: 1)待聚合文檔數(shù)比較多(千萬(wàn)、億、十億甚至更多); 2)聚合條件比較復(fù)雜(多重條件聚合); 3)全量聚合(翻頁(yè)的場(chǎng)景用)。

2、聚合優(yōu)化方案探討

參考鏈接:https://blog.csdn.net/laoyang360/article/details/79253294

優(yōu)化方案一:默認(rèn)深度優(yōu)先聚合改為廣度優(yōu)先聚合。

"collect_mode" : "breadth_first"

depth_first 直接進(jìn)行子聚合的計(jì)算 breadth_first 先計(jì)算出當(dāng)前聚合的結(jié)果,針對(duì)這個(gè)結(jié)果在對(duì)子聚合進(jìn)行計(jì)算。 優(yōu)化方案二: 每一層terms aggregation內(nèi)部加一個(gè) “execution_hint”: “map”。

"execution_hint": "map"

Map方式的結(jié)論可簡(jiǎn)要概括如下: 1)查詢結(jié)果直接放入內(nèi)存中構(gòu)建map,在查詢結(jié)果集小的場(chǎng)景下,速度極快; 2)但如果待結(jié)果集合很大的情況,map方式不一定也快。

3、運(yùn)用 shard_size 來(lái)提高 term aggregation 的精度

參考鏈接:https://blog.csdn.net/UbuntuTouch/article/details/104141398

請(qǐng)求的大小(size)越大,結(jié)果將越準(zhǔn)確,但計(jì)算最終結(jié)果的成本也將越高(這兩者都是由于在分片級(jí)別上管理的優(yōu)先級(jí)隊(duì)列更大,并且節(jié)點(diǎn)和客戶端之間的數(shù)據(jù)傳輸也更大)。

shard_size 參數(shù)可用于最大程度地減少請(qǐng)求的大小帶來(lái)的額外工作。 定義后,它將確定協(xié)調(diào)節(jié)點(diǎn)將從每個(gè)分片請(qǐng)求多少個(gè)術(shù)語(yǔ)。 一旦所有分片都做出響應(yīng),協(xié)調(diào)節(jié)點(diǎn)便會(huì)將它們縮減為最終結(jié)果,該最終結(jié)果將基于size參數(shù)-這樣一來(lái),可以提高返回條款的準(zhǔn)確性,并避免流回大量存儲(chǔ)桶的開(kāi)銷給客戶。

注意:shard_size 不能小于 size(因?yàn)橐饬x不大)。 啟用時(shí),Elasticsearch 將覆蓋它并將其重置為等于大小。

缺省 shard_size為(size* 1.5 + 10)。

Terms aggregation 對(duì)于大量數(shù)據(jù)來(lái)說(shuō)通常是不精確的

我們先來(lái)看一下如下的一個(gè)圖:

從上面的圖中,在 shard_size 為3的情況下,我們想對(duì) geoip.country_name 這個(gè)字段來(lái)進(jìn)行 terms aggregation:

從 shard 0 中提取文檔數(shù)靠前的前三個(gè),它們分別是 USA,India 及 France。它們的文檔數(shù)分別是5,4及4。 從 shard 1 中提取文檔數(shù)靠前的前單個(gè),它們分別是 USA,India 及 Japan。它們的文檔數(shù)分別是4,5及3。 那么總的文檔數(shù)是:

USA為:5 + 4 = 9India為:4 + 5 = 9France為:4 + 0 = 4Japan為: 3 + 0 = 3

根據(jù)上面的計(jì)算,返回的結(jié)果將會(huì)是 USA,India 及 France。細(xì)心的開(kāi)發(fā)者可能馬上可以看出來(lái),在上面的統(tǒng)計(jì)中國(guó)其實(shí)是不精確的,這是因?yàn)樵? shard 0 中,我們可以看見(jiàn) Japan 有3個(gè)文檔沒(méi)有被統(tǒng)計(jì)進(jìn)去。這個(gè)統(tǒng)計(jì)是基于我們對(duì) shard_size 為3的情況。假如我們把 shard_size 提供到4,情況馬上就會(huì)不同,而且更加接近我們的實(shí)際的統(tǒng)計(jì)數(shù)據(jù)的結(jié)果。在這種情況下,Japan 將會(huì)有 3 + 6 共6很個(gè)文檔,應(yīng)該是排名第3。

我們可以修改我們的請(qǐng)求如下:

GET logs_server*/_search{  "size": 0,  "aggs": {    "top_10_urls": {      "terms": {        "field": "geoip.country_name.keyword",        "size": 10,        "shard_size": 100      }    }  }}

我們可以通過(guò)增加 shard_size 來(lái)提高數(shù)據(jù)的精確性,但是必須注意的是這樣的代價(jià)是計(jì)算的成本增加,特別是針對(duì)大量數(shù)據(jù)而言。

責(zé)任編輯:

標(biāo)簽:

相關(guān)推薦:

精彩放送:

新聞聚焦
Top 主站蜘蛛池模板: 商城县| 平凉市| 贡山| 商丘市| 深泽县| 金川县| 德兴市| 周口市| 水城县| 澜沧| 茶陵县| 财经| 三亚市| 北辰区| 芦山县| 廉江市| 大冶市| 通许县| 灵川县| 汤阴县| 朝阳区| 涿州市| 乐东| 虞城县| 二手房| 福海县| 镇原县| 舞阳县| 青海省| 通城县| 九龙城区| 乡城县| 汝南县| 石泉县| 定兴县| 凌源市| 岳阳县| 夹江县| 玛纳斯县| 延边| 噶尔县|