Elasticsearch的介紹以及原理是什么

本篇內(nèi)容主要講解“Elasticsearch的介紹以及原理是什么”，感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷，實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“Elasticsearch的介紹以及原理是什么”吧!

成都創(chuàng)新互聯(lián)公司是一家專注于網(wǎng)站建設(shè)、成都網(wǎng)站建設(shè)與策劃設(shè)計(jì),海城網(wǎng)站建設(shè)哪家好?成都創(chuàng)新互聯(lián)公司做網(wǎng)站,專注于網(wǎng)站建設(shè)十載,網(wǎng)設(shè)計(jì)領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:海城等地區(qū)。海城做網(wǎng)站價(jià)格咨詢:13518219792

Elasticsearch－基礎(chǔ)介紹及索引原理分析

最近在參與一個(gè)基于Elasticsearch作為底層數(shù)據(jù)框架提供大數(shù)據(jù)量(億級(jí))的實(shí)時(shí)統(tǒng)計(jì)查詢的方案設(shè)計(jì)工作，花了些時(shí)間學(xué)習(xí)Elasticsearch的基礎(chǔ)理論知識(shí)，整理了一下，希望能對(duì)Elasticsearch感興趣/想了解的同學(xué)有所幫助。同時(shí)也希望有發(fā)現(xiàn)內(nèi)容不正確或者有疑問的地方，望指明，一起探討，學(xué)習(xí)，進(jìn)步。

介紹

Elasticsearch 是一個(gè)分布式可擴(kuò)展的實(shí)時(shí)搜索和分析引擎,一個(gè)建立在全文搜索引擎 Apache Lucene(TM) 基礎(chǔ)上的搜索引擎.當(dāng)然 Elasticsearch 并不僅僅是 Lucene 那么簡(jiǎn)單，它不僅包括了全文搜索功能，還可以進(jìn)行以下工作:

分布式實(shí)時(shí)文件存儲(chǔ)，并將每一個(gè)字段都編入索引，使其可以被搜索。
實(shí)時(shí)分析的分布式搜索引擎。
可以擴(kuò)展到上百臺(tái)服務(wù)器，處理PB級(jí)別的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。

基本概念

先說Elasticsearch的文件存儲(chǔ)，Elasticsearch是面向文檔型數(shù)據(jù)庫(kù)，一條數(shù)據(jù)在這里就是一個(gè)文檔，用JSON作為文檔序列化的格式，比如下面這條用戶數(shù)據(jù)：

{
    "name" :     "John",
    "sex" :      "Male",
    "age" :      25,
    "birthDate": "1990/05/01",
    "about" :    "I love to go rock climbing",
    "interests": [ "sports", "music" ]
}

用MySQL這樣的數(shù)據(jù)庫(kù)存儲(chǔ)就會(huì)容易想到建立一張User表，有balabala的字段等，在Elasticsearch里這就是一個(gè)文檔，當(dāng)然這個(gè)文檔會(huì)屬于一個(gè)User的類型，各種各樣的類型存在于一個(gè)索引當(dāng)中。這里有一份簡(jiǎn)易的將Elasticsearch和關(guān)系型數(shù)據(jù)術(shù)語(yǔ)對(duì)照表:

關(guān)系數(shù)據(jù)庫(kù)     ? 數(shù)據(jù)庫(kù) ? 表    ? 行    ? 列(Columns)

Elasticsearch  ? 索引(Index)   ? 類型(type)  ? 文檔(Docments)  ? 字段(Fields)

一個(gè) Elasticsearch 集群可以包含多個(gè)索引(數(shù)據(jù)庫(kù))，也就是說其中包含了很多類型(表)。這些類型中包含了很多的文檔(行)，然后每個(gè)文檔中又包含了很多的字段(列)。Elasticsearch的交互，可以使用Java API，也可以直接使用HTTP的Restful API方式，比如我們打算插入一條記錄，可以簡(jiǎn)單發(fā)送一個(gè)HTTP的請(qǐng)求：

PUT /megacorp/employee/1  
{
    "name" :     "John",
    "sex" :      "Male",
    "age" :      25,
    "about" :    "I love to go rock climbing",
    "interests": [ "sports", "music" ]
}

更新，查詢也是類似這樣的操作，具體操作手冊(cè)可以參見Elasticsearch權(quán)威指南

索引

Elasticsearch最關(guān)鍵的就是提供強(qiáng)大的索引能力了，其實(shí)InfoQ的這篇時(shí)間序列數(shù)據(jù)庫(kù)的秘密(2)——索引寫的非常好，我這里也是圍繞這篇結(jié)合自己的理解進(jìn)一步梳理下，也希望可以幫助大家更好的理解這篇文章。

Elasticsearch索引的精髓：

一切設(shè)計(jì)都是為了提高搜索的性能

另一層意思：為了提高搜索的性能，難免會(huì)犧牲某些其他方面，比如插入/更新，否則其他數(shù)據(jù)庫(kù)不用混了。前面看到往Elasticsearch里插入一條記錄，其實(shí)就是直接PUT一個(gè)json的對(duì)象，這個(gè)對(duì)象有多個(gè)fields，比如上面例子中的name, sex, age, about, interests，那么在插入這些數(shù)據(jù)到Elasticsearch的同時(shí)，Elasticsearch還默默1的為這些字段建立索引--倒排索引，因?yàn)镋lasticsearch最核心功能是搜索。

Elasticsearch是如何做到快速索引的

InfoQ那篇文章里說Elasticsearch使用的倒排索引比關(guān)系型數(shù)據(jù)庫(kù)的B-Tree索引快，為什么呢？

什么是B-Tree索引?

上大學(xué)讀書時(shí)老師教過我們，二叉樹查找效率是logN，同時(shí)插入新的節(jié)點(diǎn)不必移動(dòng)全部節(jié)點(diǎn)，所以用樹型結(jié)構(gòu)存儲(chǔ)索引，能同時(shí)兼顧插入和查詢的性能。因此在這個(gè)基礎(chǔ)上，再結(jié)合磁盤的讀取特性(順序讀/隨機(jī)讀)，傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)采用了B-Tree/B+Tree這樣的數(shù)據(jù)結(jié)構(gòu)：

Elasticsearch的介紹以及原理是什么

為了提高查詢的效率，減少磁盤尋道次數(shù)，將多個(gè)值作為一個(gè)數(shù)組通過連續(xù)區(qū)間存放，一次尋道讀取多個(gè)數(shù)據(jù)，同時(shí)也降低樹的高度。

什么是倒排索引?

Alt text

繼續(xù)上面的例子，假設(shè)有這么幾條數(shù)據(jù)(為了簡(jiǎn)單，去掉about, interests這兩個(gè)field):

| ID | Name | Age  |  Sex     |
| -- |:------------:| -----:| -----:| 
| 1  | Kate         | 24 | Female
| 2  | John         | 24 | Male
| 3  | Bill         | 29 | Male

ID是Elasticsearch自建的文檔id，那么Elasticsearch建立的索引如下:

Name:

| Term | Posting List |
| -- |:----:|
| Kate | 1 |
| John | 2 |
| Bill | 3 |

Age:

| Term | Posting List |
| -- |:----:|
| 24 | [1,2] |
| 29 | 3 |

Sex:

| Term | Posting List |
| -- |:----:|
| Female | 1 |
| Male | [2,3] |

Posting List

Elasticsearch分別為每個(gè)field都建立了一個(gè)倒排索引，Kate, John, 24, Female這些叫term，而[1,2]就是Posting List。Posting list就是一個(gè)int的數(shù)組，存儲(chǔ)了所有符合某個(gè)term的文檔id。

看到這里，不要認(rèn)為就結(jié)束了，精彩的部分才剛開始...

通過posting list這種索引方式似乎可以很快進(jìn)行查找，比如要找age=24的同學(xué)，愛回答問題的小明馬上就舉手回答：我知道，id是1，2的同學(xué)。但是，如果這里有上千萬(wàn)的記錄呢？如果是想通過name來(lái)查找呢？

Term Dictionary

Elasticsearch為了能快速找到某個(gè)term，將所有的term排個(gè)序，二分法查找term，logN的查找效率，就像通過字典查找一樣，這就是Term Dictionary?，F(xiàn)在再看起來(lái)，似乎和傳統(tǒng)數(shù)據(jù)庫(kù)通過B-Tree的方式類似啊，為什么說比B-Tree的查詢快呢？

Term Index

B-Tree通過減少磁盤尋道次數(shù)來(lái)提高查詢性能，Elasticsearch也是采用同樣的思路，直接通過內(nèi)存查找term，不讀磁盤，但是如果term太多，term dictionary也會(huì)很大，放內(nèi)存不現(xiàn)實(shí)，于是有了Term Index，就像字典里的索引頁(yè)一樣，A開頭的有哪些term，分別在哪頁(yè)，可以理解term index是一顆樹：

Elasticsearch的介紹以及原理是什么

這棵樹不會(huì)包含所有的term，它包含的是term的一些前綴。通過term index可以快速地定位到term dictionary的某個(gè)offset，然后從這個(gè)位置再往后順序查找。

Elasticsearch的介紹以及原理是什么

??表示一種狀態(tài)

-->表示狀態(tài)的變化過程，上面的字母/數(shù)字表示狀態(tài)變化和權(quán)重

將單詞分成單個(gè)字母通過??和-->表示出來(lái)，0權(quán)重不顯示。如果??后面出現(xiàn)分支，就標(biāo)記權(quán)重，最后整條路徑上的權(quán)重加起來(lái)就是這個(gè)單詞對(duì)應(yīng)的序號(hào)。

FSTs are finite-state machines that map a term (byte sequence) to an arbitrary output.

FST以字節(jié)的方式存儲(chǔ)所有的term，這種壓縮方式可以有效的縮減存儲(chǔ)空間，使得term index足以放進(jìn)內(nèi)存，但這種方式也會(huì)導(dǎo)致查找時(shí)需要更多的CPU資源。

后面的更精彩，看累了的同學(xué)可以喝杯咖啡……

壓縮技巧

Elasticsearch里除了上面說到用FST壓縮term index外，對(duì)posting list也有壓縮技巧。
小明喝完咖啡又舉手了:"posting list不是已經(jīng)只存儲(chǔ)文檔id了嗎？還需要壓縮？"

嗯，我們?cè)倏椿刈铋_始的例子，如果Elasticsearch需要對(duì)同學(xué)的性別進(jìn)行索引(這時(shí)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)哭暈在廁所……)，會(huì)怎樣？如果有上千萬(wàn)個(gè)同學(xué)，而世界上只有男/女這樣兩個(gè)性別，每個(gè)posting list都會(huì)有至少百萬(wàn)個(gè)文檔id。 Elasticsearch是如何有效的對(duì)這些文檔id壓縮的呢？

Frame Of Reference

增量編碼壓縮，將大數(shù)變小數(shù)，按字節(jié)存儲(chǔ)

首先，Elasticsearch要求posting list是有序的(為了提高搜索的性能，再任性的要求也得滿足)，這樣做的一個(gè)好處是方便壓縮，看下面這個(gè)圖例： Elasticsearch的介紹以及原理是什么

細(xì)心的小明這時(shí)候又舉手了:"為什么是以65535為界限?"

程序員的世界里除了1024外，65535也是一個(gè)經(jīng)典值，因?yàn)樗?2^16-1，正好是用2個(gè)字節(jié)能表示的最大數(shù)，一個(gè)short的存儲(chǔ)單位，注意到上圖里的最后一行“If a block has more than 4096 values, encode as a bit set, and otherwise as a simple array using 2 bytes per value”，如果是大塊，用節(jié)省點(diǎn)用bitset存，小塊就豪爽點(diǎn)，2個(gè)字節(jié)我也不計(jì)較了，用一個(gè)short[]存著方便。

那為什么用4096來(lái)區(qū)分大塊還是小塊呢？

個(gè)人理解：都說程序員的世界是二進(jìn)制的，4096*2bytes ＝ 8192bytes < 1KB, 磁盤一次尋道可以順序把一個(gè)小塊的內(nèi)容都讀出來(lái)，再大一位就超過1KB了，需要兩次讀。

聯(lián)合索引

上面說了半天都是單field索引，如果多個(gè)field索引的聯(lián)合查詢，倒排索引如何滿足快速查詢的要求呢？

利用跳表(Skip list)的數(shù)據(jù)結(jié)構(gòu)快速做“與”運(yùn)算，或者
利用上面提到的bitset按位“與”

先看看跳表的數(shù)據(jù)結(jié)構(gòu)：

Elasticsearch的介紹以及原理是什么

如果使用跳表，對(duì)最短的posting list中的每個(gè)id，逐個(gè)在另外兩個(gè)posting list中查找看是否存在，最后得到交集的結(jié)果。

如果使用bitset，就很直觀了，直接按位與，得到的結(jié)果就是最后的交集。

總結(jié)和思考

Elasticsearch的索引思路:

將磁盤里的東西盡量搬進(jìn)內(nèi)存，減少磁盤隨機(jī)讀取次數(shù)(同時(shí)也利用磁盤順序讀特性)，結(jié)合各種奇技淫巧的壓縮算法，用及其苛刻的態(tài)度使用內(nèi)存。

所以，對(duì)于使用Elasticsearch進(jìn)行索引時(shí)需要注意:

不需要索引的字段，一定要明確定義出來(lái)，因?yàn)槟J(rèn)是自動(dòng)建索引的
同樣的道理，對(duì)于String類型的字段，不需要analysis的也需要明確定義出來(lái)，因?yàn)槟J(rèn)也是會(huì)analysis的
選擇有規(guī)律的ID很重要，隨機(jī)性太大的ID(比如java的UUID)不利于查詢

關(guān)于最后一點(diǎn)，個(gè)人認(rèn)為有多個(gè)因素:

其中一個(gè)(也許不是最重要的)因素: 上面看到的壓縮算法，都是對(duì)Posting list里的大量ID進(jìn)行壓縮的，那如果ID是順序的，或者是有公共前綴等具有一定規(guī)律性的ID，壓縮比會(huì)比較高；

另外一個(gè)因素: 可能是最影響查詢性能的，應(yīng)該是最后通過Posting list里的ID到磁盤中查找Document信息的那步，因?yàn)镋lasticsearch是分Segment存儲(chǔ)的，根據(jù)ID這個(gè)大范圍的Term定位到Segment的效率直接影響了最后查詢的性能，如果ID是有規(guī)律的，可以快速跳過不包含該ID的Segment，從而減少不必要的磁盤讀次數(shù)，具體可以參考這篇如何選擇一個(gè)高效的全局ID方案(評(píng)論也很精彩)

到此，相信大家對(duì)“Elasticsearch的介紹以及原理是什么”有了更深的了解，不妨來(lái)實(shí)際操作一番吧！這里是創(chuàng)新互聯(lián)網(wǎng)站，更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢，關(guān)注我們，繼續(xù)學(xué)習(xí)！

分享題目：Elasticsearch的介紹以及原理是什么
路徑分享：http://www.rwnh.cn/article32/jjsjpc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站制作、云服務(wù)器、用戶體驗(yàn)、品牌網(wǎng)站建設(shè)、商城網(wǎng)站、企業(yè)網(wǎng)站制作

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

Elasticsearch的介紹以及原理是什么

Elasticsearch－基礎(chǔ)介紹及索引原理分析

介紹

基本概念

索引

Elasticsearch是如何做到快速索引的

什么是B-Tree索引?

什么是倒排索引?

壓縮技巧

聯(lián)合索引

總結(jié)和思考