内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

快速了解Druid——實(shí)時(shí)大數(shù)據(jù)分析軟件-創(chuàng)新互聯(lián)

Druid 是什么

Druid 單詞來源于西方古羅馬的神話人物,中文常常翻譯成德魯伊。
本問介紹的Druid 是一個(gè)分布式的支持實(shí)時(shí)分析的數(shù)據(jù)存儲系統(tǒng)(Data Store)。美國廣告技術(shù)公司MetaMarkets 于2011 年創(chuàng)建了Druid 項(xiàng)目,并且于2012 年晚期開源了Druid 項(xiàng)目。Druid 設(shè)計(jì)之初的想法就是為分析而生,它在處理數(shù)據(jù)的規(guī)模、數(shù)據(jù)處理的實(shí)時(shí)性方面,比傳統(tǒng)的OLAP 系統(tǒng)有了顯著的性能改進(jìn),而且擁抱主流的開源生態(tài),包括Hadoop 等。多年以來,Druid 一直是非?;钴S的開源項(xiàng)目。
Druid 的官方網(wǎng)站是http://druid.io。
另外,阿里巴巴也曾創(chuàng)建過一個(gè)開源項(xiàng)目叫作Druid(簡稱阿里Druid),它是一個(gè)數(shù)據(jù)庫連接池的項(xiàng)目。阿里Druid 和本問討論的Druid 沒有任何關(guān)系,它們解決完全不同的問題。

成都創(chuàng)新互聯(lián)公司是一家專業(yè)提供托克遜企業(yè)網(wǎng)站建設(shè),專注與成都做網(wǎng)站、網(wǎng)站設(shè)計(jì)、HTML5建站、小程序制作等業(yè)務(wù)。10年已為托克遜眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站制作公司優(yōu)惠進(jìn)行中。

大數(shù)據(jù)分析和Druid

大數(shù)據(jù)一直是近年的熱點(diǎn)話題,隨著數(shù)據(jù)量的急速增長,數(shù)據(jù)處理的規(guī)模也從GB 級別增長到TB 級別,很多圖像應(yīng)用領(lǐng)域已經(jīng)開始處理PB 級別的數(shù)據(jù)分析。大數(shù)據(jù)的核心目標(biāo)是提升業(yè)務(wù)的競爭力,找到一些可以采取行動的洞察(Actionable Insight),數(shù)據(jù)分析就是其中的核心技術(shù),包括數(shù)據(jù)收集、處理、建模和分析,最后找到改進(jìn)業(yè)務(wù)的方案。
最近一兩年,隨著大數(shù)據(jù)分析需求的爆炸性增長,很多公司都經(jīng)歷過將以關(guān)系型商用數(shù)據(jù)庫為基礎(chǔ)的數(shù)據(jù)平臺,轉(zhuǎn)移到一些開源生態(tài)的大數(shù)據(jù)平臺,例如Hadoop 或Spark 平臺,以可控的軟硬件成本處理更大的數(shù)據(jù)量。Hadoop 設(shè)計(jì)之初就是為了批量處理大數(shù)據(jù),但數(shù)據(jù)處理實(shí)時(shí)性經(jīng)常是它的弱點(diǎn)。例如,很多時(shí)候一個(gè)MapReduce 腳本的執(zhí)行,很難估計(jì)需要多長時(shí)間才能完成,無法滿足很多數(shù)據(jù)分析師所期望的秒級返回查詢結(jié)果的分析需求。
為了解決數(shù)據(jù)實(shí)時(shí)性的問題,大部分公司都有一個(gè)經(jīng)歷,將數(shù)據(jù)分析變成更加實(shí)時(shí)的可交互方案。其中,涉及新軟件的引入、數(shù)據(jù)流的改進(jìn)等。數(shù)據(jù)分析的幾種常見方法如下圖。
快速了解Druid——實(shí)時(shí)大數(shù)據(jù)分析軟件
整個(gè)數(shù)據(jù)分析的基礎(chǔ)架構(gòu)通常分為以下幾類。
(1)使用Hadoop/Spark 的MR 分析。
(2)將Hadoop/Spark 的結(jié)果注入RDBMS 中提供實(shí)時(shí)分析。
(3)將結(jié)果注入到容量更大的NoSQL 中,例如HBase 等。
(4)將數(shù)據(jù)源進(jìn)行流式處理,對接流式計(jì)算框架,如Storm,結(jié)果落在RDBMS/NoSQL 中。
(5)將數(shù)據(jù)源進(jìn)行流式處理,對接分析數(shù)據(jù)庫,例如Druid、Vertica 等。

Druid 的三個(gè)設(shè)計(jì)原則

在設(shè)計(jì)之初,開發(fā)人員確定了三個(gè)設(shè)計(jì)原則(Design Principle)。
(1)快速查詢(Fast Query):部分?jǐn)?shù)據(jù)的聚合(Partial Aggregate)+內(nèi)存化(In-emory)+索引(Index)。
(2)水平擴(kuò)展能力(Horizontal Scalability):分布式數(shù)據(jù)(Distributed Data)+ 并行化查詢(Parallelizable Query)。
(3)實(shí)時(shí)分析(Realtime Analytics):不可變的過去,只追加的未來(Immutable Past,Append-Only Future)。

1 快速查詢(Fast Query)

對于數(shù)據(jù)分析場景,大部分情況下,我們只關(guān)心一定粒度聚合的數(shù)據(jù),而非每一行原始數(shù)據(jù)的細(xì)節(jié)情況。因此,數(shù)據(jù)聚合粒度可以是1 分鐘、5 分鐘、1 小時(shí)或1 天等。部分?jǐn)?shù)據(jù)聚合(Partial Aggregate)給Druid 爭取了很大的性能優(yōu)化空間。
數(shù)據(jù)內(nèi)存化也是提高查詢速度的殺手锏。內(nèi)存和硬盤的訪問速度相差近百倍,但內(nèi)存的大小是非常有限的,因此在內(nèi)存使用方面要精細(xì)設(shè)計(jì),比如Druid 里面使用了Bitmap 和各種壓縮技術(shù)。
另外,為了支持Drill-Down 某些維度,Druid 維護(hù)了一些倒排索引。這種方式可以加快AND 和OR 等計(jì)算操作。

2 水平擴(kuò)展能力(Horizontal Scalability)

Druid 查詢性能在很大程度上依賴于內(nèi)存的優(yōu)化使用。數(shù)據(jù)可以分布在多個(gè)節(jié)點(diǎn)的內(nèi)存中,因此當(dāng)數(shù)據(jù)增長的時(shí)候,可以通過簡單增加機(jī)器的方式進(jìn)行擴(kuò)容。為了保持平衡,Druid按照時(shí)間范圍把聚合數(shù)據(jù)進(jìn)行分區(qū)處理。對于高基數(shù)的維度,只按照時(shí)間切分有時(shí)候是不夠的(Druid 的每個(gè)Segment 不超過2000 萬行),故Druid 還支持對Segment 進(jìn)一步分區(qū)。
歷史Segment 數(shù)據(jù)可以保存在深度存儲系統(tǒng)中,存儲系統(tǒng)可以是本地磁盤、HDFS 或遠(yuǎn)程的云服務(wù)。如果某些節(jié)點(diǎn)出現(xiàn)故障,則可借助Zookeeper 協(xié)調(diào)其他節(jié)點(diǎn)重新構(gòu)造數(shù)據(jù)。
Druid 的查詢模塊能夠感知和處理集群的狀態(tài)變化,查詢總是在有效的集群架構(gòu)中進(jìn)行。集群上的查詢可以進(jìn)行靈活的水平擴(kuò)展。Druid 內(nèi)置提供了一些容易并行化的聚合操作,例如Count、Mean、Variance 和其他查詢統(tǒng)計(jì)。對于一些無法并行化的操作,例如Median,Druid暫時(shí)不提供支持。在支持直方圖(Histogram)方面,Druid 也是通過一些近似計(jì)算的方法進(jìn)行支持,以保證Druid 整體的查詢性能,這些近似計(jì)算方法還包括HyperLoglog、DataSketches的一些基數(shù)計(jì)算。

3 實(shí)時(shí)分析(Realtime Analytics)

Druid 提供了包含基于時(shí)間維度數(shù)據(jù)的存儲服務(wù),并且任何一行數(shù)據(jù)都是歷史真實(shí)發(fā)生的事件,因此在設(shè)計(jì)之初就約定事件一但進(jìn)入系統(tǒng),就不能再改變。
對于歷史數(shù)據(jù)Druid 以Segment 數(shù)據(jù)文件的方式組織,并且將它們存儲到深度存儲系統(tǒng)中,例如文件系統(tǒng)或亞馬遜的S3 等。當(dāng)需要查詢這些數(shù)據(jù)的時(shí)候,Druid 再從深度存儲系統(tǒng)中將它們裝載到內(nèi)存供查詢使用。

Druid 的技術(shù)特點(diǎn)

Druid 具有如下技術(shù)特點(diǎn)。
數(shù)據(jù)吞吐量大。
支持流式數(shù)據(jù)攝入和實(shí)時(shí)。
查詢靈活且快。
社區(qū)支持力度大。

1 數(shù)據(jù)吞吐量大

很多公司選擇Druid 作為分析平臺,都是看中Druid 的數(shù)據(jù)吞吐能力。每天處理幾十億到幾百億的事件,對于Druid 來說是非常適合的場景,目前已被大量互聯(lián)網(wǎng)公司實(shí)踐。因此,很多公司選型Druid 是為了解決數(shù)據(jù)爆炸的問題。

2 支持流式數(shù)據(jù)攝入

很多數(shù)據(jù)分析軟件在吞吐量和流式能力上做了很多平衡,比如Hadoop 更加青睞批量處理,而Storm 則是一個(gè)流式計(jì)算平臺,真正在分析平臺層面上直接對接各種流式數(shù)據(jù)源的系統(tǒng)并不多。

3 查詢靈活且快

數(shù)據(jù)分析師的想法經(jīng)常是天馬行空,希望從不同的角度去分析數(shù)據(jù),為了解決這個(gè)問題,OLAP 的Star Schema 實(shí)際上就定義了一個(gè)很好的空間,讓數(shù)據(jù)分析師自由探索數(shù)據(jù)。數(shù)據(jù)量小的時(shí)候,一切安好,但是數(shù)據(jù)量變大后,不能秒級返回結(jié)果的分析系統(tǒng)都是被詬病的對象。因此,Druid 支持在任何維度組合上進(jìn)行查詢,訪問速度極快,成為分析平臺最重要的兩個(gè)殺手锏。

4 社區(qū)支持力度大

Druid 開源后,受到不少互聯(lián)網(wǎng)公司的青睞,包括雅虎、eBay、阿里巴巴等,其中雅虎的Committer 有5 個(gè),谷歌有1 個(gè),阿里巴巴有1 個(gè)。最近,MetaMarkets 之前幾個(gè)Druid 發(fā)明人也成立了一家叫作Imply.io 的新公司,推動Druid 生態(tài)的發(fā)展,致力于Druid 的繁榮和應(yīng)用。

Druid 的應(yīng)用場景

從技術(shù)定位上看,Druid 是一個(gè)分布式的數(shù)據(jù)分析平臺,在功能上也非常像傳統(tǒng)的OLAP系統(tǒng),但是在實(shí)現(xiàn)方式上做了很多聚焦和取舍,為了支持更大的數(shù)據(jù)量、更靈活的分布式部署、更實(shí)時(shí)的數(shù)據(jù)攝入,Druid 舍去了OLAP 查詢中比較復(fù)雜的操作,例如JOIN 等。相比傳統(tǒng)數(shù)據(jù)庫,Druid 是一種時(shí)序數(shù)據(jù)庫,按照一定的時(shí)間粒度對數(shù)據(jù)進(jìn)行聚合,以加快分析查詢。
在應(yīng)用場景上,Druid 從廣告數(shù)據(jù)分析平臺起家,已經(jīng)廣泛應(yīng)用在各個(gè)行業(yè)和很多互聯(lián)網(wǎng)公司中,最新列表可以訪問http://druid.io/druidpowered.html。

Druid 的生態(tài)系統(tǒng)正在不斷擴(kuò)大和成熟,Druid 也正在解決越來越多的業(yè)務(wù)場景。希望《Druid實(shí)時(shí)大數(shù)據(jù)分析原理與實(shí)踐》一書能幫助技術(shù)人員做出更好的技術(shù)選型,深度了解Druid 的功能和原理,更好地解決大數(shù)據(jù)分析問題。
各大電商網(wǎng)站火熱預(yù)售中!
本文選自《Druid實(shí)時(shí)大數(shù)據(jù)分析原理與實(shí)踐》,點(diǎn)此鏈接可在博文視點(diǎn)官網(wǎng)查看此書。
快速了解Druid——實(shí)時(shí)大數(shù)據(jù)分析軟件

想及時(shí)獲得更多精彩文章,可在微信中搜索“博文視點(diǎn)”或者掃描下方二維碼并關(guān)注。
快速了解Druid——實(shí)時(shí)大數(shù)據(jù)分析軟件

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

當(dāng)前標(biāo)題:快速了解Druid——實(shí)時(shí)大數(shù)據(jù)分析軟件-創(chuàng)新互聯(lián)
網(wǎng)頁路徑:http://www.rwnh.cn/article26/ccesjg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供自適應(yīng)網(wǎng)站、營銷型網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、微信公眾號網(wǎng)站收錄、網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)公司
安庆市| 沙田区| 宣化县| 剑河县| 抚州市| 肇源县| 喜德县| 密山市| 遂平县| 驻马店市| 临漳县| 项城市| 万安县| 衡阳县| 塘沽区| 正安县| 同仁县| 五河县| 井陉县| 大方县| 长治市| 临桂县| 二连浩特市| 策勒县| 平顶山市| 鸡东县| 麟游县| 分宜县| 太保市| 峨边| 平阴县| 隆德县| 汽车| 襄垣县| 白水县| 丹阳市| 综艺| 玉溪市| 左云县| 苏尼特左旗| 吴堡县|