大數(shù)據(jù)性能估算方法是什么,相信很多沒有經(jīng)驗(yàn)的人對(duì)此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個(gè)問題。
專注于為中小企業(yè)提供成都網(wǎng)站制作、網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)阿爾山免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了成百上千家企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。
大數(shù)據(jù)的性能是個(gè)永恒的話題。不過,在實(shí)際工作中我們發(fā)現(xiàn),許多人都不知道如何進(jìn)行最簡(jiǎn)單的性能估算,結(jié)果經(jīng)常被大數(shù)據(jù)廠商忽悠:)。
其實(shí)很簡(jiǎn)單,就是算一下這些數(shù)據(jù)從硬盤上取出來用的時(shí)間。除了個(gè)別按索引取數(shù)的運(yùn)算外,絕大多數(shù)運(yùn)算都會(huì)涉及對(duì)數(shù)據(jù)的整體遍歷,比如分組匯總統(tǒng)計(jì)、按條件查詢(非索引字段);那么,這些運(yùn)算耗用的時(shí)間,無論如何不可能小于硬盤訪問的時(shí)間,我們就能算出一個(gè)理論上的極限值。
比如,有人宣稱實(shí)現(xiàn)10T數(shù)據(jù)的OLAP匯總只需要3秒。那么這意味著什么呢?
常見的15000轉(zhuǎn)硬盤,在操作系統(tǒng)下的訪問速度也就不到200M/秒,SSD會(huì)快一些,但也沒數(shù)量級(jí)的提升,大概3秒讀1G的樣子。這樣,從單塊硬盤中讀出10T數(shù)據(jù)就需要30000秒以上,如果想在3秒內(nèi)完成匯總,那就需要1萬塊硬盤!作為用戶,你是否做了這個(gè)準(zhǔn)備呢?
當(dāng)然,硬盤及硬盤在不同環(huán)境下的速度不盡相同,可能更快或更慢,但總之都可以用這個(gè)簡(jiǎn)單的辦法去估算。不知道自家硬盤的速度?那弄個(gè)大文件讀一下試試就知道了,拿到實(shí)驗(yàn)數(shù)據(jù)再去計(jì)算會(huì)更準(zhǔn)確。要強(qiáng)調(diào)的是,不能簡(jiǎn)單地看硬盤廠商標(biāo)稱的性能指標(biāo),在文件系統(tǒng)下,那個(gè)理想值常常連一半都達(dá)不到,還是實(shí)測(cè)的最可靠。
這樣,我們就能知道某個(gè)大數(shù)據(jù)問題最理想的情況能夠達(dá)到什么性能,比這個(gè)指標(biāo)還好的期望,在用于估算指標(biāo)的硬件條件下都是不可能實(shí)現(xiàn)的,沒有必要再去琢磨軟件產(chǎn)品和技術(shù)方案了。
這種估算也指明了一個(gè)優(yōu)化方向,就是減少存儲(chǔ)量和訪問量。
減少存儲(chǔ)量當(dāng)然不能減少數(shù)據(jù)本身,用于計(jì)算的數(shù)據(jù)一條也不能少,否則就出現(xiàn)錯(cuò)誤結(jié)果。減少存儲(chǔ)量要靠數(shù)據(jù)壓縮的手段。10T的原始數(shù)據(jù),如果有好的壓縮手段,實(shí)際在硬盤上存儲(chǔ)下來可能只有1T甚至更少,這時(shí)候3秒?yún)R總這些數(shù)據(jù)就不再需要1萬塊硬盤了。
在存儲(chǔ)量不能再減少的情況下,還有些軟件手段來減少訪問量,常用的方法就是列存。一個(gè)數(shù)據(jù)表有100列占了10T,如果只訪問三列進(jìn)行匯總,那大概只需要訪問300G數(shù)據(jù),這時(shí)候3秒完成匯總當(dāng)然也不需要1萬塊硬盤了。
不過,大數(shù)據(jù)廠商在宣稱10T、3秒這種性能指標(biāo)時(shí),一般不會(huì)明確指出采用壓縮或列存技術(shù)后存儲(chǔ)量和訪問量能降到多少。這就容易給用戶造成錯(cuò)覺,以為這個(gè)技術(shù)能夠通用地解決大數(shù)據(jù)問題,而經(jīng)常,有些數(shù)據(jù)的壓縮率無法做得很高,對(duì)于訪問列較多的運(yùn)算列存也沒啥優(yōu)勢(shì)。
要更準(zhǔn)確地估算性能極限,也要考慮減少存儲(chǔ)量和訪問量的手段。嘗試一下自己的數(shù)據(jù)能有多大的壓縮率(用常規(guī)的zip軟件就可以),并且檢查運(yùn)算是否是從很多列中取出很少列的情況。
看完上述內(nèi)容,你們掌握大數(shù)據(jù)性能估算方法是什么的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!
名稱欄目:大數(shù)據(jù)性能估算方法是什么
URL分享:http://www.rwnh.cn/article34/jijgpe.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化、云服務(wù)器、App設(shè)計(jì)、網(wǎng)站排名、Google、建站公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)