2021-02-01 分類: 網(wǎng)站建設(shè)
大數(shù)據(jù)聽著很牛,實際上也很牛嗎?
就是收集很多用戶數(shù)據(jù),用機(jī)器進(jìn)行處理嘛,干嘛整天吵得這么high。傳統(tǒng)行業(yè)的數(shù)據(jù),收集和分析慢,互聯(lián)網(wǎng)時代特別是移動互聯(lián)網(wǎng)時代,數(shù)據(jù)收集和分析都變得更快更智能,僅此而已吧。
真的是這樣嗎?今天創(chuàng)新互聯(lián)來看看兩位業(yè)內(nèi)人士的深入分析。
01
大數(shù)據(jù)的商業(yè)價值
大數(shù)據(jù)是近年來新出熱門詞匯,人們對于大數(shù)據(jù)的理解還不夠全面,甚至存在一些誤區(qū),認(rèn)為數(shù)據(jù)量大就是大數(shù)據(jù),或者認(rèn)為里面數(shù)字大也是大數(shù)據(jù),實際上這些只屬于統(tǒng)計的范疇,和大數(shù)據(jù)是沒有關(guān)系的。
所謂大數(shù)據(jù),其實是有兩部分組成的。一部分是海量運算存儲能力,一部分是數(shù)據(jù)建模算法。
認(rèn)為大數(shù)據(jù)是更快更智能的處理技術(shù)的人,只是認(rèn)識到了大數(shù)據(jù)海量運算儲存能力,而這部分只是量變,卻沒有認(rèn)識到質(zhì)變。
如果針對消費者市場,大數(shù)據(jù)的目標(biāo)是對每個消費者有清楚的認(rèn)知和跟蹤。
你的年齡、身高、家庭背景、收入水平、信用水平等等這些表面的客觀的信息自不必說,你此刻在哪里、喜歡什么顏色、喜歡什么風(fēng)格、想要什么東西,都能夠收集分析出來。之后便會在你正在看的視頻網(wǎng)站、正刷的APP,所有這些界面上呈現(xiàn)信息,引導(dǎo)你關(guān)注。
隨著這項技術(shù)的進(jìn)步,甚至可以提前預(yù)知你想要購買的東西,提前一步給你送達(dá)。可以想象一下,你想買一個東西下單二十分鐘就到你家門口了,因為早就預(yù)測到你什么時候想要什么了,所以幾天前預(yù)測到就提前發(fā)貨到你小區(qū)的提貨點了。
這樣的精準(zhǔn)的服務(wù),以后對消費者而言當(dāng)然是習(xí)慣了就不再記得它有多偉大。就像過去的工業(yè)革命,只有經(jīng)歷那個時代的當(dāng)事人那個時代的締造者們才會對那些創(chuàng)造充滿激情,而我們對隨手可得的電和各種電器還會有什么驚喜嗎?
傳統(tǒng)的數(shù)據(jù)行業(yè),一沒有足夠強(qiáng)的數(shù)據(jù)獲取能力,二沒有足夠強(qiáng)的數(shù)據(jù)加工能力。包括以前靠預(yù)測總統(tǒng)大選起家的那家公司,他們的采樣是局限的,比如寄調(diào)查問卷,調(diào)查問卷這種采樣是難以重現(xiàn)真實的,且基于傳統(tǒng)的小樣本統(tǒng)計方法。另外,數(shù)據(jù)處理能力也很有限。
與之相反,大數(shù)據(jù)的采樣是無法說謊的,你點擊、瀏覽、地理信息等等這一切行為都在眼皮底下發(fā)生。這是大數(shù)據(jù)的第一個“大”,維度大。
同時,數(shù)據(jù)采樣是覆蓋幾億人口全天候的。這是大數(shù)據(jù)的第二個“大”,數(shù)量大。相對傳統(tǒng)的抽樣小樣本集而言,大數(shù)據(jù)可以稱之為全樣本。正是這兩個“大”,就能夠帶來數(shù)據(jù)的質(zhì)變。
再看數(shù)據(jù)加工。傳統(tǒng)的加工,恐怕多數(shù)人靠Excel吧!我們采一天的數(shù)據(jù)就能撐爆幾萬臺你們家里的電腦硬盤。至于計算,可以想像一下,對這個數(shù)量級的數(shù)據(jù)矩陣做個最簡單的矩陣分解要怎么實現(xiàn)。這是機(jī)器的能力。
人的方面,現(xiàn)在很多傳統(tǒng)的搞這些的統(tǒng)計方向的人經(jīng)常會說,“唉,現(xiàn)在都搞算法去了”。沒錯,算法就是人與機(jī)器協(xié)作的溝通方式,只有和機(jī)器深度合作,才能得到更高的生產(chǎn)力。
這一切,在消費者的眼里,也許也不是那么的了不起,不就是一下單馬上就到嘛,不就是各種方便嘛,怎樣還不是一樣的活。但是這對商業(yè)而言卻是驚天動地的。
過去你賣衣服的,你的周轉(zhuǎn)庫存和滯銷庫存恐怕吃掉了你一半的利潤都不止;一旦有了大數(shù)據(jù)支撐,你的庫存幾乎可以忽略了。過去你搞設(shè)計的,你耗盡心力設(shè)計出來的作品很可能在市場上得不到認(rèn)可;有了這個精準(zhǔn)大殺器,消費者的數(shù)據(jù)會告訴你他們要什么,你設(shè)計師錦上添花就好,真正的設(shè)計者其實是消費者自己。
過去你搞營銷的,投入一大筆錢搞個營銷方案,結(jié)果收效甚微;一旦有了這個精準(zhǔn)大殺器,營銷的投入風(fēng)險就低多了。
大數(shù)據(jù)帶來的精準(zhǔn)對商業(yè)的影響是方方面面的。這是新時代對舊時代的淘汰。除了商業(yè),還有大量別的用處,都將深刻地改變世界。比如個人征信、醫(yī)療行業(yè)、能源行業(yè)、公路交通等等。太多太多,這些都會深刻地改變世界的運作方式
02
技術(shù)角度分析大數(shù)據(jù)
我有20個整數(shù),一把全裝進(jìn)內(nèi)存,調(diào)用個sort,完事了。
我有2GB那么多的整數(shù),一把全裝進(jìn)內(nèi)存……恩恩,如果機(jī)器不那么破,勉強(qiáng)也完事吧。
我有20GB那么多的整數(shù),對,往你家PC里多插幾條8GB的內(nèi)存條試試?
那我現(xiàn)在有200GB那么多的整數(shù)……看你丫的怎么裝內(nèi)存,哈哈哈哈哈哈!
嚇尿了吧???寫外排序?你寫??!It's ONLY the beginning!很多人可是連內(nèi)存里的快排都寫不出的哦~
200GB算個啥大數(shù)據(jù)啊,蒼老師的合集都不止咳咳……
OK,顯然我們已經(jīng)意識到1臺機(jī)器裝不下了。咋辦?多找?guī)着_機(jī)器唄。多找?guī)着_機(jī)器意味著啥???分布式計算懂不懂,連分布式都不懂說個毛大數(shù)據(jù)啊?。。?/p>
好,現(xiàn)在有200GB的整數(shù),排個序吧……呃,給你10臺機(jī)器吧。
1)這200GB的整數(shù),如何分配?
2)這10臺機(jī)器之間如何通訊?沒錯,我不止坑了你去寫外排序,我還得坑你去玩網(wǎng)絡(luò)編程。
3)假設(shè)每一臺機(jī)器上的數(shù)據(jù)都已經(jīng)完全排好,如何多快好省地把各自排序好的結(jié)果merge在一起?
4)如何設(shè)計有效的merge邏輯減少10臺機(jī)器之間的網(wǎng)絡(luò)IO。
5)別以為10臺機(jī)器不需要維護(hù),萬一在排序的時候其中一臺機(jī)器掛了,怎么辦?具體包括但不限于:他在掛之前有響應(yīng)其他機(jī)器發(fā)給他的request嗎?他在掛之前自身的任務(wù)完成了多少了?假設(shè)這臺機(jī)器在掛的時候正在跟隔壁的機(jī)器互相傳輸數(shù)據(jù)腫么辦?
6)誰去監(jiān)聽這10臺機(jī)器的健康?或者是其他機(jī)器怎么知道某臺機(jī)器掛了?如果是連接超時,怎么知道是網(wǎng)絡(luò)阻塞還是目標(biāo)機(jī)真的掛了?
7)如果某臺機(jī)器真的掛了無法恢復(fù),又或者由于隔壁的黃大牛要打魔獸了劫走了一臺(集群升級,集群中的節(jié)點被臨時撤走的事常有哦),如何把那臺機(jī)器上那20GB的數(shù)據(jù)分給其余的9臺?
如果數(shù)據(jù)不是200GB,而是2TB,2PB……
1)這么大的數(shù)據(jù),這么大的集群,同一時間掛掉的機(jī)器數(shù)量可能會很多。如果這個集群用來做存儲(例如百度云),怎么保證用戶的數(shù)據(jù)不丟失?
2)如果這個集群用來做離線計算,怎么設(shè)計調(diào)度程序提高每臺機(jī)器的資源利用率,減少集群內(nèi)的網(wǎng)絡(luò)IO和盡可能地提高每臺機(jī)器的響應(yīng)速度?
3)我希望集群是可擴(kuò)展的,最好架構(gòu)能支持我只要簡單地增加機(jī)器數(shù)目就能擴(kuò)充集群的計算和存儲能力,這個架構(gòu)要怎么設(shè)計?
建議題主有空去了解下mapreduce,hadoop,yarn,mpi,vfs等等內(nèi)容。
“傳統(tǒng)行業(yè)的數(shù)據(jù),收集和分析慢,互聯(lián)網(wǎng)時代特別是移動互聯(lián)網(wǎng)時代,數(shù)據(jù)收集和分析都變得更快更智能,僅此而已吧?!?/p>
只所以題主會這么說,是因為題主作為局外人,能看到的就只有這些表面的最直觀的現(xiàn)象。一句簡單的“數(shù)據(jù)分析變得智能了更快了”的背后,實際上是無數(shù)人付出的勤奮、創(chuàng)造力、勇敢還有艱辛!
馬云爸爸說,未來是DT時代,大數(shù)據(jù)是最重要的資產(chǎn)。
未來三至五年,中國需要180萬數(shù)據(jù)人才,但目前只有約30萬人。到2020年,企業(yè)基于大數(shù)據(jù)計算分析存儲、數(shù)據(jù)挖掘、數(shù)據(jù)分析等數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,我國需要更多的數(shù)據(jù)人才。
本文標(biāo)題:大數(shù)據(jù)技術(shù)真的很牛嗎?大數(shù)據(jù)到底值錢在什么地方?
標(biāo)題鏈接:http://www.rwnh.cn/news1/98651.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、域名注冊、微信公眾號、軟件開發(fā)、關(guān)鍵詞優(yōu)化、品牌網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容