中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

大數(shù)據(jù)技術(shù)真的很牛嗎?大數(shù)據(jù)到底值錢在什么地方?

2021-02-01    分類: 網(wǎng)站建設(shè)

大數(shù)據(jù)聽著很牛,實際上也很牛嗎?

就是收集很多用戶數(shù)據(jù),用機器進行處理嘛,干嘛整天吵得這么high。傳統(tǒng)行業(yè)的數(shù)據(jù),收集和分析慢,互聯(lián)網(wǎng)時代特別是移動互聯(lián)網(wǎng)時代,數(shù)據(jù)收集和分析都變得更快更智能,僅此而已吧。

真的是這樣嗎?今天創(chuàng)新互聯(lián)來看看兩位業(yè)內(nèi)人士的深入分析。


01

大數(shù)據(jù)的商業(yè)價值


大數(shù)據(jù)是近年來新出熱門詞匯,人們對于大數(shù)據(jù)的理解還不夠全面,甚至存在一些誤區(qū),認為數(shù)據(jù)量大就是大數(shù)據(jù),或者認為里面數(shù)字大也是大數(shù)據(jù),實際上這些只屬于統(tǒng)計的范疇,和大數(shù)據(jù)是沒有關(guān)系的。

所謂大數(shù)據(jù),其實是有兩部分組成的。一部分是海量運算存儲能力,一部分是數(shù)據(jù)建模算法。

認為大數(shù)據(jù)是更快更智能的處理技術(shù)的人,只是認識到了大數(shù)據(jù)海量運算儲存能力,而這部分只是量變,卻沒有認識到質(zhì)變。

如果針對消費者市場,大數(shù)據(jù)的目標是對每個消費者有清楚的認知和跟蹤。

你的年齡、身高、家庭背景、收入水平、信用水平等等這些表面的客觀的信息自不必說,你此刻在哪里、喜歡什么顏色、喜歡什么風格、想要什么東西,都能夠收集分析出來。之后便會在你正在看的視頻網(wǎng)站、正刷的APP,所有這些界面上呈現(xiàn)信息,引導你關(guān)注。

隨著這項技術(shù)的進步,甚至可以提前預知你想要購買的東西,提前一步給你送達。可以想象一下,你想買一個東西下單二十分鐘就到你家門口了,因為早就預測到你什么時候想要什么了,所以幾天前預測到就提前發(fā)貨到你小區(qū)的提貨點了。

這樣的精準的服務(wù),以后對消費者而言當然是習慣了就不再記得它有多偉大。就像過去的工業(yè)革命,只有經(jīng)歷那個時代的當事人那個時代的締造者們才會對那些創(chuàng)造充滿激情,而我們對隨手可得的電和各種電器還會有什么驚喜嗎?

傳統(tǒng)的數(shù)據(jù)行業(yè),一沒有足夠強的數(shù)據(jù)獲取能力,二沒有足夠強的數(shù)據(jù)加工能力。包括以前靠預測總統(tǒng)大選起家的那家公司,他們的采樣是局限的,比如寄調(diào)查問卷,調(diào)查問卷這種采樣是難以重現(xiàn)真實的,且基于傳統(tǒng)的小樣本統(tǒng)計方法。另外,數(shù)據(jù)處理能力也很有限。

與之相反,大數(shù)據(jù)的采樣是無法說謊的,你點擊、瀏覽、地理信息等等這一切行為都在眼皮底下發(fā)生。這是大數(shù)據(jù)的第一個“大”,維度大。

同時,數(shù)據(jù)采樣是覆蓋幾億人口全天候的。這是大數(shù)據(jù)的第二個“大”,數(shù)量大。相對傳統(tǒng)的抽樣小樣本集而言,大數(shù)據(jù)可以稱之為全樣本。正是這兩個“大”,就能夠帶來數(shù)據(jù)的質(zhì)變。

再看數(shù)據(jù)加工。傳統(tǒng)的加工,恐怕多數(shù)人靠Excel吧!我們采一天的數(shù)據(jù)就能撐爆幾萬臺你們家里的電腦硬盤。至于計算,可以想像一下,對這個數(shù)量級的數(shù)據(jù)矩陣做個最簡單的矩陣分解要怎么實現(xiàn)。這是機器的能力。

人的方面,現(xiàn)在很多傳統(tǒng)的搞這些的統(tǒng)計方向的人經(jīng)常會說,“唉,現(xiàn)在都搞算法去了”。沒錯,算法就是人與機器協(xié)作的溝通方式,只有和機器深度合作,才能得到更高的生產(chǎn)力。

這一切,在消費者的眼里,也許也不是那么的了不起,不就是一下單馬上就到嘛,不就是各種方便嘛,怎樣還不是一樣的活。但是這對商業(yè)而言卻是驚天動地的。

過去你賣衣服的,你的周轉(zhuǎn)庫存和滯銷庫存恐怕吃掉了你一半的利潤都不止;一旦有了大數(shù)據(jù)支撐,你的庫存幾乎可以忽略了。過去你搞設(shè)計的,你耗盡心力設(shè)計出來的作品很可能在市場上得不到認可;有了這個精準大殺器,消費者的數(shù)據(jù)會告訴你他們要什么,你設(shè)計師錦上添花就好,真正的設(shè)計者其實是消費者自己。

過去你搞營銷的,投入一大筆錢搞個營銷方案,結(jié)果收效甚微;一旦有了這個精準大殺器,營銷的投入風險就低多了。

大數(shù)據(jù)帶來的精準對商業(yè)的影響是方方面面的。這是新時代對舊時代的淘汰。除了商業(yè),還有大量別的用處,都將深刻地改變世界。比如個人征信、醫(yī)療行業(yè)、能源行業(yè)、公路交通等等。太多太多,這些都會深刻地改變世界的運作方式


02

技術(shù)角度分析大數(shù)據(jù)


我有20個整數(shù),一把全裝進內(nèi)存,調(diào)用個sort,完事了。

我有2GB那么多的整數(shù),一把全裝進內(nèi)存……恩恩,如果機器不那么破,勉強也完事吧。

我有20GB那么多的整數(shù),對,往你家PC里多插幾條8GB的內(nèi)存條試試?

那我現(xiàn)在有200GB那么多的整數(shù)……看你丫的怎么裝內(nèi)存,哈哈哈哈哈哈!

嚇尿了吧???寫外排序?你寫?。t's ONLY the beginning!很多人可是連內(nèi)存里的快排都寫不出的哦~

200GB算個啥大數(shù)據(jù)啊,蒼老師的合集都不止咳咳……

OK,顯然我們已經(jīng)意識到1臺機器裝不下了。咋辦?多找?guī)着_機器唄。多找?guī)着_機器意味著啥???分布式計算懂不懂,連分布式都不懂說個毛大數(shù)據(jù)啊?。?!

好,現(xiàn)在有200GB的整數(shù),排個序吧……呃,給你10臺機器吧。

1)這200GB的整數(shù),如何分配?

2)這10臺機器之間如何通訊?沒錯,我不止坑了你去寫外排序,我還得坑你去玩網(wǎng)絡(luò)編程。

3)假設(shè)每一臺機器上的數(shù)據(jù)都已經(jīng)完全排好,如何多快好省地把各自排序好的結(jié)果merge在一起?

4)如何設(shè)計有效的merge邏輯減少10臺機器之間的網(wǎng)絡(luò)IO。

5)別以為10臺機器不需要維護,萬一在排序的時候其中一臺機器掛了,怎么辦?具體包括但不限于:他在掛之前有響應其他機器發(fā)給他的request嗎?他在掛之前自身的任務(wù)完成了多少了?假設(shè)這臺機器在掛的時候正在跟隔壁的機器互相傳輸數(shù)據(jù)腫么辦?

6)誰去監(jiān)聽這10臺機器的健康?或者是其他機器怎么知道某臺機器掛了?如果是連接超時,怎么知道是網(wǎng)絡(luò)阻塞還是目標機真的掛了?

7)如果某臺機器真的掛了無法恢復,又或者由于隔壁的黃大牛要打魔獸了劫走了一臺(集群升級,集群中的節(jié)點被臨時撤走的事常有哦),如何把那臺機器上那20GB的數(shù)據(jù)分給其余的9臺?


如果數(shù)據(jù)不是200GB,而是2TB,2PB……

1)這么大的數(shù)據(jù),這么大的集群,同一時間掛掉的機器數(shù)量可能會很多。如果這個集群用來做存儲(例如百度云),怎么保證用戶的數(shù)據(jù)不丟失?

2)如果這個集群用來做離線計算,怎么設(shè)計調(diào)度程序提高每臺機器的資源利用率,減少集群內(nèi)的網(wǎng)絡(luò)IO和盡可能地提高每臺機器的響應速度?

3)我希望集群是可擴展的,最好架構(gòu)能支持我只要簡單地增加機器數(shù)目就能擴充集群的計算和存儲能力,這個架構(gòu)要怎么設(shè)計?

建議題主有空去了解下mapreduce,hadoop,yarn,mpi,vfs等等內(nèi)容。

“傳統(tǒng)行業(yè)的數(shù)據(jù),收集和分析慢,互聯(lián)網(wǎng)時代特別是移動互聯(lián)網(wǎng)時代,數(shù)據(jù)收集和分析都變得更快更智能,僅此而已吧?!?/p>

只所以題主會這么說,是因為題主作為局外人,能看到的就只有這些表面的最直觀的現(xiàn)象。一句簡單的“數(shù)據(jù)分析變得智能了更快了”的背后,實際上是無數(shù)人付出的勤奮、創(chuàng)造力、勇敢還有艱辛!

馬云爸爸說,未來是DT時代,大數(shù)據(jù)是最重要的資產(chǎn)。

未來三至五年,中國需要180萬數(shù)據(jù)人才,但目前只有約30萬人。到2020年,企業(yè)基于大數(shù)據(jù)計算分析存儲、數(shù)據(jù)挖掘、數(shù)據(jù)分析等數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,我國需要更多的數(shù)據(jù)人才。

文章題目:大數(shù)據(jù)技術(shù)真的很牛嗎?大數(shù)據(jù)到底值錢在什么地方?
URL鏈接:http://www.rwnh.cn/news/98651.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站品牌網(wǎng)站制作、定制開發(fā)、域名注冊、網(wǎng)站改版、商城網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

綿陽服務(wù)器托管
祁东县| 瓦房店市| 合肥市| 介休市| 临朐县| 炉霍县| 库车县| 鄂尔多斯市| 内黄县| 涟源市| 五家渠市| 阜平县| 康马县| 辽宁省| 兴宁市| 阜新| 苍梧县| 老河口市| 疏附县| 东方市| 平昌县| 抚顺市| 望城县| 武山县| 乐昌市| 深圳市| 崇文区| 宜宾县| 光山县| 湖南省| 淮安市| 铁力市| 香格里拉县| 桂林市| 类乌齐县| 保康县| 白朗县| 陵川县| 博乐市| 疏附县| 阿拉善盟|