世界上90%的數(shù)據(jù)都是過去幾年里產(chǎn)生的,你可能已經(jīng)熟知這個統(tǒng)計了。這是真的。我能找到的關(guān)于這個表述的最早的陳述之一可以追溯到2013年五月,但這個趨勢一直顯著地持續(xù)著。確實,過去三個世紀以來每兩年世界上數(shù)據(jù)的總量便會提高到十倍——這個比率甚至使得發(fā)現(xiàn)處理器性能加倍的摩爾定律都相形見絀。
創(chuàng)新互聯(lián)是一家專業(yè)提供峨山縣企業(yè)網(wǎng)站建設(shè),專注與網(wǎng)站制作、網(wǎng)站建設(shè)、HTML5建站、小程序制作等業(yè)務(wù)。10年已為峨山縣眾多企業(yè)、政府機構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站設(shè)計公司優(yōu)惠進行中。這樣一個信息增長比率所帶來的問題之一是現(xiàn)在這個時刻的數(shù)據(jù)總是比才過去不久的要出現(xiàn)得大得多。想想一下回顧一本描繪你人生前八年的一本相冊,從出生到成年。假設(shè)你有你人生頭兩年的兩張照片。假定在匹配現(xiàn)在這樣一個信息增長比率下,你將會擁有印象深刻的2000張六歲到八歲的照片;20萬張十歲到十二歲的;以及驚人的兩億張十六歲到十八歲的照片。也就是說在最后兩年里每一秒種便會有不只三張照片產(chǎn)生。
“當(dāng)你想尋求更長遠的視角而開始回顧過去時,你會發(fā)現(xiàn)現(xiàn)在的東西太多而過去的東西又太少。”
當(dāng)然,這并不是全球數(shù)據(jù)的一個完美的類比。一開始,世界上許多數(shù)據(jù)的增長都是因為更多的人參與創(chuàng)造出了更多的信息資源以及更龐大更細致的格式。但是關(guān)于均衡性的觀點是有根據(jù)的。如果你打算回顧像上面一樣的記錄的話或者嘗試著分析它,你將發(fā)覺離現(xiàn)在越近的東西越會變得毫無意義。記錄這么多次有用的信息卻更少,為什么會這樣呢?
這就是現(xiàn)今如此多大數(shù)據(jù)被收集與分析所帶來的問題。當(dāng)你想尋求更長遠的視角而開始回顧過去時,你會發(fā)現(xiàn)現(xiàn)在的東西太多而過去的東西又太少。目光短淺深深地植入在高估以歷史為代價的短期趨勢的強大的結(jié)構(gòu)傾向中。
大數(shù)據(jù)所帶來的問題之一是現(xiàn)在這個時刻的數(shù)據(jù)總是比才過去不久的要出現(xiàn)得大得多。(來源:iStock)
為了理解這個的重要性,思考一下社會科學(xué)關(guān)于近因效應(yīng)的發(fā)現(xiàn),它描述了人們假設(shè)未來的事件將類似于最近的經(jīng)歷的傾向。這也是我們熟知的“可具有性”啟發(fā)式的另一種說法:依據(jù)任何最容易想到的東西進行思考的傾向。這也是一種普遍的心理屬性。如果在過去的幾年里在你住的地方你已經(jīng)見證了異常寒冷的夏天,比如,你可能被引導(dǎo)著說出夏天越來越冷了——或者你們當(dāng)?shù)氐臍夂蚩赡茉谧兝?。實際上你不應(yīng)該把你讀到的任何東西讀入數(shù)據(jù)。你需要運用更長遠的眼光去了解關(guān)于氣候變化趨勢的有意義的東西。在短期內(nèi),你最好不要隨意推測——但我們中有誰能夠真的做到呢?
“短期的分析不只是無效的——它們經(jīng)常是無用的甚至誤導(dǎo)人的”
現(xiàn)實生活中多數(shù)復(fù)雜現(xiàn)象經(jīng)常也是這樣的:如股票市場、經(jīng)濟、公司興衰、戰(zhàn)陣與和平、人際關(guān)系以及王朝更迭。短期的分析不單單是無效的——它們經(jīng)常是無用甚至誤導(dǎo)人的。瞧瞧眾多經(jīng)濟學(xué)家排著隊宣布像2009年金融危機這樣的事件是不可能發(fā)生的,直到它真的發(fā)生了。在那種程度上可以做到有效預(yù)測的那種概念本身就是問題的一部分。
值得一提的是在決定數(shù)據(jù)去留時新奇經(jīng)常是主要的考慮因素。推陳出新:在這個數(shù)字趨勢的世界上,搜索算法本質(zhì)上偏向于新鮮事物,所謂的超鏈停用從最高法院決定到整個社會媒體服務(wù)業(yè)等各方面十分猖獗。對于當(dāng)下的偏向從結(jié)構(gòu)上在我們周邊的所有科技中已經(jīng)根深蒂固,尤其要歸因于我們大約五年后丟棄我們大多數(shù)一度繁榮的機器的喜好。
該怎么做?這不只是一個更擅長保存舊數(shù)據(jù)的問題——盡管這不能說是個壞主意,考慮到我們對現(xiàn)在于過去的幾十年而不是過去幾年的保存多無能為力。更重要的是,決定哪些數(shù)據(jù)是在第一時間值得保存的——并且以知識的名義有意義地剔除信息意味著什么。
我們需要更擅長于決定哪些數(shù)據(jù)值得在第一時間保存的。(來源:iStock)
我們需要的是一種我喜歡稱為“選擇性遺忘”的能力:訓(xùn)練我們的工具更擅長于放下剛剛過去的東西以保持眼光上的連續(xù)性。這是一種類似治療的方式助我們合理安排相冊——盡管需要更多的數(shù)學(xué)。什么情況下兩百萬張照片不如兩千張有價值呢?當(dāng)樣本比較多涉及領(lǐng)域卻比較少的時候;當(dāng)可以提出的問題不那么重要的時候;當(dāng)提供的細節(jié)的級別只是逐步灌輸懷疑和只有盲目的自信的時候。
有許多的數(shù)據(jù)集是不能復(fù)原的,當(dāng)完成的時候價值是極大的:基因序列;人口數(shù)據(jù);地理和物理學(xué)的困難知識。然而,若科學(xué)越不嚴謹,規(guī)模就越可能與質(zhì)量成反比—更重要的是時間本身就是一個過濾器。我們要么仔細選擇忍受什么,有哪些是重要的,還有要帶著有意義的心態(tài)去捕捉我們后退的過去,要么它的印記被現(xiàn)在不斷增加的噪音所替代。
時間的削弱是有多方面的,因為在它仍然是一個限制因素里面有一個至關(guān)重要的意義:人的時間和注意力的可用性。企業(yè),個人和政府都有相當(dāng)多的信息,與他們幾年前相比。然而,在白天的日子里他們沒有任何可用的關(guān)注,董事會成員,首席執(zhí)行官,民選官員或者幾個小時的時間。越來越好的工具的存在幫助決策者對他們所擁有的信息提出有意義的問題-制造者對他們擁有的信息提出有意義的問題-但你只能分析可企及的問題。單純地積累不是一種答案。在一個越來越大的數(shù)據(jù)時代,你選擇不知道的事情和你所做的一樣重要。
分享題目:BBC:大數(shù)據(jù)帶來的弊???近因效應(yīng)
鏈接URL:http://www.rwnh.cn/article10/sdcpgo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動態(tài)網(wǎng)站、網(wǎng)站導(dǎo)航、云服務(wù)器、網(wǎng)站制作、網(wǎng)站建設(shè)、定制網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)