說到人工智能、深度學習,大家總會第一時間想到算法和模型,再然后就是最根本的、提供動力源的數(shù)據(jù)。由于人工智能技術的飛速進步與廣泛應用,我們對待數(shù)據(jù)的方式已從收集為主轉(zhuǎn)變?yōu)橐垣@取信息為主。
創(chuàng)新互聯(lián)建站專注于企業(yè)營銷型網(wǎng)站、網(wǎng)站重做改版、大石橋網(wǎng)站定制設計、自適應品牌網(wǎng)站建設、H5技術、商城網(wǎng)站開發(fā)、集團公司官網(wǎng)建設、成都外貿(mào)網(wǎng)站制作、高端網(wǎng)站制作、響應式網(wǎng)頁設計等建站業(yè)務,價格優(yōu)惠性價比高,為大石橋等各大城市提供網(wǎng)站開發(fā)制作服務。如果你不把存儲的數(shù)據(jù)轉(zhuǎn)化為可用的信息,那么這些數(shù)據(jù)——狹隘點說——就只是一堆字節(jié)而已。而完成這個轉(zhuǎn)化的過程之前,有時也需要多年時間來收集足夠的數(shù)據(jù),比如醫(yī)學方面新工藝、藥物或設備的試驗;基于不常發(fā)生的外部因素的群體行為;氣候變化。
首先,數(shù)據(jù)保存的重要性無法否認
關于數(shù)據(jù),有一句很拗口的話,你不知道什么是你不知道的。有個很好的例子:“垃圾DNA”。這一術語是20世紀70年代某遺傳學家發(fā)明的,用來表示基因組中95%—98%的不編譯任何蛋白質(zhì)或酶的DNA。當時的生物學家認為,既然幾乎所有具體的生理機能都要蛋白質(zhì)來完成,那么不編碼蛋白質(zhì)的DNA應該是沒有用的,可以稱為“垃圾DNA”。到本世紀初,人們發(fā)現(xiàn)一些垃圾DNA其實調(diào)控著染色體的復制方式和時間。
對于當時的人們來說,存儲數(shù)據(jù)的成本是很高的。當然DNA測序的成本更大,這也是當初人們要保留垃圾DNA數(shù)據(jù)的原因之一。收集數(shù)據(jù)的成本很高,存儲數(shù)據(jù)的成本也很高,正是因此,我們要更加感謝那些在我們之前做出正確事情的人。他們頂著成本壓力儲存了這些舊的數(shù)據(jù),讓我們有機會從中發(fā)現(xiàn)更多信息。
我們知道,一些天氣預報中心每天都會保存所有收集到的數(shù)據(jù),包括其預報模型的輸出。當這些網(wǎng)站有一個新的預測模型時,他們通過新的模型運行舊的數(shù)據(jù),查看模型的輸出和觀察,看看新模型是否比舊模型更好,以及有多好。對于一個城市來說,這個工作似乎很容易,但對整個地球來說,是大量的數(shù)據(jù)和信息比較。
因此,存儲和數(shù)據(jù)架構師面臨的挑戰(zhàn)往往是如何通過開發(fā)滿足性能、可伸縮性和治理需求的架構來保存這些數(shù)據(jù)。
由數(shù)據(jù)收集向信息挖掘的轉(zhuǎn)變
從有數(shù)據(jù)收集開始,其唯一目的就是要使所收集的所有數(shù)據(jù)都有實際意義。手工進行數(shù)據(jù)收集和分析非常耗時,將數(shù)據(jù)轉(zhuǎn)換為信息也既費時又費錢。
信息時代始于1890年美國人口普查時何勒內(nèi)斯打孔卡片的使用,盡管它們是空白的,但與你見過的格式化卡片不同。這里的關鍵問題是,在1890年以前雖然有大量的數(shù)據(jù),但并沒有工具來進行分析,而且將其轉(zhuǎn)化為信息的成本很高。
很明顯,在1890年的人口普查中產(chǎn)生的信息在今天的標準下是非?;A性的。但按照19世紀90年代的標準,卻是革命性的。通過這個辦法,人們能夠非常迅速地查看人口普查的結果并做出決定(例如,基于數(shù)據(jù)的可操作的信息)。
到了今天,我們已經(jīng)不再把1890年人口普查數(shù)據(jù)的表格化稱為信息。信息的定義——與數(shù)據(jù)相比——應該基于當代的標準,同樣的,許多其他領域中的某些定義也在發(fā)生變革。
信息分析市場的規(guī)模和范圍在不斷擴大,從自動駕駛汽車到安全攝像頭分析再到醫(yī)療發(fā)展。在每一個行業(yè),在我們生活的每一個角落,都有快速的變化,并且變化的速度也正在增加。所有這些都是數(shù)據(jù)驅(qū)動的,所有收集的新舊數(shù)據(jù)都被用來開發(fā)新的可用信息類型。圍繞數(shù)據(jù)收集與信息發(fā)展的需求,有很多問題也因此浮現(xiàn)。
除保持數(shù)據(jù)活性外,合規(guī)性同樣重要
許多需求基于你所擁有的信息和數(shù)據(jù)類型。例如,一些可能涉及使用所謂DAR(Data Encryption at Rest,空閑時數(shù)據(jù)加密),它會對存儲設備進行加密,這樣如果從系統(tǒng)中刪除,數(shù)據(jù)幾乎是完全不可能訪問的。(其困難程度取決于加密算法和大小、復雜性等)。我們可以將這種類型的需求歸納為“可操作性需求”,即數(shù)據(jù)在發(fā)揮價值的整個過程中會對架構、設備等產(chǎn)生的硬性需求,以確保滿足業(yè)務運行所需的性能、可用性和數(shù)據(jù)完整性,為保持數(shù)據(jù)和信息的活性,所有這些問題都需要得到解決。
除此之外,你的數(shù)據(jù)或信息也應該基于你所在行業(yè)的最佳實踐或地區(qū)的法規(guī)條例,如最近歐盟出臺的GDPR(通用數(shù)據(jù)保護條例)。也就是說,你對數(shù)據(jù)的使用需要始終保持合規(guī)性。由此產(chǎn)生的體系結構或過程方面的變化,也是需要架構師來處理的一類重要事務。
最后的想法
要做到合規(guī)并不容易,而且也不便宜。決定其成本的因素有很多,但是在計劃和搭建好體系架構之后試圖強制遵從,總是比事前做的代價要高。
筆者認為,在定義合規(guī)性需求時,你應該著眼于未來,而不是只看現(xiàn)在,因為事后硬塞東西的成本和挑戰(zhàn)會更多。這意味著,我們需要不斷地研究行業(yè)中的合規(guī)性需求,以及最佳實踐。數(shù)據(jù)在未來只會變得更加重要,我們始終會面對挑戰(zhàn),何不先定好應對方案。
當前題目:從數(shù)據(jù)收集到信息挖掘,我們該看重什么?-創(chuàng)新互聯(lián)
網(wǎng)頁URL:http://www.rwnh.cn/article22/dosscc.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、品牌網(wǎng)站設計、用戶體驗、網(wǎng)站設計、云服務器、手機網(wǎng)站建設
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容