互聯(lián)網(wǎng)IDC圈6月12日?qǐng)?bào)道,“ 數(shù)據(jù)湖 ”相當(dāng)于一個(gè)中心位置來(lái)存儲(chǔ)你所有的數(shù)據(jù),它無(wú)需考慮數(shù)據(jù)來(lái)源和格式。它通常是用‘Hadoop’來(lái)建立。數(shù)據(jù)可以是結(jié)構(gòu)化的或者非結(jié)構(gòu)化的。你可以使用大量的存儲(chǔ),分析和處理工具快速提取數(shù)據(jù)的價(jià)值來(lái)做出重要的組織決策。
因?yàn)樗械臄?shù)據(jù)都是受歡迎的,對(duì)于傳統(tǒng)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)來(lái)說(shuō),‘數(shù)據(jù)湖’算得上是一個(gè)功能強(qiáng)大的替代品或補(bǔ)充品。另外,隨著更多的企業(yè)向基于云服務(wù)的應(yīng)用開(kāi)發(fā)和物聯(lián)網(wǎng)轉(zhuǎn)型,‘數(shù)據(jù)湖’也是一個(gè)主要的選擇。
在早期的使用案例中,企業(yè)頻繁的將數(shù)據(jù)裝載到“數(shù)據(jù)湖”而不嘗試去管理它。隨著‘數(shù)據(jù)湖’越來(lái)越成熟而且對(duì)企業(yè)來(lái)說(shuō)更具戰(zhàn)略意義,僅僅將數(shù)據(jù)裝載到“數(shù)據(jù)湖”已經(jīng)不再足夠了而是需要做更好的打算。
“數(shù)據(jù)湖”具有靈活性,可擴(kuò)展性,低成本性三個(gè)特征。并且它還具有傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)(EDW)的大部分特征,當(dāng)你要增加 數(shù)據(jù)管理 和支配能力,如:數(shù)據(jù)質(zhì)量,元數(shù)據(jù)管理,安全,轉(zhuǎn)換和拆分與組合數(shù)據(jù)的能力。如果正確的管理“數(shù)據(jù)湖”,它可以改進(jìn)你現(xiàn)在的數(shù)據(jù)管理措施并且能啟用新的數(shù)據(jù)管理措施。建立“數(shù)據(jù)湖”的時(shí)候,你的公司可以選擇下列4種方式中的一種:
選擇1:延后支配
第一種選擇在加載數(shù)據(jù)到數(shù)據(jù)湖的時(shí)候就忽略數(shù)據(jù)的支配和管理。然而,當(dāng)你需要篩選出數(shù)據(jù)中有用的部分的時(shí)候,你將不得不用工具來(lái)清理這些數(shù)據(jù),例如機(jī)器學(xué)習(xí)技術(shù)。然而這種方法是真正存在風(fēng)險(xiǎn)的,即使是最智能的推理引擎也需要從‘數(shù)據(jù)湖’大量的數(shù)據(jù)中的某個(gè)地方開(kāi)始,不可避免的就是在‘數(shù)據(jù)湖’中部分?jǐn)?shù)據(jù)將被忽略,變得滯后,孤立,并且其中的數(shù)據(jù)幾乎不具有結(jié)構(gòu)化,即使是最智能的自動(dòng)化工具或者人工分析,都不知道從什么地方開(kāi)始。
選擇2:適應(yīng)已經(jīng)存在的遺留工具
你可以利用最初為數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的應(yīng)用和過(guò)程。當(dāng)你準(zhǔn)備導(dǎo)入數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)時(shí)你可以用軟件工具來(lái)執(zhí)行ETL過(guò)程。你可以用這些工具來(lái)導(dǎo)出數(shù)據(jù)到數(shù)據(jù)湖,然而那樣做代價(jià)很高,而且只能解決部分你所需要的管理和支配功能。另外一個(gè)缺點(diǎn)就是ELT是不包含在在Hadoop集群內(nèi)的,那樣會(huì)減慢操作速度和增加消耗,因?yàn)槊看尾樵兌急仨殞?shù)據(jù)從集群中移除。
選擇3:編寫(xiě)定制腳本
在第三種選擇中,你用定制腳本創(chuàng)建了一個(gè)工作流來(lái)連接進(jìn)程,應(yīng)用,質(zhì)量檢查和數(shù)據(jù)轉(zhuǎn)換從而來(lái)滿足管理的需要。這是一個(gè)很常見(jiàn)的選擇但是最不可靠和最耗資源的。你需要在Hadoop和它的生態(tài)系統(tǒng)方面有很強(qiáng)的分析能力從而來(lái)利用開(kāi)源工具,而且他們需要編寫(xiě)腳本來(lái)把各部分連接起來(lái)。隨著你必須不斷修改復(fù)雜的代碼和工作流來(lái)更新‘數(shù)據(jù)湖’,這個(gè)過(guò)程是很費(fèi)時(shí)間和資源的。
選擇4:配置一個(gè)完整的“數(shù)據(jù)湖”管理平臺(tái)
第四個(gè)選擇是配置一個(gè)用來(lái)汲取和管理大量不同的數(shù)據(jù)的“數(shù)據(jù)湖”管理平臺(tái)。 Zaloni’s Bedrock 提供了這項(xiàng)功能。他允許你為數(shù)據(jù)編排目錄,利用元數(shù)據(jù)并且支持正在進(jìn)行中的以確保數(shù)據(jù)質(zhì)量,數(shù)據(jù)沿襲和自動(dòng)化工作流的進(jìn)程。這種方法是解決“數(shù)據(jù)湖”管理和支配的最佳辦法。
當(dāng)你向“數(shù)據(jù)湖”轉(zhuǎn)變的時(shí)候,選擇一個(gè)完全整合的數(shù)據(jù)湖管理平臺(tái)將會(huì)使你對(duì)數(shù)據(jù)充滿信心,并且會(huì)合并更多的用戶和用戶案例使之有益于商業(yè)。歸根結(jié)底,這就是數(shù)據(jù)存在的意義,用來(lái)告知和提高組織的決策過(guò)程,用嶄新的并且激動(dòng)人心的方式來(lái)幫助您的業(yè)務(wù)增長(zhǎng)。
網(wǎng)頁(yè)題目:“數(shù)據(jù)湖”中數(shù)據(jù)管理的4種方式
當(dāng)前網(wǎng)址:http://www.rwnh.cn/article12/sdhcgc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供建站公司、微信小程序、網(wǎng)站設(shè)計(jì)公司、虛擬主機(jī)、域名注冊(cè)、全網(wǎng)營(yíng)銷推廣
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)