2021-03-08 分類: 網(wǎng)站建設(shè)
分析大量數(shù)據(jù)只是使大數(shù)據(jù)與以前的數(shù)據(jù)分析不同的部分原因之一。讓我們來(lái)從下面三個(gè)方面看看。
我們每天都在吃飯,睡覺(jué),工作,玩耍,與此同時(shí)產(chǎn)生大量的數(shù)據(jù)。根據(jù)IBM調(diào)研的說(shuō)法,人類每天生成2.5億(250億)字節(jié)的數(shù)據(jù)。 這相當(dāng)于一堆DVD數(shù)據(jù)從地球到月球的距離,涵蓋我們發(fā)送的文本、上傳的照片、各類傳感器數(shù)據(jù)、設(shè)備與設(shè)備之間的通信的所有信息等。
這也就是為什么“大數(shù)據(jù)”成為如此常見(jiàn)的流行詞的一個(gè)重要原因。簡(jiǎn)單地說(shuō),當(dāng)人們談?wù)摯髷?shù)據(jù)時(shí),他們指的是獲取大量數(shù)據(jù)的能力,分析它,并將其轉(zhuǎn)化為有用的東西。
01 確切的說(shuō),什么是大數(shù)據(jù)?
當(dāng)然,大數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不止這些?
通常從多個(gè)來(lái)源獲取大量數(shù)據(jù)
不僅僅是大量的數(shù)據(jù),而且是不同類型的數(shù)據(jù),同時(shí)也有多種數(shù)據(jù),以及隨時(shí)間變化的數(shù)據(jù),這些數(shù)據(jù)不需要轉(zhuǎn)換成特定的格式或一致性。
以一種方式分析數(shù)據(jù),允許對(duì)相同的數(shù)據(jù)池進(jìn)行分析,從而實(shí)現(xiàn)不同的目的
盡快實(shí)現(xiàn)所有這一切。
在早些時(shí)候,這個(gè)行業(yè)提出了一個(gè)縮略詞來(lái)描述這四個(gè)方面中的三個(gè):VVV,體積(數(shù)量巨大),多樣性(不同類型的數(shù)據(jù)和數(shù)據(jù)隨時(shí)間變化的事實(shí))和周轉(zhuǎn)率(速度)。
02 大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)
VVV的縮寫(xiě)詞所忽略的是數(shù)據(jù)不需要永久更改(轉(zhuǎn)換)的關(guān)鍵概念——進(jìn)行分析。這種非破壞性分析意味著,組織可以分析相同的數(shù)據(jù)連接池以不同的目的,并可以收集到不同目的的來(lái)源分析數(shù)據(jù)。
(備注:數(shù)據(jù)庫(kù)連接池負(fù)責(zé)分配、管理和釋放數(shù)據(jù)庫(kù)連接,它允許應(yīng)用程序重復(fù)使用一個(gè)現(xiàn)有的數(shù)據(jù)庫(kù)連接,而不是再重新建立一個(gè);釋放空閑時(shí)間超過(guò)大空閑時(shí)間的數(shù)據(jù)庫(kù)連接來(lái)避免因?yàn)闆](méi)有釋放數(shù)據(jù)庫(kù)連接而引起的數(shù)據(jù)庫(kù)連接遺漏。這項(xiàng)技術(shù)能明顯提高對(duì)數(shù)據(jù)庫(kù)操作的性能。)
相比之下,數(shù)據(jù)倉(cāng)庫(kù)是專門(mén)為特定目的分析特定數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)化并轉(zhuǎn)換為特定格式,原始數(shù)據(jù)在該過(guò)程中基本上被銷毀,用于特定目的,而不是其他被稱為提取,轉(zhuǎn)換和加載(ETL)。 數(shù)據(jù)倉(cāng)庫(kù)的ETL方法有限分析具體數(shù)據(jù)進(jìn)行具體分析。 當(dāng)您的所有數(shù)據(jù)都存在于您的交易系統(tǒng)中時(shí),這是非常好的,但在當(dāng)今互聯(lián)網(wǎng)連接的世界中,數(shù)據(jù)來(lái)自無(wú)處不在。
備注:ETL,是英文 Extract-Transform-Load 的縮寫(xiě),用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程。ETL一詞較常用在數(shù)據(jù)倉(cāng)庫(kù),但其對(duì)象并不限于數(shù)據(jù)倉(cāng)庫(kù)。
ETL是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。
信息是現(xiàn)代企業(yè)的重要資源,是企業(yè)運(yùn)用科學(xué)管理、決策分析的基礎(chǔ)。目前,大多數(shù)企業(yè)花費(fèi)大量的資金和時(shí)間來(lái)構(gòu)建聯(lián)機(jī)事務(wù)處理OLTP的業(yè)務(wù)系統(tǒng)和辦公自動(dòng)化系統(tǒng),用來(lái)記錄事務(wù)處理的各種相關(guān)數(shù)據(jù)。據(jù)統(tǒng)計(jì),數(shù)據(jù)量每2~3年時(shí)間就會(huì)成倍增長(zhǎng),這些數(shù)據(jù)蘊(yùn)含著巨大的商業(yè)價(jià)值,而企業(yè)所關(guān)注的通常只占在總數(shù)據(jù)量的2%~4%左右。因此,企業(yè)仍然沒(méi)有大化地利用已存在的數(shù)據(jù)資源,以至于浪費(fèi)了更多的時(shí)間和資金,也失去制定關(guān)鍵商業(yè)決策的好契機(jī)。于是,企業(yè)如何通過(guò)各種技術(shù)手段,并把數(shù)據(jù)轉(zhuǎn)換為信息、知識(shí),已經(jīng)成了提高其核心競(jìng)爭(zhēng)力的主要瓶頸。而ETL則是主要的一個(gè)技術(shù)手段。
數(shù)據(jù)倉(cāng)庫(kù),是為企業(yè)所有級(jí)別的決策制定過(guò)程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個(gè)數(shù)據(jù)存儲(chǔ),出于分析性報(bào)告和決策支持目的而創(chuàng)建。 為需要業(yè)務(wù)智能的企業(yè),提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間、成本、質(zhì)量以及控制。數(shù)據(jù)倉(cāng)庫(kù)是決策支持系統(tǒng)(dss)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)研究和解決從數(shù)據(jù)庫(kù)中獲取信息的問(wèn)題。數(shù)據(jù)倉(cāng)庫(kù)的特征在于面向主題、集成性、穩(wěn)定性和時(shí)變性。
決策支持系統(tǒng)(Decision Support System,簡(jiǎn)稱DSS),是以管理科學(xué)、運(yùn)籌學(xué)、控制論、和行為科學(xué)為基礎(chǔ),以計(jì)算機(jī)技術(shù)、仿真技術(shù)和信息技術(shù)為手段,針對(duì)半結(jié)構(gòu)化的決策問(wèn)題,支持決策活動(dòng)的具有智能作用的人機(jī)系統(tǒng)。該系統(tǒng)能夠?yàn)闆Q策者提供所需的數(shù)據(jù)、信息和背景資料,幫助明確決策目標(biāo)和進(jìn)行問(wèn)題的識(shí)別,建立或修改決策模型,提供各種備選方案,并且對(duì)各種方案進(jìn)行評(píng)價(jià)和優(yōu)選,通過(guò)人機(jī)交互功能進(jìn)行分析、比較和判斷,為正確的決策提供必要的支持。它通過(guò)與決策者的一系列人機(jī)對(duì)話過(guò)程,為決策者提供各種可靠方案,檢驗(yàn)決策者的要求和設(shè)想,從而達(dá)到支持決策的目的。
決策支持系統(tǒng)一般由交互語(yǔ)言系統(tǒng)、問(wèn)題系統(tǒng)以及數(shù)據(jù)庫(kù)、模型庫(kù)、方法庫(kù)、知識(shí)庫(kù)管理系統(tǒng)組成。在某些具體的決策支持系統(tǒng)中,也可以沒(méi)有單獨(dú)的知識(shí)庫(kù)及其管理系統(tǒng),但模型庫(kù)和方法庫(kù)通常則是必須的。由于應(yīng)用領(lǐng)域和研究方法不同,導(dǎo)致決策支持系統(tǒng)的結(jié)構(gòu)有多種形式。
決策支持系統(tǒng)強(qiáng)調(diào)的是對(duì)管理決策的支持,而不是決策的自動(dòng)化,它所支持的決策可以是任何管理層次上的,如戰(zhàn)略級(jí)、戰(zhàn)術(shù)級(jí)或執(zhí)行級(jí)的決策。
但是,不要認(rèn)為大數(shù)據(jù)會(huì)使數(shù)據(jù)倉(cāng)庫(kù)過(guò)時(shí)。大數(shù)據(jù)系統(tǒng)可以讓您在很大程度上處理非結(jié)構(gòu)化數(shù)據(jù),但是所得到的查詢結(jié)果與數(shù)據(jù)倉(cāng)庫(kù)的復(fù)雜程度是不一樣的。畢竟,數(shù)據(jù)倉(cāng)庫(kù)是為了深入數(shù)據(jù)而設(shè)計(jì)的,它之所以能夠做到這一點(diǎn),是因?yàn)樗呀?jīng)將所有數(shù)據(jù)轉(zhuǎn)換成一種一致的格式,讓您可以像構(gòu)建立方體一樣進(jìn)行深入查詢。
多年來(lái),數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商一直在優(yōu)化他們的查詢引擎,以回答典型的業(yè)務(wù)環(huán)境問(wèn)題。大數(shù)據(jù)可以讓你從更多的數(shù)據(jù)源中獲取更多的數(shù)據(jù),但分辨率要低一些。因此,在未來(lái)一段時(shí)間內(nèi),我們將與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)一起并存。
03 技術(shù)突破大數(shù)據(jù)背后
為了完成大數(shù)據(jù)量,品種,非破壞性使用和速度的四個(gè)方面,包括分布式文件系統(tǒng)(hadoop)的開(kāi)發(fā),一種意識(shí)到不同數(shù)據(jù)的方法(Google的Map、Reduce以及最近的Apache Spark),以及云/互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,用于根據(jù)需要訪問(wèn)和移動(dòng)數(shù)據(jù)。
直到大約十幾年前,在任何一個(gè)時(shí)間都不可能操縱比較少的數(shù)據(jù)。(嗯,我們都認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)當(dāng)時(shí)是巨大的,隨著互聯(lián)網(wǎng)的產(chǎn)生和連接的數(shù)據(jù)到處都是這樣的背景)。對(duì)數(shù)據(jù)存儲(chǔ)的數(shù)量和位置的限制、計(jì)算能力以及處理來(lái)自多個(gè)數(shù)據(jù)源的不同數(shù)據(jù)格式的能力使得這項(xiàng)任務(wù)幾乎不可能完成。
然后,在2003年左右的時(shí)間里,Google的研究人員開(kāi)發(fā)了Map、Reduce。 這種編程技術(shù)通過(guò)首先將數(shù)據(jù)映射到一系列鍵/值對(duì)來(lái)簡(jiǎn)化處理大數(shù)據(jù)集,然后對(duì)類似的鍵執(zhí)行計(jì)算以將它們減少到單個(gè)值,以數(shù)百或數(shù)千個(gè)低位并行處理每個(gè)數(shù)據(jù)塊 成型機(jī)。 這種巨大的并行性允許Google從越來(lái)越大量的數(shù)據(jù)中產(chǎn)生更快的搜索結(jié)果。
在2003年,Google創(chuàng)造了兩個(gè)突破,使得大數(shù)據(jù)成為可能:一個(gè)是Hadoop,它由兩個(gè)關(guān)鍵服務(wù)組成:
使用Hadoop分布式文件系統(tǒng)(HDFS)可靠的數(shù)據(jù)存儲(chǔ)
使用稱為Map、Reduce的技術(shù)進(jìn)行高性能并行數(shù)據(jù)處理。
Hadoop運(yùn)行在商品,無(wú)共享服務(wù)器的集合上。 您可以隨意添加或刪除Hadoop集群中的服務(wù)器; 系統(tǒng)檢測(cè)并補(bǔ)償任何服務(wù)器上的硬件或系統(tǒng)問(wèn)題。 換句話說(shuō),Hadoop是自我修復(fù)的。 盡管發(fā)生系統(tǒng)更改或故障,它可以提供數(shù)據(jù)并運(yùn)行大規(guī)模,高性能的處理作業(yè)。
Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFS。HDFS有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(wèn)(streaming access)文件系統(tǒng)中的數(shù)據(jù)。
Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和Map、Reduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則Map、Reduce為海量的數(shù)據(jù)提供了計(jì)算。
盡管Hadoop為數(shù)據(jù)存儲(chǔ)和并行處理提供了一個(gè)平臺(tái),但實(shí)際價(jià)值來(lái)自于該技術(shù)的附加組件,交叉集成和自定義實(shí)現(xiàn)。 為此,Hadoop提供的子項(xiàng)目為平臺(tái)增加了功能和新功能:
Hadoop Common:支持其他Hadoop子項(xiàng)目的常用工具。
Chukwa:用于管理大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)。
HBase:可擴(kuò)展的分布式數(shù)據(jù)庫(kù),支持大型表格的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。
HDFS:分布式系統(tǒng),可提供對(duì)應(yīng)用程序數(shù)據(jù)的高吞吐量訪問(wèn)。
蜂巢:提供數(shù)據(jù)匯總和即席查詢的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)設(shè)施。
Map/Reduce:用于在計(jì)算集群上分布式處理大型數(shù)據(jù)集的軟件框架。
pig:并行計(jì)算的高級(jí)數(shù)據(jù)語(yǔ)言和執(zhí)行框架。
ZooKeeper:分布式應(yīng)用程序的高性能協(xié)調(diào)服務(wù)。
Hadoop平臺(tái)的大多數(shù)實(shí)施方案至少包括這些子項(xiàng)目中的一些,因?yàn)樗鼈兺ǔJ情_(kāi)發(fā)大數(shù)據(jù)所必需的。 例如,大多數(shù)組織選擇使用HDFS作為主分布式文件系統(tǒng),將HBase用作數(shù)據(jù)庫(kù),可以存儲(chǔ)數(shù)十億行的數(shù)據(jù)。 并且使用Map/Reduce或更新近的Spark幾乎是給定的,因?yàn)樗鼈優(yōu)镠adoop平臺(tái)帶來(lái)了速度和靈活性。
通過(guò)Map、Reduce,開(kāi)發(fā)人員可以創(chuàng)建可以并行處理大量非結(jié)構(gòu)化數(shù)據(jù)的程序,這些數(shù)據(jù)可以在分布式的處理器或獨(dú)立計(jì)算機(jī)上并行處理。MapReduce框架被劃分為兩個(gè)功能區(qū)域:
Map(映射),一個(gè)將工作分發(fā)到分布式集群中的不同節(jié)點(diǎn)的功能。
Reduce函數(shù):整理工作并將結(jié)果解析成單個(gè)值的功能。
Map、Reduce的主要優(yōu)點(diǎn)之一是它是容錯(cuò)的,它通過(guò)監(jiān)視集群中的每個(gè)節(jié)點(diǎn)來(lái)實(shí)現(xiàn);每個(gè)節(jié)點(diǎn)都需要定期報(bào)告,完成的工作和狀態(tài)更新。如果一個(gè)節(jié)點(diǎn)保持比預(yù)期的時(shí)間,間隔更長(zhǎng)的時(shí)間,那么主節(jié)點(diǎn)將會(huì)記錄并將工作分配給其他節(jié)點(diǎn)。
Apache Hadoop是一種使用Map、Reduce核心的開(kāi)源框架,兩年后開(kāi)發(fā)出來(lái)了。Hadoop最初是用來(lái)索引現(xiàn)在不知名的Nutch搜索引擎的,現(xiàn)在幾乎所有主要行業(yè)都使用Hadoop來(lái)進(jìn)行大范圍的大數(shù)據(jù)工作。得益于Hadoop的分布式文件系統(tǒng)和紗線(另一個(gè)資源協(xié)商者),該軟件讓用戶可以在數(shù)千臺(tái)設(shè)備上處理大規(guī)模數(shù)據(jù)集,就好像它們都在一臺(tái)巨大的機(jī)器上一樣。
Nutch 是一個(gè)開(kāi)源Java 實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲(chóng)。
Nutch組成:
爬蟲(chóng)crawler和查詢searcher。
Crawler主要用于從網(wǎng)絡(luò)上抓取網(wǎng)頁(yè)并為這些網(wǎng)頁(yè)建立索引。
Searcher主要利用這些索引檢索用戶的查找關(guān)鍵詞來(lái)產(chǎn)生查找結(jié)果。
兩者之間的接口是索引,所以除去索引部分,兩者之間的耦合度很低。
Crawler和Searcher兩部分盡量分開(kāi)的目的主要是為了使兩部分可以分布式配置在硬件平臺(tái)上,例如將Crawler和Searcher分別放在兩個(gè)主機(jī)上,這樣可以提升性能。
Crawler 的重點(diǎn)在兩個(gè)方面,Crawler的工作流程和涉及的數(shù)據(jù)文件的格式和含義。數(shù)據(jù)文件主要包括三類,分別是web database(WebDB),一系列的segment加上index,三者的物理文件分別存儲(chǔ)在爬行結(jié)果目錄下的db目錄下webdb子文件夾內(nèi),segments 文件夾和index文件夾。那么三者分別存儲(chǔ)的信息是什么呢?
一次爬行會(huì)產(chǎn)生很多個(gè)segment,每個(gè)segment內(nèi)存儲(chǔ)的是爬蟲(chóng)Crawler在單獨(dú)一次抓取循環(huán)中抓到的網(wǎng)頁(yè)以及這些網(wǎng)頁(yè)的索引。Crawler爬行時(shí)會(huì)根據(jù)WebDB中的link關(guān)系按照一定的爬行策略生成每次抓取循環(huán)所需的fetchlist(Crawler根據(jù)WebDB生成一個(gè)待抓取網(wǎng)頁(yè)的URL集合),然后 Fetcher(下載線程)通過(guò)fetchlist中的URLs抓取這些網(wǎng)頁(yè)并索引,然后將其存入segment。Segment是有時(shí)限的,當(dāng)這些網(wǎng)頁(yè)被 Crawler重新抓取后,先前抓取產(chǎn)生的segment就作廢了。在存儲(chǔ)中。Segment文件夾是以產(chǎn)生時(shí)間命名的,方便我們刪除作廢的 segments以節(jié)省存儲(chǔ)空間。
Index是Crawler抓取的所有網(wǎng)頁(yè)的索引,它是通過(guò)對(duì)所有單個(gè)segment中的索引進(jìn)行合并處理所得的。Nutch利用Lucene技術(shù)進(jìn)行索引,所以Lucene中對(duì)索引進(jìn)行操作的接口對(duì)Nutch中的index同樣有效。但是需要注意的是,Lucene 中的segment和Nutch中的不同,Lucene中的segment是索引index的一部分,但是Nutch中的segment只是WebDB中各個(gè)部分網(wǎng)頁(yè)的內(nèi)容和索引,最后通過(guò)其生成的index跟這些segment已經(jīng)毫無(wú)關(guān)系了。
Web database,也叫WebDB,其中存儲(chǔ)的是爬蟲(chóng)所抓取網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu)信息,它只在爬蟲(chóng)Crawler工作中使用而和Searcher的工作沒(méi)有 任何關(guān)系。WebDB內(nèi)存儲(chǔ)了兩種實(shí)體的信息:page和link。Page實(shí)體通過(guò)描述網(wǎng)絡(luò)上一個(gè)網(wǎng)頁(yè)的特征信息來(lái)表征一個(gè)實(shí)際的網(wǎng)頁(yè),因?yàn)榫W(wǎng)頁(yè)有很多個(gè)需要描述,WebDB中通過(guò)網(wǎng)頁(yè)的URL和網(wǎng)頁(yè)內(nèi)容的MD5兩種索引方法對(duì)這些網(wǎng)頁(yè)實(shí)體進(jìn)行了索引。Page實(shí)體描述的網(wǎng)頁(yè)特征主要包括網(wǎng)頁(yè)內(nèi)的link數(shù)目,抓取此網(wǎng)頁(yè)的時(shí)間等相關(guān)抓取信息,對(duì)此網(wǎng)頁(yè)的重要度評(píng)分等。同樣的,Link實(shí)體描述的是兩個(gè)page實(shí)體之間的鏈接關(guān)系。
工作步驟 :
在Nutch中,Crawler操作的實(shí)現(xiàn)是通過(guò)一系列子操作的實(shí)現(xiàn)來(lái)完成的。這些子操作Nutch都提供了子命令行可以單獨(dú)進(jìn)行調(diào)用。下面就是這些子操作的功能描述以及命令行,命令行在括號(hào)中。
1. 創(chuàng)建一個(gè)新的WebDb(admin db -create).
2. 將抓取起始URLs寫(xiě)入WebDB中 (inject).
3. 根據(jù)WebDB生成fetchlist并寫(xiě)入相應(yīng)的segment(generate).
4. 根據(jù)fetchlist中的URL抓取網(wǎng)頁(yè) (fetch).
5. 根據(jù)抓取網(wǎng)頁(yè)更新WebDb(updatedb).
6. 循環(huán)進(jìn)行3-5步直至預(yù)先設(shè)定的抓取深度。
7. 根據(jù)WebDB得到的網(wǎng)頁(yè)評(píng)分和links更新segments (updatesegs).
8. 對(duì)所抓取的網(wǎng)頁(yè)進(jìn)行索引(index).
9. 在索引中丟棄有重復(fù)內(nèi)容的網(wǎng)頁(yè)和重復(fù)的URLs (dedup).
10. 將segments中的索引進(jìn)行合并生成用于檢索的最終index(merge).
2009年,加州大學(xué)伯克利分校的研究人員開(kāi)發(fā)了Apache Spark作為MapReduce的替代品。 由于Spark使用內(nèi)存存儲(chǔ)并行執(zhí)行計(jì)算,因此可以比MapReduce快100倍。 Spark可以作為獨(dú)立框架或Hadoop內(nèi)部工作。
使用Hadoop,仍然需要一種存儲(chǔ)和訪問(wèn)數(shù)據(jù)的方法。 這通常通過(guò)諸如MongoDB之類的NoSQL數(shù)據(jù)庫(kù)(如CouchDB或Cassandra)完成,該數(shù)據(jù)庫(kù)專門(mén)處理分布在多臺(tái)計(jì)算機(jī)上的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。與在數(shù)據(jù)倉(cāng)庫(kù)中不同的是,大量數(shù)據(jù)和類型的數(shù)據(jù)融合成統(tǒng)一格式并存儲(chǔ)在單個(gè)數(shù)據(jù)存儲(chǔ)中,這些工具不會(huì)改變數(shù)據(jù)的底層性質(zhì)或位置 – 電子郵件仍然是電子郵件,傳感器數(shù)據(jù)仍然是 傳感器數(shù)據(jù) – 可以幾乎存儲(chǔ)在任何地方。
盡管如此,在使用多臺(tái)機(jī)器的數(shù)據(jù)庫(kù)中存儲(chǔ)大量的數(shù)據(jù)并不是很好,直到你做了一些事情。 這就是大數(shù)據(jù)分析的原理。像Tableau,Splunk和Jasper BI這樣的工具可以讓您解析這些數(shù)據(jù),以識(shí)別模式,提取意義并揭示新的見(jiàn)解。 你所做的事情會(huì)因你的需要而有所不同。
當(dāng)前題目:什么是大數(shù)據(jù)
鏈接URL:http://www.rwnh.cn/news/104801.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供移動(dòng)網(wǎng)站建設(shè)、服務(wù)器托管、響應(yīng)式網(wǎng)站、手機(jī)網(wǎng)站建設(shè)、面包屑導(dǎo)航、小程序開(kāi)發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容