什么是大數(shù)據(jù)

2021-03-08 分類：網(wǎng)站建設(shè)

分析大量數(shù)據(jù)只是使大數(shù)據(jù)與以前的數(shù)據(jù)分析不同的部分原因之一。讓我們來(lái)從下面三個(gè)方面看看。

我們每天都在吃飯，睡覺(jué)，工作，玩耍，與此同時(shí)產(chǎn)生大量的數(shù)據(jù)。根據(jù)IBM調(diào)研的說(shuō)法，人類每天生成2.5億(250億)字節(jié)的數(shù)據(jù)。這相當(dāng)于一堆DVD數(shù)據(jù)從地球到月球的距離，涵蓋我們發(fā)送的文本、上傳的照片、各類傳感器數(shù)據(jù)、設(shè)備與設(shè)備之間的通信的所有信息等。

這也就是為什么“大數(shù)據(jù)”成為如此常見(jiàn)的流行詞的一個(gè)重要原因。簡(jiǎn)單地說(shuō)，當(dāng)人們談?wù)摯髷?shù)據(jù)時(shí)，他們指的是獲取大量數(shù)據(jù)的能力，分析它，并將其轉(zhuǎn)化為有用的東西。

01 確切的說(shuō)，什么是大數(shù)據(jù)?

當(dāng)然，大數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不止這些?

通常從多個(gè)來(lái)源獲取大量數(shù)據(jù)

不僅僅是大量的數(shù)據(jù)，而且是不同類型的數(shù)據(jù)，同時(shí)也有多種數(shù)據(jù)，以及隨時(shí)間變化的數(shù)據(jù)，這些數(shù)據(jù)不需要轉(zhuǎn)換成特定的格式或一致性。

以一種方式分析數(shù)據(jù)，允許對(duì)相同的數(shù)據(jù)池進(jìn)行分析，從而實(shí)現(xiàn)不同的目的

盡快實(shí)現(xiàn)所有這一切。

在早些時(shí)候，這個(gè)行業(yè)提出了一個(gè)縮略詞來(lái)描述這四個(gè)方面中的三個(gè):VVV，體積(數(shù)量巨大)，多樣性(不同類型的數(shù)據(jù)和數(shù)據(jù)隨時(shí)間變化的事實(shí))和周轉(zhuǎn)率(速度)。

02 大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)

VVV的縮寫詞所忽略的是數(shù)據(jù)不需要永久更改(轉(zhuǎn)換)的關(guān)鍵概念——進(jìn)行分析。這種非破壞性分析意味著，組織可以分析相同的數(shù)據(jù)連接池以不同的目的，并可以收集到不同目的的來(lái)源分析數(shù)據(jù)。

(備注：數(shù)據(jù)庫(kù)連接池負(fù)責(zé)分配、管理和釋放數(shù)據(jù)庫(kù)連接，它允許應(yīng)用程序重復(fù)使用一個(gè)現(xiàn)有的數(shù)據(jù)庫(kù)連接，而不是再重新建立一個(gè);釋放空閑時(shí)間超過(guò)大空閑時(shí)間的數(shù)據(jù)庫(kù)連接來(lái)避免因?yàn)闆](méi)有釋放數(shù)據(jù)庫(kù)連接而引起的數(shù)據(jù)庫(kù)連接遺漏。這項(xiàng)技術(shù)能明顯提高對(duì)數(shù)據(jù)庫(kù)操作的性能。)

相比之下，數(shù)據(jù)倉(cāng)庫(kù)是專門為特定目的分析特定數(shù)據(jù)，數(shù)據(jù)結(jié)構(gòu)化并轉(zhuǎn)換為特定格式，原始數(shù)據(jù)在該過(guò)程中基本上被銷毀，用于特定目的，而不是其他被稱為提取，轉(zhuǎn)換和加載(ETL)。數(shù)據(jù)倉(cāng)庫(kù)的ETL方法有限分析具體數(shù)據(jù)進(jìn)行具體分析。當(dāng)您的所有數(shù)據(jù)都存在于您的交易系統(tǒng)中時(shí)，這是非常好的，但在當(dāng)今互聯(lián)網(wǎng)連接的世界中，數(shù)據(jù)來(lái)自無(wú)處不在。

備注：ETL，是英文 Extract-Transform-Load 的縮寫，用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程。ETL一詞較常用在數(shù)據(jù)倉(cāng)庫(kù)，但其對(duì)象并不限于數(shù)據(jù)倉(cāng)庫(kù)。

ETL是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán)，用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù)，經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型，將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。

信息是現(xiàn)代企業(yè)的重要資源，是企業(yè)運(yùn)用科學(xué)管理、決策分析的基礎(chǔ)。目前，大多數(shù)企業(yè)花費(fèi)大量的資金和時(shí)間來(lái)構(gòu)建聯(lián)機(jī)事務(wù)處理OLTP的業(yè)務(wù)系統(tǒng)和辦公自動(dòng)化系統(tǒng)，用來(lái)記錄事務(wù)處理的各種相關(guān)數(shù)據(jù)。據(jù)統(tǒng)計(jì)，數(shù)據(jù)量每2～3年時(shí)間就會(huì)成倍增長(zhǎng)，這些數(shù)據(jù)蘊(yùn)含著巨大的商業(yè)價(jià)值，而企業(yè)所關(guān)注的通常只占在總數(shù)據(jù)量的2%～4%左右。因此，企業(yè)仍然沒(méi)有大化地利用已存在的數(shù)據(jù)資源，以至于浪費(fèi)了更多的時(shí)間和資金，也失去制定關(guān)鍵商業(yè)決策的好契機(jī)。于是，企業(yè)如何通過(guò)各種技術(shù)手段，并把數(shù)據(jù)轉(zhuǎn)換為信息、知識(shí)，已經(jīng)成了提高其核心競(jìng)爭(zhēng)力的主要瓶頸。而ETL則是主要的一個(gè)技術(shù)手段。

數(shù)據(jù)倉(cāng)庫(kù)，是為企業(yè)所有級(jí)別的決策制定過(guò)程，提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個(gè)數(shù)據(jù)存儲(chǔ)，出于分析性報(bào)告和決策支持目的而創(chuàng)建。為需要業(yè)務(wù)智能的企業(yè)，提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間、成本、質(zhì)量以及控制。數(shù)據(jù)倉(cāng)庫(kù)是決策支持系統(tǒng)(dss)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)研究和解決從數(shù)據(jù)庫(kù)中獲取信息的問(wèn)題。數(shù)據(jù)倉(cāng)庫(kù)的特征在于面向主題、集成性、穩(wěn)定性和時(shí)變性。

決策支持系統(tǒng)(Decision Support System，簡(jiǎn)稱DSS)，是以管理科學(xué)、運(yùn)籌學(xué)、控制論、和行為科學(xué)為基礎(chǔ)，以計(jì)算機(jī)技術(shù)、仿真技術(shù)和信息技術(shù)為手段，針對(duì)半結(jié)構(gòu)化的決策問(wèn)題，支持決策活動(dòng)的具有智能作用的人機(jī)系統(tǒng)。該系統(tǒng)能夠?yàn)闆Q策者提供所需的數(shù)據(jù)、信息和背景資料，幫助明確決策目標(biāo)和進(jìn)行問(wèn)題的識(shí)別，建立或修改決策模型，提供各種備選方案，并且對(duì)各種方案進(jìn)行評(píng)價(jià)和優(yōu)選，通過(guò)人機(jī)交互功能進(jìn)行分析、比較和判斷，為正確的決策提供必要的支持。它通過(guò)與決策者的一系列人機(jī)對(duì)話過(guò)程，為決策者提供各種可靠方案，檢驗(yàn)決策者的要求和設(shè)想，從而達(dá)到支持決策的目的。

決策支持系統(tǒng)一般由交互語(yǔ)言系統(tǒng)、問(wèn)題系統(tǒng)以及數(shù)據(jù)庫(kù)、模型庫(kù)、方法庫(kù)、知識(shí)庫(kù)管理系統(tǒng)組成。在某些具體的決策支持系統(tǒng)中，也可以沒(méi)有單獨(dú)的知識(shí)庫(kù)及其管理系統(tǒng)，但模型庫(kù)和方法庫(kù)通常則是必須的。由于應(yīng)用領(lǐng)域和研究方法不同，導(dǎo)致決策支持系統(tǒng)的結(jié)構(gòu)有多種形式。

決策支持系統(tǒng)強(qiáng)調(diào)的是對(duì)管理決策的支持，而不是決策的自動(dòng)化，它所支持的決策可以是任何管理層次上的，如戰(zhàn)略級(jí)、戰(zhàn)術(shù)級(jí)或執(zhí)行級(jí)的決策。

但是，不要認(rèn)為大數(shù)據(jù)會(huì)使數(shù)據(jù)倉(cāng)庫(kù)過(guò)時(shí)。大數(shù)據(jù)系統(tǒng)可以讓您在很大程度上處理非結(jié)構(gòu)化數(shù)據(jù)，但是所得到的查詢結(jié)果與數(shù)據(jù)倉(cāng)庫(kù)的復(fù)雜程度是不一樣的。畢竟，數(shù)據(jù)倉(cāng)庫(kù)是為了深入數(shù)據(jù)而設(shè)計(jì)的，它之所以能夠做到這一點(diǎn)，是因?yàn)樗呀?jīng)將所有數(shù)據(jù)轉(zhuǎn)換成一種一致的格式，讓您可以像構(gòu)建立方體一樣進(jìn)行深入查詢。

多年來(lái)，數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商一直在優(yōu)化他們的查詢引擎，以回答典型的業(yè)務(wù)環(huán)境問(wèn)題。大數(shù)據(jù)可以讓你從更多的數(shù)據(jù)源中獲取更多的數(shù)據(jù)，但分辨率要低一些。因此，在未來(lái)一段時(shí)間內(nèi)，我們將與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)一起并存。

03 技術(shù)突破大數(shù)據(jù)背后

為了完成大數(shù)據(jù)量，品種，非破壞性使用和速度的四個(gè)方面，包括分布式文件系統(tǒng)(hadoop)的開發(fā)，一種意識(shí)到不同數(shù)據(jù)的方法(Google的Map、Reduce以及最近的Apache Spark)，以及云/互聯(lián)網(wǎng)基礎(chǔ)設(shè)施，用于根據(jù)需要訪問(wèn)和移動(dòng)數(shù)據(jù)。

直到大約十幾年前，在任何一個(gè)時(shí)間都不可能操縱比較少的數(shù)據(jù)。(嗯，我們都認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)當(dāng)時(shí)是巨大的，隨著互聯(lián)網(wǎng)的產(chǎn)生和連接的數(shù)據(jù)到處都是這樣的背景)。對(duì)數(shù)據(jù)存儲(chǔ)的數(shù)量和位置的限制、計(jì)算能力以及處理來(lái)自多個(gè)數(shù)據(jù)源的不同數(shù)據(jù)格式的能力使得這項(xiàng)任務(wù)幾乎不可能完成。

然后，在2003年左右的時(shí)間里，Google的研究人員開發(fā)了Map、Reduce。這種編程技術(shù)通過(guò)首先將數(shù)據(jù)映射到一系列鍵/值對(duì)來(lái)簡(jiǎn)化處理大數(shù)據(jù)集，然后對(duì)類似的鍵執(zhí)行計(jì)算以將它們減少到單個(gè)值，以數(shù)百或數(shù)千個(gè)低位并行處理每個(gè)數(shù)據(jù)塊成型機(jī)。這種巨大的并行性允許Google從越來(lái)越大量的數(shù)據(jù)中產(chǎn)生更快的搜索結(jié)果。

在2003年，Google創(chuàng)造了兩個(gè)突破，使得大數(shù)據(jù)成為可能：一個(gè)是Hadoop，它由兩個(gè)關(guān)鍵服務(wù)組成：

使用Hadoop分布式文件系統(tǒng)(HDFS)可靠的數(shù)據(jù)存儲(chǔ)

使用稱為Map、Reduce的技術(shù)進(jìn)行高性能并行數(shù)據(jù)處理。

Hadoop運(yùn)行在商品，無(wú)共享服務(wù)器的集合上。您可以隨意添加或刪除Hadoop集群中的服務(wù)器; 系統(tǒng)檢測(cè)并補(bǔ)償任何服務(wù)器上的硬件或系統(tǒng)問(wèn)題。換句話說(shuō)，Hadoop是自我修復(fù)的。盡管發(fā)生系統(tǒng)更改或故障，它可以提供數(shù)據(jù)并運(yùn)行大規(guī)模，高性能的處理作業(yè)。

Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System)，簡(jiǎn)稱HDFS。HDFS有高容錯(cuò)性的特點(diǎn)，并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求，可以以流的形式訪問(wèn)(streaming access)文件系統(tǒng)中的數(shù)據(jù)。

Hadoop的框架最核心的設(shè)計(jì)就是：HDFS和Map、Reduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)，則Map、Reduce為海量的數(shù)據(jù)提供了計(jì)算。

盡管Hadoop為數(shù)據(jù)存儲(chǔ)和并行處理提供了一個(gè)平臺(tái)，但實(shí)際價(jià)值來(lái)自于該技術(shù)的附加組件，交叉集成和自定義實(shí)現(xiàn)。為此，Hadoop提供的子項(xiàng)目為平臺(tái)增加了功能和新功能：

Hadoop Common：支持其他Hadoop子項(xiàng)目的常用工具。

Chukwa：用于管理大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)。

HBase：可擴(kuò)展的分布式數(shù)據(jù)庫(kù)，支持大型表格的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。

HDFS：分布式系統(tǒng)，可提供對(duì)應(yīng)用程序數(shù)據(jù)的高吞吐量訪問(wèn)。

蜂巢：提供數(shù)據(jù)匯總和即席查詢的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)設(shè)施。

Map/Reduce：用于在計(jì)算集群上分布式處理大型數(shù)據(jù)集的軟件框架。

pig：并行計(jì)算的高級(jí)數(shù)據(jù)語(yǔ)言和執(zhí)行框架。

ZooKeeper：分布式應(yīng)用程序的高性能協(xié)調(diào)服務(wù)。

Hadoop平臺(tái)的大多數(shù)實(shí)施方案至少包括這些子項(xiàng)目中的一些，因?yàn)樗鼈兺ǔＪ情_發(fā)大數(shù)據(jù)所必需的。例如，大多數(shù)組織選擇使用HDFS作為主分布式文件系統(tǒng)，將HBase用作數(shù)據(jù)庫(kù)，可以存儲(chǔ)數(shù)十億行的數(shù)據(jù)。并且使用Map/Reduce或更新近的Spark幾乎是給定的，因?yàn)樗鼈優(yōu)镠adoop平臺(tái)帶來(lái)了速度和靈活性。

通過(guò)Map、Reduce，開發(fā)人員可以創(chuàng)建可以并行處理大量非結(jié)構(gòu)化數(shù)據(jù)的程序，這些數(shù)據(jù)可以在分布式的處理器或獨(dú)立計(jì)算機(jī)上并行處理。MapReduce框架被劃分為兩個(gè)功能區(qū)域:

Map(映射)，一個(gè)將工作分發(fā)到分布式集群中的不同節(jié)點(diǎn)的功能。

Reduce函數(shù)：整理工作并將結(jié)果解析成單個(gè)值的功能。

Map、Reduce的主要優(yōu)點(diǎn)之一是它是容錯(cuò)的，它通過(guò)監(jiān)視集群中的每個(gè)節(jié)點(diǎn)來(lái)實(shí)現(xiàn);每個(gè)節(jié)點(diǎn)都需要定期報(bào)告，完成的工作和狀態(tài)更新。如果一個(gè)節(jié)點(diǎn)保持比預(yù)期的時(shí)間，間隔更長(zhǎng)的時(shí)間，那么主節(jié)點(diǎn)將會(huì)記錄并將工作分配給其他節(jié)點(diǎn)。

Apache Hadoop是一種使用Map、Reduce核心的開源框架，兩年后開發(fā)出來(lái)了。Hadoop最初是用來(lái)索引現(xiàn)在不知名的Nutch搜索引擎的，現(xiàn)在幾乎所有主要行業(yè)都使用Hadoop來(lái)進(jìn)行大范圍的大數(shù)據(jù)工作。得益于Hadoop的分布式文件系統(tǒng)和紗線(另一個(gè)資源協(xié)商者)，該軟件讓用戶可以在數(shù)千臺(tái)設(shè)備上處理大規(guī)模數(shù)據(jù)集，就好像它們都在一臺(tái)巨大的機(jī)器上一樣。

Nutch 是一個(gè)開源Java 實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

Nutch組成：

爬蟲crawler和查詢searcher。

Crawler主要用于從網(wǎng)絡(luò)上抓取網(wǎng)頁(yè)并為這些網(wǎng)頁(yè)建立索引。

Searcher主要利用這些索引檢索用戶的查找關(guān)鍵詞來(lái)產(chǎn)生查找結(jié)果。

兩者之間的接口是索引，所以除去索引部分，兩者之間的耦合度很低。

Crawler和Searcher兩部分盡量分開的目的主要是為了使兩部分可以分布式配置在硬件平臺(tái)上，例如將Crawler和Searcher分別放在兩個(gè)主機(jī)上，這樣可以提升性能。

Crawler 的重點(diǎn)在兩個(gè)方面，Crawler的工作流程和涉及的數(shù)據(jù)文件的格式和含義。數(shù)據(jù)文件主要包括三類，分別是web database(WebDB)，一系列的segment加上index，三者的物理文件分別存儲(chǔ)在爬行結(jié)果目錄下的db目錄下webdb子文件夾內(nèi)，segments 文件夾和index文件夾。那么三者分別存儲(chǔ)的信息是什么呢?

一次爬行會(huì)產(chǎn)生很多個(gè)segment，每個(gè)segment內(nèi)存儲(chǔ)的是爬蟲Crawler在單獨(dú)一次抓取循環(huán)中抓到的網(wǎng)頁(yè)以及這些網(wǎng)頁(yè)的索引。Crawler爬行時(shí)會(huì)根據(jù)WebDB中的link關(guān)系按照一定的爬行策略生成每次抓取循環(huán)所需的fetchlist(Crawler根據(jù)WebDB生成一個(gè)待抓取網(wǎng)頁(yè)的URL集合)，然后 Fetcher(下載線程)通過(guò)fetchlist中的URLs抓取這些網(wǎng)頁(yè)并索引，然后將其存入segment。Segment是有時(shí)限的，當(dāng)這些網(wǎng)頁(yè)被 Crawler重新抓取后，先前抓取產(chǎn)生的segment就作廢了。在存儲(chǔ)中。Segment文件夾是以產(chǎn)生時(shí)間命名的，方便我們刪除作廢的 segments以節(jié)省存儲(chǔ)空間。

Index是Crawler抓取的所有網(wǎng)頁(yè)的索引，它是通過(guò)對(duì)所有單個(gè)segment中的索引進(jìn)行合并處理所得的。Nutch利用Lucene技術(shù)進(jìn)行索引，所以Lucene中對(duì)索引進(jìn)行操作的接口對(duì)Nutch中的index同樣有效。但是需要注意的是，Lucene 中的segment和Nutch中的不同，Lucene中的segment是索引index的一部分，但是Nutch中的segment只是WebDB中各個(gè)部分網(wǎng)頁(yè)的內(nèi)容和索引，最后通過(guò)其生成的index跟這些segment已經(jīng)毫無(wú)關(guān)系了。

Web database，也叫WebDB，其中存儲(chǔ)的是爬蟲所抓取網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu)信息，它只在爬蟲Crawler工作中使用而和Searcher的工作沒(méi)有任何關(guān)系。WebDB內(nèi)存儲(chǔ)了兩種實(shí)體的信息：page和link。Page實(shí)體通過(guò)描述網(wǎng)絡(luò)上一個(gè)網(wǎng)頁(yè)的特征信息來(lái)表征一個(gè)實(shí)際的網(wǎng)頁(yè)，因?yàn)榫W(wǎng)頁(yè)有很多個(gè)需要描述，WebDB中通過(guò)網(wǎng)頁(yè)的URL和網(wǎng)頁(yè)內(nèi)容的MD5兩種索引方法對(duì)這些網(wǎng)頁(yè)實(shí)體進(jìn)行了索引。Page實(shí)體描述的網(wǎng)頁(yè)特征主要包括網(wǎng)頁(yè)內(nèi)的link數(shù)目，抓取此網(wǎng)頁(yè)的時(shí)間等相關(guān)抓取信息，對(duì)此網(wǎng)頁(yè)的重要度評(píng)分等。同樣的，Link實(shí)體描述的是兩個(gè)page實(shí)體之間的鏈接關(guān)系。

工作步驟：

在Nutch中，Crawler操作的實(shí)現(xiàn)是通過(guò)一系列子操作的實(shí)現(xiàn)來(lái)完成的。這些子操作Nutch都提供了子命令行可以單獨(dú)進(jìn)行調(diào)用。下面就是這些子操作的功能描述以及命令行，命令行在括號(hào)中。

1. 創(chuàng)建一個(gè)新的WebDb(admin db -create).

2. 將抓取起始URLs寫入WebDB中 (inject).

3. 根據(jù)WebDB生成fetchlist并寫入相應(yīng)的segment(generate).

4. 根據(jù)fetchlist中的URL抓取網(wǎng)頁(yè) (fetch).

5. 根據(jù)抓取網(wǎng)頁(yè)更新WebDb(updatedb).

6. 循環(huán)進(jìn)行3-5步直至預(yù)先設(shè)定的抓取深度。

7. 根據(jù)WebDB得到的網(wǎng)頁(yè)評(píng)分和links更新segments (updatesegs).

8. 對(duì)所抓取的網(wǎng)頁(yè)進(jìn)行索引(index).

9. 在索引中丟棄有重復(fù)內(nèi)容的網(wǎng)頁(yè)和重復(fù)的URLs (dedup).

10. 將segments中的索引進(jìn)行合并生成用于檢索的最終index(merge).

2009年，加州大學(xué)伯克利分校的研究人員開發(fā)了Apache Spark作為MapReduce的替代品。由于Spark使用內(nèi)存存儲(chǔ)并行執(zhí)行計(jì)算，因此可以比MapReduce快100倍。 Spark可以作為獨(dú)立框架或Hadoop內(nèi)部工作。

使用Hadoop，仍然需要一種存儲(chǔ)和訪問(wèn)數(shù)據(jù)的方法。這通常通過(guò)諸如MongoDB之類的NoSQL數(shù)據(jù)庫(kù)(如CouchDB或Cassandra)完成，該數(shù)據(jù)庫(kù)專門處理分布在多臺(tái)計(jì)算機(jī)上的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。與在數(shù)據(jù)倉(cāng)庫(kù)中不同的是，大量數(shù)據(jù)和類型的數(shù)據(jù)融合成統(tǒng)一格式并存儲(chǔ)在單個(gè)數(shù)據(jù)存儲(chǔ)中，這些工具不會(huì)改變數(shù)據(jù)的底層性質(zhì)或位置 – 電子郵件仍然是電子郵件，傳感器數(shù)據(jù)仍然是傳感器數(shù)據(jù) – 可以幾乎存儲(chǔ)在任何地方。

盡管如此，在使用多臺(tái)機(jī)器的數(shù)據(jù)庫(kù)中存儲(chǔ)大量的數(shù)據(jù)并不是很好，直到你做了一些事情。這就是大數(shù)據(jù)分析的原理。像Tableau，Splunk和Jasper BI這樣的工具可以讓您解析這些數(shù)據(jù)，以識(shí)別模式，提取意義并揭示新的見(jiàn)解。你所做的事情會(huì)因你的需要而有所不同。

網(wǎng)站欄目：什么是大數(shù)據(jù)
本文URL：http://www.rwnh.cn/news1/104801.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供定制開發(fā)、網(wǎng)站制作、響應(yīng)式網(wǎng)站、網(wǎng)站策劃、品牌網(wǎng)站設(shè)計(jì)、電子商務(wù)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

什么是大數(shù)據(jù)