中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

數(shù)據(jù)分析必不可少之?dāng)?shù)據(jù)倉庫!

2021-03-01    分類: 網(wǎng)站建設(shè)

數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(Decision Support)。數(shù)據(jù)倉庫本身并不“生產(chǎn)”任何數(shù)據(jù),同時自身也不需要“消費(fèi)”任何的數(shù)據(jù),數(shù)據(jù)來源于外部,并且開放給外部應(yīng)用,這也是為什么叫“倉庫”,而不叫“工廠”的原因。

01 數(shù)據(jù)倉庫的特點

  1. 面向主題的,按照一定的主題進(jìn)行組織,主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,后面會重點舉例說明。
  2. 數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進(jìn)行加工和集成之后,進(jìn)入數(shù)據(jù)倉庫。
  3. 數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫主要是為決策分析供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢;

02 數(shù)據(jù)倉庫有如下要求

  1. 效率足夠高:數(shù)據(jù)倉庫的分析數(shù)據(jù)一般分為日、周、月、季、年等,可以看出,日為周期的數(shù)據(jù)要求的效率高。
  2. 數(shù)據(jù)質(zhì)量:由于數(shù)據(jù)倉庫流程通常分為多個步驟,包括數(shù)據(jù)清洗,轉(zhuǎn)換,裝載等,那么由于臟數(shù)據(jù)會導(dǎo)致數(shù)據(jù)失真,就可能導(dǎo)致做出錯誤的決策。
  3. 可擴(kuò)展性:主要體現(xiàn)在數(shù)據(jù)建模的合理性。

數(shù)據(jù)倉庫的基本架構(gòu)主要包含的是數(shù)據(jù)流入流出的過程,可以分為三層——數(shù)據(jù)獲取、數(shù)據(jù)倉庫、數(shù)據(jù)應(yīng)用:

數(shù)據(jù)模型的層次劃分

通過上圖,我們能夠很容易的看出在整個數(shù)據(jù)倉庫的建模過程中,我們需要經(jīng)歷一般四個過程:

  • 業(yè)務(wù)建模:生成業(yè)務(wù)模型,主要解決業(yè)務(wù)層面的分解和程序化。
  • 領(lǐng)域建模:生成領(lǐng)域模型,主要是對業(yè)務(wù)模型進(jìn)行抽象處理,生成領(lǐng)域概念模型。
  • 邏輯建模:生成邏輯模型,主要是將領(lǐng)域模型的概念實體以及實體之間的關(guān)系進(jìn)行數(shù)據(jù)庫層次的邏輯化。
  • 物理建模:生成物理模型,主要解決,邏輯模型針對不同關(guān)系型數(shù)據(jù)庫的物理化以及性能等一些具體的技術(shù)問題。

因此,在整個數(shù)據(jù)倉庫的模型的設(shè)計和架構(gòu)中,既涉及到業(yè)務(wù)知識,也涉及到了具體的技術(shù),我們既需要了解豐富的行業(yè)經(jīng)驗,同時,也需要一定的信息技術(shù)來幫助我們實現(xiàn)我們的數(shù)據(jù)模型,最重要的是,我們還需要一個非常適用的方法論,來指導(dǎo)我們自己針對我們的業(yè)務(wù)進(jìn)行抽象,處理,生成各個階段的模型。

2.2數(shù)據(jù)主題:

數(shù)據(jù)主題

數(shù)據(jù)模型的建設(shè),維度的選擇,是為了滿足數(shù)據(jù)主題的需求。數(shù)據(jù)主題通常就是業(yè)務(wù)需求的提煉。

2.3數(shù)據(jù)報表:

報表幾乎是每個數(shù)據(jù)倉庫的必不可少的一類數(shù)據(jù)應(yīng)用,將聚合數(shù)據(jù)和多維分析數(shù)據(jù)展示到報表,提供了最為簡單和直觀的數(shù)據(jù)。

這里的數(shù)據(jù)匯總指的是基于特定需求的簡單匯總(基于多維數(shù)據(jù)的聚合體現(xiàn)在多維數(shù)據(jù)模型中),簡單匯總可以是網(wǎng)站的總Pageviews、Visits、Unique Visitors等匯總數(shù)據(jù),也可以是Avg. time on page、Avg. time on site等平均數(shù)據(jù),這些數(shù)據(jù)可以直接地展示于報表上。

數(shù)據(jù)分析必不可少之?dāng)?shù)據(jù)倉庫!

數(shù)據(jù)報表示例

2.4數(shù)據(jù)集市和開放API

數(shù)據(jù)集市(Data Mart) ,也叫數(shù)據(jù)市場,可以理解為字段非常多的寬表,比如銷售表,除了包含訂單和金額等必需的字段,還包含可能使用的產(chǎn)品信息集合、用戶信息集合、甚至銷售人員的信息,是數(shù)據(jù)倉庫的核心組成部分。

  1. 提升數(shù)據(jù)準(zhǔn)確性:因為建立面向主題的數(shù)據(jù)表之后,不用再根據(jù)需求的不同,建立不同的結(jié)果表,自然發(fā)生錯誤的幾率會大大降低
  2. 提升效率:由于是面向主題的,所以需要的任何數(shù)據(jù)都可以從數(shù)據(jù)集市表直接簡單獲取。

開放API,指對外開放的查詢等接口。

數(shù)據(jù)質(zhì)量中心:

元數(shù)據(jù)管理

元數(shù)據(jù)(Meta Date),其實應(yīng)該叫做解釋性數(shù)據(jù),或者數(shù)據(jù)字典,即數(shù)據(jù)的數(shù)據(jù)。主要記錄數(shù)據(jù)倉庫中模型的定義、各層級間的映射關(guān)系、監(jiān)控數(shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及ETL的任務(wù)運(yùn)行狀態(tài)。一般會通過元數(shù)據(jù)資料庫(Metadata Repository)來統(tǒng)一地存儲和管理元數(shù)據(jù),其主要目的是使數(shù)據(jù)倉庫的設(shè)計、部署、操作和管理能達(dá)成協(xié)同和一致。

當(dāng)前題目:數(shù)據(jù)分析必不可少之?dāng)?shù)據(jù)倉庫!
URL網(wǎng)址:http://www.rwnh.cn/news32/103682.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供標(biāo)簽優(yōu)化、自適應(yīng)網(wǎng)站、外貿(mào)網(wǎng)站建設(shè)小程序開發(fā)、商城網(wǎng)站、網(wǎng)站策劃

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站制作
福建省| 姜堰市| 左云县| 崇左市| 桐乡市| 库伦旗| 巴塘县| 郸城县| 浦城县| 泸定县| 韩城市| 峨眉山市| 建阳市| 乐亭县| 郑州市| 大方县| 涪陵区| 广州市| 桂平市| 杭锦后旗| 社旗县| 黔西县| 临安市| 华池县| 曲靖市| 隆林| 甘肃省| 信阳市| 庆元县| 黎平县| 宁津县| 乃东县| 花莲县| 万源市| 五河县| 苗栗市| 达尔| 渭源县| 蕉岭县| 会宁县| 修水县|