學(xué)AI,好工作 就找北大青鳥
關(guān)注小青 聽課做題,輕松學(xué)習(xí)
周一至周日
4000-9696-28

?如何從0到1搭建數(shù)據(jù)倉(cāng)庫(kù)?輕量級(jí)數(shù)據(jù)分析必備

來源:北大青鳥總部 2023年08月01日 11:34

摘要: 數(shù)據(jù)倉(cāng)庫(kù),一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反應(yīng)歷史變化的數(shù)據(jù)集合,主要用于數(shù)據(jù)分析、運(yùn)營(yíng)決策。使用數(shù)據(jù)庫(kù)來做數(shù)據(jù)摸底、數(shù)據(jù)分析,既費(fèi)時(shí)費(fèi)力,也效果不好,最合適的方式便是數(shù)據(jù)倉(cāng)庫(kù)了,輕量又實(shí)用。

大數(shù)據(jù)時(shí)代對(duì)于數(shù)據(jù)分析、數(shù)據(jù)營(yíng)銷的要求越來越迫切,無論是對(duì)外的業(yè)務(wù)系統(tǒng),還是對(duì)內(nèi)的系統(tǒng),業(yè)務(wù)人員都希望以數(shù)據(jù)為支撐,進(jìn)行產(chǎn)品策略制定支撐、用戶運(yùn)營(yíng)打法制定。使用數(shù)據(jù)庫(kù)來做數(shù)據(jù)摸底、數(shù)據(jù)分析,既費(fèi)時(shí)費(fèi)力,也效果不好,最合適的方式便是數(shù)據(jù)倉(cāng)庫(kù)了,輕量又實(shí)用。

數(shù)據(jù)倉(cāng)庫(kù),一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反應(yīng)歷史變化的數(shù)據(jù)集合,主要用于數(shù)據(jù)分析、運(yùn)營(yíng)決策。所謂面向主題,它指的是數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息按照某個(gè)主題進(jìn)行聚合,比如地區(qū)、成本、商品、收入、利潤(rùn)等等;所謂集成的,它指的是可以把不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)都匯聚在一起;所謂相對(duì)穩(wěn)定的,它指的是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)不會(huì)像操作型數(shù)據(jù)庫(kù)那樣經(jīng)常變化;所謂反映歷史變化,它指的是數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息不只是反映企業(yè)當(dāng)前情況,還可以記錄分析從過去某一個(gè)時(shí)間點(diǎn)到現(xiàn)在的變化。

了解完數(shù)據(jù)倉(cāng)庫(kù)的定義后,我們來看看如何搭建一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。搭建一個(gè)數(shù)據(jù)倉(cāng)庫(kù),一般需求確認(rèn)、數(shù)據(jù)收集、數(shù)據(jù)建模、數(shù)據(jù)處理、數(shù)據(jù)分析五大部分。數(shù)據(jù)倉(cāng)庫(kù)搭建好了之后,再通過不斷的數(shù)據(jù)驗(yàn)證,不斷進(jìn)行指標(biāo)優(yōu)化。其實(shí)這就和做正常的業(yè)務(wù)產(chǎn)品一樣,也是包含需求收集、開發(fā)、上線、迭代的過程,只不過它是數(shù)據(jù)產(chǎn)品而已。

需求確認(rèn)階段,我們需要確認(rèn)原材料和用戶,原材料包含有哪些數(shù)據(jù),要做哪些數(shù)據(jù)的分析;用戶包含數(shù)據(jù)的生產(chǎn)者、使用者、管理者。

需求確認(rèn)之后,在數(shù)據(jù)收集階段,我們需要確認(rèn)收集的數(shù)據(jù)、數(shù)據(jù)更新頻率、更新方式,并且做好數(shù)據(jù)質(zhì)量檢查。所謂“收集的數(shù)據(jù)”指的是我們要與用戶(生產(chǎn)者、使用者、管理者)定義好每一個(gè)數(shù)據(jù)、數(shù)據(jù)中的主鍵(唯一標(biāo)識(shí)),它代表的業(yè)務(wù)意義、統(tǒng)計(jì)的來源,避免在后面分析階段產(chǎn)生歧義;所謂“數(shù)據(jù)更新頻率”指的是我們期望多久更新一次數(shù)據(jù),按時(shí)、按天、按周、按需更新;所謂“更新方式”指的是我們是只更新增量數(shù)據(jù)or全量更新數(shù)據(jù);所謂“數(shù)據(jù)質(zhì)量檢查”,指的是我們要檢查主鍵是否為空、是否重復(fù),維度數(shù)據(jù)是否包含關(guān)鍵字、事實(shí)數(shù)據(jù)與維度數(shù)據(jù)是否完全關(guān)聯(lián),業(yè)務(wù)方提供的數(shù)據(jù)是否和需求匹配。

數(shù)據(jù)收集好了之后,我們要開始建模了,這也是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市、數(shù)據(jù)庫(kù)最大的區(qū)別。通過模型的建設(shè),我們可以進(jìn)行全面的業(yè)務(wù)處理,了解業(yè)務(wù)架構(gòu)圖、數(shù)據(jù)流向、業(yè)務(wù)運(yùn)營(yíng)情況,將數(shù)據(jù)進(jìn)行分類;還可以站在全面的視角了解數(shù)據(jù),消除各個(gè)業(yè)務(wù)部門之間的信息不對(duì)稱;最后還可以將底層技術(shù)實(shí)現(xiàn)和上層業(yè)務(wù)進(jìn)行解耦,上層業(yè)務(wù)發(fā)生變化時(shí),底層技術(shù)很容易的就可以適應(yīng)。數(shù)據(jù)倉(cāng)庫(kù)模型一般包含四個(gè)階段,即業(yè)務(wù)建模(業(yè)務(wù)層面分解和程序化)、領(lǐng)域建模(對(duì)業(yè)務(wù)模型進(jìn)行抽象處理)、邏輯建模(根據(jù)領(lǐng)域模型的概念實(shí)體進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的邏輯處理)、物理建模(根據(jù)邏輯建模進(jìn)行的技術(shù)實(shí)現(xiàn))。

數(shù)據(jù)倉(cāng)庫(kù)的模型一般包含五部分,即系統(tǒng)記錄域、內(nèi)部管理域、匯總域、分析域、反饋域。在系統(tǒng)記錄域主要是數(shù)據(jù)的存儲(chǔ),在內(nèi)部管理域主要是記錄數(shù)據(jù)之間的關(guān)系數(shù)據(jù)(元數(shù)據(jù)),在匯總域主要是將所有的數(shù)據(jù)匯總在此處,在分析域主要是做數(shù)據(jù)分析,在反饋域主要是把數(shù)據(jù)給到前端。常用的數(shù)據(jù)建模方式是維度建模法,即按照事實(shí)表、維度表來建立數(shù)據(jù)倉(cāng)庫(kù)。事實(shí)表代表從業(yè)務(wù)活動(dòng)中抽取出來的性能度量,占據(jù)了數(shù)據(jù)倉(cāng)庫(kù)90%的空間,數(shù)據(jù)倉(cāng)庫(kù)的報(bào)表數(shù)據(jù)主要也就是這些維度數(shù)據(jù)了。維度表是對(duì)業(yè)務(wù)過程的上下文描述,包含具體的明細(xì)數(shù)據(jù),是事實(shí)表的輸入。在下圖中以訂單為主題,它對(duì)應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)的事實(shí)表包含產(chǎn)品代理鍵、日期代理鍵、客戶代理鍵等,維度表比如產(chǎn)品維包含創(chuàng)建人、創(chuàng)建日期、修改人等。



數(shù)據(jù)模型建立好之后,我們就要開始數(shù)據(jù)處理了。數(shù)據(jù)處理包含數(shù)據(jù)分層、ETL清洗、數(shù)據(jù)監(jiān)控三個(gè)模塊。在數(shù)據(jù)分層階段,我們一般把它分為ODS層(存儲(chǔ)原始數(shù)據(jù),比如API傳入、人工導(dǎo)入、MQ數(shù)據(jù))、DW層(進(jìn)行數(shù)據(jù)清洗)、DM層(進(jìn)行數(shù)據(jù)聚合,)。在數(shù)據(jù)清洗階段,通過“提取extraction”從ODS層獲取指定數(shù)據(jù)、“轉(zhuǎn)換transformation”把數(shù)據(jù)轉(zhuǎn)換成具體的格式、“加載load”把轉(zhuǎn)換后的數(shù)據(jù)加載進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)。在數(shù)據(jù)監(jiān)控階段,主要是看看數(shù)據(jù)在清洗時(shí)是否有報(bào)錯(cuò)、存入的數(shù)據(jù)是否有異常。



數(shù)據(jù)處理完了之后,就是可視化呈現(xiàn)了?;跀?shù)據(jù)倉(cāng)庫(kù)的分析數(shù)據(jù),管理者可以找到有價(jià)值的信息,進(jìn)行分析決策;業(yè)務(wù)人員可以進(jìn)行事件的監(jiān)控,比如報(bào)警事件情況、用戶工單情況等,對(duì)比歷史數(shù)據(jù),給出相應(yīng)的應(yīng)對(duì)策略;

不過在數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)中也存在很多跳轉(zhuǎn),比如數(shù)據(jù)采集難、業(yè)務(wù)需求多變等。因?yàn)槊總€(gè)系統(tǒng)的業(yè)務(wù)訴求、數(shù)據(jù)格式、存儲(chǔ)方式都不一樣,這導(dǎo)致我們想獲取全量的數(shù)據(jù)往往不是那么容易;業(yè)務(wù)需求多變就更好理解了,市場(chǎng)總是在變化的,企業(yè)的戰(zhàn)略目標(biāo)跟隨市場(chǎng)和用戶調(diào)整,自然業(yè)務(wù)也會(huì)調(diào)整,從而對(duì)應(yīng)的數(shù)據(jù)模型也要隨著變化了。

大數(shù)據(jù)時(shí)代,只有把數(shù)據(jù)轉(zhuǎn)化成信息、知識(shí),才能做更精準(zhǔn)的數(shù)據(jù)營(yíng)銷分析。對(duì)于業(yè)務(wù)部門來說,自建數(shù)據(jù)分析系統(tǒng)太重,不妨考慮來一個(gè)輕量級(jí)的數(shù)據(jù)倉(cāng)庫(kù)吧~


標(biāo)簽: 大數(shù)據(jù)
熱門班型時(shí)間
人工智能就業(yè)班 即將爆滿
AI應(yīng)用線上班 即將爆滿
UI設(shè)計(jì)全能班 即將爆滿
數(shù)據(jù)分析綜合班 即將爆滿
軟件開發(fā)全能班 爆滿開班
網(wǎng)絡(luò)安全運(yùn)營(yíng)班 爆滿開班
報(bào)名優(yōu)惠
免費(fèi)試聽
課程資料
官方微信
返回頂部
培訓(xùn)課程 熱門話題 站內(nèi)鏈接