來源:北大青鳥總部 2020年12月01日 13:29
隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的人涌進互聯(lián)網(wǎng),通過瀏覽器、智能終端、各種設備,產(chǎn)生了海量的數(shù)據(jù),同時也產(chǎn)生了很多數(shù)據(jù)的概念,如數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)集市、數(shù)據(jù)中臺等,這些概念相互交錯,互相關聯(lián)。對于它們分別是什么,又怎么使用,彼此之間的關系又怎么樣?今天一篇文章就能給你整明白。
數(shù)據(jù)庫,本質(zhì)上是一個二維關系存儲系統(tǒng),存儲結構化數(shù)據(jù),比如某學校的學生信息表、某年級的學生成績表等。它因為使用簡單,結構化程度高,極大的促進了互聯(lián)網(wǎng)的發(fā)展。它包含操作性數(shù)據(jù)庫和分析型數(shù)據(jù)庫兩類。
所謂操作型數(shù)據(jù)庫,主要是針對一個“事務”型操作而言,用于支持日常業(yè)務,比如購買商品、點外賣、打滴滴等。
所謂分析型數(shù)據(jù)庫,主要是對歷史數(shù)據(jù)進行分析,比如分析某商品的銷售量、某店的訂單量、某師傅的車訂單量等。
由于操作型數(shù)據(jù)庫寫多查少、數(shù)據(jù)動態(tài)變化、存儲時間要求不高等特點,它注定與分析型數(shù)據(jù)庫不會是同一個數(shù)據(jù)庫,分析型數(shù)據(jù)庫寫少查多、數(shù)據(jù)基本穩(wěn)定、存儲時間長。隨著我們對分析數(shù)據(jù)的要求變高,我們希望看到更多維度的分析,傳統(tǒng)的分析型數(shù)據(jù)庫的支持就變得很難了,比如我們想看淘寶某店家的披薩在什么情況下最好銷售,這時候需要披薩信息表、訂單銷售表、消費者信息表、中國天氣表等多個表聯(lián)同起來,才能分析出在什么天氣、什么地理位置、什么口味、什么價格的時候最好售賣,因此數(shù)據(jù)倉庫應運而生。
數(shù)據(jù)倉庫,本質(zhì)上是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,是比數(shù)據(jù)庫范圍更大的庫。所謂面向主題,它指的是數(shù)據(jù)倉庫內(nèi)的信息按照某個主題進行聚合,比如地區(qū)、成本、商品、收入、利潤等等;所謂集成的,它指的是可以把不同數(shù)據(jù)庫中的數(shù)據(jù)都匯聚在一起;所謂相對穩(wěn)定的,它指的是數(shù)據(jù)倉庫的數(shù)據(jù)不會像操作型數(shù)據(jù)庫那樣經(jīng)常變化;所謂反映歷史變化,它指的是數(shù)據(jù)倉庫內(nèi)的信息不只是反映企業(yè)當前情況,還可以記錄分析從過去某一個時間點到現(xiàn)在的變化。
在數(shù)據(jù)倉庫的發(fā)展及探索過程中,還出現(xiàn)了數(shù)據(jù)集市、商業(yè)智能BI的概念。所謂數(shù)據(jù)集市,它是一個小型的數(shù)據(jù)倉庫,只關注某一個主題,比如只關注成本,那么它就會只收錄成本相關的數(shù)據(jù),數(shù)據(jù)來源可以是自己的源數(shù)據(jù)庫,也可以從數(shù)據(jù)倉庫中獲取某一主題的數(shù)據(jù);所謂商業(yè)智能,則是運營分析數(shù)據(jù)的進階,通過數(shù)據(jù)倉庫獲取到了分析型數(shù)據(jù)后,BI人員會結合業(yè)務現(xiàn)況、市場現(xiàn)況、分析數(shù)據(jù)對當下的業(yè)務做一個判斷,提供老板決策。
數(shù)據(jù)湖,它是一個比數(shù)據(jù)倉庫更大、對于數(shù)據(jù)也沒有任何限制的大型倉庫,里面的數(shù)據(jù)像湖水一樣可以自然流動,數(shù)據(jù)可以供存儲、處理、分析。在數(shù)據(jù)湖中,存儲的數(shù)據(jù)沒有經(jīng)過任何的處理,是直接從源系統(tǒng)導入的數(shù)據(jù),它包含結構化數(shù)據(jù)、非結構化數(shù)據(jù)、半結構化數(shù)據(jù),范圍非常廣,也是數(shù)據(jù)倉庫的數(shù)據(jù)來源。此外,它還用于機器學習、預測分析、信息追蹤等場景,提供海量的數(shù)據(jù)供科學家們進行模型訓練、在某個領域做推薦引擎。數(shù)據(jù)倉庫和數(shù)據(jù)湖的區(qū)別可見下表所示。
數(shù)據(jù)中臺,本質(zhì)上是服務于業(yè)務的數(shù)據(jù)分析系統(tǒng),它從一出生開始就是為業(yè)務而生。數(shù)據(jù)倉庫提供的是統(tǒng)計分析、單領域維度、被動分析、非實時分析,必然不能滿足企業(yè)的多維度分析、主動分析、預測分析、實時分析、多元化分析等場景,因此數(shù)據(jù)中臺應運而生。整個數(shù)據(jù)中臺產(chǎn)品就是一個閉環(huán)的解決方案,不再是業(yè)務過程中的一環(huán),它包含數(shù)據(jù)埋點、數(shù)據(jù)接入標準化、數(shù)據(jù)倉庫抽象化、數(shù)據(jù)治理、數(shù)據(jù)服務五大模塊,打通了人、物、場多個維度,更好的為前臺去服務。此外在數(shù)據(jù)中臺的建設中,企業(yè)組織文化也非常重要,它需要聯(lián)動各個業(yè)務線去接入這套系統(tǒng),標準化治理與管理,但在數(shù)據(jù)倉庫的建設過程是不需要關注這一層次的。因此數(shù)據(jù)中臺是數(shù)據(jù)倉庫的又一次質(zhì)的飛躍。
數(shù)據(jù)庫、數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)中臺都是我們在不同階段結合不同需求對數(shù)據(jù)的處理解決方案,并不是說哪一個方案就過時了,每一個方案到現(xiàn)在都有它存在使用的場景,我們結合自己的訴求進行對應的建設即可~