數(shù)據(jù)湖,數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù):有什么區(qū)別?_昆山滿座網(wǎng)
介紹
許多負(fù)責(zé)領(lǐng)先數(shù)據(jù)項(xiàng)目的高管在通用數(shù)據(jù)方面面臨困惑。大數(shù)據(jù),數(shù)據(jù)湖,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市之間有什么區(qū)別?大數(shù)據(jù)何時(shí)“足夠大”?為什么這么重要?
相關(guān)推薦:探索將雙語(yǔ)運(yùn)輸IT服務(wù)外包的收益和風(fēng)險(xiǎn)
在本文中,我們將分解不同術(shù)語(yǔ)之間的區(qū)別,以便您可以在任何與數(shù)據(jù)相關(guān)的會(huì)議,項(xiàng)目簡(jiǎn)介或員工倡議中聽(tīng)起來(lái)更加聰明。
首先,什么是數(shù)據(jù)?
本質(zhì)上,數(shù)據(jù)是定量和定性信息的存儲(chǔ)。在您的企業(yè)中,這可能是有關(guān)以下信息:
您的內(nèi)部員工
您的客戶
您的內(nèi)部流程
您的財(cái)務(wù)數(shù)據(jù)
服務(wù)臺(tái)票號(hào)
更重要的是,不可能在一個(gè)文檔中列出所有維度和指標(biāo)。您的數(shù)據(jù)分布在組織內(nèi)外的許多系統(tǒng),數(shù)據(jù)庫(kù)和組中。
您的數(shù)據(jù)也處于相關(guān)性,準(zhǔn)確性,及時(shí)性和可訪問(wèn)性的各種狀態(tài)。其中一些與其他數(shù)據(jù)保持一致,而另一些則沒(méi)有。
如果您的組織像超過(guò)95%的公司一樣,那么您將面臨許多非結(jié)構(gòu)化和骯臟的數(shù)據(jù)。這種狀態(tài)通常被我們稱為“數(shù)據(jù)湖”。
什么是數(shù)據(jù)湖?
數(shù)據(jù)湖是收集數(shù)據(jù)并處于自然狀態(tài)的地方。這可能意味著數(shù)據(jù)是非結(jié)構(gòu)化的,不清楚的或無(wú)法在管道中使用。數(shù)據(jù)湖始終存儲(chǔ)您擁有的所有數(shù)據(jù),包括數(shù)十年的歷史數(shù)據(jù)。
存儲(chǔ)數(shù)據(jù)湖通常很便宜,而且大多不受管理。
數(shù)據(jù)什么時(shí)候成為“大數(shù)據(jù)”?
經(jīng)常使用的另一個(gè)術(shù)語(yǔ)是大數(shù)據(jù),這是有充分理由的。由于數(shù)據(jù)存儲(chǔ)的可用性,存儲(chǔ)的可承受性以及每天生成數(shù)據(jù)的系統(tǒng)和設(shè)備的數(shù)量,大數(shù)據(jù)正在成為一種日益增長(zhǎng)的現(xiàn)象。
大數(shù)據(jù)按照通用定義是“包含更多種類的數(shù)據(jù),它們以越來(lái)越大的數(shù)量和越來(lái)越快的速度到達(dá)。”
您的數(shù)據(jù)是您最大的資產(chǎn),也是您最大的風(fēng)險(xiǎn)……但是,只有當(dāng)您真正理解它時(shí),它才有用。
這就是為什么數(shù)據(jù)集市如此有用。
什么是數(shù)據(jù)集市?
數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)中以主題為中心的部分,可以回答特定問(wèn)題,通常是有關(guān)特定業(yè)務(wù)領(lǐng)域或關(guān)鍵業(yè)務(wù)問(wèn)題的問(wèn)題。更好的是,數(shù)據(jù)中心被設(shè)計(jì)為能夠按需回答問(wèn)題并使數(shù)據(jù)值得信賴,這與數(shù)據(jù)湖不同,后者可能是骯臟且沒(méi)有結(jié)構(gòu)的。
數(shù)據(jù)倉(cāng)庫(kù)通常是許多不同數(shù)據(jù)市場(chǎng)的組合。
相關(guān)推薦:您需要了解的外包知識(shí):哪種外包服務(wù)最適合您?
什么是數(shù)據(jù)倉(cāng)庫(kù)?
根據(jù)Wikipedia所述,數(shù)據(jù)倉(cāng)庫(kù)是“……來(lái)自一個(gè)或多個(gè)不同來(lái)源的集成數(shù)據(jù)的中央存儲(chǔ)庫(kù)。它們存儲(chǔ)當(dāng)前和歷史數(shù)據(jù),并用于為高級(jí)管理人員報(bào)告創(chuàng)建趨勢(shì)報(bào)告,例如年度和季度比較?!?/span>
與數(shù)據(jù)湖不同,數(shù)據(jù)倉(cāng)庫(kù)是結(jié)構(gòu)化數(shù)據(jù)的有意來(lái)源。此外,它是一個(gè)由多個(gè)來(lái)源組成的單一存儲(chǔ)庫(kù),其中許多本身就是數(shù)據(jù)湖。
我們的儀表板服務(wù)建立在開(kāi)發(fā)健壯的數(shù)據(jù)倉(cāng)庫(kù)和管道的基礎(chǔ)上,因此您的團(tuán)隊(duì)可以輕松地查看,分析和可視化您的數(shù)據(jù)。
如何確定下一步
在大多數(shù)情況下,從數(shù)據(jù)湖到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)中心的遷移涉及許多數(shù)據(jù)工程活動(dòng),例如數(shù)據(jù)清理,ETL流程和數(shù)據(jù)管道。
在決定雇用某人進(jìn)行下一個(gè)數(shù)據(jù)項(xiàng)目之前,了解您現(xiàn)在的位置非常重要。
以下是一些要問(wèn)您的團(tuán)隊(duì)的問(wèn)題:
我們的數(shù)據(jù)有多孤立?
我們的數(shù)據(jù)有多干凈?
我們是否有足夠大的數(shù)據(jù)集可用于該計(jì)劃?
我們有明確的用例嗎?
我們的內(nèi)部團(tuán)隊(duì)現(xiàn)在可以處理項(xiàng)目的哪些部分?
我們正在尋找什么樣的投資回報(bào)率?
我們是否比其他地方更急切需要知道哪個(gè)領(lǐng)域?
在嘗試ML之前,我們真的只需要可視化嗎?
如果您希望專家?guī)椭_定從哪里開(kāi)始以及在數(shù)據(jù),勞動(dòng)力,工具和預(yù)算方面需要什么,我們可以為您提供幫助。我們的許多項(xiàng)目都涉及與數(shù)據(jù)相關(guān)的計(jì)劃,