1、數(shù)據(jù)資源梳理
從業(yè)務(wù)的角度理清組織的數(shù)據(jù)資源環(huán)境和數(shù)據(jù)資源清單,包含組織機(jī)構(gòu)、業(yè)務(wù)事項(xiàng)、信息系統(tǒng),以及以數(shù)據(jù)庫、文件和 API 接口形式存在的數(shù)據(jù)項(xiàng)資源,本步驟的輸出物為分門別類的數(shù)據(jù)資源清單。
2、數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)價(jià)值的成功發(fā)掘必須依托于高質(zhì)量的數(shù)據(jù),唯有準(zhǔn)確、完整、一致的數(shù)據(jù)才有使用價(jià)值。因此,需要從多維度來分析數(shù)據(jù)的質(zhì)量,例如:非空檢查、規(guī)范性檢查、值域檢查、關(guān)聯(lián)關(guān)系檢查、重復(fù)性檢查等。
3、基礎(chǔ)庫與主題域建設(shè)
基礎(chǔ)數(shù)據(jù)一般指的是主數(shù)據(jù),例如會(huì)計(jì)科目、產(chǎn)品、物料、客戶、供應(yīng)商等數(shù)據(jù)。主題數(shù)據(jù)一般指的是某個(gè)業(yè)務(wù)主題數(shù)據(jù),例如市場(chǎng)監(jiān)督管理局的食品監(jiān)管、質(zhì)量監(jiān)督檢查、企業(yè)綜合監(jiān)管等數(shù)據(jù)。
4、數(shù)據(jù)采集清洗
通過可視化的 ETL 工具將數(shù)據(jù)從來源端經(jīng)過抽取、轉(zhuǎn)換、加載至目的端的過程,目的是將散落和零亂的數(shù)據(jù)集中存儲(chǔ)起來。
5、元數(shù)據(jù)管理
元數(shù)據(jù)管理是對(duì)基礎(chǔ)庫和主題庫中的數(shù)據(jù)項(xiàng)屬性管理,同時(shí),將數(shù)據(jù)項(xiàng)的業(yè)務(wù)含義與數(shù)據(jù)項(xiàng)進(jìn)行了關(guān)聯(lián),便于業(yè)務(wù)人員也能夠理解數(shù)據(jù)庫中的數(shù)據(jù)字段含義。
6、數(shù)據(jù)血緣追蹤
在元數(shù)據(jù)和數(shù)據(jù)資源清單之間建立關(guān)聯(lián)關(guān)系,且業(yè)務(wù)團(tuán)隊(duì)使用的數(shù)據(jù)項(xiàng)由元數(shù)據(jù)組合配置而來,建立數(shù)據(jù)使用場(chǎng)景與數(shù)據(jù)源頭之間的血緣關(guān)系。在數(shù)據(jù)業(yè)務(wù)場(chǎng)景使用過程中發(fā)現(xiàn)錯(cuò)誤時(shí),數(shù)據(jù)治理團(tuán)隊(duì)可以快速定位數(shù)據(jù)來源,修復(fù)數(shù)據(jù)錯(cuò)誤。
7、數(shù)據(jù)共享交換
數(shù)據(jù)共享分為庫表、文件和 API 接口三種共享方式。庫表共享比較直接,文件共享方式通過 ETL 工具做一個(gè)反向的數(shù)據(jù)交換就可以實(shí)現(xiàn)。我們比較T薦的是 API 接口共享方式,在這種方式下,能夠讓中心數(shù)據(jù)倉庫保留數(shù)據(jù)所有權(quán),把數(shù)據(jù)使用權(quán)通過 API 接口的形式進(jìn)行了轉(zhuǎn)移。
8、數(shù)據(jù)資源目錄
數(shù)據(jù)資源目錄一般應(yīng)用于數(shù)據(jù)共享的場(chǎng)景,例如政府部門之間的數(shù)據(jù)共享。數(shù)據(jù)資源目錄是基于業(yè)務(wù)場(chǎng)景和行業(yè)規(guī)范而創(chuàng)建,同時(shí)依托于元數(shù)據(jù)和基礎(chǔ)庫主題實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)申請(qǐng)和使用。