目前工程企業(yè)所使用數(shù)據(jù)中心,多采用傳統(tǒng)技術(shù)建設(shè),普遍存存在著建設(shè)成本高、擴(kuò)展性不強(qiáng)、計(jì)算處理及分析挖掘能力有限的缺點(diǎn)。為了滿足基于大數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)、處理、分析及應(yīng)用需求,結(jié)合并行計(jì)算、大規(guī)模數(shù)據(jù)分析挖掘、線性擴(kuò)展、全類數(shù)據(jù)支持等技術(shù)的企業(yè)級數(shù)據(jù)中心能夠有效的實(shí)現(xiàn)全業(yè)務(wù)、全層級、全類型數(shù)據(jù)資源的集中整合和分析。
目前,大部分工程行業(yè)企業(yè)所構(gòu)建的數(shù)據(jù)中心積累了大量的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、地理信息數(shù)據(jù)和海量的實(shí)時(shí)數(shù)據(jù),同時(shí)大多采用集中式服務(wù)器架構(gòu)(如Oracle Rac)技術(shù)導(dǎo)致擴(kuò)展性不強(qiáng),因此無法滿足數(shù)據(jù)的不斷增長的全存儲(chǔ)需求;并且數(shù)據(jù)處理以單點(diǎn)模式為主,缺少實(shí)時(shí)并行計(jì)算處理能力,無法應(yīng)對海量數(shù)據(jù)的實(shí)時(shí)分析處理需求;數(shù)據(jù)存儲(chǔ)與處理多只支持結(jié)構(gòu)化數(shù)據(jù),無法對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效存儲(chǔ)、處理及分析,無法提供大數(shù)據(jù)環(huán)境下全方位、全類型數(shù)據(jù)存儲(chǔ)及處理服務(wù),無法為數(shù)據(jù)深度分析挖掘提供支撐。
基于大數(shù)據(jù)的工程行業(yè)的企業(yè)級數(shù)據(jù)中心總體架構(gòu)圖如圖一所示,按照層次可以劃分為數(shù)據(jù)源層、數(shù)據(jù)集成層、數(shù)據(jù)存儲(chǔ)層、分析/服務(wù)層、業(yè)務(wù)應(yīng)用層、前段訪問層以及整體的數(shù)據(jù)管理平臺(tái)。
圖一、基于大數(shù)據(jù)技術(shù)的工程行業(yè)企業(yè)數(shù)據(jù)中心總體架構(gòu)
數(shù)據(jù)中心通過接口表、接口文件、數(shù)據(jù)接收服務(wù)、數(shù)據(jù)消息接收等方式,實(shí)現(xiàn)對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及實(shí)施數(shù)據(jù)的獲取,滿足不同的數(shù)據(jù)時(shí)效性要求;數(shù)據(jù)中心在數(shù)據(jù)存儲(chǔ)層包含數(shù)據(jù)倉庫平臺(tái)、分布式數(shù)據(jù)平臺(tái)和流數(shù)據(jù)平臺(tái),用來存儲(chǔ)不同特性的數(shù)據(jù),并提供相應(yīng)的數(shù)據(jù)服務(wù);數(shù)據(jù)中心通過批量推送、數(shù)據(jù)實(shí)時(shí)服務(wù)等方式為目標(biāo)系統(tǒng)提供整合后的結(jié)果數(shù)據(jù),同時(shí)通過數(shù)據(jù)異步推送的方式,滿足數(shù)據(jù)共享及應(yīng)用的需求;數(shù)據(jù)中心實(shí)現(xiàn)信息綜合展示及職能分析決策功能,并通過各種終端的集成展示,如PC終端、大屏幕以及移動(dòng)終端,滿足各類分析結(jié)果在前端展示要求;并且提供數(shù)據(jù)中心數(shù)據(jù)資源管理,實(shí)現(xiàn)對數(shù)據(jù)中心元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型以及數(shù)據(jù)資源的管理。
一、數(shù)據(jù)集成層:【包括數(shù)據(jù)獲取和作業(yè)調(diào)度兩部分】
數(shù)據(jù)獲取即將采集源系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)送入數(shù)據(jù)中心,包括口表處理、消息接收處理、數(shù)據(jù)接收處理、實(shí)時(shí)數(shù)據(jù)采集和非結(jié)構(gòu)化文件處理。
作業(yè)調(diào)度,實(shí)現(xiàn)對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)獲取等作業(yè)的調(diào)度,實(shí)現(xiàn)對數(shù)據(jù)中心內(nèi)部數(shù)據(jù)處理流操作(包括ETL、MapReduce、Sqoop等),以及數(shù)據(jù)推送給各目標(biāo)系統(tǒng)的作業(yè)的統(tǒng)一集中調(diào)度。調(diào)度實(shí)現(xiàn)調(diào)度引擎,提供作業(yè)的自動(dòng)、手動(dòng)調(diào)節(jié)方式,基于作業(yè)依賴配置信息控制作業(yè)執(zhí)行的先后順序,同時(shí)控制作業(yè)的并發(fā)度,并記錄作業(yè)的運(yùn)行結(jié)果和日志。
二、數(shù)據(jù)存儲(chǔ)層:
【包含基于關(guān)系數(shù)據(jù)庫的傳統(tǒng)數(shù)據(jù)倉庫平臺(tái)、基于Hadoop生態(tài)體系分布式數(shù)據(jù)平臺(tái)及流數(shù)據(jù)平臺(tái),用來存放不同性質(zhì)的數(shù)據(jù),并提供不同的數(shù)據(jù)服務(wù)。】
數(shù)據(jù)倉庫平臺(tái):采用分層設(shè)計(jì),即分為緩沖層、整合層、匯總層和集市層。緩沖層存儲(chǔ)的是數(shù)據(jù)中心從源系統(tǒng)采集的數(shù)據(jù),數(shù)據(jù)緩沖層能夠很好的分擔(dān)源系統(tǒng)批量/實(shí)時(shí)分發(fā)數(shù)據(jù)的壓力,避免了重復(fù)獲取數(shù)據(jù)帶來的性能壓力、版本時(shí)差、多次開發(fā)、冗余存儲(chǔ)等問題,同時(shí)也能作為一個(gè)給的數(shù)據(jù)源,一定程度上屏蔽原系統(tǒng)(數(shù)據(jù)結(jié)構(gòu)、時(shí)間窗口等)的變化對數(shù)據(jù)整合層、匯總層帶來的影響。整合層是經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換、整合后的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)中心的核心數(shù)據(jù)層,數(shù)據(jù)整合層是數(shù)據(jù)中心存儲(chǔ)數(shù)據(jù)的核心層。匯總層存儲(chǔ),根據(jù)主題維度形成企業(yè)統(tǒng)計(jì)、匯總數(shù)據(jù);更具主體報(bào)表加工需要,形成匯總數(shù)據(jù);按主體存儲(chǔ)匯總數(shù)據(jù),通過日期、主體和處理類型等維度對業(yè)務(wù)數(shù)據(jù)進(jìn)行計(jì)算后形成匯總數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)集市是面向特定業(yè)務(wù)單元(如業(yè)務(wù)部門)的分析數(shù)據(jù)集,數(shù)據(jù)主要基于整合層、匯總層數(shù)據(jù),同時(shí)包含支撐目標(biāo)特有的分析數(shù)據(jù)。
分布式數(shù)據(jù)平臺(tái)主要保存以下幾類數(shù)據(jù):在傳統(tǒng)關(guān)系數(shù)據(jù)庫中難以保存的海量結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化文檔數(shù)據(jù)、流數(shù)據(jù)轉(zhuǎn)儲(chǔ)數(shù)據(jù)和關(guān)系型數(shù)據(jù)庫的轉(zhuǎn)儲(chǔ)數(shù)據(jù)。按照數(shù)據(jù)存取需求和分布式平臺(tái)技術(shù)組件的特性,把存儲(chǔ)區(qū)分為基于HBase的數(shù)據(jù)存儲(chǔ)區(qū)和基于Hive的數(shù)據(jù)存儲(chǔ)區(qū)。非結(jié)構(gòu)化數(shù)據(jù)層中存儲(chǔ)來自各源系統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù),包括辦公文檔、設(shè)計(jì)圖紙、文本文件、圖像文件等。海量結(jié)構(gòu)化數(shù)據(jù)層中存儲(chǔ)來自各源系統(tǒng)的海量結(jié)構(gòu)化數(shù)據(jù)。流數(shù)據(jù)轉(zhuǎn)儲(chǔ)層中存儲(chǔ)來自流數(shù)據(jù)平臺(tái)的定期轉(zhuǎn)儲(chǔ)數(shù)據(jù),協(xié)助流數(shù)據(jù)平臺(tái)實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)的持久化保存。
流數(shù)據(jù)平臺(tái)包含實(shí)時(shí)數(shù)據(jù)整合層、實(shí)時(shí)數(shù)據(jù)匯總層和業(yè)務(wù)緩存層。實(shí)時(shí)數(shù)據(jù)整合層:在流數(shù)據(jù)平臺(tái)整合層中,為了避免數(shù)據(jù)源的不一致性,源系統(tǒng)入口端統(tǒng)一采用Socket通信的方式進(jìn)行交互。由數(shù)據(jù)中心系統(tǒng)對源系統(tǒng)的Socket進(jìn)行監(jiān)聽,當(dāng)源系統(tǒng)有數(shù)據(jù)產(chǎn)生時(shí),監(jiān)聽程序獲得數(shù)據(jù),并將監(jiān)聽的數(shù)據(jù)來源信息寫入相應(yīng)的消息隊(duì)列中。 實(shí)時(shí)數(shù)據(jù)匯總層:采用 Storm 以流的方式對整合層消息隊(duì)列中的源數(shù)據(jù)進(jìn)行處理,按照業(yè)務(wù)需要進(jìn)行數(shù)據(jù)的匯總、計(jì)算和存儲(chǔ)。業(yè)務(wù)數(shù)據(jù)緩存層:當(dāng) Storm 對流數(shù)據(jù)進(jìn)行計(jì)算完成后,會(huì)根據(jù)具體的業(yè)務(wù)計(jì)算邏輯得出數(shù)據(jù)(架構(gòu)如圖二所示)。
圖二、數(shù)據(jù)存儲(chǔ)層架構(gòu)圖
三、分析/服務(wù)層:包含信息綜合展示平臺(tái)、智能分析決策平臺(tái)和數(shù)據(jù)服務(wù)(如圖三所示)。
信息綜合展示平臺(tái),以數(shù)據(jù)存儲(chǔ)層為基礎(chǔ),是一個(gè)集報(bào)表查詢、綜合分析為一體的應(yīng)用平臺(tái),實(shí)現(xiàn)對分析展現(xiàn)頁面內(nèi)容、布局、組件、央視、聯(lián)動(dòng)關(guān)系等進(jìn)行動(dòng)態(tài)配置。
智能分析決策平臺(tái)功能包含數(shù)據(jù)加載、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘算法、分析模型管理及模型運(yùn)行調(diào)度等模塊;為數(shù)據(jù)挖掘過程中數(shù)據(jù)理解、數(shù)據(jù)預(yù)處理、算法建模、模型評估、模型應(yīng)用等環(huán)節(jié)提供技術(shù)職稱;并針對大數(shù)據(jù)分析的應(yīng)用需求,融合大數(shù)據(jù)挖掘算法庫(包括描述性挖掘算法,如聚類分析、關(guān)聯(lián)分析等;預(yù)測性算挖掘算法,如分類分析、演化分析、異類分析等;專用數(shù)據(jù)分析挖掘算法,如文本分析、語音分析、圖像分析、視頻分析等)。
數(shù)據(jù)服務(wù)接口實(shí)現(xiàn)的主要功能包括數(shù)據(jù)實(shí)時(shí)服務(wù)、訂閱發(fā)布、批量數(shù)據(jù)服務(wù)等,并給予告訴緩存功能提升系統(tǒng)的整體性能。
圖三、分析/服務(wù)層架構(gòu)圖
四、數(shù)據(jù)管理層:由元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、主數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、作業(yè)集中調(diào)度監(jiān)控功能(如圖四所示)。
元數(shù)據(jù)管理:實(shí)現(xiàn)數(shù)據(jù)中心元數(shù)據(jù)的快速查找、獲取、使用和共享,為數(shù)據(jù)中心數(shù)據(jù)共享交換、多維分析、輔助決策、數(shù)據(jù)挖掘等應(yīng)用提供元數(shù)據(jù)支撐。
數(shù)據(jù)質(zhì)量管理:實(shí)現(xiàn)數(shù)據(jù)中心數(shù)據(jù)的常態(tài)化質(zhì)量稽核,保障業(yè)務(wù)系統(tǒng)數(shù)據(jù)接入的及時(shí)性、完整性和合規(guī)性。
主數(shù)據(jù)管理:實(shí)現(xiàn)物資、項(xiàng)目、合同等主數(shù)據(jù)的統(tǒng)一管理、應(yīng)用和維護(hù),保證物資、項(xiàng)目、合同主數(shù)據(jù)修改的一致性和穩(wěn)定性。
數(shù)據(jù)標(biāo)準(zhǔn)管理:實(shí)現(xiàn)對數(shù)據(jù)中心標(biāo)準(zhǔn)文檔的統(tǒng)一管理。
作業(yè)集中調(diào)度監(jiān)控:實(shí)現(xiàn)對數(shù)據(jù)中心ETL接口作業(yè)、大數(shù)據(jù)作業(yè)的統(tǒng)一任務(wù)調(diào)度管理及監(jiān)控。
圖四、管理層架構(gòu)圖
隨著工程行業(yè)的信息化水平不斷提高,信息系統(tǒng)已經(jīng)全面融入到企業(yè)生產(chǎn)經(jīng)營管理業(yè)務(wù)的各個(gè)方面,積累了大量的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、地理信息數(shù)據(jù)和海量實(shí)時(shí)數(shù)據(jù);因此采用基于大數(shù)據(jù)的企業(yè)級數(shù)據(jù)中心可以彌補(bǔ)傳統(tǒng)技術(shù)的缺點(diǎn),解決了傳統(tǒng)技術(shù)擴(kuò)展性不強(qiáng)、建設(shè)成本高、計(jì)算處理及分析挖掘能力有限的缺點(diǎn),滿足企業(yè)大數(shù)據(jù)環(huán)境下的全類型數(shù)據(jù)存儲(chǔ)、處理、分析及應(yīng)用的需求。