12.2.2 非結構化數(shù)據(jù)處理系統(tǒng)
隨著互聯(lián)網(wǎng)的逐步發(fā)展,數(shù)據(jù)每天都在以驚人的速度增長,信息的種類也在不斷地擴展。IBM公司的研究部門調查發(fā)現(xiàn),全球大多數(shù)的信息是非結構化的,包括紙上的文件、報告、視頻文件、音頻文件、照片、傳真件、信件等。由于內容的表現(xiàn)形式存在多樣性,人們在對其進行管理和利用方面耗費了大量時間,所以迫切需要有效地將非結構化數(shù)據(jù)管理起來。
傳統(tǒng)數(shù)據(jù)倉庫以銀行結構化數(shù)據(jù)為主,進行異構數(shù)據(jù)的整合、加工,進而提供服務。在大數(shù)據(jù)時代下,新興的數(shù)據(jù)類型不斷涌現(xiàn),更多地呈現(xiàn)出一種非結構化的狀態(tài),傳統(tǒng)關系型的數(shù)據(jù)倉庫難以滿足此類數(shù)據(jù)的存儲及分析需求,因此涌現(xiàn)出了Hadoop、Spark等新型分布式數(shù)據(jù)庫,相應地,單純的數(shù)據(jù)倉庫服務體系架構也逐漸向大數(shù)據(jù)服務體系架構演變。各銀行紛紛啟動面向海量非結構化數(shù)據(jù)的數(shù)據(jù)加工處理與分析系統(tǒng)的建設,并注重傳統(tǒng)銀行數(shù)據(jù)與新興互聯(lián)網(wǎng)金融數(shù)據(jù)的綜合運用。
銀行經營過程中產生和使用的數(shù)據(jù)主要分布于數(shù)據(jù)源系統(tǒng)、數(shù)據(jù)集成系統(tǒng)、分析型系統(tǒng)三類系統(tǒng)中。隨著網(wǎng)絡技術的發(fā)展、商業(yè)銀行的業(yè)務發(fā)展以及客戶接觸渠道的多樣化,銀行的數(shù)據(jù)種類和數(shù)據(jù)量劇增,銀行存儲的客戶數(shù)據(jù)、交易數(shù)據(jù)等結構化數(shù)據(jù),以及電話語音、微博、即時通信等非結構化、半結構化數(shù)據(jù)都在飛速膨脹,尤其后者的增長速度遠遠大于前者。在強調數(shù)據(jù)即是價值的今天,任何一份數(shù)據(jù)都是銀行珍貴的資產。為了一點金子,需要保存全部沙子,又如何從沙子里找出這一點金子?這些都是擺在商業(yè)銀行前面的問題。大數(shù)據(jù)加工處理技術則很好地解決了這些問題。