2.非結構化數據的采集和存儲
(1)非結構化數據的采集商業(yè)銀行的非結構化數據主要來源于行內和行外兩類途徑。
其采集方法主要有以下幾種:
1)行內文檔信息的采集。對于行內業(yè)務系統(tǒng)信息的采集,商業(yè)銀行一般會有統(tǒng)一的工具或系統(tǒng)從各類業(yè)務系統(tǒng)中獲取信息。對于被采集業(yè)務系統(tǒng)會提供數據庫、文件存儲等模塊的只讀用戶,提供統(tǒng)一的工具或數據采集模塊來獲取數據,而且采集工具或系統(tǒng)一般僅存儲索引信息,而不存儲業(yè)務系統(tǒng)信息實體。
2)行內系統(tǒng)日志的采集。很多商業(yè)銀行都有自己的海量數據采集工具,多用于系統(tǒng)日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具一般都采用分布式架構,能滿足每秒數百兆字節(jié)的日志數據采集和傳輸需求。