2)以FTP等上傳方式保存到文件服務(wù)器中。
以這種方式保存非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用較少,比較典型的有數(shù)字檔案館、知識管理和網(wǎng)站等應(yīng)用系統(tǒng)。
3)通過文件系統(tǒng)直接存儲到文件服務(wù)器中。
對于大多數(shù)沒有應(yīng)用系統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù),如常用的工具軟件,開發(fā)的應(yīng)用系統(tǒng)軟件、源代碼、開發(fā)過程文檔、技術(shù)研究資料等,以及新聞的素材、資料等,通常都將文件直接存儲到文件服務(wù)器中。
面對各業(yè)務(wù)系統(tǒng)各自為戰(zhàn)的存儲系統(tǒng),許多企業(yè)發(fā)現(xiàn)這種方式存在諸多的弊端,目前都正在評估和選擇運(yùn)用新的技術(shù)以提高這些信息資源的利用價值。較為常用的是分布式存儲與并行處理架構(gòu)。
數(shù)據(jù)的分布式存儲和并行化操作處理是大數(shù)據(jù)管理平臺的核心技術(shù)之一。MapReduce計算模型體現(xiàn)了分治算法的分而治之思想。Map把一個復(fù)雜的問題分解成多個子問題,每個子問題都相對簡單并且可以獨(dú)立處理;Reduce把各個子問題的處理結(jié)果進(jìn)行合并。
MapReduce是適用于大數(shù)據(jù)存儲與并行化處理的簡單而有效的一種計算模型。基于Ma-pReduce模型可以構(gòu)建一種非結(jié)構(gòu)化數(shù)據(jù)分布式存儲與并行處理框架,該框架由存儲引擎和檢索引擎組成。