5.4 非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理
由于非結(jié)構(gòu)化數(shù)據(jù)的類型和表現(xiàn)形式多樣,其元數(shù)據(jù)管理辦法很難統(tǒng)一,并且非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容不確定、不易獲取(如影音、視頻),因此其元數(shù)據(jù)的提取和管理在業(yè)界還是一個(gè)新領(lǐng)域。在此,僅就幾類非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行元數(shù)據(jù)管理方法的初步探討。
1)對(duì)于影音、視頻、圖片等形式的非結(jié)構(gòu)化數(shù)據(jù),其內(nèi)容一般較難獲取,因此根據(jù)前面介紹的四面體模型來管理這類非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)。數(shù)據(jù)生成或獲取時(shí)明確其語義特征、基本屬性、底層特征三方面屬性,可以將其抽離出來作為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),那么就可以按照結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理方法進(jìn)行管理。
2)對(duì)于網(wǎng)頁、文檔等,不僅可以獲取語義特征、基本屬性、底層特征等屬性作為元數(shù)據(jù),還可以從其中對(duì)其內(nèi)容進(jìn)行讀取解析,抽取出關(guān)鍵字,作為非結(jié)構(gòu)化數(shù)據(jù)的標(biāo)簽。主要分為三種類別:
第一種是提取文章里的關(guān)鍵詞,作為主題詞標(biāo)簽元數(shù)據(jù)。
第二種是對(duì)文章進(jìn)行多個(gè)維度的分類,打上分類標(biāo)簽,如在輿情分析過程中,會(huì)打上文章所涉及的銀行、產(chǎn)品及業(yè)務(wù)、風(fēng)險(xiǎn)點(diǎn)、正負(fù)面情感等。
第三種是文章本身的結(jié)構(gòu)化標(biāo)簽元數(shù)據(jù),如時(shí)間、作者、來源、大小等。
在實(shí)現(xiàn)過程中,只有通過分詞、文本去重、各類分析模型(如主題分析模型、分類模型、情感分析模型)處理,并輔以各種自動(dòng)化訓(xùn)練手段,才能獲取網(wǎng)頁、文檔等各類文本的非結(jié)構(gòu)化數(shù)據(jù)的標(biāo)簽元數(shù)據(jù)。
3)對(duì)于具有加密方式的非結(jié)構(gòu)化數(shù)據(jù),要獲取其內(nèi)容,一般需要比較高級(jí)的權(quán)限,因此在對(duì)其進(jìn)行管理時(shí)只能獲取基本的語義特征、基本屬性,即可以知道文檔的名稱、時(shí)間等,而對(duì)于其內(nèi)容則無法獲知,一般和影音、視頻、圖片的相關(guān)元數(shù)據(jù)管理方法類似。