對(duì)來(lái)自多種來(lái)源的數(shù)據(jù)進(jìn)行集成一直是個(gè)令I(lǐng)T人士頭痛的復(fù)雜問(wèn)題,而如今日益龐大的數(shù)據(jù)體積與多種多樣的數(shù)據(jù)類型令其更加難以處理。中培偉業(yè)《大數(shù)據(jù)分析及可視化技術(shù)應(yīng)用實(shí)戰(zhàn)》培訓(xùn)專家謝老師在這里介紹了實(shí)現(xiàn)數(shù)據(jù)集成策略成功的八項(xiàng)關(guān)鍵性元素。
數(shù)據(jù)集成與應(yīng)用集成
數(shù)據(jù)集成與應(yīng)用集成在傳統(tǒng)角度上彼此并無(wú)關(guān)聯(lián),但如今這一狀況正發(fā)生變化。謝老師指出,部分開(kāi)創(chuàng)性廠商已經(jīng)開(kāi)始將數(shù)據(jù)集成至某些業(yè)務(wù)流程當(dāng)中。“大數(shù)據(jù)處理與內(nèi)存成本的持續(xù)走低使得我們能夠以原始或者近乎原始格式實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ),并立足于內(nèi)存之內(nèi)進(jìn)行復(fù)雜的集成操作這種新型架構(gòu)將能夠更為順暢地實(shí)現(xiàn)數(shù)據(jù)集成。
應(yīng)用對(duì)數(shù)據(jù):哪一方更加權(quán)威?
謝老師認(rèn)為,數(shù)據(jù)集成與應(yīng)用集成已經(jīng)被緊密聯(lián)系在一起。而在相關(guān)工作當(dāng)中,企業(yè)需要決定哪一方的權(quán)威性更高?!岸叨荚趪L試對(duì)數(shù)據(jù)進(jìn)行管理,”他在采訪當(dāng)中表示?!耙虼吮仨氂蓻Q策者判斷二者哪者擁有數(shù)據(jù)的權(quán)威操作能力。”
將數(shù)據(jù)移動(dòng)技術(shù)視為中間件
有些人認(rèn)為應(yīng)當(dāng)盡可能避免將數(shù)據(jù)從一套系統(tǒng)遷移至另一套系統(tǒng)。但是隨著大數(shù)據(jù)技術(shù)的出現(xiàn),數(shù)據(jù)移動(dòng)已經(jīng)變得不可避免。他認(rèn)為,數(shù)據(jù)移動(dòng)相關(guān)技術(shù)“應(yīng)作為中間件從全部數(shù)據(jù)源及數(shù)據(jù)存儲(chǔ)中解耦出來(lái)。”這套方案能夠顯著簡(jiǎn)化并加快升級(jí)速度。
投資建立現(xiàn)代架構(gòu)
謝老師表示,企業(yè)需要一套現(xiàn)代架構(gòu)以實(shí)施成功的數(shù)據(jù)集成策略。以往的實(shí)踐及架構(gòu)需要將ETL包含于數(shù)據(jù)倉(cāng)庫(kù)之內(nèi),并將數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)湖當(dāng)中?!叭缃褚淮笾匾兓谟?,開(kāi)源大數(shù)據(jù)工具開(kāi)始被廣泛用于立足來(lái)源進(jìn)行大規(guī)模數(shù)據(jù)的快速管理實(shí)現(xiàn)數(shù)據(jù)流正是實(shí)現(xiàn)成功數(shù)據(jù)集成策略的重要組成部分。”
關(guān)注安全性
在大數(shù)據(jù)集成領(lǐng)域,安全性仍是一項(xiàng)非常重要的保障因素。謝老師表示,安全性絕對(duì)是Hadoop領(lǐng)域的核心問(wèn)題,因?yàn)镠adoop發(fā)布方Cloudera與Hortonworks在其大數(shù)據(jù)應(yīng)用安全性方面走出了各自不同的道路?!斑@種作法并不適合每類用戶,”他指出。這意味著企業(yè)需要高度關(guān)注自身所使用各類工具的具體安全性問(wèn)題。
放開(kāi)管制
謝老師指出,如今IT人士的一大難題在于其需要負(fù)責(zé)數(shù)據(jù)基礎(chǔ)設(shè)施與數(shù)據(jù)管理任務(wù),但同時(shí)又不再具備完整的控制能力?!皵?shù)據(jù)管理模式將變得五花八門——包括分布式、云端、內(nèi)部乃至應(yīng)用當(dāng)中。要實(shí)現(xiàn)數(shù)據(jù)集成,首先需要將治理模式從管理方案中獨(dú)立出來(lái)。治理是需要執(zhí)行的任務(wù),而管理是達(dá)成目標(biāo)的途徑?!?/p>
重新審視元數(shù)據(jù)
元數(shù)據(jù)如今正得到重新審視,但具體角度則與傳統(tǒng)的靜態(tài)數(shù)據(jù)源與值信息有所區(qū)別。新的元數(shù)據(jù)關(guān)注方向包括數(shù)據(jù)的訪問(wèn)與使用頻率,這類信息能夠幫助我們了解數(shù)據(jù)的重要程度。數(shù)據(jù)是否被用于進(jìn)行多種不同類型的分析?其屬于監(jiān)管型、事務(wù)型或者操作型?通過(guò)這些指標(biāo),大家將能夠找到真正需要加以良好治理的關(guān)鍵性數(shù)據(jù)。
關(guān)注內(nèi)容形式與內(nèi)容偏差
謝老師認(rèn)為在未來(lái)三到五年當(dāng)中,企業(yè)將意識(shí)到數(shù)據(jù)集成與數(shù)據(jù)分析中存在著固有偏見(jiàn)?!昂?jiǎn)單來(lái)講,所有數(shù)據(jù)都包含有創(chuàng)造者的偏見(jiàn),”他指出所有數(shù)據(jù)都可從多個(gè)角度加以審視,而每個(gè)數(shù)據(jù)點(diǎn)都反映出業(yè)務(wù)流程設(shè)計(jì)者的自身意圖,意味著我們不可能真正利用現(xiàn)有數(shù)據(jù)集成機(jī)制進(jìn)行純粹的客觀分析。