Free性欧美Hd另类_精品亚洲欧美视频在线观看_freesex欧美喷水_字幕av在线_久久久久久国产免费_伊人5566

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁 > IT資訊 > 數(shù)據(jù)庫 > 闡述Hadoop實(shí)現(xiàn)join的三種方法

闡述Hadoop實(shí)現(xiàn)join的三種方法

2021-04-21 16:32:08 | 來源:中培企業(yè)IT培訓(xùn)網(wǎng)

Hadoop實(shí)現(xiàn)join的三種方法是什么呢?我們先來說說Hadoop,它是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。在用戶并不了解分布式底層細(xì)節(jié)的情況下也可以開發(fā)分布式程序。它充分利用集群的威力進(jìn)行高速運(yùn)算及存儲。Hadoop它其實(shí)實(shí)現(xiàn)了一個分布式文件系統(tǒng),它的框架最核心的設(shè)計(jì)就是:MapReduce,HDFS。HDFS是為海量的數(shù)據(jù)提供了存儲空間,而MapReduce就是為海量數(shù)據(jù)提供了運(yùn)算。要知道只有當(dāng)線程結(jié)束時(shí),join方法才可以繼續(xù)執(zhí)行相關(guān)語句。我們來現(xiàn)在來說說Hadoop實(shí)現(xiàn)join的三種方法。

闡述Hadoop實(shí)現(xiàn)join的三種方法

第一種:reduce side join

Reducesidejoin是最簡單的連接方式,其主要思想如下:

在映射階段,映射函數(shù)同時(shí)讀取兩個文件文件1和文件2,為了區(qū)分來自兩個源的鍵/值數(shù)據(jù)對,每個數(shù)據(jù)都被標(biāo)記。例如,標(biāo)記=0表示來自文件文件1,標(biāo)記=2表示來自文件文件2,即地圖階段的主要任務(wù)是標(biāo)注不同文件中的數(shù)據(jù)。

在reduce階段,reduce函數(shù)從具有相同鍵的File1和File2文件中獲取valuelist,然后將File1和File2中的數(shù)據(jù)連接到相同的鍵。也就是說,實(shí)際的連接操作在減少階段執(zhí)行。

第二種:map side join

reducesidejoin之所以存在,是因?yàn)樵谟成潆A段無法獲得所有必要的連接字段,也就是說,相同關(guān)鍵詞對應(yīng)的字段可能在不同的映射中。Reducesidejoin效率不高,因?yàn)樵谙磁齐A段有大量的數(shù)據(jù)傳輸。

Mapsidejoin優(yōu)化了以下幾個場景:要連接的兩個表中有一個很大,另一個很小,小表可以直接存儲在內(nèi)存中。這樣,我們就可以在每個maptask內(nèi)存中制作一個副本(例如存儲在hashtable中),然后只掃描大表:對于大表中的每個記錄鍵/值,找出hashtable中是否有相同的鍵記錄,如果有,連接后輸出。

第三種:SemiJoin

SemiJoin,也稱為半連接,是從分布式數(shù)據(jù)庫中借用的一種方法。其動機(jī)是:對于reducesidejoin,跨機(jī)器的數(shù)據(jù)傳輸量非常大,已經(jīng)成為join操作的瓶頸。如果能在地圖端過濾掉不參與加入操作的數(shù)據(jù),可以大大節(jié)省網(wǎng)絡(luò)IO。

實(shí)現(xiàn)方法很簡單:選擇一個小表,假設(shè)是File1.提取它的鍵進(jìn)行聯(lián)接,保存在File3中,文件3通常很小,可以放在內(nèi)存中。在映射階段,使用分布式緩存將文件3復(fù)制到每個任務(wù)跟蹤器,然后過濾掉文件2中不在文件3中的鍵對應(yīng)的記錄。reduce階段的其余工作與reducesidejoin相同。

Mapjoin是把一個數(shù)據(jù)集的數(shù)據(jù)放入mapset,在setup中把該集放入緩存,所以涉及到DistributedCache,因?yàn)樯婕暗絻?nèi)存,所以放入緩存的數(shù)據(jù)集樣本要小,否則不適用,所以這個業(yè)務(wù)場景比較少。在reduce的連接中,所有需要連接的數(shù)據(jù)集都作為map的輸入,數(shù)據(jù)在map的邏輯中標(biāo)記,數(shù)據(jù)在reduce中合并,需要用戶自定義數(shù)據(jù)類型。

以上我們介紹了Hadoop實(shí)現(xiàn)join的三種方法,希望能夠?qū)Υ蠹矣幸欢ǖ膸椭绻肜^續(xù)了解相關(guān)內(nèi)容,請您繼續(xù)關(guān)注中培偉業(yè)。

標(biāo)簽: hadoop SemiJoin
主站蜘蛛池模板: 华人91视频 | 高清日本欧美久久 | 精品视频无码一区二区三区 | www.youjizz.com最新 | 香港经典a毛片免费观看hd | 国产精品综合久久 | 亚洲视频在线观看视频 | 国产成人福利在线观看 | 毛片毛片毛片毛片毛片毛片毛片毛片 | 人妻大战黑人白浆狂泄 | 永久免费观看黄网视频 | 免费一区二区视频 | 超碰av人人| 日韩在线观看视频一区 | 久久久久久少妇 | 2019年最好看的中文免费视频 | 亚洲性色av一区二区三区 | h视频在线免费 | 精品亚洲国产成av人片传媒 | 九九激情网 | av在线免费看片 | 国产乱淫片视频 | yiren22成人综合网在线 | 欧美性猛交xxxx免费看野外 | aiai在线| 成全高清视频免费观看动漫版 | 中文日产无乱码av在线观 | 伊人久久精品亚洲午夜 | 人人叉人人| 成年在线观看免费人视频 | 国精产品一区二区 | 国产精品香蕉在线观看不卡 | 国产精品美女久久久久av爽金牛 | 亚洲精品无码MV在线观看软件 | 国产精品久久久久久999 | 91国偷自产一区二区三区老熟女 | 老熟妇性色老熟妇性 | 四虎影视免费永久在线观看 | 天天爽影院一区二区在线影院 | 亚洲伦产精品一区二区三区 | 美女视频黄频a免费网站18 |