Free性欧美Hd另类_精品亚洲欧美视频在线观看_freesex欧美喷水_字幕av在线_久久久久久国产免费_伊人5566

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁(yè) > IT資訊 > 大數(shù)據(jù) > 怎樣進(jìn)行數(shù)據(jù)預(yù)處理?

怎樣進(jìn)行數(shù)據(jù)預(yù)處理?

2020-08-12 16:41:15 | 來(lái)源:中培企業(yè)IT培訓(xùn)網(wǎng)

很多人都比較好奇,在數(shù)據(jù)庫(kù)中,擁有成千上萬(wàn)的數(shù)據(jù),專業(yè)數(shù)據(jù)人員是怎樣進(jìn)行數(shù)據(jù)預(yù)處理的?數(shù)據(jù)預(yù)處理的工作是整個(gè)數(shù)據(jù)分析的重中之重,它占據(jù)整個(gè)數(shù)據(jù)分析的70%,由此可見(jiàn)數(shù)據(jù)預(yù)處理的重要性。因此對(duì)于數(shù)據(jù)預(yù)處理,人們研究很多方法,來(lái)更好的、更快的進(jìn)行數(shù)據(jù)與處理,具體包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換等。當(dāng)然在這些方法中也分常見(jiàn)和不常見(jiàn)的,今天本文就來(lái)介紹兩種數(shù)據(jù)預(yù)處理的常見(jiàn)方法。

  一、數(shù)據(jù)清洗

數(shù)據(jù)清洗是通過(guò)填補(bǔ)缺失值,平滑或刪除離群點(diǎn),糾正數(shù)據(jù)的不一致來(lái)達(dá)到清洗的目的。簡(jiǎn)單來(lái)說(shuō),就是把數(shù)據(jù)里面哪些缺胳膊腿的數(shù)據(jù)、有問(wèn)題的數(shù)據(jù)給處理掉。總的來(lái)講,數(shù)據(jù)清洗是一項(xiàng)繁重的任務(wù),需要根據(jù)數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性和解釋性來(lái)考察數(shù)據(jù),從而得到標(biāo)準(zhǔn)的、干凈的、連續(xù)的數(shù)據(jù)。

  1.缺失值處理

實(shí)際獲取信息和數(shù)據(jù)的過(guò)程中,會(huì)存在各類的原因?qū)е聰?shù)據(jù)丟失和空缺。針對(duì)這些缺失值,會(huì)基于變量的分布特性和變量的重要性采用不同的方法。若變量的缺失率較高(大于80%),覆蓋率較低,且重要性較低,可以直接將變量刪除,這種方法被稱為刪除變量;若缺失率較低(小于95%)且重要性較低,則根據(jù)數(shù)據(jù)分布的情況用基本統(tǒng)計(jì)量填充(最大值、最小值、均值、中位數(shù)、眾數(shù))進(jìn)行填充,這種方法被稱為缺失值填充。對(duì)于缺失的數(shù)據(jù),一般根據(jù)缺失率來(lái)決定“刪”還是“補(bǔ)”。

  2.離群點(diǎn)處理

離群點(diǎn)(異常值)是數(shù)據(jù)分布的常態(tài),處于特定分布區(qū)域或范圍之外的數(shù)據(jù)通常被定義為異常或噪聲。我們常用的方法是刪除離群點(diǎn)。

  3.不一致數(shù)據(jù)處理

實(shí)際數(shù)據(jù)生產(chǎn)過(guò)程中,由于一些人為因素或者其他原因,記錄的數(shù)據(jù)可能存在不一致的情況,需要對(duì)這些不一致數(shù)據(jù)在分析前進(jìn)行清理。例如,數(shù)據(jù)輸入時(shí)的錯(cuò)誤可通過(guò)和原始記錄對(duì)比進(jìn)行更正,知識(shí)工程工具也可以用來(lái)檢測(cè)違反規(guī)則的數(shù)據(jù)。

  二、數(shù)據(jù)集成

隨著大數(shù)據(jù)的出現(xiàn),我們的數(shù)據(jù)源越來(lái)越多,數(shù)據(jù)分析任務(wù)多半涉及將多個(gè)數(shù)據(jù)源數(shù)據(jù)進(jìn)行合并。數(shù)據(jù)集成是指將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合、進(jìn)行一致存放的數(shù)據(jù)存儲(chǔ),這些源可能包括多個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)文件。在數(shù)據(jù)集成的過(guò)程中,會(huì)遇到一些問(wèn)題,比如表述不一致,數(shù)據(jù)冗余等,針對(duì)不同的問(wèn)題,下面簡(jiǎn)單介紹一下該如何處理。

  1.實(shí)體識(shí)別問(wèn)題

在匹配來(lái)自多個(gè)不同信息源的現(xiàn)實(shí)世界實(shí)體時(shí),如果兩個(gè)不同數(shù)據(jù)庫(kù)中的不同字段名指向同一實(shí)體,數(shù)據(jù)分析者或計(jì)算機(jī)需要把兩個(gè)字段名改為一致,避免模式集成時(shí)產(chǎn)生的錯(cuò)誤。

  2.冗余問(wèn)題

冗余是在數(shù)據(jù)集成中常見(jiàn)的一個(gè)問(wèn)題,如果一個(gè)屬性能由另一個(gè)或另一組屬性“導(dǎo)出”,則此屬性可能是冗余的。

  3.數(shù)據(jù)值的沖突和處理

不同數(shù)據(jù)源,在統(tǒng)一合并時(shí),需要保持規(guī)范化,如果遇到有重復(fù)的,要去重。

好了,關(guān)于怎樣進(jìn)行數(shù)據(jù)預(yù)處理內(nèi)容介紹到這里就結(jié)束了,其實(shí)關(guān)于數(shù)據(jù)預(yù)處理的方法還有很多,這里只是簡(jiǎn)單的介紹兩種常見(jiàn)的方法。想了解更多關(guān)于數(shù)據(jù)預(yù)處理的信息,請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。

主站蜘蛛池模板: 亚洲av中文无码乱人伦在线播放 | 在线看片一区 | 黄瓜视频在线免费欧美日韩在线看 | 禁漫天堂久久久久久久久久 | 国产精品视频一区二区三区四蜜臂 | 成年在线观看视频 | 一区三区在线观看 | 国产成人性色生活片 | yw.尤物在线精品视频 | 性饥渴艳妇性色生活片在线播放 | 芒果视频91 | 无码欧美熟妇人妻影院 | 久久人人爽爽爽人久久久 | 国产人妻精品区一区二区三区 | 成人在线毛片 | 成人亚洲在线观看 | 国内免费自拍视频 | 久久精品成人一区二区三区 | 日本男人日女人视频 | 色玖玖综合 | 深夜影院a | 成人久久综合 | 欧美嫩交一区二区三区 | 欧美日本一区 | 午夜激情福利视频 | 久久免费精彩视频 | 成人性生交大片免费看小忧 | 成人国产精品入麻豆 | 国产在线视频一区二区三区98 | 亚洲我射av | 人与动人物a级毛片在线 | 欧美人与zozoxxxx另类 | 国产精品国产免费无码专区不卡 | av片在线看免费高清网站 | 日本激情网址 | 黄色片观看 | 爱性久久久久久久 | 日本一二三区在线视频 | 成人免费观看cn | 国产特色特黄的视频免费观看 | www网站|