與“過擬合”相對(duì)的是“欠擬合”(underfitting),這是指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好,圖2.1給出了關(guān)于過擬合與欠擬合的一個(gè)便于直觀理解的類比.有多種因素可能導(dǎo)致過擬合,其中最常見的情況是由于學(xué)習(xí)能力過于強(qiáng)大,以至于把訓(xùn)練樣本所包含的不太一般的特性都學(xué)到了,而欠擬合則通常是由于學(xué)習(xí)能力低下而造成的,欠擬合比較容易克服,例如在決策樹學(xué)習(xí)中擴(kuò)展分支、在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中增加訓(xùn)練輪數(shù)等,而過擬合則很麻煩.在后面的學(xué)習(xí)中我們將看到,過擬合是機(jī)器學(xué)習(xí)面臨的關(guān)鍵障礙,各類學(xué)習(xí)算法都必然帶有一些針對(duì)過擬合的措施;然而必須認(rèn)識(shí)到,過擬合是無法徹底避免的,我們所能做的只是“緩解”,或者說減小其風(fēng)險(xiǎn),關(guān)于這一點(diǎn),可大致這樣理解:機(jī)器學(xué)習(xí)面臨的問題通常是NP難甚至更難,而有效的學(xué)習(xí)算法必然是在多項(xiàng)式時(shí)間內(nèi)運(yùn)行完成,若可徹底避免過擬合,則通過經(jīng)驗(yàn)誤差最小化就能獲最優(yōu)解,這就意味著我們構(gòu)造性地證明了“P=NP”;因此,只要相信“P≠NP”,過擬合就不可避免.在現(xiàn)實(shí)任務(wù)中,我們往往有多種學(xué)習(xí)算法可供選擇,甚至對(duì)同一個(gè)學(xué)習(xí)算法,當(dāng)使用不同的參數(shù)配置時(shí),也會(huì)產(chǎn)生不同的模型.那么,我們?cè)撨x用哪一個(gè)學(xué)習(xí)算法、使用哪一種參數(shù)配置呢?這就是機(jī)器學(xué)習(xí)中的“模型選擇”(modelselection)問題.理想的解決方案當(dāng)然是對(duì)候選模型的泛化誤差進(jìn)行評(píng)估,然后選擇泛化誤差最小的那個(gè)模型.然而如上面所討論的,我們無法直接獲得泛化誤差,而訓(xùn)練誤差又由于過擬合現(xiàn)象的存在而不適合作為標(biāo)準(zhǔn),那么,在現(xiàn)實(shí)中如何進(jìn)行模型評(píng)估與選擇呢?
?