2.4.2 交叉驗(yàn)證
對(duì)兩個(gè)學(xué)習(xí)器A和B,若我們使用尼折交叉驗(yàn)證法得到的測(cè)試錯(cuò)誤率分別為e,e參….,e參和e#,e字,…,e宇,其中EjA和<3是在相同的第t折訓(xùn)練/測(cè)試集上得到的結(jié)果,則可用k折交叉驗(yàn)證“成對(duì)t檢驗(yàn)”(paired t-tests)來進(jìn)行比較檢驗(yàn).這里的基本思想是若兩個(gè)學(xué)習(xí)器的性能相同,則它們使用相同的訓(xùn)練/測(cè)試集得到的測(cè)試錯(cuò)誤率應(yīng)相同,即e尹=e尹.具體來說,對(duì)k折交叉驗(yàn)證產(chǎn)生的k對(duì)測(cè)試錯(cuò)誤率:先對(duì)每對(duì)結(jié)果求差,Ai=e手- tiB;若兩個(gè)學(xué)習(xí)器性能相同,則差值均值應(yīng)為零,因此,可根據(jù)差值△1,A2,…,△%來對(duì)“學(xué)習(xí)器A與B性能相同”這個(gè)假設(shè)做t檢驗(yàn),計(jì)算出差值的均值p和方差U2,在顯著度a下,若變量小于臨界值ta/2,k-l,則假設(shè)不能被拒絕,即認(rèn)為兩個(gè)學(xué)習(xí)器的性能沒有顯著差別;否則可認(rèn)為兩個(gè)學(xué)習(xí)器的性能有顯著差別,且平均錯(cuò)誤率較小的那個(gè)學(xué)習(xí)器性能較優(yōu).這里ta/2,'k-l是自由度為k-l的£分布上尾部累積分布為a/2的臨界值.欲進(jìn)行有效的假設(shè)檢驗(yàn),一個(gè)重要前提是測(cè)試錯(cuò)誤率均為泛化錯(cuò)誤率的獨(dú)立采樣,然而,通常情況下由于樣本有限,在使用交叉驗(yàn)證等實(shí)驗(yàn)估計(jì)方法時(shí),不同輪次的訓(xùn)練集會(huì)有一定程度的重疊,這就使得測(cè)試錯(cuò)誤率實(shí)際上并不獨(dú)立,會(huì)導(dǎo)致過高估計(jì)假設(shè)成立的概率.為緩解這一問題,可采用“5×2交叉驗(yàn)證”。