2.2.4 調(diào)參與最終模型
大多數(shù)學(xué)習(xí)算法都有些參數(shù)(parameter)需要設(shè)定,參數(shù)配置不同,學(xué)得模型的性能往往有顯著差別.因此,在進(jìn)行模型評(píng)估與選擇時(shí),除了要對(duì)適用學(xué)習(xí)算法進(jìn)行選擇,還需對(duì)算法參數(shù)進(jìn)行設(shè)定,這就是通常所說的“參數(shù)調(diào)節(jié)”或簡稱“調(diào)參”(parameter tuning).
讀者可能馬上想到,調(diào)參和算法選擇沒什么本質(zhì)區(qū)別:對(duì)每種參數(shù)配置都訓(xùn)練出模型,然后把對(duì)應(yīng)最好模型的參數(shù)作為結(jié)果,這樣的考慮基本是正確的,機(jī)器學(xué)習(xí)常涉及兩掌參數(shù):一類是算法的參霆 但有一點(diǎn)需注意:學(xué)習(xí)算法的很多參數(shù)是在實(shí)數(shù)范圍內(nèi)取值,因此,對(duì)每種參數(shù)亦稱”超參數(shù)“,數(shù)目常在配置都訓(xùn)練出模型來是不可行的,現(xiàn)實(shí)中常用的做法,是對(duì)每個(gè)參數(shù)選定一個(gè)10以內(nèi):另一類是模型昏參數(shù),數(shù)目可能很多』篇 范圍和變化步長,例如在[0;0.2]范圍內(nèi)以0.05為步長,則實(shí)際要評(píng)估的候選參如大型“深度學(xué)習(xí)”模型 數(shù)值有5個(gè),最終是從這5個(gè)候選值中產(chǎn)生選定值.顯然,這樣選定的參數(shù)值往甚至有上百億個(gè)參數(shù),一者調(diào)參方式相似均是零 往不是“最佳”值,但這是在計(jì)算開銷和性能估計(jì)之間進(jìn)行折中的結(jié)果,通過生多個(gè)模型之后基于某萎 這個(gè)折中,學(xué)習(xí)過程才變得可行,事實(shí)上,即便在進(jìn)行這樣的折中后,調(diào)參往往評(píng)估方法來進(jìn)行選擇:習(xí)同之處在于前者通常是由 仍很困難.可以簡單估算一下:假定算法有3個(gè)參數(shù),每個(gè)參數(shù)僅考慮5個(gè)候選人工設(shè)定多個(gè)參數(shù)候選釜值,這樣對(duì)每一組訓(xùn)練/測試集就有53:125個(gè)模型需考察;很多強(qiáng)大的學(xué)習(xí)算后產(chǎn)生模型,后者則是通過學(xué)習(xí)來產(chǎn)生多個(gè)候選模法有不少參數(shù)需設(shè)定,這將導(dǎo)致極大的調(diào)參工程量,以至于在不少應(yīng)用任務(wù)中,型(例如神經(jīng)網(wǎng)絡(luò)在不同 參數(shù){輪數(shù)停止訓(xùn)練).