第二章 模型評估與選擇
現實任務中通常是利用有限個測試樣例來繪制ROC圖,此時僅能獲得有限個(真正例率,假正例率)坐標對,無法產生圖2.4(a)中的光滑ROC曲線,只能基于有限個測試樣例篆繪制出如圖2.4(b)所示的近似ROC曲線.繪圖過程很簡單:給定m+個正例和制P-R圖時有同樣問題本書到這里才介紹近似曲 m一個反例,根據學習器預測結果對樣例進行排序,然后把分類閾值設為最大,線的繪制.是為了便于下 即把所有樣例均預測為反例,此時真正例率和假正例率均為0,在坐標(0,0)處面介紹AUC的計算,標記一個點.然后,將分類閾值依次設為每個樣例的預測值,即依次將每個樣例劃分為正例.設前一個標記點坐標為(z,可),當前若為真正例,則對應標記點的坐標為(z,可十嘉);當前若為假正例,則對應標記點的坐標為(茁+ml-,可),然后用線段連接相鄰點即得,進行學習器的比較時,與P-R圖相似,若一個學習器的ROC曲線被另一個學習器的曲線完全“包住”,則可斷言后者的性能優于前者;若兩個學習器的ROC曲線發生交叉,則難以一般性地斷言兩者孰優孰劣.此時如果一定要進行比較,則較為合理的判據是比較ROC曲線下的面積,即AUC (Area UnderROC Curve),如圖2.4所示.從定義可知,AUC可通過對ROC曲線下各部分的面積求和而得.假定ROC曲線是由坐標為{(Xl,可1),(X2,Y2),…,(Xm,Ym)].的點按序連接而形成(Xl=0,Xm=1)。