混淆矩陣
編輯在機器學習領域,特別是統計分類問題,混淆矩陣,也被稱為誤差矩陣,是一個特定的表格布局,允許可視化算法的性能,通常是監督學習的算法。矩陣的每一行代表實際類中的實例,而每一列代表預測類中的實例,反之亦然--這兩種變體都可以在文獻中找到。這個名字源于這樣一個事實:它使人們很容易看到系統是否混淆了兩個類。它是一種特殊的或然率表,有兩個維度(實際和預測),在這兩個維度上有相同的類集。
混淆矩陣的例子
編輯給出一個12人的樣本,其中8人被診斷為癌癥,4人沒有患癌癥,患癌癥的人屬于1類(陽性),非癌癥的人屬于0類(陰性),我們可以將這些數據顯示如下。假設我們有一個分類器,能以某種方式區分患癌和不患癌的個體,我們可以把這12個個體通過分類器來運行它們。然后,分類器做出了9個準確的預測,遺漏了3個:2個患有癌癥的人被錯誤地預測為沒有癌癥(樣本1和2),1個沒有癌癥的人被錯誤地預測為患有癌癥(樣本9)。請注意,如果我們將實際分類集與預測分類集進行比較,在任何特定的列中都可能產生4種不同的結果。一,如果實際分類是陽性,預測分類是陽性(1,1),這被稱為真陽性結果,因為陽性樣本被分類器正確識別。二,如果實際分類是陽性而預測分類是陰性(1,0),這被稱為假陰性結果,因為陽性樣本被分類器錯誤地識別為陰性。第三,如果實際分類是陰性,而預測分類是陽性(0,1),這被稱為假陽性結果,因為陰性樣本被分類器錯誤地識別為陽性。第四,如果實際分類是負面的,而預測分類是負面的(0,0),這被稱為真正的負面結果,因為負面樣本被分類器正確識別。然后,我們可以進行實際分類和預測分類之間的比較,并將這一信息添加到表格中,使正確的結果顯示為綠色,這樣它們就更容易被識別。
任何二元混淆矩陣的模板都使用上面討論的四種結果(真陽性、假陰性、假陽性和真陰性)以及陽性和陰性分類。這四種結果可以用一個2×2的混淆矩陣來表述。上面三個數據表的顏色慣例被選為與這個混淆矩陣相匹配,以便于區分數據。現在,我們可以簡單地將每一種類型的結果累加起來,代入模板,形成一個混淆矩陣,簡明地總結出測試分類器的結果。在這個混淆矩陣中,在8個有癌癥的樣本中,系統判斷出2個沒有癌癥,而在4個沒有癌癥的樣本中,它預測出1個確實有癌癥。所有正確的預測都位于表格的對角線上(用綠色突出顯示),因此很容易目測到表格中的預測錯誤,因為對角線以外的值將代表這些錯誤。通過將混淆矩陣的兩行相加,也可以推算出原始數據集中的陽性(P)和陰性(N)樣本的總數。
混淆表
編輯在預測分析中,混淆表(有時也稱為混淆矩陣)是一個有兩行和兩列的表格,報告真陽性、假陰性、假陽性和真陰性的數量。這比簡單地觀察正確分類的比例(準確率)可以進行更詳細的分析。如果數據集是不平衡的,也就是說,當不同類別的觀察結果數量相差很大時,準確率將產生誤導性結果。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175533/