混淆矩陣_維典百科

1 混淆矩陣

2 混淆矩陣的例子

3 混淆表

混淆矩陣

在機器學習領域，特別是統計分類問題，混淆矩陣，也被稱為誤差矩陣，是一個特定的表格布局，允許可視化算法的性能，通常是監督學習的算法。矩陣的每一行代表實際類中的實例，而每一列代表預測類中的實例，反之亦然--這兩種變體都可以在文獻中找到。這個名字源于這樣一個事實：它使人們很容易看到系統是否混淆了兩個類。它是一種特殊的或然率表，有兩個維度（實際和預測），在這兩個維度上有相同的類集。

混淆矩陣的例子

編輯

給出一個12人的樣本，其中8人被診斷為癌癥，4人沒有患癌癥，患癌癥的人屬于1類（陽性），非癌癥的人屬于0類（陰性），我們可以將這些數據顯示如下。假設我們有一個分類器，能以某種方式區分患癌和不患癌的個體，我們可以把這12個個體通過分類器來運行它們。然后，分類器做出了9個準確的預測，遺漏了3個：2個患有癌癥的人被錯誤地預測為沒有癌癥（樣本1和2），1個沒有癌癥的人被錯誤地預測為患有癌癥（樣本9）。請注意，如果我們將實際分類集與預測分類集進行比較，在任何特定的列中都可能產生4種不同的結果。一，如果實際分類是陽性，預測分類是陽性（1,1），這被稱為真陽性結果，因為陽性樣本被分類器正確識別。二，如果實際分類是陽性而預測分類是陰性（1,0），這被稱為假陰性結果，因為陽性樣本被分類器錯誤地識別為陰性。第三，如果實際分類是陰性，而預測分類是陽性（0,1），這被稱為假陽性結果，因為陰性樣本被分類器錯誤地識別為陽性。第四，如果實際分類是負面的，而預測分類是負面的（0,0），這被稱為真正的負面結果，因為負面樣本被分類器正確識別。然后，我們可以進行實際分類和預測分類之間的比較，并將這一信息添加到表格中，使正確的結果顯示為綠色，這樣它們就更容易被識別。

任何二元混淆矩陣的模板都使用上面討論的四種結果（真陽性、假陰性、假陽性和真陰性）以及陽性和陰性分類。這四種結果可以用一個2×2的混淆矩陣來表述。上面三個數據表的顏色慣例被選為與這個混淆矩陣相匹配，以便于區分數據。現在，我們可以簡單地將每一種類型的結果累加起來，代入模板，形成一個混淆矩陣，簡明地總結出測試分類器的結果。在這個混淆矩陣中，在8個有癌癥的樣本中，系統判斷出2個沒有癌癥，而在4個沒有癌癥的樣本中，它預測出1個確實有癌癥。所有正確的預測都位于表格的對角線上（用綠色突出顯示），因此很容易目測到表格中的預測錯誤，因為對角線以外的值將代表這些錯誤。通過將混淆矩陣的兩行相加，也可以推算出原始數據集中的陽性（P）和陰性（N）樣本的總數。

混淆表

編輯

在預測分析中，混淆表（有時也稱為混淆矩陣）是一個有兩行和兩列的表格，報告真陽性、假陰性、假陽性和真陰性的數量。這比簡單地觀察正確分類的比例（準確率）可以進行更詳細的分析。如果數據集是不平衡的，也就是說，當不同類別的觀察結果數量相差很大時，準確率將產生誤導性結果。

內容由匿名用戶提供，本內容不代表www.gelinmeiz.com立場，內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載，請注明出處：http://www.gelinmeiz.com/175533/