二元分類
編輯二元分類是在分類規則的基礎上將一個集合的元素分為兩組(各稱為類)的任務。典型的二元分類問題包括。醫學檢測,確定病人是否患有某種疾病;工業中的質量控制,決定是否符合規范;在信息檢索中,決定一個頁面是否應該出現在搜索的結果集中。二元分類是應用于實際情況的二分法。在許多實際的二元分類問題中,兩組不是對稱的,與其說是整體的準確性,不如說是不同類型錯誤的相對比例是人們所關心的。例如,在醫學檢測中,在不存在疾病時檢測出疾病(假陽性)與在存在疾病時未檢測出疾病(假陰性)被認為是不同的。
統計學二元分類
編輯統計學分類是機器學習中研究的一個問題。它是監督學習的一種類型,是機器學習的一種方法,其中的類別是預先定義的,并用于將新的概率觀測值歸入所述類別。當只有兩個類別時,這個問題被稱為統計二元分類。一些常用于二元分類的方法是。
決策樹
編輯隨機森林貝葉斯網絡支持向量機神經網絡邏輯回歸普羅比特模型遺傳編程多表達式編程線性遺傳編程每個分類器只在一個選定的領域中是xxx的,基于觀察的數量、特征向量的維度、數據中的噪聲和許多其他因素。例如,對于三維點云來說,隨機森林比SVM分類器表現更好。
二元分類器的評估
編輯有許多指標可以用來衡量分類器或預測器的性能;由于目標不同,不同領域對特定的指標有不同的偏好。在醫學上,靈敏度和特異性經常被使用,而在信息檢索中,精確度和召回率是首選。一個重要的區別是獨立于每個類別在人群中出現的頻率(流行率)的度量和依賴于流行率的度量--這兩種類型都很有用,但它們有非常不同的屬性。給定一個特定數據集的分類,實際數據類別和指定類別有四個基本組合:真陽性TP(正確的陽性分配)、真陰性TN(正確的陰性分配)、假陽性FP(錯誤的陽性分配)和假陰性FN(錯誤的陰性分配)。這些可以排列成一個2×2的或然率表,列對應于實際值--條件陽性或條件陰性,行對應于分類值--測試結果陽性或測試結果陰性。
八個基本比率
編輯從這個表中可以計算出八個基本比率,它們有四個互補對(每對之和為1)。這些數字是由四個數字中的每一個除以其行或列的總和而得到的,產生八個數字,可以用真陽性行比或假陰性列比的形式來泛指。因此,有兩對列比和兩對行比,人們可以從每對比率中選擇一個比率,用四個數字來概括這些比率--其他四個數字是補數。行比是。真陽性率(TPR)=(TP/(TP+FN)),又稱敏感性或召回率。這些是有條件的人群中測試正確的比例。帶補數的假陰性率(FNR)=(FN/(TP+FN))真陰性率(TNR)=(TN/(TN+FP),又稱特異性(SPC),帶補數的假陽性率(FPR)=(FP/(TN+FP)),也叫獨立于流行率的假陽性率。列比是。陽性預測值(PPV,又稱精確度)(TP/(TP+FP))。
這些是具有給定測試結果的人群中測試正確的比例。與之相輔相成的是錯誤發現率(FDR)(FP/(TP+FP))陰性預測值(NPV)(TN/(TN+FN))與之相輔相成的是錯誤遺漏率(FOR)(FN/(TN+FN)),也稱為依賴流行率。在診斷測試中,使用的主要比率是真列比率-真陽率和真陰率-在這里它們被稱為靈敏度和特異度。在信息檢索中,主要的比率是真陽性比率(行和列)--陽性預測值和真陽性率--它們被稱為精確度和召回率。人們可以取一對互補的比率,產生四個似然比(兩個列比的比率,兩個行比的比率)。這主要是針對列(條件)比,在診斷測試中產生似然比。以這些比率中的一組比率為例
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175501/