回歸分析
編輯回歸分析是一組統計分析方法,旨在對因變量(通常也稱為解釋變量或回歸變量)和一個或多個自變量(通常也稱為解釋變量或回歸變量)之間的關系建模。 執行回歸用于定量描述關系或預測因變量的值。 回歸分析最常見的形式是線性回歸,其中用戶根據一些數學標準找到最適合數據的直線(或更復雜的線性函數)。 例如,普通最小二乘法計算一條xxx的線(或超平面),它是真實數據與該線(或超平面)之間偏差的平方和, 最小化殘差平方和。 由于某些數學原因,當自變量取一組特定值時,用戶可以估計因變量的條件期望值。 不太常見的回歸形式使用略有不同的技術來估計替代位置參數(例如分位數回歸)或估計更廣泛類別的非線性模型的條件期望值(例如非參數回歸)。
回歸分析主要用于兩個概念上不同的目的。 首先,回歸分析通常用于估計和預測,其用法與機器學習領域有很大重疊,另請參見符號回歸。 其次,在某些情況下,回歸分析可以用來推斷自變量和因變量之間的因果關系。 重要的是,回歸本身僅揭示給定數據集中一個因變量與一個或多個自變量之間的關系。 為了使用回歸進行預測或推斷因果關系,從業者必須仔細證明為什么現有關系在新環境中具有預測能力,或者為什么兩個變量之間的關系具有因果關系解釋(相關性和因果關系)。 如果用戶想使用觀察數據估計因果關系,后者尤為重要。
通過添加決策規則,回歸成為分類過程。
應用
編輯回歸方法有許多實際應用。 大多數應用程序屬于以下類別:
- 預測:各個回歸參數 β 0 , β 1 , … , β k? 的估計值較小對于預測很重要,因為 x 變量對響應 y 的總影響。 盡管如此,好的估算器應該具有很高的預測能力。
- 數據描述練習與解釋:統計學家使用估計模型來總結和描述觀察到的數據。
- 參數估計:估計參數的值 β ^ 0 , β ^ 1 , … , β ^ k 可能對假定模型具有理論意義。
- 變量選擇:目的是找出每個單獨的預測變量 x j 在響應變量 y 的建模中的重要性。 被認為在解釋 y 的變化中起重要作用的預測變量被保留,而那些對解釋 y 的變化貢獻不大的預測變量被省略。
- 控制輸出變量:假設目標變量和預測變量之間存在因果關系(即因果關系)。 然后可以使用估計模型通過改變輸入變量來控制過程的輸出變量。 通過系統的實驗,有可能實現最佳輸出。
回歸分析示意圖
編輯數據準備
在每個統計程序的開始都有數據的準備,特別是
- 合理性檢查。 這里檢查數據是否可追溯。 這可以根據驗證規則手動或自動完成。
- 如何處理缺失數據。 不完整的數據記錄往往被遺漏,有時缺失的數據會按照一定的程序補上。
- 數據的轉換。 發生這種情況的原因有多種。 例如,它可以提高數據的可解釋性或可視化。 它還可用于將數據轉化為滿足回歸過程假設的形式。 在線性回歸的情況下,假設自變量和因變量之間存在線性關系以及同方差性。 有一些數學工具可以找到合適的變換,例如 Box-Cox 變換關系的線性化。
- 考慮相互作用(使用線性回歸)。 除了自變量的影響外,還同時考慮了多個變量的影響。
模型定制
在實踐中,用戶首先選擇一個模型進行估計,然后使用所選的估計方法(例如,普通最小二乘法估計)來估計該模型的參數。
在統計的不同應用領域中,使用不同的術語來代替因變量和自變量(參見預測變量和響應變量)。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/331669/