數據分析
編輯數據分析是一個檢查、清理、轉換和建模數據的過程,目的是發現有用的信息、提供結論和支持決策。 數據分析具有多個方面和方法,包含各種名稱下的多種技術,并用于不同的商業、科學和社會科學領域。 在當今的商業世界中,數據分析發揮著讓決策更科學、幫助企業更有效運營的作用。
數據挖掘是一種特殊的數據分析技術,側重于預測性而非純粹描述性目的的統計建模和知識發現,而商業智能涵蓋嚴重依賴聚合的數據分析,主要側重于業務信息。 在統計應用中,數據分析可分為描述性統計、探索性數據分析(EDA)和驗證性數據分析(CDA)。 EDA 側重于發現數據中的新特征,而 CDA 側重于確認或證偽現有假設。 預測分析側重于應用統計模型進行預測預測或分類,而文本分析應用統計、語言和結構技術從文本源(一種非結構化數據)中提取和分類信息。 以上都是各種數據分析。
數據集成是數據分析的先導,而數據分析又與數據可視化、數據傳播息息相關。
數據分析過程
編輯分析,是指將一個整體分成單獨的部分以供單獨檢查。 數據分析,是獲取原始數據,然后將其轉換為對用戶決策有用的信息的過程。 收集和分析數據以回答問題、檢驗假設或反駁理論。
統計學家 John Tukey 在 1961 年將數據分析定義為:
分析數據的程序、解釋此類程序結果的技術、計劃收集數據以使其分析更容易、更精確或更準確的方法,以及適用于分析數據的(數學)統計的所有機制和結果。
有幾個階段可以區分,如下所述。 這些階段是迭代的,因為來自后期階段的反饋可能會導致早期階段的額外工作。 用于數據挖掘的 CRISP 框架具有類似的步驟。
數據要求
數據作為分析的輸入是必要的,這是根據指導分析的人員(或將使用分析成品的客戶)的要求指定的。 將收集數據的實體的一般類型稱為實驗單位(例如,一個人或一群人)。 可以指定和獲取關于人口的特定變量(例如,年齡和收入)。 數據可以是數字的或分類的(即數字的文本標簽)。
數據收集
數據是從各種來源收集的。 這些要求可能由分析師傳達給數據保管人; 例如,組織內的信息技術人員。 數據也可能從環境中的傳感器收集,包括交通攝像頭、衛星、記錄設備等。也可能通過訪談、從在線資源下載或閱讀文檔獲得。
數據處理
最初獲得的數據必須經過處理或組織以供分析。 例如,這些可能涉及將數據放入表格格式(稱為結構化數據)的行和列中以供進一步分析,通常是通過使用電子表格或統計軟件。
數據清理
處理和組織后,數據可能不完整、包含重復項或包含錯誤。 數據清理的需要將源于數據輸入和存儲方式的問題。 數據清洗就是防止和糾正這些錯誤的過程。
常見任務包括記錄匹配、識別數據的不準確性、現有數據的整體質量、重復數據刪除和列分割。 此類數據問題也可以通過各種分析技術來識別。 例如; 對于財務信息,可以將特定變量的總數與被認為可靠的單獨發布的數字進行比較。 也可能會審查高于或低于預定閾值的異常數量。 有幾種類型的數據清理,這取決于集合中的數據類型; 這可能是電話號碼、電子郵件地址、雇主或其他值。 用于離群值檢測的定量數據方法可用于去除似乎輸入錯誤的可能性更高的數據。 文本數據拼寫檢查器可用于減少打錯字的數量。 然而,很難判斷這些詞本身是否正確。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/249423/