數據探索
編輯數據探索是一種類似于初始數據分析的方法,即數據分析師使用可視化探索來了解數據集中的內容和數據的特征,而不是通過傳統的數據管理系統。這些特征可以包括數據的大小或數量、數據的完整性、數據的正確性、數據元素之間的可能關系或數據中的文件/表格。數據探索通常使用自動和手動活動的組合進行。自動活動可以包括數據剖析或數據可視化或表格報告,以使分析員對數據有一個初步的了解,并對關鍵特征有一個認識。隨后,通常會對數據進行人工鉆取或過濾,以確定通過自動操作發現的異常或模式。數據探索也可能需要手動編寫腳本和查詢數據(如使用SQL或R等語言)或使用電子表格或類似工具來查看原始數據。所有這些活動都是為了在分析者的頭腦中建立一個心理模型和對數據的理解,并為數據集定義基本的元數據(統計、結構、關系),以便在進一步分析中使用。一旦對數據有了初步的了解,就可以通過刪除數據中不可用的部分(數據清洗)、糾正格式化不良的元素以及定義數據集之間的相關關系來修剪或完善數據。
這個過程也被稱為確定數據質量。數據探索也可以指對數據的特別查詢或可視化,以確定可能隱藏在數據中的潛在關系或見解,而不需要事先制定假設。傳統上,這一直是統計學家關注的一個關鍵領域,約翰-圖基是該領域的一個重要傳道者。今天,數據探索更加廣泛,是數據分析師和數據科學家的重點;后者是企業和大型組織中相對較新的角色。
交互式數據探索
編輯這個領域的數據探索已經成為機器學習領域的一個興趣領域。這是一個相對較新的領域,仍在不斷發展。就其最基本的層面而言,機器學習算法可以被送入一個數據集,并可以用來識別基于數據集的假設是否真實。常見的機器學習算法可以專注于識別數據中的特定模式。許多常見的模式包括回歸和分類或聚類,但有許多可能的模式和算法可以通過機器學習應用于數據。通過采用機器學習,有可能在數據中找到通過人工檢查、試錯或傳統探索技術難以或無法找到的模式或關系。
數據探索的軟件
編輯Trifacta--數據準備和分析平臺Paxata--自助式數據準備軟件Alteryx--數據混合和高級數據分析軟件MicrosoftPowerBI--交互式可視化和數據分析工具OpenRefine--獨立的開源桌面應用,用于數據清理和數據轉換Tableau軟件--交互式數據可視化軟件。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175556/