顆粒計算
編輯顆粒計算(GrC)是一種新興的信息處理計算范式,涉及被稱為信息顆粒的復雜信息實體的處理,這些實體在數據抽象和從信息或數據推導知識的過程中出現。一般來說,信息顆粒是一些實體的集合,這些實體通常起源于數字層面,由于它們的相似性、功能或物理上的相鄰性、不可分性、一致性等而被安排在一起。目前,顆粒計算更像是一種理論觀點,而不是一套連貫的方法或原則。作為一種理論觀點,它鼓勵一種處理數據的方法,承認并利用存在于不同分辨率或尺度水平的數據中的知識。在這個意義上,它包括了所有在提取和表示知識或信息的分辨率上提供靈活性和適應性的方法。
顆粒化的類型
編輯如上所述,顆粒化計算不是一種算法或過程;沒有一種特定的方法被稱為顆粒化計算。它是一種觀察數據的方法,它認識到數據中不同的和有趣的規律性是如何出現在不同的顆粒度水平上的,就像不同的特征在或大或小的分辨率的衛星圖像中變得很突出。例如,在低分辨率的衛星圖像上,人們可能會注意到代表氣旋或其他大規模天氣現象的有趣的云層模式,而在高分辨率的圖像中,人們錯過了這些大規模的大氣現象,而是注意到較小規模的現象,例如曼哈頓街道的有趣模式。一般來說,所有的數據都是這樣的。在不同的分辨率或顆粒度下,會出現不同的特征和關系。顆粒計算的目的是試圖利用這一事實來設計更有效的機器學習和推理系統。在數據挖掘和機器學習中經常遇到的顆粒度有幾種類型,我們在下面對它們進行回顧。值顆粒化(離散化/量化)顆粒化的一種類型是變量的量化。在數據挖掘或機器學習應用中,為了提取有意義的規律性,需要降低變量的分辨率,這是非常普遍的現象。這方面的一個例子是一個變量,如室外溫度,一般來說,將外界溫度量化為較小數量的間隔是有利的。
顆粒計算的動機
編輯以這種方式對變量進行量化有幾個相互關聯的原因。基于先前的領域知識,人們并不期望溫度的微小變化(例如,80-80.7°F(26.7-27.1°C)之間的差異)會對驅動健康俱樂部申請數量的行為產生影響。由于這個原因,我們的學習算法在這個分辨率水平上可能檢測到的任何規律性都必須是虛假的,是過度擬合的一個偽裝。通過將溫度變量粗化為我們預計(基于先前的領域知識)可能影響健身俱樂部申請數量的區間,我們消除了檢測這些虛假模式的可能性。因此,在這種情況下,降低分辨率是一種控制過度擬合的方法。
通過減少溫度變量中的區間數(即增加其粒度),我們增加了由每個區間名稱索引的樣本數據量。因此,通過粗化變量,我們增加樣本量,實現更好的統計估計。在這個意義上,增加顆粒度為所謂的維度詛咒提供了解藥,維度詛咒與統計能力隨著維數或變量cardinality的增加而呈指數級下降有關。與先前的領域知識無關,通常的情況是,有意義的規律性(即可以通過給定的學習方法、表示語言等檢測出來)可能在一個分辨率水平上存在,而在另一個水平上不存在。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/163188/