• 特征散列

    編輯
    本詞條由“匿名用戶” 建檔。

    特征散列

    編輯

    機器學習中,特征散列也被稱為散列技巧(類比于內核技巧),是一種快速且節省空間的特征矢量化方式,即把任意特征變成矢量或矩陣的索引。它的工作原理是對特征應用哈希函數,并直接使用其哈希值作為索引,而不是在關聯數組中查找索引。這個技巧通常歸功于Weinberger等人(2009),但是JohnMoody在1989年發表了關于這個方法的更早的描述。

    特征散列的動機

    編輯

    動機實例在一個典型的文檔分類任務中,機器學習算法的輸入(在學習和分類期間)是自由文本。從中構建了一個詞包(BOW)表示:單個標記被提取并計數,訓練集中的每個不同的標記定義了訓練集和測試集中每個文檔的特征(獨立變量)。然而,機器學習算法通常是以數字向量的形式來定義的。因此,一組文檔的詞包被視為一個術語-文檔矩陣,其中每一行是一個單一的文檔,每一列是一個單一的特征/詞;這樣一個矩陣中的條目i,j捕獲了i號文檔中詞匯的第j個詞的頻率(或權重)。通常,這些向量是非常稀疏的--根據Zipf定律。常見的方法是在學習時或在此之前構建一個訓練集詞匯的字典表示,并使用它來將單詞映射到索引。哈希表和tries是字典實現的常見候選者。例如,這三個文件約翰喜歡看電影,瑪麗也喜歡看電影,約翰也喜歡足球。使用字典,可以將這三個文件轉換成轉換為術語-文檔矩陣標點符號被刪除,這在文件分類和聚類中是很常見的)。

    散列表

    這個過程的問題是,這樣的字典占用了大量的存儲空間,并且隨著訓練集的增長,字典的大小也在不斷增加。相反,如果詞匯表保持固定,不隨訓練集的增長而增加,那么對手可能會試圖發明新的詞匯或不在存儲詞匯中的錯誤拼寫,以規避機器學習的過濾器。為了應對這一挑戰,雅虎研究部門試圖在他們的垃圾郵件過濾器中使用特征散列。請注意,散列技巧并不限于文本分類和文檔層面的類似任務,而是可以應用于任何涉及大量(也許是無界)特征的問題。

    數學動機

    編輯

    通過這種藝術,你可以思考23個字母的變化...-RobertBurton,TheAnatomyofMelancholy,Part2,Sect.II,Mem.IV.在數學上,一個標記是一個元素.假設我們只需要處理一個有限的語料庫,那么我們可以把語料庫中出現的所有標記放到{displaystyleT}中,也就是說,我們可以把語料庫中出現的所有標記放到T{displaystyleT}中。{displaystyleT}是有限的。是有限的。然而,假設我們要處理所有可能的由英文字母組成的單詞,那么{displaystyleT}是有限的。是可數的無限的。大多數神經網絡只能對實數向量輸入進行操作,所以我們必須構建一個字典函數{T|=mleqn},那么我們就可以使用單次編碼將其映射成一個有價值的文件。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175634/

    (4)
    詞條目錄
    1. 特征散列
    2. 特征散列的動機
    3. 數學動機

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久