目錄
文件分類
編輯文件分類或文件分類是圖書館科學、信息科學和計算機科學中的一個問題。其任務是將一個文件分配到一個或多個類別或范疇。這可以通過人工(或智力)或算法來完成。文件的智力分類大多是圖書館學的范疇,而文件的算法分類則主要是在信息科學和計算機科學中。然而,這些問題是重疊的,因此存在著跨學科的文獻分類研究。需要分類的文件可能是文本、圖像、音樂等。每種文件都有其特殊的分類問題。當沒有特別說明時,文本分類是隱含的。文件可以根據其主題或其他屬性(如文件類型、作者、印刷年份等)來分類。在本文的其余部分,我們只考慮主題分類。文件的主題分類有兩種主要的理念:基于內容的方法和基于請求的方法。
基于內容的分類法與基于請求的分類法
編輯基于內容的分類法是指對文件中特定主題所賦予的權重決定了該文件被分配到的類別。例如,在圖書館中,一個常見的分類規則是,一本書的內容中至少有20%是關于該書被分配到的類別的。在自動分類中,它可以是一個文件中出現的單詞的數量。面向請求的分類(或索引)是指用戶的預期請求影響著文檔的分類方式。分類者會問自己。"在哪些描述符下應該找到這個實體?"并且"考慮所有可能的查詢,并決定手頭的實體與哪些查詢有關"(Soergel,1985,p.230)。面向請求的分類可能是針對特定受眾或用戶群的分類。例如,一個圖書館或女性主義研究的數據庫與一個歷史圖書館相比,可能會對文件進行不同的分類/索引。然而,把面向請求的分類理解為基于政策的分類可能更好。這種分類是根據一些理想進行的,反映了圖書館或數據庫進行分類的目的。這樣一來,它就不一定是一種基于用戶研究的分類或索引了。只有當關于使用或用戶的經驗數據被應用時,面向請求的分類才應該被看作是一種基于用戶的方法。
分類與索引
編輯有時,人們會在將文件分配給類(分類)與將主題分配給文件(主題索引)之間做出區分,但正如FrederickWilfridLancaster所認為的,這種區分是沒有結果的。他寫道,"這些術語上的區別是非常沒有意義的,只會造成混亂"(Lancaster,2003,p.21)。這種區別純屬表面現象的觀點也得到了支持,因為分類系統可以轉化為術語庫,反之亦然(參見,Aitchison,1986,2004;Broughton,2008;Riesthuis&Bliedung,1991)。因此,給文檔貼標簽的行為(比如說通過將受控詞匯中的一個術語分配給文檔)同時也是將該文檔分配給由該術語索引的文檔類別(所有被索引或分類為X的文檔都屬于同一類別的文檔)。
換句話說,給一個文件貼上標簽就等于把它分配到該標簽下所索引的文件類別中。自動文檔分類(ADC)自動文檔分類任務可以分為三種:有監督的文檔分類,其中一些外部機制(如人類反饋)為文檔提供正確的分類信息;無監督的文檔分類(也稱為文檔聚類),其中分類必須完全不參考外部信息;以及半監督的文檔分類,其中部分文檔由外部機制來標記。目前有幾種不同許可模式的軟件產品。
文件分類的技術
編輯自動文檔分類技術包括。期望最大化(EM)天真貝葉斯分類器tf-idf瞬間訓練的神經網絡潛在語義索引支持向量機(SVM)人工神經網絡K-近鄰算法決策樹,如ID3或C4.5概念挖掘基于粗集的分類器基于軟集的分類器多實例學習自然語言處理方法應用分類技術已經被應用于垃圾郵件過濾。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175582/