• 搜索引擎索引

    編輯
    本詞條由“匿名用戶” 建檔。

    搜索引擎索引

    編輯

    搜索引擎索引可收集、解析和存儲數據,以促進快速、準確的信息檢索。索引設計結合了來自語言學認知心理學、數學、信息學和計算機科學的跨學科概念。在用于在Internet上查找網頁搜索引擎的上下文中,該過程的另一個名稱是web indexing。

    流行的引擎專注于在線自然語言文檔的全文索引。也可以搜索諸如視頻、音頻和圖形媒體類型。

    元搜索引擎重用其他服務的索引,并且不存儲本地索引,而基于緩存的搜索引擎將索引與語料庫xxx存儲。與全文索引不同,部分文本服務限制了索引深度,以減小索引大小。較大的服務通常由于所需的時間和處理成本而在預定的時間間隔執行索引編制,而基于代理的搜索引擎則實時進行索引編制。

    搜索引擎索引

    搜索引擎技術挑戰

    編輯

    搜索引擎設計中的主要挑戰是串行計算過程的管理。競爭條件和相干故障有很多機會。例如,將新文檔添加到語料庫,并且必須更新索引,但是索引同時需要繼續響應搜索查詢。這是兩個競爭任務之間的沖突。考慮作者是信息的產生者,而網絡爬蟲是此信息的使用者,它抓取文本并將其存儲在緩存中。前向索引是語料庫產生的信息的使用者,而反向索引是前向索引產生的信息的使用者。這通常稱為生產者-消費者模型。索引器是可搜索信息的生產者,而用戶是需要搜索的消費者。在使用分布式存儲和分布式處理時,挑戰變得更大。為了擴大索引信息的數量,搜索引擎的體系結構可能涉及分布式計算,其中搜索引擎由多個同時運行的機器組成。這增加了不一致性的可能性,并使維持完全同步,分布式,并行架構的難度更大。

    文件解析

    編輯

    文檔解析將文檔或其他形式的媒體的組成部分分開,以插入到前向索引和反向索引中。找到的單詞稱為令牌,因此,在搜索引擎索引和自然語言處理的上下文中,解析通常稱為令牌化。它有時也被稱為字邊界歧義、標簽、文本分割、內容分析、文本分析、文本挖掘、一致性生成、言語分割或詞法分析。在公司語中,術語“索引”、“解析”和“標記化”可互換使用。

    自然語言處理是不斷研究和技術進步的主題。在從文檔中提取必要信息以建立索引以支持質量搜索時,令牌化提出了許多挑戰。用于索引的令牌化涉及多種技術,其實現通常作為公司機密保存。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/111935/

    (5)
    詞條目錄
    1. 搜索引擎索引
    2. 搜索引擎技術挑戰
    3. 文件解析

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久