站內檢索_全球百科

應用范圍

　　本系統主要針對基于Internet的局部站點和基于Intranet的局域網內部的網頁資源進行快速有效的全文檢索。

　　據統計一般的大型企業、政府、高等院校的網站內部的頁面總量在1萬頁左右。例如：根據我們的網頁搜集系統對清華大學站內全部頁面進行搜集所獲取的信息，靜態頁面數量在12000頁左右，動態頁面數量在6000頁左右；我們的頁面收集系統也對南京大學站內的全部靜態頁面進行了搜集，結果統計頁面總量在5000頁左右。
　　這種網頁數量的站點信息一方面要求檢索系統更新周期短（每周更新一次），一方面還需要做到檢索速度快。如果利用Google這樣的搜索引擎進行檢索站" href="index.php?doc-innerlink-%E6%A3%80%E7%B4%A2%E7%AB%99">檢索站內信息的話，難以保證數據的更新要求；而如果自己開發基于數據庫技術的檢索系統的話，又難以保證檢索的高效率。正是在這種需求背景之下，本產品應運而生。
　　據統計，發達國家一般的大中型網站均配有站內全文檢索系統，這樣可以保證客戶能夠在最短的時間內獲取所需要的信息。反觀國內，幾乎90%的大中型網站都沒有相應的站內全文檢索系統。所以，站內全文檢索，是大勢所趨，越早上站內全文檢索系統，網站越有吸引力。

系統的功能

本部分將為用戶介紹該系統所具備的功能，其中黑體字部分是本系統獨具特色的功能。

1）信息搜集能力超強
　　本系統突破了傳統搜索引擎的禁區，能夠處理所有的動態頁面信息。傳統的搜索引擎為了防止掉入CGI陷阱中，一般都不敢處理動態頁面。所謂的CGI陷阱指的是由于網絡服務器動態計算產生的頁面具有很大的不確定性，造成頁面搜集程序循環訪問同一個URL。通過我們的分析發現，目前絕大部分網站都采用各種腳本制作動態頁面，因此如果不能對動態頁面進行處理，那么這種檢索系統是不完備的。本系統采用了獨有的技術完全克服了這方面的困難，從而具有更強的信息搜集能力。

2）檢索速度快
　　一般的非專業的檢索系統都是采用數據庫系統完成的，這種系統的響應時間一般都在10秒左右（對于大數據量）。而本系統的響應時間一般都在0.02秒左右，網絡傳輸時間一般在1秒左右，因此總體響應時間在1-2秒內。這種速度顯然是非常快的。

3）支持復合檢索" href="index.php?doc-innerlink-%E5%A4%8D%E5%90%88%E6%A3%80%E7%B4%A2">復合檢索
通常情況下用戶的檢索是復合條件的，例如檢索"新聞中心+主任"，用戶想了解新聞中心的主任的一些信息。本系統支持"+、-"操作符，完全可以滿足用戶的檢索需求。在這一點上，我們的系統同通用的搜索引擎系統是一致的。

4）支持分類檢索
目前上規模的網站一般都會將網站的信息劃分為若干個頻道，例如：中國教育信息網主要分為教育產品、招考中心、教育圖書、科普長廊、教育動態、科研天地、學生社區、家長時段、職業培訓、海外視窗、信息化成就展等幾個主要的頻道。這樣就給站內全文檢索系統提出了新的要求，應該不僅能夠在整個網站內部進行檢索，而且還能夠將檢索的范圍限制在某個頻道內部。基于這種需求，Xunao(V2.0)提供了分頻道檢索的功能。

5）支持按照更新時間范圍檢索
對于報社類網站、新聞類站點，時間顯得尤為重要，針對這種需求，Xunao Search (V2.0)提供了按照時間范圍進行檢索的功能，用戶可以選擇搜索的起止時間進行全文檢索，這樣更加體現了新聞的時效性。

6）支持多種排序方式
傳統的搜索引擎一般都是按照相關度進行排序的，Xunao Search (V2.0)不僅在結果相關度排序上進行性能上的改進，而且提供了對檢索結果按照更新時間升序、按照更新時間降序等多種排序方式。這樣一來，用戶可以在最重要的檢索結果中輕松地挑選出自己感興趣的時間段的結果。

7）支持模糊檢索
由于數據量非常大，一般的搜索引擎系統都沒有模糊檢索的功能，但是用戶往往有這方面的需求，如用戶打算了解一本書的作者的一些信息，但是他僅僅記得這個人叫張X京，這里的"X"代表用戶不知道這中間的字是什么了。如果對于傳統的搜索引擎，肯定無能為力了，但是在我們這個系統里面，只要存在這個信息，那么就可以檢索出來。檢索方式如下：用戶可以輸入"作者+張?京"，系統就會自動檢索出滿足條件的紀錄。
系統還支持"*"操作符，該操作符代表0個或者多個字符。有什么好處呢？一般的搜索引擎僅僅檢索出那些只要在同一個頁面里面出現的就算成結果，不論這兩個檢索詞在文中出現的相對位置有多么遠。例如用戶打算搜索"IBM+筆記本"，對于一般的搜索引擎來說只要頁面里面同時出現了"IBM"和"筆記本"，那么它就會認為這是結果，很多情況下這樣的頁面并非用戶需要的；而對于本系統來說，用戶可以輸入"IBM*筆記本"，那么檢索的結果一定是"IBM"這個詞在前面，"筆記本"這個詞在后面，并且兩個詞之間距離很近。顯然，這種檢索結果的準確率要高很多。

8）結果相關度高
本系統通過對網頁本身的分析結合權威頁面的分析，能夠保證檢索結果中越重要的頁面排放在最前面。例如：我們打算檢索清華大學"新聞中心"，通過測試其他的搜索引擎系統，發現檢索結果是一些頁面內含有"新聞中?quot;這個詞多的頁面排放在前面，而這些頁面都是無關緊要的一些小新聞，真正重要的清華大學新聞中心首頁卻沒有出現在檢索結果里面。本系統完全解決了這個問題，保證最權威的頁面排放在最前面。

9）動態生成文摘
一般的搜索引擎產品的文摘部分僅僅是抽取了頁面的前200-300個字節，很多情況下這部分內容同檢索結果沒有任何關系，用戶根本無法從中獲取什么有用的信息，從而不得不先訪問這些頁面才能知道真正的內容是什么。
本系統可以根據檢索詞的位置，從該檢索詞附近動態抽取文本作為文摘，從而極大地提高了用戶的檢索效率。

10）支持網頁快照功能
    系統會將網頁保存到本地硬盤中，這樣用戶在檢索的時候可以直接察看系統硬盤中保存的頁面，這樣做的好處是：
    xxx：如果該頁面已經不存在了，用戶依然可以查閱該頁面的信息；
    第二：該頁面將動態標記關鍵字，便于用戶查找最感興趣的信息。

11）信息搜集、索引建立時間短
一般來說，對于一個包含一萬個頁面的站點的信息搜集和索引建立總體需要的時間約一個小時左右，不需要人工的干預。

12）方便有效的管理功能
系統管理人員可以從任何一臺聯網的計算上，通過瀏覽器對系統進行全方位的管理工作。

內容由匿名用戶提供，本內容不代表www.gelinmeiz.com立場，內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載，請注明出處：http://www.gelinmeiz.com/3213/