搜索引擎是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。百度和谷歌等是搜索引擎的代表。
全文索引
全文搜索引擎是目前廣泛應用的主流搜索引擎,國外代表有Google,國內則有有名的百度。它們從互聯網提取各個網站的信息(以網頁文字為主),建立起數據庫,并能檢索與用戶
查詢條件相匹配的記錄,按一定的排列順序返回結果。
根據搜索結果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網頁數據庫,搜索結果直接從自身的數據庫中調用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數據庫,并按自定的格式排列搜索結果,如Lycos搜索引擎。
在搜索引擎分類部分提到過全文搜索引擎從網站提取信息建立網頁數據庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),
蜘蛛搜索引擎
搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的數據庫。 另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出“蜘蛛”程序,掃描你的網站并將有關信息存入數據庫,以備用戶查詢。由于近年來搜索引擎索引規則發生很大變化,主動提交網址并不保證你的網站能進入搜索引擎數據庫,目前好的辦法是多獲得一些
外部鏈接,讓搜索引擎有更多機會找到你并自動將你的
網站收錄。
當用戶以關鍵詞查找信息時,搜索引擎會在數據庫中進行搜尋,如果找到與用戶要求內容相符的網站,便采用特殊的算法——通常根據網頁中關鍵詞的匹配程度,出現的位置、頻次,鏈接質量——計算出各網頁的相關度及排名等級,然后根據關聯度高低,按順序將這些網頁鏈接返回給用戶。這種引擎的特點是搜全率比較高。