網際網路搜尋引擎是如何工作的?

印第安納大學伯明頓分校資訊科學副教授、應用資訊學實驗室主任賈韋德·穆斯塔法(Javed Mostafa)解釋道。

據估計,透過搜尋引擎訪問的文字資訊量至少是世界最大圖書館——美國國會圖書館所有書籍數字化內容的40倍。提供如此龐大資訊量的訪問是一個挑戰,但目前的搜尋引擎在篩選內容和識別與查詢相關的連結方面做得非常出色。

網路上有大量的資訊提供商。其中包括常見的公開來源,如谷歌、InfoSeek、NorthernLight 和 AltaVista 等。第二組來源——有時被稱為“隱藏網路”——就其提供的資訊量而言,比公共網路大得多。後一組包括 Lexis-Nexis、Dialog、Ingenta 和 LoC 等來源。它們之所以保持隱藏狀態有多種原因:它們可能不允許其他資訊提供商訪問其內容;它們可能需要訂閱;或者它們可能要求付費訪問。本文關注的是前一組,即公開可用的網路搜尋服務,在此統稱為搜尋引擎。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續產出關於塑造當今世界的發現和思想的有影響力的報道。


搜尋引擎採用各種技術來加速搜尋。下面簡要介紹一些常用技術。

預處理資料

搜尋引擎節省時間的一種方法是透過預處理網路內容。也就是說,當用戶發出查詢時,它不會被髮送到數百萬個網站。相反,匹配是針對儲存在一個站點中的預處理資料進行的。預處理是在一個名為“爬蟲”的軟體程式的幫助下進行的。爬蟲由資料庫維護者定期傳送出去以收集網頁。一個專門的計算機程式解析檢索到的頁面以提取詞語。然後,這些詞語與指向相應頁面的連結一起儲存在索引檔案中。使用者的查詢是針對此索引檔案進行匹配,而不是針對其他網站。

智慧表示

在這種技術中,索引的表示經過仔細選擇,目的是最大限度地縮短搜尋時間。資訊科學家已經開發出一種稱為“樹”的高效資料結構,與針對順序列表進行的搜尋相比,它可以保證顯著縮短整體搜尋時間(參見側邊欄)。為了適應許多使用者同時進行的搜尋並消除“等待佇列”,索引通常在搜尋站點的多臺計算機上覆制。

結果優先順序排序

搜尋結果產生的 URL 或連結通常數量眾多。但由於語言的歧義性(例如,“window blind”與“blind ambition”),生成的連結通常與使用者的查詢並非同等相關。為了更快地訪問最相關的記錄(並將它們放在頂部或靠近頂部),搜尋演算法應用各種排名策略。一種常見的排名方法稱為“詞頻-逆文件頻率”(TFIDF),它考慮詞語的分佈及其頻率,併為詞語生成數值權重,以表示其在單個文件中的重要性。它生成的詞語權重使得高頻詞(如“或”、“到”或“與”)以及在許多文件中出現的詞語的權重遠低於語義上更相關且在相對較少文件中出現的詞語。

除了詞語權重外,網頁還可以使用其他策略進行加權。例如,連結分析考慮每個頁面的性質,即它與其他頁面的關聯——即它是權威頁面(指向它的其他頁面的數量)還是中心頁面(它指向的頁面的數量)。非常成功的谷歌搜尋引擎使用連結分析來改進其搜尋結果的排名。

上下文和距離

為了快速識別最相關的連結,某些搜尋引擎會將查詢詞與上下文資訊進行比較,例如使用者最近提交的查詢。這種技術有時被稱為“查詢捕獲”,涉及收集最近查詢中的詞語,並使用這些詞語來消除歧義、改進或擴充套件當前查詢。某些資訊提供商可以加速搜尋結果交付的另一種方法是使用分散式交付模型,即將索引和相關內容的副本複製並移動到多個地理位置,以縮短使用者與內容之間的網路距離。內容提供商與 Akamai 等第三方服務合作實施分散式內容交付。

侷限性

與上述某些加速技術相關的成本是存在的。進行索引的組織與生成實際內容的組織的分離可能會導致所謂的“連結腐爛”,即連結指向不再存在的頁面。或者,指向新的網路內容的連結可能會丟失。“連結腐爛”和連結丟失都可能是由於爬取或重新索引的延遲造成的。一些爬蟲盲目地檢索頁面,而不關注資訊提供商的聲譽或權威性。此過程鼓勵為惡意目的操縱索引。一種常見的現象稱為“索引垃圾郵件”。希望人為地提高其在搜尋結果中排名的網站可能會在頁面中使用與頁面背景顏色匹配的字型顏色放置數千個單詞。此過程對檢視者隱藏了這些詞語,但使它們可用於索引。最後,透過利用 Web 伺服器軟體的一項功能,資訊提供商可以操縱它為不同主機發出的相同請求返回不同的頁面。這導致了“頁面劫持”,即一個網站可以複製競爭對手的頁面,讓搜尋引擎主機將其索引為自己的頁面,並將來自其他主機對原始頁面的請求定向到替代內容或站點。

答案最初發表於 2002 年 10 月 14 日。

Lynch, C. When documents deceive: Trust and provenance as new factors for information retrieval in a tangled web. Journal of the American Society for Information Science and Technology, 52(1):12-17, 2001.

© .