尋求更佳網路搜尋

線上查詢返回大量無關結果,使用者很快將受益於經過改進的搜尋引擎,這些引擎將提供定製化的結果

在不到十年的時間裡,網際網路搜尋引擎徹底改變了人們收集資訊的方式。我們不再需要跑到圖書館去查詢資料;只需在鍵盤上點選幾下,就能找到相關的檔案。現在,“谷歌一下”已經成為做研究的代名詞,線上搜尋引擎正準備進行一系列升級,有望進一步提升我們查詢所需內容的方式。

新的搜尋引擎正在透過更深入地挖掘線上可用材料的儲存庫、更好地對這些結果進行排序和呈現,以及跟蹤您的長期興趣,從而改進結果的質量,以便他們能夠改進對新資訊請求的處理。未來,搜尋引擎還將擴充套件內容視野,不僅僅是處理輸入文字框的關鍵詞查詢。它們將能夠自動考慮您的位置——例如,當您旅行時,讓您的無線PDA精確定位最近的餐廳。新的系統還將透過將您的草圖與相似的形狀進行匹配,更快地找到合適的圖片。如果您哼唱幾句,它們甚至能夠說出您半生不熟的曲調名稱。

今天的搜尋引擎起源於一個名為資訊檢索的研究領域,這是一個可以追溯到近50年前的計算主題。在1966年9月《大眾科學》雜誌上發表的題為“資訊儲存和檢索”的文章中,本·阿米·利佩茨描述了當時最先進的資訊科技如何只能處理例行或文書工作。然後,他富有洞察力地得出結論,資訊檢索領域的突破將出現在研究人員更深入地瞭解人類如何處理資訊,然後賦予機器類似能力的時候。顯然,計算機尚未達到那種複雜程度,但在完成任務時,它們肯定會更多地考慮使用者的個人興趣、習慣和需求。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的具有影響力的故事的未來。


預篩選頁面
在討論該領域的新發展之前,瞭解當前搜尋引擎的運作方式會有所幫助。當計算機使用者在螢幕上看到谷歌在例如 0.32 秒內篩選了數十億份文件時,會發生什麼?由於將使用者的關鍵詞查詢與單個網頁逐個匹配會花費太長時間,因此係統會在使用者進行搜尋之前執行幾個關鍵步驟。


正在努力使搜尋“隱藏網路”像搜尋可見網路一樣容易。


首先,持續識別和收集潛在內容。稱為爬蟲的特殊軟體程式碼用於探測網路上釋出的頁面,檢索這些頁面和連結頁面,並將頁面聚合在單個位置。在第二步中,系統計算相關詞語,並使用各種統計技術確定它們的重要性。第三,從相關術語生成高效的資料結構或樹,該結構將這些術語與特定的網頁相關聯。當用戶提交查詢時,搜尋的是已完成的樹,也稱為索引,而不是單個網頁。搜尋從索引樹的根部開始,在每一步,樹的分支(代表許多術語和相關的網頁)要麼被遵循,要麼被排除在考慮範圍之外,從而以指數方式減少搜尋時間。

為了將相關的記錄(或連結)放置在檢索列表的頂部或附近,搜尋演算法應用各種排名策略。一種常見的排名方法——詞頻/逆文件頻率——考慮詞語的分佈及其頻率,然後為詞語生成數值權重,這些權重表示詞語在各個文件中的重要性。頻繁出現的詞語(例如“或”、“到”或“與”)或出現在許多文件中的詞語的權重明顯低於語義上更相關或出現在相對較少文件中的詞語。[break]

除了詞語加權外,還可以使用其他策略對網頁進行排名。例如,連結分析考慮每個頁面的性質,就其與其他頁面的關聯而言——即,如果它是一個權威(透過指向它的其他頁面的數量)或一箇中心(透過它指向的頁面的數量)。谷歌使用連結分析來改進其搜尋結果的排名。

卓越的引擎
在谷歌崛起為主導地位的六年裡,它比競爭對手提供了兩個關鍵優勢。一,它可以處理超大規模的網路爬取任務。二,其索引和加權方法產生了卓越的排名結果。然而,最近,搜尋引擎構建者開發了幾種新的、同樣有能力的方案,其中一些方案在某些方面甚至更好。


最近,亞馬遜、Ask Jeeves 和谷歌宣佈了一些計劃,這些計劃將允許使用者個性化他們的搜尋。


今天的大部分數字內容仍然無法訪問,因為許多託管(持有和處理)該材料的系統不會像使用者通常檢視的那樣儲存網頁。這些資源在使用者與它們互動時按需生成網頁。典型的爬蟲會被這些資源難倒,並且無法檢索任何內容。據一些估計,這使得大量資訊——大約是傳統網路規模的 500 倍——對使用者隱藏。正在努力使搜尋“隱藏網路”像搜尋可見網路一樣容易。

為此,程式設計師開發了一類軟體,稱為包裝器,它利用了線上資訊傾向於使用標準化的“語法”結構呈現的事實。包裝器以各種方式完成其任務。一些包裝器利用搜索查詢的習慣語法和線上資源的標準格式來訪問隱藏內容。其他系統則利用應用程式程式設計介面,這些介面使軟體能夠透過一組標準的操作和命令進行互動。BrightPlanet 的 Deep Query Manager 是一個提供對隱藏網路訪問的程式的示例。這種基於包裝器的查詢管理器可以為超過 70,000 個隱藏網路資源提供定製化的門戶和搜尋介面。

僅僅依靠連結或詞語來建立排名,而不對正在比較的頁面型別施加任何約束,就為欺騙或遊戲排名系統以誤導查詢打開了可能性。例如,當在三大搜索引擎——谷歌、雅虎和 MSN 上執行查詢“miserable failure”時,來自 whitehouse.gov 站點的頁面會作為檢索連結結果集中的首項出現。

某些搜尋引擎不是向用戶提供排名專案的列表(這可以相對容易地被欺騙),而是嘗試識別與查詢最匹配的頁面中的模式,並將結果分組為更小的集合。這些模式可能包括常用詞、同義詞、相關詞,甚至使用特殊規則識別的高階概念主題。這些系統用其相關術語標記每個連結集。然後,使用者可以透過選擇特定的結果集來進一步細化搜尋。Northern Light(它率先使用了這項技術)和 Clusty 是呈現聚類結果的搜尋引擎。

Mooter 是一款創新的搜尋引擎,它也採用了聚類技術,透過視覺化地呈現其聚類,為研究人員提供了幾個額外的優勢。它將子類別按鈕圍繞代表所有結果的中心按鈕排列,就像輪子的輻條一樣。點選聚類按鈕會檢索相關連結列表和新的相關聚類。Mooter 記住選擇的聚類。透過點選“細化”選項,將先前檢索到的搜尋聚類與當前查詢結合起來,使用者可以獲得更精確的結果。[break]

Kartoo 也是一款採用視覺化的類似搜尋引擎。它是一個所謂的元搜尋引擎,它將使用者的查詢提交給其他搜尋引擎,並以視覺化的形式提供聚合結果。除了與各種站點相關的關鍵詞列表外,Kartoo 還顯示一個“地圖”,該地圖將重要站點描繪為圖示,並將站點之間的關係描繪為標記路徑。每個標籤都可以用於進一步細化搜尋。

計算機工具簡化搜尋的另一種方式是透過瀏覽您的硬碟驅動器以及網路。目前,在計算機使用者的桌面上搜尋檔案需要單獨的軟體應用程式。例如,谷歌最近宣佈了桌面搜尋,它結合了這兩個功能,允許使用者為給定的搜尋指定硬碟或網路,或兩者都指定。微軟的作業系統下一個版本,代號為 Longhorn,預計將提供類似的功能。使用在另一個名為 Stuff I've Seen 的微軟專案中開發的技術,Longhorn 可能會提供“隱式搜尋”功能,該功能可以在使用者不必指定查詢的情況下檢索相關資訊。據報道,隱式搜尋功能從使用者最近操作的文字資訊(例如電子郵件或 Word 文件)中收集關鍵詞,以定位和呈現來自儲存在使用者硬碟驅動器上的檔案的相關內容。微軟可能會將搜尋功能擴充套件到網路內容,並使使用者能夠更方便地將螢幕上顯示的任何文字內容轉換為查詢。

搜尋我
最近,亞馬遜、Ask Jeeves 和谷歌宣佈了一些計劃,試圖透過允許使用者個性化他們的搜尋來改進搜尋結果。亞馬遜搜尋引擎 A9.com 和 Ask Jeeves 搜尋引擎 MyJeeves.ask.com 可以跟蹤查詢和檢索到的頁面,並允許使用者以書籤方式永久儲存它們。在 MyJeeves 中,可以檢視和重新執行儲存的搜尋,從而提供了一種開發個人組織的網路子集的方法。亞馬遜的 A9 可以支援類似的功能,並且還使用個人搜尋歷史來建議其他頁面。這種建議功能類似於亞馬遜著名的圖書推薦功能,該功能利用使用者社群的搜尋和購買模式——有時稱為協同過濾。

A9 和 MyJeeves 中的搜尋歷史記錄不是儲存在使用者的機器上,而是儲存在搜尋引擎伺服器上,以便可以對其進行保護並在以後用於後續搜尋的任何機器上檢索。

在個性化谷歌中,使用者可以透過從預生成的主題層次結構中進行選擇來指定他們特別感興趣的主題。它還允許使用者指定他們對各種主題或領域的興趣程度。然後,系統使用選定的主題、指示的興趣級別和原始查詢來檢索和排名結果。

儘管這些搜尋系統提供了重要的新功能,但它們僅代表增量增強。如果搜尋引擎可以考慮到一個人查詢的更廣泛的任務上下文——也就是說,使用者最近的搜尋主題、個人行為、工作主題等等——它們的實用性將大大提高。然而,確定使用者上下文將需要軟體設計人員克服嚴重的工程障礙。開發人員必須首先構建自動監控使用者興趣和習慣的系統,以便搜尋引擎可以確定一個人進行資訊搜尋的上下文、使用者正在執行的計算平臺以及他或她的一般使用模式。在預先建立這些點並將其放置在所謂的使用者配置檔案中之後,軟體可以隨後交付適當的定製資訊。獲取和維護關於使用者的準確資訊可能被證明是困難的。畢竟,大多數人都不太可能忍受輸入個人資料(除了標準搜尋活動所需的資料之外)的麻煩。[break]


網路搜尋者將使用在資訊中建立廣泛模式的介面來引導瀏覽大量資料儲存庫。


關於個人興趣的良好資訊來源是使用者網路瀏覽行為的記錄以及他們系統中常見應用程式的其他互動。當一個人開啟、閱讀、播放、檢視、列印或共享文件時,引擎可以跟蹤他或她的活動並使用它們來指導特定主題的搜尋。此過程類似於微軟開發的隱式搜尋功能。PowerScout 和 Watson 是首批引入的能夠將搜尋與從間接來源生成的使用者興趣配置檔案整合的系統。PowerScout 仍然是一個未釋出的實驗室系統,但 Watson 似乎正在接近商業化。程式設計師現在正在開發更復雜的軟體,該軟體將隨時間推移收集互動資料,然後生成和維護使用者配置檔案以預測未來的興趣。

然而,這些系統中的基於使用者配置檔案的技術尚未被廣泛採用。各種因素可能是造成這種情況的原因:一個問題可能是與跨不同任務和在較長時間內維護配置檔案準確性相關的問題。需要重複評估以建立穩健的配置檔案。使用者的注意力可能會以不可預測的和微妙的方式變化,這可能會顯著影響檢索結果。

另一個因素是隱私保護。網路導航軌跡、儲存的搜尋和與應用程式互動的模式可以洩露大量秘密個人資訊(甚至達到洩露使用者身份的程度)。少數可用的軟體系統允許使用者匿名地從網站獲取內容。這些工具使用的主要方法是中間或代理伺服器,使用者的交易透過這些伺服器傳輸和處理,以便託管資料或服務的站點僅知道代理系統,而無法將請求追溯到個人使用者。此技術的一個例項是 anonymizer.com 站點,該站點允許使用者隱身瀏覽網路。另一個示例是 Freedom WebSecure 軟體,它採用多個代理和多層加密。儘管這些工具提供了合理的安全性,但尚不存在既能實現使用者個性化又能提供強大隱私保護的搜尋服務。在維護隱私與配置檔案的好處之間取得平衡仍然是一個關鍵挑戰。

在路上
另一類情境感知搜尋系統將考慮一個人的位置。例如,如果度假者攜帶可以接收和解釋來自全球定位系統 (GPS) 訊號的 PDA,或者使用射頻技術來建立和持續更新位置,則系統可以利用該功能。馬里蘭大學的研究人員正在開發此類技術的一個示例。它被稱為 Rover,是一個跨廣闊地理區域使用文字、音訊或影片服務的系統。Rover 可以在使用者附近區域呈現地圖,突出顯示合適的興趣點。它能夠透過將各種特定主題的“過濾器”應用於地圖來自動識別這些點。

該系統還可以提供其他資訊。例如,如果 Rover 客戶端正在參觀博物館,則手持裝置將顯示該機構的樓層平面圖和附近的展品。如果使用者走到外面,PDA 顯示屏將更改為區域地圖,標記潛在的興趣點位置。Rover 還允許操作員直接輸入他或她的位置,並從聯網資料庫中檢索定製資訊。2003 年,建立 Rover 的團隊和私營網路公司 KoolSpan 從馬里蘭州政府獲得了資金,以共同開發用於安全無線資料傳輸和使用者身份驗證的應用程式。這種合作應該會產生一個更安全且商業上更可接受的 Rover 版本。[break]

不幸的是,基於 GPS 的系統的位置誤差(從三到四米)仍然相當大。即使可以透過室內感測器和室外信標系統來提高此解析度,這些技術的實施成本也相對較高。此外,非文字資訊(尤其是影像、音訊和影片)的分佈將需要比當前手持裝置可用的頻寬或當今無線網路提供的頻寬更高的頻寬容量。IEEE 802.11b 無線區域網協議提供高達 11 兆位元/秒的頻寬,已在提供位置感知搜尋服務方面成功測試,但尚未廣泛可用。

圖片是這樣的
情境可以不僅僅意味著使用者的個人興趣或位置。搜尋引擎也在超越文字查詢來查詢圖形材料。現在網路上提供了許多三維影像,但藝術家、插畫家和設計師無法使用關鍵詞有效地搜尋這些圖紙或形狀。普林斯頓形狀檢索和分析小組的 3-D 模型搜尋引擎支援三種生成此類查詢的方法。第一種方法使用名為 Teddy 的草圖板實用程式,該程式允許人們繪製基本的二維形狀。然後,該軟體從這些形狀生成虛擬實體拉伸(透過在空間中拖動 2-D 影像)。第二種方法允許使用者繪製多個二維形狀(近似影像的不同投影),然後搜尋引擎將平面草圖與資料庫中每個三維物件的 13 個預計算投影進行匹配。從理論上講,此功能可以推廣以支援從任何 2-D 影像資料集檢索。一個人找到影像的第三種方法是上傳包含三維模型的檔案。

該系統仍在開發中,它透過首先根據一系列數學函式(三維影像的諧波函式和二維表示的三角函式)描述每個形狀來匹配查詢與形狀。然後,系統從每個函式生成某些“指紋”值,這些值對於每個關聯的形狀都是特徵性的。這些指紋稱為球形或圓形簽名。使用這些描述符產生兩個好處:無論原始形狀和搜尋形狀如何定向,它們都可以匹配,並且可以快速計算和匹配描述符。

那首歌叫什麼名字?
音樂也已進入搜尋引擎領域。查詢特定曲調的關鍵問題是如何最好地制定搜尋查詢。一種解決方案是使用樂譜或基於樂譜轉錄的查詢語言,該語言允許使用者透過鍵入字母數字字元來表示音符來指定曲調。然而,大多數使用者發現很難將他們腦海中的歌曲轉換為樂譜。

由紐西蘭數字圖書館專案設計的 Meldex 系統透過提供幾種查詢音樂的方式來解決問題。首先,使用者可以透過在系統的虛擬鍵盤上彈奏音符來錄製查詢。或者他或她可以將歌曲哼唱到計算機麥克風中。最後,使用者可以將歌詞指定為文字查詢,或將歌詞搜尋與基於曲調的搜尋相結合。

為了使 Meldex 系統工作,紐西蘭研究人員必須克服幾個障礙:如何將音樂查詢轉換為可以輕鬆計算的形式;如何以數字方式儲存和搜尋歌曲樂譜;以及如何將這些查詢與儲存的音樂資料進行匹配。在系統中,一個稱為量化的過程識別查詢中的音符和音高。然後,Meldex 透過分析波形的結構自動檢測音高作為時間的函式,並將它們對映到數字音符。系統將音符和完整的作品都儲存在樂譜資料庫中。使用資料字串匹配演算法,Meldex 查詢轉換為音符的音樂查詢,這些音符與樂譜資料庫中的音符相對應。由於查詢可能包含錯誤,因此字串匹配功能必須容納一定量的“噪聲”。[break]

搜尋未來
未來的搜尋服務將不限於傳統的計算平臺。工程師們已經將它們整合到一些汽車移動資料通訊(遠端資訊處理)系統中,並且很可能他們還將搜尋功能嵌入到娛樂裝置中,例如遊戲站、電視和高階立體聲音響系統。因此,搜尋技術將在看不見的輔助角色中發揮作用,通常透過智慧網路服務,在駕駛車輛、聽音樂和設計產品等活動中發揮作用。

網路搜尋的另一個重大變化將圍繞新的商業交易展開,這些交易將大大擴充套件對大量已釋出材料(包括文字、影片和音訊)的線上覆蓋範圍,計算機使用者目前無法訪問這些材料。

具有諷刺意味的是,下一代搜尋技術在執行其日益複雜的工作時,將變得更加可見和更不明顯。可見的角色將由更強大的工具來代表,這些工具將搜尋功能與資料探勘操作相結合——專門的系統,用於在資料庫中查詢趨勢或異常,而實際上並不知道資料的含義。看不見的角色將涉及為各種應用程式和平臺開發無數智慧搜尋操作作為後端服務。資料探勘和使用者介面技術的進步將使單個系統能夠自動提供一系列複雜的搜尋服務,這些服務與互動式視覺化功能無縫整合。

透過利用機器學習和分類技術的進步,這些技術將能夠更好地理解和分類網路內容,程式設計師將開發易於使用的視覺化挖掘功能,這些功能將為搜尋功能增加高度可見和互動式的維度。行業分析師預計,將提供各種挖掘功能,每種功能都經過調整以搜尋來自特定領域或格式(例如,音樂或生物資料)的內容。軟體工程師將設計這些功能以快速方便地響應使用者的需求,儘管它們將處理大量資訊。網路搜尋者將使用在資訊中建立廣泛模式而不是挑選單個記錄的視覺化豐富介面來引導瀏覽大量資料儲存庫。最終,計算機使用者將很難確定搜尋何時開始,理解何時開始。

資訊儲存和檢索。 本·阿米·利佩茨,載於《大眾科學》第 215 卷,第 3 期,第 224-242 頁;1966 年 9 月。

使用偵察代理探索網路。 H. 利伯曼、C. 弗萊和 L. 韋茨曼,載於《ACM 通訊》第 44 卷,第 8 期,第 69-75 頁;2001 年 8 月。

Rover:可擴充套件的位置感知計算。 S. Banerjee 等人,載於《計算機》第 35 卷,第 10 期,第 46-53 頁;2002 年 10 月。

用於 3D 模型的搜尋引擎。 T. Funkhouser 等人,載於《ACM 圖形學彙刊》第 22 卷,第 1 期,第 83-105 頁;2003 年 1 月。

使用者興趣不同維度及其對使用者建模和資訊過濾影響的模擬研究。 Javed Mostafa、S. Mukhopadhyay 和 M. Palakal,載於《資訊檢索》第 6 卷,第 2 期,第 199-223 頁;2003 年 4 月。

位置感知搜尋系統

大眾科學雜誌 第 292 卷 第 2 期本文最初以“尋求更佳網路搜尋”為標題發表於大眾科學雜誌 第 292 卷 第 2 期 ()
doi:10.1038/scientificamerican022005-1YAzW4raOrubP4Nt2nULfM
© .