“突發詞”可能有助於改進網路搜尋

加入我們的科學愛好者社群!


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。 透過購買訂閱,您將幫助確保未來能夠繼續產出有關塑造我們當今世界的發現和思想的具有影響力的報道。


在網際網路上搜索有時感覺像是在不斷擴大的草堆中尋找一根正在縮小的針。 為此,一種新的資訊分類方法可能會有所幫助,該方法依賴於掃描文件中特定詞語使用頻率的突然“突發”。 康奈爾大學的喬恩·克萊因伯格昨天在科羅拉多州丹佛市舉行的美國科學促進會年會上描述了這項技術。

克萊因伯格設計新系統的靈感來自他被大量電子郵件淹沒的收件箱。 在嘗試過濾郵件時,他推測,每當出現重要主題時,與之相關的關鍵詞就會在郵件中以越來越高的頻率出現。 因此,搜尋使用頻率急劇且快速增加的詞語——或“突發詞”——可能有助於識別重要主題,並提供一種對郵件進行分類的方法。 克萊因伯格設計了一種搜尋演算法,該演算法既分析詞語出現的次數,也分析其頻率隨時間推移的增加率。

為了測試他的方法,克萊因伯格使用該演算法仔細檢查了自 1790 年以來所有國情諮文演講的全文。 程式識別出的“突發詞”與某些演講發表時發生的重大事件相符。 例如,在美國革命之後,“民兵”和“英國人”是標記詞彙之一,而“原子”在 1947 年至 1959 年間顯示出顯著的“突發”。 克萊因伯格指出,這些趨勢對人們來說是直觀的,但是一臺缺乏歷史背景的計算機仍然僅透過掃描原始文字就成功地識別了它們。 他認為,這種新方法可以透過更好地識別查詢的時間背景來幫助縮小網路搜尋範圍。 此外,社會學家或營銷人員或許能夠透過監控網路日誌或傳送給消費者網站的電子郵件中詞語的“突發性”來更巧妙地識別新興趨勢。

© .