一切盡在語義: 探索能理解言語和含義的直觀網際網路

美國國家科學基金會向倫斯勒理工學院研究人員撥款110萬美元,以促進語義網的發展


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。 透過購買訂閱,您將幫助確保未來能夠繼續報道關於塑造我們當今世界的發現和思想的具有影響力的故事。


網際網路的誕生源於連線各種不同資料來源的想法,透過計算機螢幕為全球研究人員提供前所未有的資訊訪問。 然而,隨著e-Science與Web 2.0一同發展,一些人正在推動網際網路編目和組織資料方式的根本性變革,以使其更容易被越來越多的跨學科和高度專業化的研究人員所使用,這些研究人員幾乎完全在線上度過工作時間,並且傾向於線上協作。 儘管這並非一個新論點——關於更直觀的“語義網”的想法已經被討論多年——但由於最近資助了一個軟體開發工具包,預計該工具包將更好地連線研究人員與他們尋求的資訊,這一想法又煥發了新的活力。

美國國家科學基金會(NSF)向紐約州特洛伊市倫斯勒理工學院的一個研究團隊撥款$110萬美元,用於在2010年中期之前建立一個軟體程式設計工具包,科學家和其他研究人員將能夠使用該工具包將其工作的資料提供給更多的同行以及包括教育工作者和政策制定者在內的非專業人士。 這筆資金是作為2009年美國經濟復甦與再投資法案的一部分提供的。

新一代研究人員沒有接受過更傳統的、基於圖書館的(網際網路前時代)研究方法的培訓,他們習慣於在網際網路上進行關鍵詞搜尋來發現資訊。 哈佛大學天文學教授艾麗莎·古德曼說:“但如果你來自特定領域之外,你並不一定知道這些關鍵詞是什麼。” 語義網設定將使研究人員能夠用更自然的語言來編寫查詢。 古德曼補充說,然而,一個能夠閱讀、理解和分類關鍵詞以外資訊的完全語義化的網路需要目前尚不具備的人工智慧水平,而倫斯勒的研究人員正試圖用這個新的工具包來解決這個問題。

馬里蘭大學巴爾的摩縣分校和NASA戈達德地球科學與技術中心的教員研究助理湯姆·納羅克說:“今天的地球和空間科學研究正在走向線上化。” 納羅克經常搜尋(為了他對太陽物理學的研究)航天器採集的測量資料,這些資料通常由多個研究機構儲存和管理。 他說:“問題在於不同資料集之間存在很大的異質性。” 例如,如果他需要研究特定時間段內太陽的影像,納羅克需要首先找出哪些航天器正在拍攝影像,它們是否處於拍攝他需要的照片的位置,以及它們在特定時間段內是否在執行。 他補充說,儘管許多研究機構都信奉開放獲取其工作的理念,但找到正確的資訊需要相當多的嘗試和錯誤。

這部分是因為不同的組織通常使用一種或多種不同的資料格式來儲存他們的資料。 納羅克說:“還有一個比列和行在不同資料庫中實際代表什麼更深層的語義問題。” 因此,在不同的資料來源中搜索相關資訊可能是一項非常繁瑣的任務,研究人員需要訪問各個資料庫並檢查檔案,有時甚至需要打電話給其他研究人員進行澄清。

語義網技術將成為新軟體工具包的核心,倫斯勒物理學教授兼該校Tetherless World Constellation研究團隊的聯合主席彼得·福克斯說,該團隊正在領導這個專案。 (在倫斯勒,“星座”是由資深教員、初級教員、研究生和本科生組成的多學科團隊。) 福克斯說:“有了新的工具包,我們的想法是走出去培訓社群,並建立一個共享資源。” “這是一個用於e-Science的工具,” 這本質上是不同科學學科之間跨網際網路絡的開放協作。

語義方法並非為研究人員提供跨單個數據庫的簡單關鍵詞搜尋,而是提出建立一個更智慧的網際網路基礎設施,該基礎設施可以為被搜尋的概念賦予意義,甚至在某種程度上理解研究人員的意圖。 使用本體,即特定學科內概念及其概念之間關係的正式表示,搜尋可以理解表達相同想法的不同術語,提供指向相關網站、非營利組織、即將提交國會的法案,甚至多媒體播客、數字影像和影片檔案的連結。 福克斯說:“語義網是為共同含義提出共享表達方式的方法。”

理想情況下,研究人員和網路衝浪者都將有能力在必要時審查和更正資訊,類似於維基百科的模式。 使用附加到資料的語義標籤也可以控制對某些資料集的訪問,幫助那些搜尋資訊的人更容易地認可他們正在使用的資料的原始建立者,而資料建立者可以準確地跟蹤誰在檢視他們的資料,倫斯勒大學計算機科學和認知科學教授,以及該校Tetherless World Constellation的聯合主席黛博拉·麥吉尼斯說。 福克斯和麥吉尼斯正在與Tetherless World的另一位聯合主席兼倫斯勒計算機與認知科學教授吉姆·亨德勒的幫助下開發該工具包。

語義介面將允許研究人員訪問單個研究站點,描述所需的資訊,然後讓本體和語義來處理其餘的事情。 納羅克說:“語義網有自己的查詢語言,它利用概念的含義及其關係。” “你以非常高的級別提出你的問題,它會負責為你填寫細節。”

然而,這種轉換並不容易。 正如納羅克指出的那樣,負責大型資料庫的人員必須開發本體,使資訊更易於訪問,儘管福克斯說Constellation的計劃是為程式設計師提供一些預先打包的本體以供使用。 為了使語義網發揮作用,納羅克說,像Constellation正在開發的工具這樣的工具需要被廣泛使用,並且同樣重要的是,在建立資料時就被使用。

© .