編者注:我們釋出這篇來自2007年12月刊的專題文章,是因為在ScienceOnline09上就語義網進行了討論。
六年前,在本雜誌中,蒂姆·伯納斯-李、詹姆斯·亨德勒和奧拉·拉西拉揭示了語義網的初步願景:一個高度互聯的資料網路,任何桌上型電腦或手持裝置都可以輕鬆訪問和理解。他們描繪了一個智慧軟體代理的未來,這些代理將在全球資訊網上自動預訂我們的旅行機票和酒店,更新我們的醫療記錄,並針對特定問題給出單一的、定製的答案,而無需我們搜尋資訊或仔細閱讀結果。
他們還介紹了將使這一願景成為現實的年輕技術:一種通用語言,用於表示可被各種軟體代理理解的資料;本體——語句集合——將來自不同資料庫的資訊轉換為通用術語;以及允許軟體代理推斷以這些術語描述的資訊的規則。資料格式、本體和推理軟體將像全球資訊網上的一個大型應用程式一樣執行,分析儲存在線上資料庫中的所有原始資料,以及Web中包含的有關文字、影像、影片和通訊的所有資料。像Web本身一樣,語義網將以基層方式發展,只是這次是在全球資訊網聯盟內部工作組的幫助下,該聯盟有助於推進全球媒介的發展。
此後,懷疑論者認為語義網對於人們來說太難理解或利用。事實並非如此。使能技術已經成熟。一個充滿活力的早期採用者社群已經就標準達成一致,這些標準穩步地使語義網變得實用。大型公司正在進行重大專案,這將大大提高內部運營和科學研究的效率。其他公司正在使用語義網來加強企業對企業的互動,並構建新的消費者服務背後的隱藏資料處理結構或後端。就像冰山一樣,這項龐大工作的尖端也正在直接的消費者應用中顯現出來。
表面之下 語義網與全球資訊網不同。它是一種增強功能,使Web具有更大的實用性。當沉浸在某個領域或職業中的人們(無論是基因研究還是嘻哈音樂)就他們關心的資訊的通用表示方案達成一致時,它就會變得活躍起來。隨著越來越多的群體開發這些分類法,語義網工具允許他們連結其方案並轉換其術語,逐漸擴大其Web軟體可以自動相互理解的人員和社群的數量。
也許最明顯的例子(儘管範圍有限)是在Web上蓬勃發展的標籤系統。這些系統包括del.icio.us、Digg和出版商使用的DOI系統,以及MySpace和Flickr等社交網站上提供的自定義標籤集。在這些方案中,人們選擇通用術語來描述他們在某些網站上找到或釋出的資訊。反過來,這些努力使Web程式和瀏覽器能夠找到並粗略地理解標記的資訊——例如,查詢在太平洋沿岸拍攝的所有Flickr日出和日落照片。然而,即使使用相同的術語(例如“昂貴”),一個系統內的標籤也不能在另一個系統上工作。因此,這些系統無法擴充套件到分析Web上的所有資訊。
全球資訊網聯盟——一個由400多家公司和大學組成的臨時組織,由美國麻省理工學院、法國歐洲資訊學和數學聯盟以及日本慶應義塾大學共同主辦——已經發布了跨越這些邊界所需的語義網語言和技術,大型公司正在利用它們。例如,英國電信已經構建了一個原型線上服務,以幫助其眾多供應商更有效地共同開發新產品。波音公司正在探索這些技術,以更有效地整合參與飛機設計的合作伙伴的工作。雪佛龍公司正在嘗試管理發電廠和煉油廠生命週期的方法。麻省理工學院公司正在應用語義網工具包來幫助美軍解釋車隊移動的交戰規則。英國國家測繪機構Ordnance Survey在內部使用語義網來更準確、更經濟地生成地理地圖。
其他公司正在改進消費者服務的後端運營。Vodafone Live!是一個用於訪問鈴聲、遊戲和移動應用的多媒體門戶,它建立在語義網格式之上,使訂閱者能夠比以前更快地將內容下載到他們的手機上。《哈珀斯雜誌》在其網站上利用語義本體來呈現當前事件的註釋時間線,這些時間線會自動連結到有關與這些事件相關的概念的文章。Joost正在免費將電視放到網上,它正在使用語義網軟體來管理觀眾線上使用的節目表和節目指南。
消費者也開始直接使用資料語言和本體。一個例子是朋友的朋友(FOAF)專案,這是一個以純粹基層方式增長的去中心化社交網路系統。愛好者們建立了一個語義網詞彙表,用於描述人們的姓名、年齡、地點、工作和彼此之間的關係,並尋找他們之間的共同興趣。FOAF使用者可以以他們喜歡的任何格式釋出資訊和影像,並且仍然可以無縫連線所有內容,這是MySpace和Facebook無法做到的,因為它們的欄位不相容且不開放翻譯。超過一百萬的個人已經相互連結了他們的FOAF檔案,包括LiveJournal和TypePad(兩個流行的Weblog服務)的使用者。
正如這些例子所表明的那樣,人們正在朝著構建語義網的方向發展,在這個網路中,任何線上資訊片段之間都可以建立關係,無論是文件、照片、標籤、金融交易、實驗結果還是抽象概念。資料語言,稱為資源描述框架(RDF),以一種允許計算機和軟體自動交換資訊的方式命名每個專案以及專案之間的關係。額外的功能來自本體和其他技術,這些技術可以建立、查詢、分類和推理這些關係。
因此,語義網允許不同組織的員工使用自己的資料標籤,而不是試圖在行業範圍內就一套僵化的標籤達成一致;它理解資料庫1中的術語“X”與資料庫2中的術語“Y”相同。此外,如果資料庫1中的任何術語發生更改,其他資料庫和資料整合過程本身仍將理解新資訊並自動更新自身。最後,語義網支援“推理器”的部署——可以發現數據源之間關係的軟體程式。
正如HTML和XML語言使原始Web健壯一樣,RDF語言和基於它的各種本體正在成熟,供應商正在基於它們構建應用程式。IBM、惠普和諾基亞正在推廣開源語義網框架——用於製作完善程式的通用工具。甲骨文的旗艦商業資料庫10g已被全球數千家公司使用,它已經支援RDF,並且升級版11g添加了更多的語義網技術。Adobe的最新版本的流行圖形程式(如Photoshop)使用相同的技術來管理照片和插圖。較小的供應商——其中包括Aduna Software、Altova、@semantics、Talis、OpenLink Software、TopQuadrant和Software AG——提供語義網資料庫程式和本體編輯器,它們類似於促進Web蓬勃發展的HTML瀏覽器和編輯器。現在,可以使用當今幾乎所有主要的計算機程式語言(包括Java、Perl和C++)來構建語義網站點。
我們仍在努力實現代理自動化我們日常生活中平凡任務的宏偉願景。但是,一些最先進的進展正在生命科學和醫療保健領域發生。這些學科的研究人員在他們工作的幾乎每個階段都面臨著巨大的資料整合挑戰。這些先驅者構建的真實系統的案例研究表明了語義網的強大功能。
案例研究 1:藥物發現 傳統藥物的模型是“一刀切”。高血壓?服用阿替洛爾。焦慮?服用安定。但是,由於每個人都具有獨特的基因組並生活在特定的生理和情感環境中,因此某些個體比其他個體反應更好。但是,今天,對生物學和藥物活動的更深入瞭解開始與可以預測哪些藥物(以及什麼劑量)對給定個體有效的工具相結合。這種預測應該使定製的或個性化的醫療治療越來越有可能。
當然,挑戰在於如何融合令人眼花繚亂的資料集:關於每個人的各種歷史和當前醫療記錄,以及關於多種藥物、藥物測試、潛在副作用和其他患者的結果的各種科學報告。傳統資料庫工具無法處理複雜性,手動嘗試組合資料庫將非常昂貴。僅維護資料就很困難:每次將新的科學知識納入一個數據源時,都必須逐個重新整合連結到它的其他資料來源。
辛辛那提兒童醫院醫療中心的一個研究團隊正在利用語義功能來尋找心血管疾病的潛在遺傳原因。傳統上,研究人員會搜尋在正常組織和患病組織中行為不同的基因,假設這些基因可能以某種方式參與導致病理。這種做法可能會產生數十或數百個可疑基因。然後,研究人員必須仔細查閱四到五個資料庫中的每一個基因,試圖辨別哪些基因(或它們編碼的蛋白質)具有最有可能影響疾病生物學特徵——這是一項艱鉅的任務。最終,研究人員常常負擔不起所需的時間,工作也就停滯不前。
辛辛那提團隊(包括一位語義網顧問)首先將來自不同來源且格式不相容的相關資訊資料庫下載到工作站中。這些資料庫包括基因本體論(包含基因和基因產物的資料)、MeSH(專注於疾病和症狀)、Entrez Gene(以基因為中心的資訊)和OMIM(人類基因和遺傳疾病)。研究人員將這些格式轉換為RDF,並將資訊儲存在語義網資料庫中。然後,他們使用來自斯坦福大學和惠普實驗室的免費語義網軟體Protégé和Jena來整合這些知識。
然後,研究人員透過應用一種 類似於谷歌用於對搜尋結果網頁進行排名的排名演算法,對可能與心臟功能相關的數百個基因進行優先順序排序。他們發現了可能在擴張型心肌病(一種心臟泵血能力減弱的疾病)中起因果作用的候選基因。該團隊指示軟體評估排名資訊,以及基因與該疾病及類似疾病的特徵和症狀的關係。該軟體識別出四個與擴張型心肌病相關染色體區域密切相關的基因。研究人員現在正在研究這些基因突變的影響,將其作為新的治療靶點。他們還將語義系統應用於其他心血管疾病,並期望在效率上實現同樣顯著的提高。該系統也很容易應用於其他疾病家族。
同樣,禮來公司的高階科學家們正在應用語義網技術來構建給定疾病最可能藥物靶點的完整影像。語義工具允許他們將大量不相容的生物學描述編譯成一個統一的檔案,大大加快了尋找下一個突破性藥物的速度。輝瑞公司正在使用語義網技術來整合有關蛋白質-蛋白質相互作用的資料集,以揭示可能有助於識別有前景的藥物的模糊相關性。那裡的研究人員確信,這些技術將增加意外發現的機會,加快新藥上市的速度,並推動整個行業向個性化醫療邁進。“這正是語義網可以幫助我們的地方,”輝瑞公司位於馬薩諸塞州劍橋市的研究技術中心資訊學小組負責人Giles Day說。
在所有這些案例中,語義網透過彙集來自不同地方的廣泛而多樣的資料來增強藥物發現。新的消費者服務也正在以類似的方式構建。例如,英國公司Garlik使用語義網軟體來比較以前不相容的資料庫,以提醒訂閱者他們可能成為身份盜竊的目標。Garlik從網路上提取分散的個人身份資訊,使用通用詞彙和規則將其整合,併為訂閱者提供清晰(有時令人驚訝)的線上身份檢視。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於當今塑造我們世界的發現和思想的具有影響力的故事的未來。
案例研究 2:醫療保健 醫療保健行業也面臨著同樣密集的複雜資訊。自 2004 年以來部署的一項舉措是在休斯頓的德克薩斯大學健康科學中心開發的,旨在更好地檢測、分析和應對新出現的公共衛生問題。該系統名為 SAPPHIRE(使用推理引擎進行公共衛生事件的情境感知和準備),它整合了來自當地醫療保健提供者、醫院、環境保護機構和科學文獻的廣泛資料。它允許衛生官員透過不同的角度評估資訊,例如跟蹤流感的傳播或 HIV 病例的治療。
在大休斯頓地區,SAPPHIRE 每 10 分鐘會收到急診室病例報告、患者自我報告的症狀描述、更新的電子健康記錄以及來自八家醫院的臨床醫生的筆記,這些醫院佔該地區急診室就診量的 30% 以上。語義技術將這些資訊整合到一個關於該地區當前健康狀況的單一檢視中。一個關鍵特徵是一種本體,它將呈現流感樣症狀(發燒、咳嗽和喉嚨痛)的無法解釋的疾病分類為潛在的流感病例,並自動向疾病控制與預防中心報告。透過自動生成報告,SAPPHIRE 解放了九名護士的手動工作,使她們可以進行積極的護理。並且它提供的報告比以前快了兩到三天。美國疾病控制與預防中心現在正在幫助全國各地的當地衛生部門實施類似的系統,取代繁瑣、不一致且有數十年曆史的紙質方案。
語義網技術的靈活性使得 SAPPHIRE 也能在其他環境中有效執行。當卡特里娜颶風的撤離者湧入休斯頓的避難所時,公共衛生官員很快開始擔心疾病可能傳播。避難所開放後八小時內,德克薩斯大學健康科學中心的人員配置了 SAPPHIRE 來提供幫助。他們為公共衛生官員配備了載入健康問卷的小型手持電腦。然後將撤離者的回答上傳到系統中,並將其與避難所急診診所的資料以及來自休斯頓衛生與人類服務部流行病學家的實地監測報告進行整合。SAPPHIRE 成功地比以前更快地識別出倖存者中的胃腸道、呼吸道和結膜炎爆發。
SAPPHIRE 的靈活性展示了關於語義網系統的一個重要教訓:一旦它們被配置為解決一個一般性問題——在本例中是公共衛生報告——它們就可以快速適應該領域的各種情況。事實上,美國疾病控制與預防中心希望在全國範圍內推出一個單一的、整合的、SAPPHIRE 風格的疾病警報系統。
SAPPHIRE 的成功之處在於它可以統一來自許多地方的資訊,然後這些資訊可以用於不同的目標。同樣的屬性也在推動 FOAF 的基層發展。透過使用約定的語義網詞彙,FOAF 系統可以找到朋友和熟人之間的共同興趣,即使他們不屬於同一社交網站(如 MySpace 或 Facebook)。FOAF 愛好者現在也在開發語義信任網路(受信任發件人的白名單),以此來打擊電子郵件垃圾郵件。
跨越邊界 SAPPHIRE 和其他應用程式的成功促使人們呼籲在 醫療保健中更多地整合語義網。食品和藥物管理局和國立衛生研究院最近都宣佈,為了改進藥物開發和交付過程,有必要轉向跨邊界資料轉換研究。
同樣的工作將增強醫療專業人員使用的傳統計算機化臨床決策支援 (CDS) 系統——包含關於治療的最新知識的知識庫。每家醫院、醫生網路和保險公司都必須定製設計自己的系統,而且它們都在竭力保持最新狀態。每次在診斷、臨床程式或藥物安全性方面取得進展時(這很常見),管理人員都必須重新調整他們的系統。所需的人員時間通常遠遠超過大多陣列織所能負擔的。此外,由於定製系統通常不相容,因此形成全行業見解或解讀最佳實踐的速度很慢且繁瑣。更重要的是,“我們正在研究語義網技術,因為傳統的資料整合、知識管理和決策支援方法無法擴充套件到個性化醫療所需的內容,”波士頓的 Partners HealthCare 系統的資訊長 John Glaser 說。
為了解決這種情況,Agfa HealthCare 構建了一個基於語義網技術的原型 CDS 系統。當某人在系統的某個部分輸入更改時,應在系統的其他部分或另一個機構的系統中更改的記錄會自動更新。例如,Agfa 的原型將標準放射學協議轉換為語義網符號,並將其與其他常見知識庫(如醫學學會的臨床指南)整合。機構可以維護自己內部標準化的內容,但終端使用者(如醫院)可以輕鬆整合新內容,從而大大減少所需的工作時間。
隨著 Agfa 等系統在整個醫療保健網路中的實施,醫學知識庫將變得更智慧、更易於使用且成本更低。想象一下,一個容易出現血栓的人,並且根據當前的醫學文獻,他的基因突變對一種新的抗凝藥物有很好的反應。然而,在隨後的幾個月中,新的研究表明,這種突變的特定變體實際上會導致同一種藥物增加凝血。必須通知該患者的臨床醫生更改任何具有此變體的人的治療方法。鑑於數千個基因涉及數百萬患者的數百種疾病,如何才能有效地進行此類通知?如果沒有強大的語義方法,就不可能應對這一挑戰。
日常生活 正在改變藥物發現和醫療保健的相同語義網技術也正在應用於更一般的情況。一個例子是 Science Commons,它幫助研究人員在網路上公開發布資料。該非營利組織提供語義網工具,用於將具有法律約束力的版權和許可資訊附加到這些資料。例如,這種能力允許科學家指示一個軟體小程式去查詢關於特定基因的資訊,但只能查詢帶有免費許可證的資訊。
DBpedia 是一項智慧連結維基百科七百萬篇文章中的資訊的嘗試。該專案將允許網路衝浪者對維基百科的內容執行當今不可能的詳細搜尋,例如,“找到所有在 1990 年之前獲得最佳影片奧斯卡獎提名的,並且片長超過三個小時的電影。”
隨著應用程式的發展,它們將與全球資訊網聯盟和其他機構的研究工作相契合,旨在實現語義網的願景。就標準達成一致可能進展緩慢,一些懷疑論者擔心,一家大型公司可能會透過推廣一套專有的語義協議和瀏覽器來超越這項工作。也許會這樣。但請注意,許多公司和大學都參與了該聯盟的語義工作組。他們意識到,如果這些小組能夠設計出一些精心設計的協議,以支援儘可能廣泛的語義網,那麼未來任何公司都有更大的空間從中獲利。
一些觀察人士還擔心,隨著來自不同來源的關於人們的更多資料相互關聯,人們的隱私可能會受到損害。但語義網倡導者認為,其保護措施與非連結世界中使用的相同。如果由語義網連線的兩個資料庫具有不同的隱私標準,那麼軟體將必須遵守兩套規則,或建立一套涵蓋兩者的規則。當SAPPHIRE連線患者資料庫時,它會遵守雙方的隱私要求,否則不會繼續;以前手動執行相同合併的護士也採取了同樣的做法。
語義網的運作方式可能比全球資訊網更不引人注目。我們不會看到它如何幫助禮來公司建立個性化藥物;我們只會購買它們。我們不會知道沃達豐如何如此輕鬆地提供炫酷鈴聲,但我們會感激它們有多麼容易下載。然而,很快語義網也將給予我們更多直接的權力,讓我們可以在eBay上不僅僅說“找到待售的豐田普銳斯”,而是說“找到我附近80英里內,售價低於14000美元的二手紅色普銳斯,並向他們報價”。宏偉的願景很少能完全按照計劃發展,但語義網確實正在興起,並使線上資訊比以往任何時候都更有用。