網路科學:研究網際網路以保護我們的未來

研究網路將揭示更好地利用資訊、防止身份盜竊、革新行業以及管理我們不斷增長的線上生活的方法

自從全球資訊網在 20 世紀 90 年代中期蓬勃發展以來,它已擴充套件到超過 150 億個頁面,幾乎觸及了現代生活的方方面面。今天,越來越多的人的工作依賴於網路。媒體、銀行和醫療保健正在被它徹底改變。甚至各國政府也在考慮如何利用它來管理國家。然而,鮮為人知的是,網路不僅僅是其頁面的總和。已經出現了巨大的湧現特性,正在改變社會。電子郵件促成了即時訊息,即時訊息又促成了 Facebook 等社交網路。文件傳輸促成了 Napster 等檔案共享站點,這些站點又促成了 YouTube 等使用者生成門戶。用標籤標記內容正在建立線上社群,這些社群分享從音樂會新聞到育兒技巧的一切資訊。

但是,很少有研究人員研究這種湧現特性是如何實際發生的、我們如何利用它們、可能出現哪些新現象,或者這一切對人類可能意味著什麼。一個新的科學分支——網路科學——旨在解決這些問題。時機恰逢歷史:先建造了計算機,然後才有了計算機科學,隨後計算機科學又顯著改進了計算。網路科學於 2006 年 11 月作為一門正式學科啟動,當時我們兩人以及我們在麻省理工學院和英國南安普頓大學的同事宣佈啟動網路科學研究倡議。來自世界頂級大學中 16 所大學的頂尖研究人員此後擴大了這項工作。

這門新學科將對網路的結構進行建模,闡明推動其驚人增長的架構原則,並發現線上人類互動是如何被社會習俗驅動和改變的。它將闡明能夠確保網路持續高效增長的原則,並解決隱私保護和智慧財產權等複雜問題。為了實現這些目標,網路科學將借鑑數學、物理學、計算機科學、心理學、生態學、社會學、法律、政治學、經濟學等學科。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮支援我們屢獲殊榮的新聞報道,方法是 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續報道關於發現和塑造我們當今世界的想法的具有影響力的故事。


當然,我們無法預測這項新興事業可能會揭示什麼。然而,網路科學已經產生了重要的見解,其中一些見解在此介紹。最終,這項追求旨在回答基本問題:哪些進化模式推動了網路的發展?它們會枯竭嗎?引爆點是如何出現的,可以改變嗎?

已有的見解
儘管網路科學作為一門學科是新興的,但早期的研究已經揭示了這項工作的潛在價值。隨著 20 世紀 90 年代的推進,透過在不斷增加的頁面數量中查詢關鍵詞來搜尋資訊,返回的無關內容越來越多。谷歌的創始人拉里·佩奇和謝爾蓋·布林意識到他們需要對結果進行優先順序排序。

他們的重大見解是,頁面的重要性——它的相關性——最好透過連結到它的頁面的數量和重要性來理解。困難在於,這個定義的一部分是遞迴的:頁面的重要性取決於連結到它的頁面的重要性,而這些頁面的重要性又取決於連結到它們的頁面的重要性。佩奇和布林想出了一種優雅的數學方法來表示這種屬性,並開發了一種名為 PageRank 的演算法來利用遞迴性,從而返回從最相關到最不相關的頁面排名。

谷歌的成功表明,網路需要被理解,並且需要被工程化。網路科學服務於這兩個目的。網路是語言和協議的基礎設施——一項工程作品。然而,內容連結的理念是湧現特性的基礎。其中一些特性是理想的,因此應該被工程化納入。例如,確保任何頁面都可以連結到任何其他頁面,這使得網路在本地和全域性範圍內都非常強大。其他屬性是不理想的,如果可能的話,應該被工程化排除,例如構建一個站點,該站點具有由軟體機器人生成的數千個虛假連結,其唯一目的是提高該站點的搜尋排名——所謂的連結工廠。

另一個早期的發現,來自圖論,是網路的連通性遵循所謂的冪律度分佈。在許多網路中,節點具有大致相同的連結數量。但是在網路上,少數頁面有大量其他頁面連結到它們,而非常多的頁面只有少量頁面連結到它們。東北大學的艾伯特-拉斯洛·巴拉巴西和他的同事創造了術語“無標度”來描述這種網路[參見艾伯特-拉斯洛·巴拉巴西和埃裡克·博納博的“無標度網路”;《大眾科學》,2003 年 5 月]。許多人感到驚訝,因為他們認為網頁會具有平均數量的連結,無論是指向它們的連結還是來自它們的連結。

在無標度網路中,即使移除大多數節點,從剩餘節點之一到任何其他節點的路徑仍然可能存在。然而,移除相對少量的連線高度集中的節點或樞紐會導致明顯的瓦解。這種分析對於公司和組織(無論是電信提供商還是研究實驗室)至關重要,它們設計資訊在網路上的路由方式,從而使它們能夠構建大量的冗餘,以平衡流量並使網路更具抗攻擊能力。

透過分析網路獲得的對無標度網路的透徹理解,促使專家分析其他網路系統。他們此後在科學引文和商業聯盟等廣泛領域發現了冪律度分佈。這項工作幫助美國疾病控制與預防中心改進了其性病傳播模型,並幫助生物學家更好地理解蛋白質相互作用。

科學分析還將網路描述為具有短路徑和小世界。20 世紀 90 年代在康奈爾大學期間,鄧肯·J·瓦茨和史蒂文·H·斯特羅加茨表明,即使網路規模龐大,使用者也可以在最多 14 次點選內從一個頁面到達任何其他頁面。然而,為了充分理解這些特徵,我們需要認識到網路是一個社交網路。1967 年,哈佛大學心理學家斯坦利·米爾格拉姆要求內布拉斯加州奧馬哈和堪薩斯州威奇托的居民嘗試將包裹傳送給一個人,這個人僅透過他的姓名、一些一般特徵以及他住在波士頓這一事實來描述。居民們應該將包裹傳送給他們認為可能更瞭解如何聯絡到此人的中間人,然後由該中間人將其傳送給另一箇中間人。最終,在近 300 個包裹中,有 64 個到達了指定的收件人。平均而言,需要的中間人數為 6 人——這就是流行語“六度分隔”的基礎。

然而,最近,現在在哥倫比亞大學的瓦茨嘗試在網路上重複該實驗,使用電子郵件訊息進行轉發,但在路徑查詢方面遇到了失敗。特別是,如果個人沒有動力轉發該通知,則路徑會斷開。然而,只有非常輕微的激勵措施才能改善情況。

教訓是,僅靠網路結構並不能說明一切;只有在嵌入其中的個人的行動、策略和認知下,網路才能蓬勃發展。為了真實地瞭解為什麼網路具有短路徑的有利結構,我們需要了解貢獻內容的人員為什麼將其連結到其他材料。社會驅動因素——目標、願望、興趣和態度——是連結如何形成的基本方面。理解網路需要來自社會學和心理學的洞察力,與來自數學和計算機科學的洞察力一樣重要。

從微觀到宏觀
網路科學的一個主要領域將探索一項小的技術創新如何引發大型社會現象。一個引人注目的例子是部落格圈的興起。儘管早期的 Web 瀏覽器沒有為普通人提供方便的方式來“釋出”他或她的想法,但到 1999 年,部落格程式使自助釋出變得容易得多。部落格隨後迅速流行起來,因為當人們發洩不滿時,他們也找到了具有相似觀點的其他人,這些人可以很容易地組成志同道合的社群。

很難準確估計部落格圈的大小。大衛·西夫裡的領先部落格搜尋引擎 Technorati 在今年 5 月追蹤了全球超過 1.12 億個部落格,這個數字可能僅包括據稱在中國存在的 7200 萬個部落格中的一小部分。無論規模如何,爆炸性增長都需要一個解釋。可以說,非常簡單的機制的引入,尤其是 TrackBack,促進了增長。如果博主撰寫一篇條目,評論或引用另一個部落格上的條目,TrackBack 會向原始部落格傳送“ping”通知。此通知使原始部落格能夠顯示所有評論的摘要以及指向它們的連結。透過這種方式,對話在多個部落格之間產生,並迅速形成對特定主題感興趣的個人網路。在這裡,部落格結構的大部分再次透過短路徑連結起來——不僅是部落格和博主本身,還有主題和條目。

隨著部落格的蓬勃發展,研究人員迅速建立了有趣的工具、測量技術和資料集,試圖跟蹤主題在部落格空間中的傳播。微軟 Live Labs 的社交媒體分析師馬修·赫斯特收集了六週的連結資料,並製作了部落格圈中最活躍和相互關聯的部分的圖表。它顯示,許多部落格非常受歡迎,每天有 50 萬不同的個人訪問。這些超級部落格之一連結或提及另一個部落格保證了該引用站點的大量流量。該圖表還顯示了孤立的、由專注的愛好者組成的群體,他們彼此之間聯絡非常緊密,但幾乎不與其他博主聯絡。

如果得到正確利用,部落格圈可以成為傳播想法或衡量政治倡議的影響或產品釋出可能成功的強大媒介。備受期待的蘋果 iPhone 的釋出在其釋出當天產生了所有新帖子的 1.4%。一個挑戰是瞭解這種傳播如何改變我們對新聞報道和評論的看法。什麼機制可以向部落格讀者保證引用的事實是值得信賴的?網路科學可以提供檢查資訊所謂出處的方法,同時提供關於其重用的條件的實用規則。丹尼爾·韋茨納在麻省理工學院的透明、可問責的資料探勘倡議正在做這件事。

語義網的興起
一個正在從協同研究中受益的新興現象是語義網的興起——網路上的資料網路。在許多回報中,語義網有望為我們的問題提供更有針對性的答案。今天,在谷歌上搜索“馬薩諸塞州西部 8,000 美元以下的豐田二手車”會返回 2,000 多個通用網頁。一旦添加了語義網功能,一個人將收到關於七八輛特定汽車的詳細資訊,包括其價格、顏色、里程、狀況和車主,以及如何購買它們。

工程師們為語義網設計了強大的基礎,特別是主要語言——資源描述框架 (RDF)——它疊加在構成網頁的基本 HTML 和其他協議之上。RDF 透過“三元組”集為資料賦予意義。每個三元組都類似於句子的主語、謂語和賓語。例如,一個三元組可以斷言“人 X”[主語]“是……的姐妹”[謂語]“人 Y”[賓語]。一系列三元組可以確定 [汽車 X] [是品牌] [豐田];[汽車 X] [狀況是] [二手];[汽車 X] [成本] [$7,500];[汽車 X] [位於] [萊諾克斯];以及 [萊諾克斯] [位於] [馬薩諸塞州西部]。這些三元組共同可以得出結論,汽車 X 確實是我們查詢的正確答案。事實證明,這種簡單的三元組結構是描述機器處理的大多數資料的自然方式。主語、謂語和賓語均由通用資源識別符號 (URI) 標識——一個地址,就像用於網頁的地址一樣。因此,任何人都可以透過在網路上為其定義 URI 來定義一個新概念或一個新的謂語。

隨著這些定義的增長和相互連結,專家和愛好者將定義分類法和本體:描述物件類別及其之間關係的資料集。這些集合將幫助各地的計算機查詢、理解和呈現有針對性的資訊。

許多團體已經在構建語義網框架,特別是在生物學和醫療保健領域[參見李·費根鮑姆的“語義網在行動”;《大眾科學》,2007 年 12 月]。今年 5 月,超過 1,000 人參加了在加利福尼亞州聖何塞舉行的語義技術會議。網路科學提供了建立更強大的方法來定義、連結和解釋資料的前景。

維基世界提供了一個很好的例子,說明了這種對連結資料的利用有多麼有用。截至 5 月,維基百科,這個由世界各地的人們生成的線上百科全書,擁有超過 230 萬篇英文文章。這些文章包含常規文字,以及資訊框模板——事實集。現在存在超過 70 萬個英文資訊框模板,程式設計師正在尋找挖掘它們的方法。一項工作是 DBpedia 專案,該專案由克里斯·比澤爾及其在德國柏林自由大學和萊比錫大學的同事發起。他們設計了一個同名工具(可在 http://wikipedia.aksw.org 獲取),該工具使用語義網技術來查詢資訊框。它可以詢問所有居住在莫斯科的網球運動員,或者海拔高於 1,000 米的美國城鎮的所有市長的姓名,並獲得準確的答案。

當然,我們希望為整個網路提供類似的工具,但開發一個工具將需要網路上越來越多的資料以 RDF 連結集的形式表示。與此同時,DBpedia 的連結結構正在變得明顯,它遵循與網路上發現的相同的冪律。正如某些頁面在文件網路中具有更高的排名一樣,語義網上的資料也將如此。與此同時,紐約大學理工學院的奧德·諾夫的研究開始確定維基百科人釋出條目的原因以及是什麼激發了他們的活動;揭示的心理驅動因素將幫助我們理解如何鼓勵人們為語義網做出貢獻。

未來的挑戰
似乎有道理地說,網路科學可以幫助我們設計一個更好的網路。當然,我們並不完全瞭解什麼是網路科學,因此這門新學科的一部分應該是找到最強大的概念,這些概念將有助於科學本身的發展。也許見解將來自這項工作的跨學科性質。例如,生物學概念(如可塑性)可能被證明是有用的。大腦和神經系統在我們的一生中透過形成和刪除神經元之間的連線來生長和適應——神經元是大腦細胞,在我們的大腦網路中充當節點。連線的變化發生在響應網路中的活動,包括學習、廢用和衰老。

同樣,網路連線也會衰減和增長。網路科學還可以探索協議的可能性,如果網路節點沒有入站或出站活動,則斷開這些節點的連線。這樣的網路是否會更有效地執行?

諸如種群動態、食物鏈以及消費者和生產者之類的概念在網路上都有對應物。也許為生態學設計的方法和模型可以幫助我們理解網路的數字生態系統,該生態系統可能容易受到單一重大事件(類似於颶風)或微妙但穩定的侵蝕(如入侵物種)的破壞。

我們還需要審查一系列法律問題。與數字材料的智慧財產權和版權相關的法律已經在討論中。虛擬環境(如 Second Life)中出現了一些引人入勝的問題;例如,法律和權利是否可以轉移到數字世界,在數字世界中,數百萬人為現有內容貢獻了微小的補充?另一個問題是,我們是否可以將使用規則構建到內容本身中。一個名為知識共享的框架示例允許作者、科學家、藝術家和教育工作者輕鬆地用他們希望其攜帶的自由和限制來標記他們的創意作品。至關重要的是,該標記還提供了描述許可證的 RDF 資料,從而可以輕鬆地自動定位作品並瞭解其使用條件。網路科學可以確定共享風格的許可證是否會影響資訊的傳播。

社會學是另一個值得挖掘的領域。例如,需要進行研究,以便為網路使用者提供更好的方法來確定站點上的材料是否值得信賴。我們如何確定我們是否可以信任來自站點的材料?網路最初被設想為研究人員相互完全信任的工具;沒有內建強大的安全模型。我們一直生活在後果之中。

因此,應該投入大量研究來將信任和出處層工程化到網路互動中。我們的數字和物理角色融合在一起,為進步提供了機會,例如為我們每個人整合金融、醫療、社會和教育服務。但這也是身份盜竊、網路跟蹤和網路欺凌以及數字間諜活動的機會。網路科學可以幫助增強好的方面,並改善壞的方面。

在充分挖掘網路的豐富潛力之前,還需要解決其他各種問題。社會規範如何影響新興能力?如何實施線上隱私保護、智慧財產權和安全?哪些趨勢可能會使網路碎片化?

許多人正在研究這些問題的各個部分。網路科學可以將他們的努力結合在一起,並複合見解。我們需要培養一批在廣泛的技能和學科方面訓練有素的研究人員、開發人員、從業人員和使用者。他們將幫助我們充分理解網路,並發現如何在 21 世紀及以後對其進行工程化。

有關與本文相關的圖表,請單擊下面的影像以放大

 

注意:本文最初以“網路科學的興起”為標題印刷。

© .