資訊科技領域的一個既定事實是,資料量只會隨著時間的推移而增長。但是,如果學者和計算機科學家無法訪問能夠處理如此大負載的計算機,他們如何理解海量資訊——無論是來自遙遠衛星的天文計算還是網際網路流量研究?
本週,雅虎公司提供了其龐大的計算資源,以協助需要大規模平行計算環境的學術研究。平行計算涉及分解極其龐大的資料集,並將它們分發到不同的互連計算機進行同步處理和分析。雅虎透過一個由 4,000 個計算機處理器組成的叢集提供此服務,該叢集被稱為 M45,執行名為 Hadoop 的軟體,這是一個開源分散式檔案系統和並行執行環境,允許其使用者處理海量資料。
卡內基梅隆大學 (C.M.U.) 位於匹茲堡的計算機科學學院院長蘭德爾·布萊恩特表示,許多不同學科的計算機系統收集了大量資料,人們需要從中提取有意義的資訊。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續報道關於塑造我們當今世界的發現和思想的具有影響力的故事。
本月,卡內基梅隆大學成為第一家註冊使用雅虎 M45 超級計算機叢集的學術機構。最初,該校約 20 名研究人員將使用 M45 來研究如何在廣泛分佈的系統上改進資訊檢索、大規模圖和計算機圖形、自然語言處理和機器翻譯。雅虎還計劃向其他大學和機構的研究人員開放 M45 的使用。
大學校園裡有很多超級計算機——其中許多位於匹茲堡超級計算中心,該中心由卡內基梅隆大學、匹茲堡大學和西屋電氣公司共同擁有——它們可以以驚人的速度進行數值計算。但布萊恩特表示,這些系統不一定擅長提取模式或分析資料。然而,能夠做到這一點的分散式系統(如 M45)卻供不應求。“我們這裡的資料分析設施只有雅虎所討論規模的 5%,”他說,並補充說,卡內基梅隆大學研究自然語言翻譯(計算機自動將一種口語翻譯成另一種口語)的教職員工“迫切需要類似的東西。”
M45 擁有約 3 太位元組(萬億位元組)的記憶體、1.5 拍位元組(千萬億位元組)的磁碟空間,以及超過每秒 27 萬億次計算(27 萬億次浮點運算)的峰值效能,使其躋身全球最快的 50 臺超級計算機之列。除了利用 M45 處理和分析資料集外,計算機科學家還將利用其可觀的資源來改進叢集本身。分散式計算的許多領域都可以改進:其中包括在同一網路上排程不同工作負載的能力、監控叢集效能、在叢集中的節點發生故障時快速恢復,以及平衡整個叢集的高輸入/輸出 (I/O) 需求。
雅虎研究全球研究運營副總裁羅恩·布拉奇曼表示,向學術機構開放 M45 的專案意味著研究人員將能夠在“網際網路規模”上開展專案。“我們的感覺是,學術界沒有像雅虎和行業內其他公司那樣能夠複製這種規模的環境。這種計算環境可能會從根本上改變您能夠試驗的應用型別。”
雖然 Hadoop 開源軟體是由位於馬里蘭州森林山的 Apache 軟體基金會(一家專門編寫和管理開源程式的非營利性公司)在兩年前建立的,但雅虎研究院一直是 Hadoop 新程式碼的主要貢獻者。通常,像 Hadoop 這樣的開源軟體是由程式設計師或程式設計師團隊(如 Apache)建立的,然後在網際網路上釋出,供任何人使用和/或改進。
雅虎系統、工具和服務工程副總裁傑伊·基斯特勒表示,Hadoop 是雅虎內部使用的網格計算基礎設施的核心。“有了正確的 инфраструктура,您可以在作業中並行應用數千個處理器,”他說。
布萊恩特指出,Hadoop 是 谷歌 建立的 MapReduce 軟體的開源版本,旨在幫助其開發人員編寫程式以處理和生成大型資料集,“MapReduce 是這些資料分析任務的正確程式設計框架。” MapReduce 和 Hadoop 會自動處理在計算機叢集中分割槽和處理資料的細節。
卡內基梅隆大學將幫助雅虎解決系統中的任何缺陷,預計還需要幾個月的時間。“很難說 M45 何時會向大學開放,”布拉奇曼說。“我們希望確保它執行良好,並以安全的方式支援將要使用該系統的不同組織。”