關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。 透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和思想的有影響力的故事。
幾十年來,分時訪問位於實驗室資料室和大學地下室的超級計算機或計算叢集,幫助科學家們解決了需要大量數值計算能力的問題。 這種情況現在正在發生變化,科學家們開始依賴透過網路(又名“雲計算”)交付的軟體和儲存,作為組織和分析研究資料的資源。 生物技術和物理科學是尤其傾向於“雲端”,至少是逐步地,兩個領域。
國家科學基金會 (NSF) 和微軟在四月份宣佈向 13 個計劃使用或研究雲服務的科研專案資助約 450 萬美元。 作為資助的一部分,參與這些專案的研究人員將可以在兩年內免費訪問由微軟託管的雲計算資源,這些資源旨在提供按需處理能力和儲存。
獲獎專案包括 J. Craig Venter 研究所的一個專案,旨在透過計算建模蛋白質與蛋白質之間的相互作用; 北卡羅來納大學夏洛特分校對單細胞生物基因調控系統的研究; 以及南卡羅來納大學研究基金會和弗吉尼亞大學夏洛茨維爾分校聯合開展的關於大型流域系統管理的研究。
這些並非首批利用雲的研究專案。 歐洲航天局 (ESA) 已經在使用亞馬遜網路服務,以幫助向全球的科學家、政府機構和其他組織提供有關地球當前狀態的資料。 這些資料用於環境監測、提高天氣預報的準確性以及協助救災機構。 例如,ESA 使用亞馬遜的簡單儲存服務 (S3) 來儲存和檢索資訊,包括衛星影像。 據亞馬遜稱,在高峰使用期間,亞馬遜幫助 ESA 向全球超過 50,000 名使用者提供影像和其他資訊,一次可能達到 30 太位元組的資訊量。
Complete Genomics 是一家位於加利福尼亞州山景城的生物技術公司,為學術界和生物製藥研究人員提供人類基因組資料和分析服務,同樣使用亞馬遜的雲服務。 該公司產品開發高階副總裁布魯斯·馬丁表示:“如今的基因組測序是一個計算密集型過程。” 因此,這家生物技術公司使用了大量的儲存和計算能力,其中一部分在內部,一部分位於亞馬遜的資料中心。
Complete Genomics 的客戶(通常是使用基因組資料研究疾病病理學的研究科學家)將生物樣本運送給該公司。 一旦 Complete Genomics 建立了客戶所需的資料集,該公司就會讓亞馬遜交付結果。 馬丁說:“當我們完成基因組的計算和分析後,我們會將資訊推送至亞馬遜的簡單儲存服務,該服務充當可擴充套件的儲存位置。” “亞馬遜將資料複製到硬碟驅動器上,然後運送給我們的客戶。 這仍然是一種在全球範圍內傳輸資料的非常經濟高效的方式。”
亞馬遜為 Complete Genomics 提供了一種切實可行的替代方案,無需運營自己的完整資訊科技基礎設施,但該公司已將業務的關鍵組成部分保留在內部。 馬丁說,某些關鍵基礎設施,例如 DNA 測序儀,需要內部運營,這導致了管理資訊的混合方法。 他補充說:“我們每月傳輸拍位元組的資料。” (拍位元組是 1 千萬億位元組。)“每秒數十千兆位的資料在我們的網路上執行。 雲計算產品目前無法提供這種吞吐量,但隨著網路技術的進步,雲可能會成熟到滿足這些需求。”
分散式生物公司 (Distributed Bio) 雲計算部門董事總經理賈爾斯·戴 (Giles Day) 認為,雲計算並非在所有情況下都是答案,尤其是在生物技術領域。 分散式生物公司是一家位於舊金山的諮詢公司,為製藥和生物技術公司提供資訊服務。 他說:“假設您正在生成太位元組的資料,而這些資料只需要相對較短的時間即可計算完成。” “在這種情況下,您將花費大量的金錢和時間將資料轉移到雲端,而實際計算時間的回報卻很小。”
總的來說,分散式生物公司建議採用類似於 Complete Genomics 使用的混合方案,其中一些資源位於服務提供商的資料中心,而另一些資源則保留在客戶自己的計算機和伺服器上。 戴說:“在生物技術中使用雲的理想場景是將少量資料外包到雲端,這些資料需要大規模平行計算系統進行處理,然後將處理結果返回給您。” 將大量資料移動到雲端很困難,因為它會導致頻寬瓶頸。 他補充說:“你仍然不能違反物理定律。”