宇宙的加密數字副本

隨著物理學為大型綜合巡天望遠鏡等雄心勃勃的專案做準備,該領域正在尋求新的資料驅動發現方法

來自量子 (在此查詢原始故事)。

即使在 20 世紀 90 年代安裝了標誌性的相機,該相機將捕捉到暗能量的首個令人信服的證據,加州大學戴維斯分校的實驗宇宙學家 託尼·泰森 知道它可以做得更好。該相機的強大之處在於其收集資料能力強於任何其他相機。但是數字影像感測器和計算機處理器的進步速度如此之快,以至於它們可以收集和儲存的資料量很快將僅受向它們傳遞光線的望遠鏡大小的限制,而這些望遠鏡也在不斷增長。泰森確信工程趨勢將會持續,他設想了一個真正宏大的望遠鏡專案,該專案可以調查數十億宇宙物體隨時間變化時的數百個屬性。

泰森說,它將記錄“宇宙的數字彩色電影”。


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


泰森的願景已成為現實,即大型綜合巡天望遠鏡 (LSST) 專案,這是 40 多個研究機構和國家實驗室的聯合努力,已被美國國家科學院列為其下一個地面天文設施的首要優先事項。LSST 位於智利的山頂上,計劃於 2020 年代初完成,該 8.4 米的 LSST 將配備一個 32 億畫素的數字相機,該相機將在十年內對 200 億個宇宙物體進行 800 次掃描。這將產生超過 100 PB 的資料,美國或智利的任何人都將能夠隨意瀏覽。僅顯示 LSST 的一張全天影像就需要 1,500 個高畫質電視螢幕。

LSST 代表了物理學和天文學大資料的新時代。不到 20 年前,泰森的尖端數碼相機每晚用 5 GB 的磁碟空間填充了關於宇宙的革命性資訊。當 LSST 開始工作時,它將在幾秒鐘內收集到這麼多資料——實際上比科學家知道如何處理的資料還要多。

華盛頓大學的天文學家 安德魯·康諾利 說:“我們從 LSST 中[將獲得]的資料量非常大,以至於我們進行科學研究的能力的限制不在於收集資料的能力,而在於理解資料中系統性不確定性的能力。”

與當今代價高昂的科學事業一樣,來自不同領域的數百名科學家參與了 LSST 的設計和開發,泰森擔任首席科學家。喬治梅森大學的天體物理學家和資料科學家 柯克·伯恩 說:“這有點像聯邦制。”該小組由近 700 名天文學家、宇宙學家、物理學家、工程師和資料科學家組成。

科學家們的大部分時間和該專案 10 億美元成本的一半都花在了開發軟體而不是硬體上,這反映了自 20 世紀 90 年代的天文專案以來資料的指數增長。為了使望遠鏡發揮作用,科學家們必須回答一個簡單的問題。正如伯恩所說:“如何將 PB 級的資料轉化為科學知識?”

由於物理學依靠高能機器和巨型望遠鏡來探測已知自然規律之外的事物,因此它比任何其他科學領域處理大型資料庫的時間都更長。這為研究人員提供了一系列穩定的模型,可用於構建和組織每個下一個大型專案,此外還提供了一個計算工具入門工具包,必須對其進行修改才能用於更大更復雜的資料集。

即使有這一傳統的支援,LSST 仍考驗著科學家的資料處理能力。它將能夠跟蹤暗能量的影響,據認為暗能量佔宇宙總含量的 68%,並繪製 暗物質 的分佈,暗物質是一種看不見的物質,佔另外的 27%。科學家們說,該望遠鏡將撒下如此廣泛而深入的網路,因此註定會捕捉到意想不到的物體和現象。但是,將它們與其餘資料分離的許多工具尚不存在。

新維度

粒子物理學是大資料科學領域的資深人士。幾十年來,高能加速器每秒將粒子碰撞數百萬次,希望能產生奇異的、前所未見的粒子。這些設施,例如瑞士 歐洲核子研究中心 (CERN) 的大型強子對撞機 (LHC),產生了如此多的資料,以至於只能保留一小部分(被自動選擇過程認為是感興趣的)。一個由遍佈 36 個國家/地區的數十萬臺計算機組成的網路,稱為全球 LHC 計算網格,儲存和處理在一年碰撞中存檔的 25 PB LHC 資料。成千上萬的物理學家的工作是尋找資料中的突起,該突起在去年夏天被認為是代表一種新的亞原子粒子,即希格斯玻色子。

CERN 是運營 LHC 的組織,它正在透過與其他研究機構合作來分享其智慧,“以便他們可以從資料採集、處理和儲存中積累的知識和經驗中受益”,鮑勃·瓊斯 說,他是 CERN openlab 的負責人,該實驗室為 LHC 開發新的 IT 技術和技巧。瓊斯說,歐洲航天局、歐洲分子生物學實驗室、其他物理設施甚至社會科學和人文科學領域的合作機構的科學家都從 LHC 那裡獲得了資料處理方面的提示。

當 LHC 在 2014 年或 2015 年升級後重新啟動時,更高的能量將意味著更多有趣的碰撞,並且收集的資料量將顯著增加。但是,即使 LHC 將繼續擁有物理學中最大的資料集,但其資料也比從天文調查(例如 斯隆數字巡天暗能量巡天)獲得的資料簡單得多,並且在更大程度上,比從未來天空調查(例如 平方公里陣列)獲得的資料簡單得多,這是一個計劃於 2016 年開始建設的射電望遠鏡專案,以及 LSST。

“LHC 在一開始就產生更多的資料,但他們只在這些資料中尋找某些事件,而且這些資料中的事件之間沒有關聯,”LSST 資料管理專案經理 傑夫·坎託 說。“隨著時間的推移,他們仍然會建立大型資料集,但每個資料集都可以單獨分析。”

透過結合同一宇宙物體的重複曝光並記錄每個物體的數百個而不是少數幾個屬性,LSST 將有一系列新的問題需要解決。“LSST 資料的複雜性是一個挑戰,”泰森說。“你正在這個 500 維空間中游動。”

從顏色到形狀,將為調查的 200 億個物體中的每一個記錄大約 500 個屬性,並且每個屬性都被視為資料庫中的單獨維度。僅將這些屬性從天空一塊區域的一次曝光一致地編目到下一次曝光就構成了巨大的挑戰。坎託說:“在一次曝光中,場景可能足夠清晰,你可以解析出同一位置的兩條不同星系,但在另一次曝光中,它們可能會模糊在一起。“你必須弄清楚它是一個星系還是兩個星系,還是 N 個星系。”

超越 N 平方

為了從 LSST 和其他天空調查收集的大量資料中找出科學發現,科學家需要找出屬性之間意想不到的關係,這在 500 個維度中非常困難。在二維資料集中很容易找到相關性:如果兩個屬性相關,那麼在兩個屬性的二維圖中,將存在一條連線資料點的一維曲線,一個屬性相對於另一個屬性。但是,繪製為額外維度的其他屬性會模糊這些曲線。“使用人腦不可能在更高維度的空間中發現意外,”泰森說。“我們必須設計未來可以在某種意義上自主思考的計算機。”

存在用於“降低資料維度”或查詢資料點所在表面(如 2-D 圖中的 1-D 曲線)的演算法,以便找到相關的維度並消除“干擾”維度。例如,一種演算法可能會識別出穿過資料庫的資料點的 3-D 表面,表明三個屬性(例如星系的型別、大小和旋轉速度)是相關的。但是,當被 PB 級資料淹沒時,演算法幾乎需要永遠執行。

識別相關的維度比大海撈針困難得多。“這是一個線性問題,”約翰霍普金斯大學天文學和計算機科學教授 亞歷克斯·薩萊 說。“你搜索乾草堆,任何看起來像針的東西你都扔進一個桶裡,然後把所有其他東西扔掉。”但是,當你不知道你在尋找哪些相關性時,你必須將 N 個乾草片中的每一個與另一個乾草片進行比較,這需要 N 平方運算。

雪上加霜的是,資料量每年都在翻倍增長。“想象一下,我們正在使用一種演算法,如果我的資料翻倍,我必須進行四倍的計算,然後第二年,我必須進行16倍的計算,”Szalay說。“但到了明年,我的計算機速度只會快兩倍,而在兩年後的今天,我的計算機速度只會快四倍,所以我在計算能力方面會越來越落後。”

大量的研究投入到了開發可擴充套件的演算法中,諸如壓縮感知拓撲分析最大資訊係數等技術正在成為大資料科學中特別有前景的工具。但是,在天文學家、宇宙學家和物理學家準備好充分利用下個十年首映的多拍位元組宇宙數字電影之前,還需要做更多的工作。物理科學領域的研究人員在開發演算法方面獲得的學術認可很少,這阻礙了進展——這是一個該領域廣泛認識但尚未解決的問題。

Connolly說:“一直以來都是這樣,建造儀器的人沒有使用儀器進行前沿科學研究的人獲得的認可多。“十年前,是建造物理儀器的人——觀察天空的相機——而今天,是那些建造計算儀器的人沒有得到足夠的認可。必須為那些想從事軟體工作的人開闢職業道路——因為他們可以去谷歌找工作。所以,如果我們失去了這些人,損失的將是科學。”

咖啡和榮譽

2010年12月,為了鼓勵開發更好的演算法,一個國際天文學家小組向世界各地的計算機極客發出了挑戰:測量引力透鏡,或暗物質對遙遠星系光線產生的扭曲效應的最佳方法是什麼?David KirkbyWired.com上讀到了GREAT10(2010年引力透鏡精度測試)挑戰賽,並決定試一試。

Kirkby是加州大學歐文分校的物理學家,他和他的研究生使用修改版的神經網路演算法贏得了比賽,這個演算法是他之前為BABAR實驗開發的,該實驗是一個大型物理合作專案,研究物質和反物質的不對稱性。這次勝利使Kirkby在最近一篇詳細介紹比賽的論文中獲得了共同作者的署名,這讓他從粒子物理領域轉向天體物理學變得更加容易。此外,有了獎金,“我們為實驗室買了一臺頂級的濃縮咖啡機,”他說。

GREAT10是越來越多的“資料挑戰”之一,旨在為建立和分析大型物理和天文資料庫時面臨的特定問題找到解決方案,例如重建相對於地球對齊並因此看起來混合在一起的兩個星系的形狀的最佳方法。

Connolly解釋說:“一個小組生成一組資料——可能是混合的星系——然後任何人都可以使用他們最好的演算法來嘗試估算星系的形狀。“對於最終勝出的人來說,這是一種相當大的榮譽。”Connolly參與了生成未來LSST影像的模擬,這些模擬用於測試演算法的效能。

包括GREAT系列在內的許多資料挑戰都側重於梳理暗物質的影響。當來自遙遠星系的光線傳播到地球時,它會因其經過的暗物質的引力而彎曲或“透鏡化”。“這有點像透過表面粗糙的浴室窗戶看牆紙,”柯克比說。“你要確定直接看牆紙會是什麼樣子,然後利用這些資訊來弄清楚玻璃的形狀。”

系列中的每個新的資料挑戰都包含一個額外的複雜性——例如大氣湍流或其中一個探測器中的故障放大器造成的額外失真——使挑戰的目標越來越接近現實。

柯克比說,資料挑戰是“一種眾包資料科學問題的好方法,但我認為如果軟體開發被認為是學術生產力的一部分會更好。”“在職業評估中,你根據他們的科學貢獻來衡量人們,即使軟體包可能產生更廣泛的影響。”

科學家們說,隨著分析資料的能力成為研究中日益收緊的瓶頸,這種文化正在緩慢改變。“過去,通常是一些博士後或研究生仔細研究資料,他們會發現一些有趣的事情或一些似乎行不通的事情,並偶然發現一些新的影響,”泰森說。“但是,越來越多的資料量如此之大,以至於你必須擁有帶有演算法的機器來執行此操作。”

宇宙的黑暗面

假設物理學家可以解決他們使用LSST面臨的計算問題,結果可能會發生變革。有許多理由需要一個100拍位元組的宇宙數字副本。首先,它將有助於繪製由仍然神秘的暗能量引起的空間和時間的膨脹圖,這是在LSST的前身“大通量相機”的幫助下發現的,該相機是泰森和一位合作者在1996年建造的。

當這臺相機(它可以在一次曝光中覆蓋相當於滿月大小的天空區域)安裝在智利的布蘭科望遠鏡上時,天體物理學家立即發現了散佈在天空中的數十顆名為IA型超新星的爆炸恆星,這表明宇宙中大部分物質都是未知的。與來自遙遠超新星的光相比,來自附近超新星的光在穿過膨脹的宇宙的過程中似乎被拉伸得更多。這表明宇宙的膨脹最近加速了,這是由暗能量驅動的。

透過LSST,科學家們希望精確跟蹤宇宙加速膨脹,從而更好地定義暗能量的性質。他們的目標是透過繪製一種稱為重子聲振盪的宇宙標尺來實現這一點。該標尺是由當宇宙年輕而炎熱時在宇宙中漣漪的聲波建立的,並在宇宙冷卻和膨脹時印在星系的分佈中。振盪指示了與地球之間每個距離處的空間大小——因此也指示了過去任何時間點的大小。

重子聲振盪是如此巨大,以至於需要進行真正龐大的天文調查才能使它們成為方便的測量工具。透過編目數十億個星系,LSST有望比任何其他現有或計劃的天文調查更準確地測量這些共振的大小。“我們的想法是,藉助LSST,我們將擁有不同距離的星系洋蔥殼,我們可以尋找這種模式並追蹤共振模式的大小隨時間的變化,”Szalay說。“這將是美麗的。”

但是,Szalay補充說,“從資料中提取資訊實際上將是一項不小的任務。”

Quanta Magazine許可轉載,Quanta Magazine是

SimonsFoundation.org的一個編輯獨立的部門,其使命是透過報道數學、物理和生命科學的研究進展和趨勢來提高公眾對科學的理解。

© .