科學家應該多大程度地自由分享他們的資料?

開放科學運動倡導透明化,但分享多少以及分享的速度仍然存在爭議

加入我們的科學愛好者社群!

本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定代表《大眾科學》的觀點


在研究生院剛開始的時候,我決定研究癲癇發作如何損害大腦。我當時有點為難:我想用磁共振成像(MRI)來研究這種損害,但我無法獲得癲癇患者的MRI資料。即使我有了這些資料,我也不太瞭解程式設計、數學或物理,所以我無論如何也無法從無到有地建立分析資料的軟體工具。所以,我充滿動力和活力,想研究癲癇,但我沒有資料或工具來工作。

但是其他人有。在我的導師的幫助下,我與德克薩斯大學休斯頓分校和紐約大學的研究小組建立了合作關係,他們免費分享了高質量的癲癇患者MRI資料。我與牛津和哈佛的研究人員進行了聯絡,學習如何使用他們的MRI分析程式,他們也免費分享了這些程式。這種分享資料和軟體工具的模式給我留下了深刻的印象。每個人都受益;我能夠研究癲癇,我的合作者能夠重複使用原本會被束之高閣的資料,而我們正在努力改善治療患者的方式。

大約在這個時候,我第一次聽說了開放科學運動——越來越流行的信念,即科學方法和資料應該免費提供。總的目標是使科學儘可能地民主化和可及。為了做到這一點,開放科學家將其資料、方法和程式碼(分析資料的計算機程式)公開提供給公眾。開放科學家也與他們的同事分享,正如我作為一名研究生所發現的那樣,這對科學來說是一個巨大的福音。


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來關於塑造我們當今世界的發現和想法的重大報道。


我也聽到了一些警示故事,說開放科學運動也有陰暗面,“開放性”有時會演變成欺凌和盜竊。有人將開放科學運動比作共產主義:原則上是好的,實踐中是不可能的。在非正式場合——晚餐時、喝酒時——我被提醒說科學是一個競爭激烈的行業。

但我直到今年7月初才開始擔心這個問題。

以開放科學之名公開羞辱

傑克·加蘭特是加州大學伯克利分校的一位認知神經科學家,他在2016年向我們展示了飛蛾播客對我們大腦的影響。幾年前,他向我們展示了他可以——僅基於大腦活動的測量——實際重建人們正在觀看的電影的影像。如果他生活在三百年前,他可能會被宣佈為巫師。

加蘭特的專案是科學界的本壘打。它們很吸引人——以至於他對飛蛾播客的分析發表在《自然》雜誌上,並附有一段專業製作的商業廣告風格的影片。《怪誕經濟學》和NPR採訪了他。

加蘭特成功的背後是大量的資金和資料。科學家提出研究想法並競爭撥款。資金使科學家能夠收集資料,然後讓他們測試他們的想法。發表,重複。在過去的二十年裡,加蘭特成功的想法使他成為一位傑出的神經科學家,他經營著一個成功的實驗室,這有點像科學企業中的高階官員。

因為他和他的工作如此出名,當加蘭特的同事在推特上公開羞辱他時,我感到特別震驚。

7月4日,加蘭特(@gallantlab)正在推廣開放科學,在推特上大談免費訪問軟體平臺。加蘭特認為,如果免費程式碼只能在昂貴的軟體程式中執行,那麼免費提供程式碼是沒有意義的,他繼續說,這“不是開放程式碼,它是一個圍牆花園”。

“不錯的建議。但是資料呢?”理論物理學家曼尼羅·德·多梅尼科(@manlius84)第二天在推特上說,“我們一直試圖訪問你在2016年《自然》雜誌上使用的資料,但我們沒有收到任何回覆。#開放程式碼 #開放資料

“嗨,曼利奧,很抱歉沒有回覆,”加蘭特回覆說。“最初的作者仍在撰寫關於這些資料的進一步初步研究論文,所以這些資料尚未釋出,但我們預計很快就能釋出。”

“‘我們仍然希望獨家發表更多論文’不是一個很好的藉口。你在手稿中註明了資料限制嗎?”安德烈·布朗(@aexbrown)在推特上說,他指的是《自然》雜誌的政策,該政策規定,在發表時,作者應“立即”公開提供其資料、程式碼和協議。(請注意“發表時”這句話。)

看來加蘭特違反了開放科學的基本原則——甚至可能違反了《自然》雜誌的政策。加蘭特是一位值得尊敬的科學家還是一個狡猾的偽君子?

在隨後的推文中,德·多梅尼科感嘆說,加蘭特的論文給了他一系列他想測試的想法,但他無法測試,因為他需要加蘭特的資料,“這並沒有促進人類知識,”德·多梅尼科斷言道。

加蘭特據理力爭:“你為什麼要假設你的專案比我們用這些資料繼續進行的專案更好?我的學生和博士後都是一群很棒的人,他們正在進行的專案很棒!但我不能讓他們被搶先。”

後來,加蘭特重申了他對開放科學的承諾。他指出,他過去曾分享過許多資料集,並詳細說明了他沒有(尚未)分享這個特定資料集的原因:複雜的資料需要時間來理解,他的實驗室希望在向全世界釋出之前更好地理解這些資料。本質上,加蘭特認為,既然他的實驗室競爭並贏得了收集資料的資金,然後又努力收集資料,他們應該首先擁有研究這些資料的權利。

(學術界的)推特圈一片譁然。加蘭特的“我們正在工作”被認為是“無稽之談”、“可恥的”和妄想。這場辯論持續了近兩週,並在多個話題中蔓延。加蘭特的公開羞辱被《自然》網站轉載,一個名叫理查德·參議院(可能是筆名?)的人在上面大聲疾呼:“傑克·加蘭特拒絕分享資料(違反了《自然》雜誌的政策和他的美國國家科學基金會撥款)。”後來,紐西蘭的生物資訊學研究員大衛·埃克爾斯將加蘭特的推文混搭到《自然》雜誌的網站上。有些人呼籲《自然》雜誌抵制加蘭特並撤回他的論文。

在來回的爭論中,我一直盯著我的推特。這是我第一次看到來自鍵盤或智慧手機的數字勇氣背後,有資歷的學者公開羞辱他們的同事。這是我第一次看到開放科學的原則被用來損害某人的職業生涯。

這讓我開始質疑開放科學的理想:一個高產的實驗室撰寫一份撥款申請,以資助一系列研究和新工具的開發。他們花費數年時間收集資料併為這些擬議的研究構建工具。然後,他們完成專案的一部分並開始釋出結果。他們是否應該被要求向社群釋出他們的資料?如果是,何時釋出?誰擁有這些資料?期刊在強制資料共享方面有什麼權利?

臨床試驗的開放

開放科學的第一個例子之一始於20世紀90年代臨床試驗面臨的實際問題:臨床試驗費用昂貴,耗時很長,並且代表了研究人員和自願參與者(通常是患者)數千小時的工作。如果沒有一箇中心化的方法來記錄正在進行和已完成的試驗,兩個小組或公司可能會在不知情的情況下測試同一種藥物。

一項試驗可能會結束,並且因為結果為空而從未發表;然後另一個小組可能會誤入相同的藥物死衚衕。此外,人們普遍擔心(現在仍然如此),從臨床試驗中獲得和報告的資料需要更高的透明度、問責制和公正性。

1997年,美國食品和藥物管理局(FDA)開始要求臨床試驗在ClinicalTrials.gov上註冊。這使得未來的試驗能夠檢視登錄檔並確保沒有人已經在進行相同的工作。

與此同時,負責批准歐盟內藥物的歐洲藥品管理局(EMA)開始增加公眾對臨床試驗資料的訪問許可權。儘管有關試驗中個別參與者的資料最初被認為是機密商業資訊(因此不公開),但EMA隨後改變了立場,並引用(除其他原因外)公共利益。他們認為,公眾越能訪問這些臨床試驗資訊,就越能理解這些資料,從而用於改善患者護理。

美國政府沒有效仿。自2007年以來,美國僅要求“及時提交和釋出摘要結果資訊”,而不是參與者級別的資料,而且這僅限於接受美國國立衛生研究院(NIH)資助的試驗。美國將參與者級別的資料視為“專有資料”,由任何收集資料的機構擁有。它不屬於研究人員或研究人員的實驗室;它不屬於科學界或最終發表結果的期刊。

在美國,資料是受法律保護的智慧財產權,可以導致專利。理論上,專利的存在是為了保護和鼓勵將科學思想商業化所需的財務投資。由於公開智慧財產權可能會危及可專利性,因此公開資料可能會破壞將一個巧妙的科學想法轉化為可以改變生活的有形產品的機會;換句話說,它可能會破壞科學企業的主要目標之一。

當然,並非所有科學研究都會產生可獲得專利的智慧財產權(例如廣義相對論),但有時會產生(例如MRI);因此,這些討論很複雜。

甚至立法者也對這種複雜性進行了權衡:“我理解,為了使資料共享對研究界具有實用性和有用性,需要解決許多政策、隱私和實際問題,”美國參議員伊麗莎白·沃倫在2016年在《新英格蘭醫學雜誌》上寫道,“但面對這一挑戰而退縮的代價太高了。”沃倫的社論隨後祝賀了期刊編輯最近做出的規避這些“實際問題”的決定。

今年早些時候,期刊編輯們聯合起來,決定如果科學家、資助機構甚至國會都不能同意要求科學家公開他們的資料,他們可以將其作為發表的要求。

期刊編輯作為仲裁者

2016年2月,由14名成員組成的國際醫學期刊編輯委員會(ICMJE)在《美國醫學會雜誌》上發表了一篇社論。他們宣佈,為了被其成員期刊考慮發表,作者必須在研究中公佈其去身份化的參與者級別資料,“最遲在發表後6個月”。

同年晚些時候,在2016年8月,一個獨立的國際聯盟(代表來自33個國家的282名研究人員)在《新英格蘭醫學雜誌》上發表了一篇持異議的回應,認為6個月的時間太短。

該小組寫道:“我們認為6個月的時間不足以進行充分理解資料和發表幾篇文章所需的廣泛分析”。在任何大型資助申請中,科學家都會概述他們希望透過多次分析來研究的多個假設。描述這些分析通常需要一系列文章,當然還需要時間。

如果被要求在首次發表後放棄對資料的獨家訪問權,研究人員“實際上將與那些沒有為進行試驗所需的實質性努力和通常多年的工作做出貢獻的人競爭。”這個持異議的小組——在仍然非常支援開放科學的同時——認為應該允許研究人員至少有2到5年的時間來公開其臨床試驗資料。

期刊作為執行者

2015年,《科學》雜誌刊登了一篇由開放科學中心透明度和開放性促進(TOP)委員會準備的“科學標準”社論。為了推動新的開放科學標準,該社論首先引用了一項2007年對3247名美國國立衛生研究院(NIH)資助的科學家的調查,該調查報告稱存在普遍的“規範失調”,這意味著人們的理想和行為不一致。

在導致這種失調的(許多)可能原因中,TOP委員會列舉了三個:“透明度、開放性和可重複性很容易被認為是科學的重要特徵……[然而我們有一個]學術獎勵系統,它沒有充分激勵開放實踐。”TOP委員會(回顧一下,O=開放性)假設研究人員希望更開放,但感嘆“沒有透過普遍的科學政策和程式來協調個人和集體激勵的集中手段。”

他們建立了一個方案,其中期刊將根據其對開放科學的承諾進行評分。從0(無開放科學政策)到3(資料和材料的釋出是出版的先決條件),其想法是科學家會希望在評分較高的期刊上發表文章。就像餐館的衛生檢查等級一樣,只是針對期刊。

TOP的建議增加了強制資料共享的範圍,並改變了負責的監管機構。政府法規僅限於臨床試驗,而TOP方案建議所有科學資料都在發表時釋出。他們將執行資料管理計劃(描述何時/共享什麼資料)的權力從資助機構和機構之間的合同安排轉移到期刊的出版政策。在這種情況下,期刊不允許科學家在不釋出資料的情況下發表文章。我認為這種範圍和權力的轉移意義重大,也是開放科學運動崩潰的地方。

誰從開放資料中受益?

我是一名臨床醫生,對我來說,臨床試驗具有明顯的緊迫性:臨床試驗塑造著我的患者護理,因此我希望確保最新的結果是透明且可重複的。如果我基於有偏見的、分析糟糕的試驗做出臨床決策,最壞的情況下,我可能會害死人,最好的情況下,我可能無法幫助人們。開放臨床試驗資料的緊迫性令人信服;我受益,我的患者也受益。

但並非所有資料都具有這種緊迫性。Gallant的資料顯示Moth播客如何影響大腦,這與生死攸關的臨床決策相去甚遠。我作為研究人員所做的大部分工作都是追求知識,遠非生死攸關。

2016年,人類腦圖譜組織(OHBM)釋出了一份報告,其中描述說:“資料共享是可驗證和高效研究的基石之一,它允許其他人重複研究結果,並最大限度地提高已花費的研究資金的價值。”該報告繼續指出:“無論共享什麼,一個全面的資料管理計劃——包括所有作者、合作者、資助機構和出版實體——都至關重要,應從研究一開始就考慮。如果沒有這樣的計劃,在資料夾雜亂無章且研究生或博士後離開後,資料可能會有效地丟失。”

(注意:資料管理計劃應在研究開始時的原始合同中確定,而不是為了滿足期刊或推特上的暴民。)

這是一個直接的經濟學論點:彙集我們的資源更具成本效益。在我2015年關於腦成像資料庫的文章中,我引用了一個保守估計,在1990年至2011年之間,進行了超過22000項功能性磁共振成像研究,估計掃描時間為144000小時(大約12000個數據集,每個資料集約有12個受試者,每個受試者約一小時)。在耶魯大學,一次核磁共振掃描的費用約為每小時600美元,因此僅資料一項就代表著約8640萬美元的投資。因此,資料共享對科學事業很有意義;我們都受益。

但我仍然不相信共享大多數形式的科學資料具有緊迫性——尤其不是為了公共利益的緊迫性。我確信其他科學家感到迫切需要分析他們不擁有的資料集——特別是如果一個特別優秀的資料集的結果可以在《自然》雜誌上發表並使他們成名的話。

在推特辯論的某個時刻,對開放科學的原則性呼籲演變為對公開羞辱的原則性辯解,並且在某種程度上,要求Gallant在他準備好之前釋出他的資料。Gallant本人尚未完成對他自己想法的測試和擴充套件:他2016年的《自然》論文不是最終結局,而是一個進展更新。因此,這種緊迫性似乎並非源於推進人類知識的願望(審慎將允許Gallant完成他承包的工作),而是源於科學競爭(在這種競爭中,有人可以在Gallant本人能夠做到之前改進Gallant最初的《自然》報告)。

缺乏明確、精確的開放科學政策——來自Gallant的資助機構、Gallant本人、來自《自然》雜誌——允許足夠的模糊性來為憤怒辯護。以及公開羞辱。

在Gallant的推特攻擊中,最讓我擔心的是要求《自然》雜誌因Gallant不共享他的資料而制裁他,好像《自然》雜誌是開放科學的執行者。此外,儘管《自然》雜誌沒有資助Gallant的研究,也沒有在Gallant最初的資料管理計劃(Gallant的機構和他的資助者之間的合同)中發言權,但推特使用者希望《自然》雜誌制定和執行自己的資料管理計劃;一個重新編寫和執行聯邦法律的開放科學獨行俠。

對於期刊來說,這是一個站不住腳且具有諷刺意味的立場。期刊是在出版過程的每一步都獲利的商業機構——科學家們付費提交和發表他們的工作,其他人則付費訪問。一方面,要求科學家釋出他們的資料可能對期刊來說是好事——優秀的資料集會產生優秀的論文。《自然通訊》今年7月發表了一份關於此事的報告。另一方面,教條式地堅持不受歡迎的商業策略可能會導致期刊的消亡,因為其他競爭期刊會滿足市場需求。也許這就是為什麼大多數期刊不執行資料共享政策的原因。

期刊對開放科學的承諾必然是脆弱的。如果科學家支付高達5000美元的費用,期刊就會免費提供論文。否則,這項工作將保留在付費牆後面。例如,《自然》雜誌最終版本的Gallant 2016年文章就位於《自然》的“[付費]圍牆花園”內。花32美元,你可以免費訪問它。

關於資料共享的進一步閱讀

開放資料專案網站描述了開放資料的核心原則,以及這些原則如何應用於美國政府收集的(非秘密)資料。

《新英格蘭醫學雜誌》網站策劃了一系列關於資料共享的優秀社論,這些社論探討了“來自醫學界的各種觀點”。其中一些是開放訪問的。我最喜歡的社論(我的大部分歷史概述都來自這篇文章)

為負責任地共享臨床試驗資料做準備,《新英格蘭醫學雜誌》2013;369:1651-1658 DOI: 10.1056/NEJMhle1309073。

© .