如何對抗格式老化

美國國會圖書館為您撐腰

Jay Bendt

加入我們的科學愛好者社群!

我不是第一個對資料老化發出警報的技術作家,資料老化可以被描述為“當計算機檔案的儲存介質進入天堂般的CompUSA時,計算機檔案變得無法訪問的趨勢。” 多年來,我們將我們的寫作、商業檔案、音樂和藝術委託給諸如穿孔卡、磁帶、軟盤和Zip磁碟等現已失效的格式。如果你認為CD-ROM和DVD-ROM還能伴隨我們很久,那你就瘋了。

不過,我今天來到你們面前,是為了讓你們晚上睡不著覺的更險惡的東西:檔案格式老化

這就是你不用擔心儲存介質,而是擔心檔案文件格式的地方。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關發現和塑造我們當今世界的想法的具有影響力的故事的未來。


當我今年早些時候嘗試開啟一些舊的Microsoft Word文件時,這個問題像大錘一樣擊中了我。它們打不開! 2017年左右的Microsoft Word無法開啟1989年左右的自己的文件。這難道不像是違反了某些基本定律嗎? 某些隱含的保證? 這就像有一天早上醒來發現今天的螺絲刀不適合將我們的建築物固定在一起的數萬億顆螺絲。

在我的職業生涯的頭十年,剛從大學畢業後,我在紐約市擔任百老匯音樂劇的編曲和指揮。我一生中的幾年都在使用早期的樂譜軟體(如Professional Composer、Deluxe Music Construction Set和HB Engraver)創作樂譜。 每一個都花費了數小時又數小時又數小時。 而現在呢? 我無法看到那些樂譜。 除了我擁有的列印稿之外,我再也看不到它們了。 父軟體程式早已消失——隨之消失的是所有永遠鎖定在文件中的音符和和絃。

那麼,我們如何期望後代能夠開啟我們的劇本、小說、照片、影片和其他創作作品呢?

你知道誰花大量時間擔心這個問題嗎? 美國國會圖書館。 它正在進行一項耗資數百萬美元的努力,以數字化其7000萬份手稿、1400萬張照片和80萬本珍本書籍。 這樣做的目的是為了儲存它們,並使它們可以在網際網路上供公眾使用。

幾年前,我有機會採訪了圖書館的印刷品和照片主管海倫娜·津克漢姆。 她指出,紙張不僅被證明是最好的文件格式之一,而且紙張是最好的。 她告訴我:“紙張在15世紀、16世紀、17世紀實際上要堅固得多,因為他們用布料、碎布、亞麻基紙和棉基紙製作紙張。” “但在19世紀,為了大規模生產紙張,他們開始在生產過程中引入化學物質。” 這些化學物質導致了更快的劣化。

因此,如果您是美國國會圖書館,並且您非常清楚檔案格式老化,並且您希望為後代儲存您的藏品,那麼您的掃描計劃是什麼? 您可能期望哪種計算機檔案格式在200年後仍然存在?

好吧,首先,您選擇儘可能開放的格式,一種不會被一家軟體公司嫉妒地守護的格式。 圖書館在數字化其照片、書籍和文件時選擇了TIFF檔案。 津克漢姆說:“這似乎給了我們最大的希望,能夠多年遷移[這些檔案]。”

事實證明,這就是關鍵:重新轉換已納入圖書館的計劃中。 當圖書館在1990年代中期開始其掃描程式時,整個影像的解析度非常低——420 x 560畫素。 今天,每次掃描都有數千畫素高和寬。

當然,這意味著轉換檔案格式的工作實際上永遠不會結束。 美國國會圖書館已經在重新掃描其最重要的文件和圖片,以利用位深度和解析度的進步——並計劃永遠定期這樣做。

事實證明,這也應該是我們的策略。 如果我開啟那些Word 1.0文件並每隔幾年使用後續版本的Word重新儲存它們,我仍然會擁有它們。 我沒有勤奮地重新轉換我的檔案,因為我什至沒有意識到這個問題。 現在,至少您沒有那個藉口了。

© .