本文發表在《大眾科學》的前部落格網路中,反映了作者的觀點,不一定代表《大眾科學》的觀點
想象一下,在一家超市購物,所有商品都存放在看起來完全相同的盒子裡。有些裝滿了麥片,有些裝滿了蘋果,還有一些裝滿了洗髮水。購物將是一場絕對的噩夢!大多數開放資料網站(通常是政府網站)的設計,這些網站分發人口普查、經濟和其他資料供自由使用和重新分發,並不完全等同於這個噩夢般的超市。但也很接近了。
在過去的十年裡,這樣的網站——data.gov、data.gov.uk、data.gob.cl、data.gouv.fr 等等——已經在世界各地建立。然而,它們中的大多數仍然以指向表格的連結,或指向其他難以理解的網站的連結的形式提供資料。在最好的情況下,資料透過 API(應用程式程式設計介面)提供,這些 API 是簡單的需要使用者具備基本程式設計知識的資料查詢語言。因此,理解每個資料集中的內容需要下載、開啟和探索該資料集,這對使用者來說是非常繁重的。噩夢般的超市的比喻並非遙不可及。
美國政府的開放資料網站
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的具有影響力的故事的未來。
參與建立開放資料網站的人們的共識是,目前的努力已經失敗,我們需要新的選擇。將您的瀏覽器指向這些網站,您就會明白原因。大多數開放資料網站的設計都很糟糕,我在這裡不是在談論它們的美學——也很差勁——而是談論用於組織和向用戶提供資料的概念模型。大多數開放資料網站的設計都遵循“把義大利麵扔到牆上”的策略,即開放更多資料,而不是更好地開放資料,一直是驅動力。
目前開放資料網站的一些設計缺陷是顯而易見的。更重要或可能更有用的資料集沒有被放在這些網站的表面或得到適當的組織。在我們的超市類比中,不僅所有的盒子看起來都一樣,而且它們還按照它們出現的順序排序。這不可能是我們能做到的最好的。
還有其他一些重要的設計問題,儘管它們不太明顯。第一個問題是,大多數網站以收集資料的方式而不是使用資料的方式提供資料。人們經常在尋找關於特定地點、職業、行業或關於指標(如收入或人口)的資料。如果他們需要的資料來自 X 的全國調查或 Y 局,那麼它對於使用者來說是次要的,而且通常——儘管並非總是——不相關的。然而,即使這不是我們應該向使用者回饋資料的方式,這通常也是開放資料網站所做的事情。
第二個不明顯的設計問題,可能也是最重要的一個,是大多數開放資料網站將資料埋藏在所謂的深層網路中。深層網路是網際網路中搜索引擎無法訪問或無法正確索引的部分。網路的表面由文字、圖片和影片組成,搜尋引擎知道如何索引它們。但是搜尋引擎不擅長知道您正在搜尋的數字隱藏在開放資料網站上描述不佳的頁面中連結的 zip 檔案中的逗號分隔檔案的第 17,354 行中。在某些情況下,按下單選按鈕並從許多下拉選單中選擇選項可以得到所需的數字,但這也不能幫助搜尋引擎,因為爬蟲程式無法探索下拉選單。為了使開放資料真正開放,我們需要使其可搜尋,為此,我們需要將資料帶到網路的表面。
那麼我們該怎麼做呢?解決方案可能並不簡單,但它始於認真對待設計。這是我在 MIT 建立資料視覺化引擎時已經做了超過五年半的事情。我們設計原則的最新迭代現在體現在 DataUSA 中,這是我們與 德勤、Datawheel 和 我在 MIT 的團隊合作建立的網站。
那麼什麼是設計,我們如何使用它來改進開放資料網站?我對設計的定義很簡單。設計是發現最能實現功能的形態。如果它們碰巧看起來也很漂亮,那算是一種獎勵,但通常好的設計在美學上也會令人愉悅,因為最能實現功能的形態表達了簡潔的巧妙或複雜性的奧秘。就開放資料網站而言,我們想要製作的是使人類能夠理解資料,同時也使人類用來探索網路的搜尋引擎能夠理解資料的工具。
到目前為止,我們的解決方案是建立合併多個數據集並將其轉化為故事的網站。DataUSA 合併了來自美國社群調查、勞工統計局、經濟分析局和教育部等資料集的資料,為每個州、縣、都市區、人口普查指定地點、行業、職業和大學專業建立了結合快速渲染視覺化和文字的個人資料。
DataUSA 中的視覺化幫助人類理解每個資料超市盒子裡的內容。如果使用者隨後想要盒子裡的東西,他們現在可以直接下載資料或透過我們的 API 訪問它。DataUSA 中的文字,也可以由人類閱讀,主要用於搜尋引擎,並且部分由演算法編寫,這些演算法有助於將資料集(最大值、最小值和平均值)最重要的基本數字帶到網路的表面。
但是這種方法有效嗎?根據我們的經驗,答案是肯定的。看看 經濟複雜性觀測站 (OEC),這是我們為國際貿易資料建立的工具,否則這些資料會埋藏在深層網路中。在其 3.0 版本中,OEC 現在每月接待超過 50 萬訪問者,因為它對諸如“阿根廷的頂級出口產品”或“中國出口什麼?”等搜尋的排名第一的答案。透過專注於將資料轉化為故事,而不是將其隱藏在下拉選單後面,我們將貿易資料帶到了網路的表面,並且我們現在擁有一個與搜尋引擎共生的網站。
DataUSA 1.0 旨在對美國一些最重要的資料集做同樣的事情。DataUSA 顯示的資料範圍從學費、工資到通勤時間、疾病流行率以及美國公民和外國出生居民的語言和文化淵源的資料。
因此,回到我們的超市類比,我們透過 DataUSA 所做的事情是將一堆盒子整理成主題通道,每個盒子都清楚地貼上標籤。如果開放資料網站是宜家,我們已經確保建造了二樓。我們希望使資料購物體驗愉快,而不是令人惱火,從而提高資料記者、分析師、教師和學生使用公共資料的便利性。此外,我們已確保使所有視覺化都可以嵌入,以便人們可以使用它們來建立自己的故事,無論他們是經營個人部落格還是主要報紙。
畢竟,開放資料的目標不應該僅僅是開啟檔案,而是激發我們對該資料描述的系統的理解。但是,為了實現這一目標,我們必須確保不要忘記設計也是馴服深層網路中難以控制的底部的必要部分。