資料精煉廠的商業案例

原始資料類似於原油——以其原始形式,通常過於混亂而無法使用

加入我們的科學愛好者社群!

本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定代表《大眾科學》的觀點


《經濟學人》雜誌宣稱,資料是“數字時代的石油”。資料對於21世紀的意義,將如同石油對於20世紀的意義一樣——成為新技術、新產品和新業務的推動者。資料將成為經濟、社會和政治組織的核心。它是未來的清潔新資源,蘊藏著尚未被髮掘的潛力。

但是,將石油轉化為有價值的東西一直是一個複雜的過程。石油從地下開採出來時是原油,需要經過煉油廠的裂解才能轉化為有用的東西。

資料也是如此。以其原始形式,它通常太大、太混亂且缺乏結構。為了解決這個問題,請想象一下“資料精煉廠”的概念——一個軟體平臺,它可以提取龐大的資料集,在這些資料中找到模式並進行預測。資料精煉廠是收集資料和從中提取價值之間的缺失環節。


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和思想的具有影響力的故事。


以數字技術為主導的科技公司已經在資料精煉廠方面表現出色。但很快每個人都需要理解和構建資料精煉廠。僅僅“使用資料”來指導您的業務是不夠的。您的資料必須是有針對性的、專門收集的和精煉的。

現實世界的感測器是將這場資料革命從企業四面牆之外擴充套件到它們運營的更大環境中的下一步。如今,平均每輛汽車擁有 100 到 200 個感測器,每天產生約 1 太位元組 (TB) 的資料。現在想想道路上的所有汽車——更不用說輪船、火車、衛星、智慧裝置、手機等等——您就會開始理解感測器資料推動資料精煉廠需求的規模和速度。這些感測器正在將物理世界轉化為位元,讓每個人都能更好地瞭解不僅是他們的供應鏈,還有整個生態系統。這意味著組織可以跟蹤他們製造的東西的實際去向——從原材料到最終消費——以及他們關心的東西無論在地球上的任何位置都在做什麼。

由於這場感測器革命,讓計算機能夠看到和理解世界,每個企業都將變得完全數字化,資料精煉廠將成為核心。這個比喻可能是新的,但大型科技公司已經瞭解其資料的價值幾十年了——而那些在資料精煉方面表現出色的公司是世界上最大的公司之一。

尋找例子的最佳場所是在數字優先的領導者中:Facebook 已成為社交網路的資料精煉廠。亞馬遜精煉消費者資料,Netflix 為影片做這件事,而谷歌為網頁做這件事。

讓我們關注谷歌,最初的資料精煉廠業務。

主要業務和搖錢樹是他們的搜尋引擎。搜尋引擎是一個驚人的模型,因為網頁(搜尋引擎的資料集)是公開可用的。雖然不容易,但理論上任何人都可以構建搜尋引擎(我參與了許多嘗試過的初創公司)。此外,絕對沒有鎖定。在瀏覽器中輸入“Bing.com”與輸入“Google.com”一樣容易。甚至介面也是相同的 10 個藍色連結。但是,儘管微軟投入了數十億美元,但它就是無法讓人們切換到必應。

為了做到這一點,谷歌為科學家建立了一個卓越的內部平臺。它還收集了大量的使用者資料。

谷歌獲取了原始的 Web 資料集,對其進行了清理(例如,減少垃圾郵件),並構建了正確的工具來測試理論並快速改進其搜尋演算法。谷歌科學家無需擔心處理資料——他們擁有一個平臺,他們可以在其中快速實驗和測試他們的理論,以瞭解是什麼使搜尋引擎更好。谷歌科學家並不比他們的競爭對手更聰明,他們只是擁有更強大的工作臺,這為他們提供了更多利用其智慧的機會。

它超越了谷歌的內部平臺。基於資料精煉廠的業務的良性迴圈是:維持更多的市場份額,更多的使用者使用該服務,產生更多的資料。聰明的企業將所有這些資料精煉成更好的服務……從而吸引更多的使用者。

在谷歌的案例中,他們擁有悠長的使用者搜尋查詢歷史、使用者行為、點選、競價——實際上是使用者與谷歌的每一次互動。透過將這些專有資料融入其資料精煉廠,谷歌獲得了優勢。無論其競爭對手花費多少資金來構建更好的演算法,他們永遠無法收集到這些多年的資料。谷歌擁有一條天然護城河,它充滿了資料。

資料精煉廠在改進當前服務方面非常強大,但它們也可以催生新型的資料驅動產品。這方面的經典例子是亞馬遜的產品推薦,這是一個多年來不斷最佳化的新功能。現在推薦如此出色的原因是數十年的購買資訊——只有(可能)像沃爾瑪這樣的零售商才能複製。

Twitter 是一個反例,它擁有大量資料寶藏,但似乎無法構建功能性資料精煉廠。我的上一家公司 Zite 主要基於社交圖譜中內建的智慧,這使我們能夠向人們推薦精彩的文章。Twitter 擁有大量的社互動動,這些互動經常呼叫網頁,使其成為挖掘資料以跨廣泛主題進行推薦的完美場所。在 Zite,我們構建了一個數據精煉廠,該精煉廠經過最佳化,可以每天使用資料為使用者建立推薦。我們能夠在 Twitter 資料集之上構建產品。直到今天,我仍然感到震驚的是,Twitter 還沒有做同樣的事情,並透過精煉他們的資料寶藏來推出產品——或從根本上改進其服務。

到目前為止,所有擁抱資料精煉廠的公司的例子都是數字優先的企業,它們線上誕生於分析資料的世界。實體產品公司現在正在使用感測器來數字化其運營並生成自己的專有資料。通用電氣多年來一直致力於其工業資料精煉廠 Predix,努力將大量的生產和運營活動以及跟蹤轉化為有用的反饋迴圈。

感測器將導致每個企業重新思考其資料戰略。它們變得更小更便宜,而且它們都能夠聯網以將其資料傳送回中央大腦。這意味著過去在物理世界中運營的企業,那些沒有被 PC、網際網路或移動裝置從根本上顛覆的企業,將在資料世界中受到顛覆的威脅。他們的實物商品將變成位元,因此可以進行分析。

與石油不同,公司不再需要尋找價值所在;許多公司都坐擁虛擬石油儲備。但即使是大量的資料也無法神奇地轉化為價值。這需要一個數據精煉廠,以及一套新的工具來尋找和提取價值。

無論您身處哪個行業,您都在生成資料。您如何儲存它?您正在使用什麼工具來發現其中的價值?我很想聽聽您正在做些什麼來確保您的企業不會在數字精煉廠革命中落後。

© .