節選自《終極演算法:終極學習機器的探索如何重塑我們的世界》,作者佩德羅·多明戈斯。由 Basic Books 出版,Perseus Books Group 的成員。版權所有 © 2015。
為什麼谷歌的市值比雅虎高那麼多? 它們都透過在網路上展示廣告來賺錢,而且都是熱門目的地。兩者都使用拍賣來銷售廣告,並使用機器學習來預測使用者點選廣告的可能性(可能性越高,廣告的價值就越高)。但谷歌的學習演算法比雅虎好得多。當然,這並不是它們市值差異的唯一原因,但這是一個重要原因。每一次未能發生的點選預測對廣告商來說都是一次機會的浪費,對網站來說也是收入的損失。谷歌的年收入為 500 億美元,每次點選預測提高 1%,都可能意味著該公司每年額外增加 5 億美元的收入。難怪谷歌是機器學習的忠實擁護者,而雅虎和其他公司都在努力追趕。
網路廣告只是一個更大的現象的一種表現形式。在每個市場中,生產者和消費者都需要在交易發生之前建立聯絡。在網際網路時代之前,這方面的主要障礙是物理上的。你只能從當地的書店購買書籍,而當地的書店的貨架空間有限。但是,當你可以在任何時間將任何書籍下載到你的電子閱讀器時,問題就變成了選擇數量過多。你如何瀏覽一個擁有數百萬種待售書籍的書店的貨架?這同樣適用於其他資訊商品:影片、音樂、新聞、推文、部落格、普通的網頁。這也適用於可以遠端採購的每種產品和服務:鞋子、鮮花、小玩意、酒店房間、輔導、投資。它甚至適用於正在尋找工作或約會的人。你們如何找到彼此?這是資訊時代的核心問題,而機器學習是解決問題的重要組成部分。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過 訂閱來支援我們屢獲殊榮的新聞報道。透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。
隨著公司的發展,它們會經歷三個階段。首先,他們會手動完成所有事情:一家夫妻店的店主會親自了解他們的顧客,並且他們會相應地訂購、展示和推薦商品。這很好,但它無法擴充套件。在第二個也是最不愉快的階段,公司規模足夠大,需要使用計算機。程式設計師、顧問和資料庫管理人員紛紛湧入,編寫數百萬行程式碼來自動化公司所有可以自動化的功能。為更多的人提供了服務,但服務質量卻不如以前:決策是基於粗略的人口統計類別做出的,計算機程式過於僵化,無法與人類的無限多功能性相匹配。
過了一段時間,就沒有足夠的程式設計師和顧問來完成所有需要的事情,公司不可避免地會轉向機器學習。亞馬遜無法將所有客戶的口味整齊地編碼到計算機程式中,而 Facebook 不知道如何編寫一個程式來選擇向每個使用者展示的最佳更新。沃爾瑪銷售數百萬種產品,並且每天都有數十億個選擇要做;如果沃爾瑪的程式設計師試圖編寫一個程式來完成所有這些選擇,他們永遠也無法完成。相反,這些公司所做的是將學習演算法應用於他們積累的大量資料,並讓它們推斷出客戶想要什麼。
學習演算法是媒人:它們為彼此尋找生產者和消費者,從而減少資訊過載。如果它們足夠聰明,你就可以獲得兩全其美的效果:大規模的巨大選擇和低成本,以及小規模的個性化服務。學習者並非完美,決策的最後一步通常仍然由人類來完成,但學習者會智慧地將選擇減少到人類可以管理的程度。
回顧過去,我們可以看到,從計算機到網際網路再到機器學習的演變是不可避免的:計算機使網際網路成為可能,網際網路帶來了大量資料和無限選擇的問題;而機器學習則利用大量資料來幫助解決無限選擇問題。網際網路本身不足以將需求從“一刀切”轉變為無限多樣性的長尾。Netflix 可能有十萬張 DVD 光碟,但如果客戶不知道如何找到他們喜歡的,他們就會預設選擇熱門影片。只有當 Netflix 有一個學習演算法來找出你的品味並推薦 DVD 時,長尾才會真正起飛。
一旦不可避免的事情發生,學習演算法成為中間人,權力就會集中在它們手中。谷歌的演算法在很大程度上決定了你找到什麼資訊,亞馬遜的演算法決定了你購買什麼產品,而 Match.com 的演算法決定了你和誰約會。最後一步仍然由你來完成——從演算法呈現給你的選項中選擇——但 99.9% 的選擇是由它們完成的。一家公司的成敗現在取決於學習者有多喜歡它的產品,而整個經濟的成敗——每個人是否以最優惠的價格獲得最適合他們需求的產品——則取決於學習者的質量如何。
公司確保學習者喜歡其產品的最佳方式是自己執行它們。誰擁有最好的演算法和最多的資料,誰就獲勝。一種新型的網路效應開始顯現:誰擁有最多的客戶,誰就積累最多的資料,誰就學習最好的模型,誰就贏得最多的新客戶,如此迴圈往復(如果你是競爭對手,則是一個惡性迴圈)。從谷歌切換到必應可能比從 Windows 切換到 Mac 更容易,但在實踐中你不會這樣做,因為谷歌憑藉其先發優勢和更大的市場份額,更瞭解你想要什麼,即使必應的技術同樣出色。可憐那些剛進入搜尋業務的新手,他們以零資料與擁有十多年學習經驗的搜尋引擎競爭。
你可能會認為過了一段時間,更多的資料只是相同資料的重複,但飽和點還遙遙無期。長尾還在繼續。如果你看看亞馬遜或 Netflix 給你的推薦,很明顯它們仍然非常粗糙,而谷歌的搜尋結果仍然有很多不足之處。可以使用機器學習來潛在地改進產品的每個功能和網站的每個角落。頁面底部的連結應該是紅色還是藍色?兩者都嘗試一下,看看哪個獲得的點選次數最多。更好的是,保持學習者執行,並不斷調整網站的各個方面。
同樣的動態發生在任何選擇眾多且資料豐富的市場中。競爭正在進行中,誰學得最快,誰就獲勝。它不僅限於更好地瞭解客戶:只要有資料可用,並且資料正從計算機、通訊裝置以及越來越便宜和無處不在的感測器中湧入,公司就可以將機器學習應用於其運營的各個方面。“資料是新的石油”是一種流行的說法,就像石油一樣,提煉資料是一項大生意。IBM 作為企業界的資深人士,已將其增長戰略圍繞為公司提供分析而展開。企業將資料視為戰略資產:我擁有哪些競爭對手沒有的資料?我如何利用它?我的競爭對手擁有哪些我沒有的資料?
就像一家沒有資料庫的銀行無法與一家擁有資料庫的銀行競爭一樣,一家沒有機器學習的公司也無法跟上使用機器學習的公司的步伐。當第一家公司的專家編寫一千條規則來預測其客戶想要什麼時,第二家公司的演算法會學習數十億條規則,為每個客戶學習一整套規則。這就像用矛對戰機關槍一樣不公平。機器學習是一項很酷的新技術,但這並不是企業擁抱它的原因。他們擁抱它是因為他們別無選擇。