本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點
亞馬遜網路服務有限責任公司 (AWS),線上市場 Amazon.com 的雲計算部門,於週五解釋了上週服務中斷期間發生的事情,該中斷影響了其許多客戶的網站。AWS 由亞馬遜於 2006 年成立,旨在利用雲計算的熱潮,在 4 月 21 日因網路配置更改而遇到問題,該問題花費了數天時間才修復,導致由基於位置的社交網路 Foursquare、雲服務提供商 Engine Yard、社交新聞媒體 Reddit 和其他幾個網站執行的網站訪問速度變慢或無法訪問。
“此事件的觸發因素是網路配置更改,”該公司在其網站上的一則訊息中證實。“我們將稽核我們的變更流程並增加自動化程度,以防止將來再次發生此類錯誤。”
關於支援科學新聞業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的有影響力的故事。
在 AWS 中斷期間,該公司所謂的“彈性塊”資料儲存 (EBS) 變得無法執行某些功能。此儲存由計算機叢集組成,這些叢集儲存、管理和備份客戶資料。叢集本身由各個節點計算機組成,這些節點透過兩個網路連線——一個管理正常流量的主高頻寬網路和一個容量較低的備份網路。問題始於 4 月 21 日,當時亞馬遜試圖升級服務於美國東部的網路的容量。該公司錯誤地將網路流量從主網路轉移到備份網路,而備份網路無法充分處理活動量。
一旦意識到錯誤並將流量轉移回主網路,主網路上的儲存節點就被大量資料淹沒,並且找不到足夠的空間來容納所有資料。就像玩搶椅子游戲一樣,一些資料陷入了僵局,不斷地尋找空閒的儲存空間。這阻礙了進入系統的新儲存空間請求,導致使用亞馬遜服務的網站部分速度變慢或關閉。
該公司透過停用新的儲存請求來糾正此問題,但損害已經造成。不堪重負的節點開始出現故障,加劇了資料過多而可用儲存空間不足的問題。AWS 在接下來的幾天內透過增加網路儲存容量和調整其儲存管理軟體來解決了這個問題。
丹麥上空的暴風雲圖片由 Malene Thyssen 提供,透過 Wikimedia Commons