您的位置:首頁>正文

全年盤點:2017年國外的10大雲故障

至頂網軟體頻道消息: 隨著雲應用的愈發成熟, 雲計算提供商也開發出了更好的維護工具來運營最大的、最先進的伺服器集群, 因此, 災難性的雲計算故障在2017年似乎是一個不合時宜的事了。 雖然所有廠商都遭遇了可能會限制特定服務的宕機時間, 或者局部不可用的短時間故障, 但是很多人認為, 在早期出現的那種大規模故障, 肯定是原始時代的事情了。

但是接近2月底的時候, AWS的故障事件就震動了整個行業, 打擊了企業客戶對採用雲計算的信心, 因為故障當天有數量龐大的業務受到影響,

GitHub、Slack、Zendesk、Heroku、Twilio、Mailchimp、Citrix和Expedia, 只是其中的一小部分。 當AWS透露這次故障是由人為錯誤導致, 人們的信心進一步降低——實際上是由於技術人員輸入不正確的單行命令導致。

下面是盤點出的2017年國外10大雲故障, 提醒人們, 這個快速成熟的行業, 其出色運營的風險比以往任何時候都要高。

IBM, 1月26日

今年年初, IBM雲的可信度受到打擊, 當時客戶用於訪問Bluemix雲基礎設施的一個管理門戶出現數小時的故障。

雖然底層基礎設施沒有發生故障, 但是客戶沮喪地發現, 他們無法管理他們的應用、無法添加或者移除為工作負載提供支援的雲資源。

IBM表示, 這次故障是間歇性的, 是由介面的錯誤更新導致。

GitLab, 1月31日

GitLab廣受歡迎的線上代碼庫GitLab.com遭遇了18個小時的服務中斷, 最終還是沒有完全修復。 這次故障主要原因是, 一位元員工在維護流程中將一個資料庫目錄從錯誤的資料庫伺服器中刪除導致的。

GitLab事後表示, 最樂觀的估計是, 這次故障影響了大約5000個項目、5000條評論和700個新使用者帳戶。

Facebook, 2月2日

在漫長而痛苦的三個小時中, 全球各地的一些用戶被鎖在Facebook之外, 擔心他們的帳戶被駭客入侵。

社交媒體巨頭Facebook隨後解釋說, 有功能將會防範駭客發送給使用者一個恢復螢幕,

讓人感覺有人登錄了他們的帳戶, 受影響的用戶會被阻止立即重新登錄。

Facebook確認實際上並沒有發生安全性漏洞。 這是Facebook第二次出現故障。 幾天之前, 有人報告說他們看不到他們的新聞消息。

AWS, 2月28日

這是一次震動整個業界的故障事件。 一位AWS工程師試圖對位於維吉尼亞州資料中心內的一個S3存儲系統進行調試的時候, 意外地輸入了一個錯誤命令列,隨後大部分互聯網,包括Slack、Quora和Trello在內的很多企業平臺停機了4個小時。

調查顯示,該員工使用既定的步驟,試圖關閉少量託管了計費流程子系統的伺服器。相反,意外的命令導致更大範圍伺服器處於離線狀態,其中包括為伺服器提供特定資料存儲所需的一個子系統,以及另一個分配新存儲的子系統。

這次由這樣一家幾乎佔據了全球1/3雲市場份額的提供商導致的故障,重新引發了關於公有雲風險的爭論。

微軟,3月16日

存儲可用性問題困擾了微軟Azure公有雲超過8個小時,主要影響到美國東部的一些客戶。一些使用者無法配置新存儲或者訪問該地區的現有資源。隨後一個微軟工程團隊將這次故障歸咎于一個存儲集群端點並出現不可用的情況。

除了該問題之外,微軟還在Azure狀態頁面上列出了一個軟體錯誤,使得多個服務的存儲配置受影響超過1個小時。

微軟Office 365,3月21日

由於用戶身份驗證問題,導致多個微軟企業和消費級雲服務(包括Office 365存儲和電子郵件服務)無法使用。

這次受影響廣泛的故障使得客戶無法訪問OneDrive存儲、Skype協作、Outlook電子郵件、以及像Xbox Live這樣的消費級產品。

蘋果iCloud,6月28日

有多個社交媒體來源報導稱,蘋果iCloud Backup服務出現了可用性故障。平臺的系統狀態頁面顯示,iCloud Backup只影響了不到1%的用戶。

在這次故障中,受影響的用戶無法從之前的備份中恢復iOS設備,持續了至少36小時。雖然恢復過程會被掛起無法完成,但是啟動新的設備備份以保護資料是沒有問題的。

AWS,9月14日

雖然9月份發生的這起AWS服務遠不如2月份的那麼嚴重,但事實上這次故障影響了S3存儲服務,且源自於同一個US-EAST-1地區,足以引起人們對半年前災難性事件的不愉快回憶。

訪問存儲塊出現問題,從當天中午開始引起人們的注意,並在東部時間下午1點前得到控制。

微軟Azure,9月29日

當天歐洲的客戶無法使用微軟Azure公有雲中的一些服務長達7個小時。這次讓北歐第二大雲計算提供商出現故障的原因是意外啟動了滅火系統。微軟表示,對系統的日常維護工作導致滅火氣體釋放,自動出發空調系統關閉,從而讓設備溫度升高,迫使電腦系統自動關閉。

像Virtual Machines、Cloud Services、Azure Backup等多個重要服務都在本地時間下午1:27到8:15處於離線狀態。

Google Docs,11月15日

有數千位元Google Docs使用者遭遇了服務中斷,導致他們的業務受到影響。

這次停機是從東部時間下午4點之前開始的,持續了30分鐘到1個小時的時間。Google證實,這次故障影響了一個“重要用戶子集”,備受歡迎的文檔創建和編輯工具也無法訪問檔。

Google表示,在週三晚上對於大多數使用者來說Google Docs服務已經恢復。

Google的一家合作夥伴表示,在其400家企業客戶中,有6家受到這次故障的影響。這家解決方案提供商,同時也是Google用戶,本身也受到了影響。

意外地輸入了一個錯誤命令列,隨後大部分互聯網,包括Slack、Quora和Trello在內的很多企業平臺停機了4個小時。

調查顯示,該員工使用既定的步驟,試圖關閉少量託管了計費流程子系統的伺服器。相反,意外的命令導致更大範圍伺服器處於離線狀態,其中包括為伺服器提供特定資料存儲所需的一個子系統,以及另一個分配新存儲的子系統。

這次由這樣一家幾乎佔據了全球1/3雲市場份額的提供商導致的故障,重新引發了關於公有雲風險的爭論。

微軟,3月16日

存儲可用性問題困擾了微軟Azure公有雲超過8個小時,主要影響到美國東部的一些客戶。一些使用者無法配置新存儲或者訪問該地區的現有資源。隨後一個微軟工程團隊將這次故障歸咎于一個存儲集群端點並出現不可用的情況。

除了該問題之外,微軟還在Azure狀態頁面上列出了一個軟體錯誤,使得多個服務的存儲配置受影響超過1個小時。

微軟Office 365,3月21日

由於用戶身份驗證問題,導致多個微軟企業和消費級雲服務(包括Office 365存儲和電子郵件服務)無法使用。

這次受影響廣泛的故障使得客戶無法訪問OneDrive存儲、Skype協作、Outlook電子郵件、以及像Xbox Live這樣的消費級產品。

蘋果iCloud,6月28日

有多個社交媒體來源報導稱,蘋果iCloud Backup服務出現了可用性故障。平臺的系統狀態頁面顯示,iCloud Backup只影響了不到1%的用戶。

在這次故障中,受影響的用戶無法從之前的備份中恢復iOS設備,持續了至少36小時。雖然恢復過程會被掛起無法完成,但是啟動新的設備備份以保護資料是沒有問題的。

AWS,9月14日

雖然9月份發生的這起AWS服務遠不如2月份的那麼嚴重,但事實上這次故障影響了S3存儲服務,且源自於同一個US-EAST-1地區,足以引起人們對半年前災難性事件的不愉快回憶。

訪問存儲塊出現問題,從當天中午開始引起人們的注意,並在東部時間下午1點前得到控制。

微軟Azure,9月29日

當天歐洲的客戶無法使用微軟Azure公有雲中的一些服務長達7個小時。這次讓北歐第二大雲計算提供商出現故障的原因是意外啟動了滅火系統。微軟表示,對系統的日常維護工作導致滅火氣體釋放,自動出發空調系統關閉,從而讓設備溫度升高,迫使電腦系統自動關閉。

像Virtual Machines、Cloud Services、Azure Backup等多個重要服務都在本地時間下午1:27到8:15處於離線狀態。

Google Docs,11月15日

有數千位元Google Docs使用者遭遇了服務中斷,導致他們的業務受到影響。

這次停機是從東部時間下午4點之前開始的,持續了30分鐘到1個小時的時間。Google證實,這次故障影響了一個“重要用戶子集”,備受歡迎的文檔創建和編輯工具也無法訪問檔。

Google表示,在週三晚上對於大多數使用者來說Google Docs服務已經恢復。

Google的一家合作夥伴表示,在其400家企業客戶中,有6家受到這次故障的影響。這家解決方案提供商,同時也是Google用戶,本身也受到了影響。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示