全球百事通！阿里云復盤“香港可用區 C 發生大規模服務中斷”事件：將盡快處理賠償事宜

2022-12-25 16:20:33|

來源：IT之家作者：

IT之家 12 月 25 日消息，阿里云今日發布《關于阿里云香港 Region 可用區 C 服務中斷事件的說明》稱，12 月 18 日，阿里云香港 Region 可用區 C 發生大規模服務中斷事件。經過復盤，阿里云進一步說明了故障情況、問題分析和改進措施。

IT之家了解到，阿里云在說明中向所有受到故障影響的客戶公開致歉，并盡快處理賠償事宜。

阿里云表示，此次香港 Region 可用區 C 服務中斷事件，對很多客戶的業務產生重大影響，也是阿里云運營十多年來持續時間最長的一次大規模故障。

【資料圖】

以下為阿里云《關于阿里云香港 Region 可用區 C 服務中斷事件的說明》全文：

北京時間 2022 年 12 月 18 日，阿里云香港 Region 可用區 C 發生大規模服務中斷事件。經過復盤，我們在這里向大家進一步說明故障情況、問題分析和改進措施。

處理過程

12 月 18 日 08:56，阿里云監控到香港 Region 可用區 C 機房包間通道溫控告警，阿里云工程師介入應急處理，通知機房服務商進行現場排查。09:01，阿里云監控到該機房多個包間溫升告警，此時工程師排查到冷機異常。09:09，機房服務商按應急預案對異常冷機進行 4+4 主備切換以及重啟，但操作失敗，冷水機組無法恢復正常。09:17，依照故障處理流程，啟動制冷異常應急預案，進行輔助散熱和應急通風。嘗試對冷機控制系統逐個進行隔離和手工恢復操作，但發現無法穩定運行，聯系冷機設備供應商到現場排查。此時，由于高溫原因，部分服務器開始受到影響。

自 10:30 開始，為避免可能出現的高溫消防問題，阿里云工程師陸續對整個機房計算、存儲、網絡、數據庫、大數據集群進行降載處理。期間，繼續多次對冷機設備進行操作，但均不能保持穩定運行。

12:30，冷機設備供應商到場，在多方工程師診斷下，對冷塔、冷卻水管路及冷機冷凝器進行手工補水排氣操作，但系統仍然無法保持穩定運行。阿里云工程師對部分高溫包間啟動服務器關機操作。14:47，冷機設備供應商對設備問題排查遇到困難，其中一個包間因高溫觸發了強制消防噴淋。15:20，經冷機設備商工程師現場手工調整配置，冷機群控解鎖完成并獨立運行，第 1 臺冷機恢復正常，溫度開始下降。工程師隨后繼續通過相同方法對其他冷機進行操作。18:55，4 臺冷機恢復到正常制冷量。19:02，分批啟動服務器，并持續觀察溫升情況。19:47，機房溫度趨于穩定。同時，阿里云工程師開始進行服務啟動恢復，并進行必要的數據完整性檢查。

21:36，大部分機房包間服務器陸續啟動并完成檢查，機房溫度穩定。其中一個包間因消防噴淋啟動，未進行服務器上電。因為保持數據的完整性至關重要，工程師對這個包間的服務器進行了仔細的數據安全檢查，這里花費了一些必要的時間。22:50，數據檢查以及風險評估完成，最后一個包間依據安全性逐步進行供電恢復和服務器啟動。

服務影響

12 月 18 日 09:23，香港 Region 可用區 C 部分 ECS 服務器開始出現停機，觸發同可用區內宕機遷移。隨著溫度繼續升高，受影響的服務器停機數量持續增加，客戶業務開始受到影響，影響面擴大到香港可用區 C 的 EBS、OSS、RDS 等更多云服務。

阿里云香港可用區 C 的故障，沒有直接影響客戶在香港其他可用區運行的業務，但影響了香港 Region ECS 管控服務（Control Plane）的正常使用。因大量可用區 C 的客戶在香港其他可用區新購 ECS 實例，從 12 月 18 日 14:49 開始，ECS 管控服務觸發限流，可用性最低跌至 20%。客戶在使用 RunInstances / CreateInstance API 購買新 ECS 實例時，如果指定了自定義鏡像，部分實例在購買成功之后會出現啟動失敗的現象，由于自定義鏡像數據服務依賴可用區 C 的單 AZ 冗余版本的 OSS 服務，無法通過重試解決。此時，部分 Dataworks、k8s 用戶控制臺操作也受到了故障影響。API 完全恢復可用為當日 23:11。

12 月 18 日 10:37，阿里云香港可用區 C 的部分存儲服務 OSS 開始受到停機影響，此時客戶暫不會感知，但持續高溫會導致磁盤壞道，影響數據安全，工程師對服務器進行停機操作，從 11:07 至 18:26 中斷了服務。阿里云在香港 Region 可用區 C 提供了 2 種類型的 OSS 服務，一種是 OSS 本地冗余 LRS 服務（通常叫單 AZ 冗余服務），僅部署在可用區 C；另一種是 OSS 同城冗余 ZRS 服務（通常叫 3AZ 冗余服務），部署在可用區 B、C 和 D。在此次故障中，OSS 同城冗余 ZRS 服務基本沒有受到影響。可用區 C 的 OSS 本地冗余服務中斷時間較長，因不支持跨可用區切換，需要依賴故障機房的恢復。從 18:26 開始，存儲服務器重新分批啟動。其中，單 AZ 本地冗余 LRS 服務有部分服務器因消防問題需要做隔離處理。恢復服務前，我們必須要確保數據可靠性，花費了較多的時間進行完整性檢驗工作。直至 12 月 19 日 00:30，這部分 OSS 服務（單 AZ 冗余服務）才恢復了對外服務能力。

阿里云網絡少量單可用區產品（如：VPN、Privatelink 以及少量 GA 實例）在此次故障中受到影響。12 月 18 日 11:21，工程師啟動網絡產品可用區容災逃逸，12:45 完成 SLB 等大部分網絡產品可用區容災逃逸，13:47NAT 產品完成收尾逃逸。除上述少量單可用區產品以外，各網絡產品在故障期間保持了業務連續性，NAT 有分鐘級業務受損。

12 月 18 日 10:17 開始，阿里云香港 Region 可用區 C 部分 RDS 實例出現不可用的報警。隨著該可用區受故障影響的主機范圍擴大，出現服務異常的實例數量隨之增加，工程師啟動數據庫應急切換預案流程。截至 12:30，RDS MySQL 與 Redis、MongoDB、DTS 等跨可用區實例完成跨可用區切換。部分單可用區實例以及單可用區高可用實例，由于依賴單可用區的數據備份，僅少量實例實現有效遷移。少量支持跨可用區切換的 RDS 實例沒有及時完成切換。經排查是由于這部分 RDS 實例依賴了部署在香港 Region 可用區 C 的代理服務，由于代理服務不可用，無法通過代理地址訪問 RDS 實例。我們協助相關客戶通過臨時切換到使用 RDS 主實例的地址訪問來進行恢復。隨著機房制冷設備恢復，21:30 左右絕大部分數據庫實例恢復正常。對于受故障影響的單機版實例及主備均在香港 Region 可用區 C 的高可用版實例，我們提供了克隆實例、實例遷移等臨時性恢復方案，但由于底層服務資源的限制，部分實例的遷移恢復過程遇到一些異常情況，需要花費較長的時間來處理解決。

我們注意到，同時在多個可用區運行業務的客戶，在這次事件中依然可以維持業務運行。對于業務需要絕對高可用的客戶，我們持續建議您采用全鏈路多可用區的業務架構設計，以應對各種可能的意外事件。

問題分析與改進措施

1、冷機系統故障恢復時間過長

原因分析：機房冷卻系統缺水進氣形成氣阻，影響水路循環導致 4 臺主冷機服務異常，啟動 4 臺備冷機時因主備共用的水路循環系統氣阻導致啟動失敗。水盤補水后，因機房冷卻系統的群控邏輯，無法單臺獨立啟動冷機，手工修改冷機配置，將冷機從群控調整為獨立運行后，陸續啟動冷機，影響了冷卻系統的恢復時長。整個過程中，原因定位耗時 3 小時 34 分鐘，補水排氣耗時 2 小時 57 分鐘，解鎖群控邏輯啟動 4 臺冷機耗時 3 小時 32 分鐘。

改進措施：全面檢查機房基礎設施管控系統，在監控數據采集層面，擴大覆蓋度，提升精細度，提高對故障的排查和定位速度；在設施管控邏輯層面，確保系統自動切換邏輯符合預期，同時保證手工切換的準確性，防止內部狀態死鎖從而影響故障的恢復。

2、現場處置不及時導致觸發消防噴淋

原因分析：隨著機房冷卻系統失效，包間溫度逐漸升高，導致一機房包間溫度達到臨界值觸發消防系統噴淋，電源柜和多列機柜進水，部分機器硬件損壞，增加了后續恢復難度和時長。

改進措施：加強機房服務商管理，梳理機房溫升預案及標準化執行動作，明確溫升場景下的業務側關機和機房強制關電的預案，力求更簡單有效，并通過常態化演練強化執行。

3.客戶在香港地域新購 ECS 等管控操作失敗

原因分析：ECS 管控系統為 B、C 可用區雙機房容災，C 可用區故障后由 B 可用區對外提供服務，由于大量可用區 C 的客戶在香港其他可用區新購實例，同時可用區 C 的 ECS 實例拉起恢復動作引入的流量，導致可用區 B 管控服務資源不足。新擴容的 ECS 管控系統啟動時依賴的中間件服務部署在可用區 C 機房，導致較長時間內無法擴容。ECS 管控依賴的自定義鏡像數據服務，依賴可用區 C 的單 AZ 冗余版本的 OSS 服務，導致客戶新購實例后出現啟動失敗的現象。

改進措施：全網巡檢，整體優化多 AZ 產品高可用設計，避免出現依賴 OSS 單 AZ 和中間件單 AZ 的問題。加強阿里云管控平面的容災演練，進一步提升云產品高可用容災逃逸能力。

4、故障信息發布不夠及時透明

原因分析：故障發生后阿里云啟動對客釘群、公告等通知手段，由于現場冷機處理進展緩慢，有效信息不夠。Status Page 頁面信息更新不及時引發客戶困惑。

改進措施：提升故障影響和客戶影響的快速評估和識別拉取能力。盡快上線新版的阿里云服務健康狀態頁面（Status Page），提高信息發布的速度，讓客戶可以更便捷地了解故障事件對各類產品服務的影響。

總結

最后，我們要向所有受到故障影響的客戶公開致歉，并盡快處理賠償事宜。此次香港 Region 可用區 C 服務中斷事件，對很多客戶的業務產生重大影響，也是阿里云運營十多年來持續時間最長的一次大規模故障。穩定性是云服務的生命線，對我們的客戶至關重要。我們將盡一切努力從此次事件中吸取經驗教訓，持續提升云服務的穩定性，不辜負客戶所托！

阿里云

2022 年 12 月 25 日

標簽：