Correction of Errors (CoE) in AWS

最近 AWS 的 us-east-1 (Virginia) 區域發生了一次重大故障,影響了大量的客戶服務。也讓我知道了除了常見的 ROE(Report of Errors)報告之外,AWS 還有一個 CoE(Correction of Errors)的報告。

每當有影響客戶的重大錯誤事件發生時,AWS 都會有一個分析錯誤的報告,稱為「錯誤更正流程」(Correction of Errors, CoE)。這個流程旨在確保錯誤被深度分析並修正,以避免相同的事件再次發生。

CoE 報告中不會有抓戰犯的成分,而是專注於技術細節和改進措施。你不會在報告中看到「誰的錯」或「誰應該負責」,而是會看到詳細的技術分析、錯誤原因、影響範圍以及未來的改進計劃。

AWS 相信,在第一線遇到錯誤的人,往往是最了解問題的人,這類經驗是最為寶貴且難以複製的。

CoE 報告由誰撰寫?

通常由一個團隊中的工程師與管理者共同撰寫,該名工程師通常直接負責本次錯誤事件中的系統。

什麼時候該寫 CoE 報告?

通常在對客戶有重大影響的事件上寫 CoE 報告,例如大規模的服務中斷、資料遺失或安全事件等。

如果是對內部服務有重大影響,但對客戶影響較小的事件,則可能只會寫給內部參考的 CoE 報告,不對外公開,寫完後也不用經過審查。

CoE 報告內容

  • 明確的標題,通常在 20 個字以內。
  • 事件總結,包含背景、影響範圍、時間線和事件的簡短描述。
  • Metrics/Graphs,展示事件期間的關鍵指標和圖表。
  • 客戶影響,描述事件對客戶的影響,包括服務中斷、性能下降等。
  • 事件回應,詳細說明 AWS 如何回應事件,包括檢測、緩解和恢復措施。
  • 時間線,列出事件的關鍵時間點和行動。
  • 5 Why’s 分析,持續問自己問題,深入探討事件的根本原因。問題通常不超過 5 個。
    • 為什麼會發生這個錯誤?
    • 為什麼這個錯誤會影響到所有的系統?
  • 行動項目,列出未來的改進措施和預防措施,以避免類似事件再次發生。每個項目會包含以下幾點:
    • Description:描述需要完成的工作。
    • Severity:嚴重性評估。
    • Status:目前狀態(例如:Pending 與 Done)。
    • Due Date:預計完成日期。

CoE 報告審查

CoE 報告在完成後會經過團隊審查與主管審查,從中收集反饋意見並完善報告內容。

有關於寫 CoE 報告的那些事

  1. CoE 報告不是懲罰。
  2. CoE 報告中不能有指責個人的內容,也就是說不能明確指出是某個人或團隊的責任。
  3. CoE 報告會在事件後提出,而不是在事件中。
  4. CoE 報告是一種學習的機會,也許能幫助你的職涯。

參考資料

What is Amazon's Correction of Error (CoE) Process?


This site uses Just the Docs, a documentation theme for Jekyll.