Correction of Errors (CoE) in AWS
最近 AWS 的 us-east-1 (Virginia) 區域發生了一次重大故障,影響了大量的客戶服務。也讓我知道了除了常見的 ROE(Report of Errors)報告之外,AWS 還有一個 CoE(Correction of Errors)的報告。
每當有影響客戶的重大錯誤事件發生時,AWS 都會有一個分析錯誤的報告,稱為「錯誤更正流程」(Correction of Errors, CoE)。這個流程旨在確保錯誤被深度分析並修正,以避免相同的事件再次發生。
CoE 報告中不會有抓戰犯的成分,而是專注於技術細節和改進措施。你不會在報告中看到「誰的錯」或「誰應該負責」,而是會看到詳細的技術分析、錯誤原因、影響範圍以及未來的改進計劃。
AWS 相信,在第一線遇到錯誤的人,往往是最了解問題的人,這類經驗是最為寶貴且難以複製的。
CoE 報告由誰撰寫?
通常由一個團隊中的工程師與管理者共同撰寫,該名工程師通常直接負責本次錯誤事件中的系統。
什麼時候該寫 CoE 報告?
通常在對客戶有重大影響的事件上寫 CoE 報告,例如大規模的服務中斷、資料遺失或安全事件等。
如果是對內部服務有重大影響,但對客戶影響較小的事件,則可能只會寫給內部參考的 CoE 報告,不對外公開,寫完後也不用經過審查。
CoE 報告內容
- 明確的標題,通常在 20 個字以內。
- 事件總結,包含背景、影響範圍、時間線和事件的簡短描述。
- Metrics/Graphs,展示事件期間的關鍵指標和圖表。
- 客戶影響,描述事件對客戶的影響,包括服務中斷、性能下降等。
- 事件回應,詳細說明 AWS 如何回應事件,包括檢測、緩解和恢復措施。
- 時間線,列出事件的關鍵時間點和行動。
- 5 Why’s 分析,持續問自己問題,深入探討事件的根本原因。問題通常不超過 5 個。
- 為什麼會發生這個錯誤?
- 為什麼這個錯誤會影響到所有的系統?
- 行動項目,列出未來的改進措施和預防措施,以避免類似事件再次發生。每個項目會包含以下幾點:
- Description:描述需要完成的工作。
- Severity:嚴重性評估。
- Status:目前狀態(例如:Pending 與 Done)。
- Due Date:預計完成日期。
CoE 報告審查
CoE 報告在完成後會經過團隊審查與主管審查,從中收集反饋意見並完善報告內容。
有關於寫 CoE 報告的那些事
- CoE 報告不是懲罰。
- CoE 報告中不能有指責個人的內容,也就是說不能明確指出是某個人或團隊的責任。
- CoE 報告會在事件後提出,而不是在事件中。
- CoE 報告是一種學習的機會,也許能幫助你的職涯。
