Cloudflare 2025-11 全球性故障案例研究
台灣時間 2025 年 11 月 18 日,Cloudflare 發生了一次全球性的服務中斷事件,影響了數百萬網站和應用程式的可用性。這次故障持續了數個小時,導致大量用戶訪問受 Cloudflare 保護的網站時遇到 500 錯誤。
故障原因總結
- 想修改權限,結果分散式資料庫的查詢語法有誤,導致從多個資料庫來源讀取資料。
- 根據資料庫查詢產出的特徵檔案(feature file)有多個重複的值(內容相同但資料庫來源不同的重複資料)。
- 機器人管理服務(使用 Rust 編寫)在讀取這些特徵檔案時,撞到特徵載入數量的上限(最多 200 個)。
- 機器人管理服務某段程式碼沒寫好,並沒有處理這個例外,導致程式 Panic 並引發程式崩潰。
- 機器人程式是 Cloudflare Proxy 的核心功能,結果程式崩潰導致整個 Proxy 服務無法運作。
- Proxy 服務無法運作,導致所有受 Cloudflare 保護的網站都無法訪問,並顯示 500 錯誤。
後續影響
- 機器人管理服務崩潰,每個訪問網站的用戶 0 分,判定每個用戶都是機器人。
- 用戶訪問受 Cloudflare 保護的網站以及他們的 CDN 節點,都會看到 500 錯誤。
- 他們內部服務也會使用自己的 Proxy,導致內部服務無法運作。