Cloudflare 2025-11 全球性故障案例研究

台灣時間 2025 年 11 月 18 日,Cloudflare 發生了一次全球性的服務中斷事件,影響了數百萬網站和應用程式的可用性。這次故障持續了數個小時,導致大量用戶訪問受 Cloudflare 保護的網站時遇到 500 錯誤。

故障原因總結

  1. 想修改權限,結果分散式資料庫的查詢語法有誤,導致從多個資料庫來源讀取資料。
  2. 根據資料庫查詢產出的特徵檔案(feature file)有多個重複的值(內容相同但資料庫來源不同的重複資料)。
  3. 機器人管理服務(使用 Rust 編寫)在讀取這些特徵檔案時,撞到特徵載入數量的上限(最多 200 個)。
  4. 機器人管理服務某段程式碼沒寫好,並沒有處理這個例外,導致程式 Panic 並引發程式崩潰。
  5. 機器人程式是 Cloudflare Proxy 的核心功能,結果程式崩潰導致整個 Proxy 服務無法運作。
  6. Proxy 服務無法運作,導致所有受 Cloudflare 保護的網站都無法訪問,並顯示 500 錯誤。

後續影響

  • 機器人管理服務崩潰,每個訪問網站的用戶 0 分,判定每個用戶都是機器人。
  • 用戶訪問受 Cloudflare 保護的網站以及他們的 CDN 節點,都會看到 500 錯誤。
  • 他們內部服務也會使用自己的 Proxy,導致內部服務無法運作。

參考資料


This site uses Just the Docs, a documentation theme for Jekyll.