国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關注微信公眾號

谷歌云服務大規模中斷事件溯源,API 管理系統故障引發全球癱瘓
2025-06-18   安全牛

2025年6月12日,谷歌云(Google Cloud)遭遇近年來最嚴重的服務中斷事件,其API管理系統出現關鍵故障,導致全球數十項服務癱瘓長達七小時。此次事故源于服務控制(Service Control)二進制文件中出現的空指針異常,該組件負責管理API授權和配額策略,影響范圍覆蓋谷歌云平臺(GCP)和Google Workspace產品的數百萬用戶。

二進制文件崩潰引發全球故障

故障根源在于谷歌的服務控制系統——這個區域性服務負責在基礎設施中授權API請求并執行配額策略。2025年5月29日,工程師部署了新增配額策略檢查功能,但相關代碼既缺乏完善的錯誤處理機制,也未啟用功能標志(feature flag)保護。

危機爆發的直接原因是:包含意外空白字段的策略變更被寫入服務控制系統依賴的區域性Spanner數據庫表。由于配額管理具有全球同步特性,這些損壞的元數據在幾秒內就完成了全球復制。當服務控制系統嘗試處理這些空白字段時,觸發了未受保護的代碼路徑,導致空指針異常,最終引發所有區域二進制文件同時進入崩潰循環狀態。

"本次變更的根本問題在于既沒有配置適當的錯誤處理機制,也沒有啟用功能標志保護。由于缺乏錯誤處理,空指針直接導致二進制文件崩潰。"谷歌在事故報告中解釋道。

網站可靠性工程(SRE)團隊在10分鐘內定位到根本原因,并在40分鐘內部署了"紅色按鈕"緊急終止開關,關閉問題服務路徑。雖然大部分區域在兩小時內恢復,但us-central1區域卻遭遇持續性問題——當服務控制任務在這個主要區域重啟時,對底層Spanner基礎設施形成"羊群效應",海量并發請求導致數據庫不堪重負。

工程師發現服務控制系統缺乏預防級聯故障的隨機指數退避機制。谷歌不得不限制任務創建,并將流量路由至多區域數據庫以減輕過載基礎設施的壓力。這一延長恢復過程影響了包括谷歌計算引擎(Compute Engine)、BigQuery、云存儲(Cloud Storage)在內的核心服務,這些產品構成眾多企業數字業務的基石。

整改措施

針對此次大規模服務中斷,谷歌制定了全面整改方案:

  • 立即凍結服務控制堆棧的所有變更和手動策略推送,直至系統完全修復
  • 對服務控制架構進行模塊化改造,確保在個別檢查失敗時仍能保持API請求處理能力(故障開放而非關閉)
  • 全面審計所有使用全局復制數據的系統
  • 強制要求所有關鍵二進制變更必須啟用功能標志保護

受影響服務超過60項,涵蓋Gmail、Google Drive、Google Meet、App Engine、云函數(Cloud Functions)和Vertex AI等產品。谷歌強調現有流媒體和基礎設施即服務(IaaS)資源仍保持運行,但客戶在整個中斷期間遭遇API和用戶界面間歇性訪問問題。


熱詞搜索:服務中斷 安全管理 企業安全

上一篇:全新Dell PowerProtect Data Domain All-Flash,助力企業實現卓越網絡彈性
下一篇:最后一頁

分享到: 收藏
主站蜘蛛池模板: 巴彦县| 和静县| 铜梁县| 开阳县| 赣榆县| 汽车| 永嘉县| 汉中市| 集安市| 含山县| 秦皇岛市| 呼玛县| 社旗县| 怀宁县| 郎溪县| 靖远县| 金堂县| 积石山| 湖北省| 启东市| 社旗县| 郁南县| 富蕴县| 花莲县| 格尔木市| 千阳县| 东宁县| 响水县| 梁平县| 兰溪市| 东宁县| 华阴市| 桐城市| 循化| 永福县| 台湾省| 遂平县| 兰坪| 武鸣县| 柏乡县| 漳平市|