震動全球基礎設施的事件
相關數(shù)據(jù)仍然令人警醒:一次有缺陷的Channel File 291更新于世界協(xié)調(diào)時04:09部署,僅78分鐘后就被撤回,卻導致全球850萬臺Windows系統(tǒng)崩潰。據(jù)保險業(yè)估算,僅美國500強企業(yè)就因此損失了54億美元,航空業(yè)受沖擊尤為嚴重,全球范圍內(nèi)有5078架次航班取消。
Proximus Global旗下公司Telesign的產(chǎn)品和投資組合高級副總裁斯特芬·施賴爾(Steffen Schreier)解釋了為什么這一事件一年后仍令人記憶猶新:“一年后,CrowdStrike事件不僅沒有被遺忘,反而讓人難以忘懷。一次常規(guī)的軟件更新,沒有惡意意圖,僅在78分鐘內(nèi)就被撤回,卻仍然導致全球關鍵基礎設施癱瘓。沒有數(shù)據(jù)泄露,沒有網(wǎng)絡攻擊,僅僅是一次內(nèi)部故障,就產(chǎn)生了全球性后果。”
他的技術分析揭示了現(xiàn)代基礎設施令人不安的真相:“這才是真正的警鐘:即使是那些擁有良好實踐、分階段部署和快速回滾機制的公司,也無法超越那些由支持快速、云原生交付的基礎設施所帶來的風險,正是這種讓我們能夠更快交付的同樣速度,在出現(xiàn)問題時也加速了影響的擴散范圍。”
了解問題根源
CrowdStrike的根源分析揭示了一系列技術故障:IPC模板類型中的輸入字段不匹配、缺少運行時數(shù)組邊界檢查以及內(nèi)容驗證器中的邏輯錯誤,這些并非邊緣案例,而是基本的質量控制漏洞。
即將擔任Enkrypt AI首席安全官、Andesite等公司顧問的梅里特·貝爾(Merritt Baer)提供了關鍵背景:“CrowdStrike的服務中斷讓人警醒,它提醒我們,即使是規(guī)模龐大、成熟的公司,有時也會在流程上出錯,這一結果在某種程度上是巧合,但本不應發(fā)生,這表明他們未能建立一些基本的持續(xù)集成/持續(xù)部署(CI/CD)協(xié)議。”
她的評價直接而公正:“如果CrowdStrike按照最佳實踐,在沙箱環(huán)境中推出更新,并僅以增量方式在生產(chǎn)環(huán)境中部署,那么即使發(fā)生問題,影響也不會如此災難性。”
然而,貝爾也認可了CrowdStrike的應對措施:“CrowdStrike的溝通策略展現(xiàn)了良好的高管責任感,高管們應該始終承擔責任,這不是實習生的錯,如果你的初級操作員會犯錯,那就是我的錯,是我們整個公司的錯。”
領導層的責任
CrowdStrike創(chuàng)始人兼CEO喬治·庫爾茨(George Kurtz)踐行了這一責任原則。在領英上回顧周年紀念時,庫爾茨寫道:“一年前,我們面臨了一個考驗一切的時刻:我們的技術、我們的運營,以及他人對我們的信任。作為創(chuàng)始人和CEO,我個人承擔了這份責任,過去如此,未來亦然。”
他的觀點揭示了公司如何將危機轉化為變革:“定義我們的不是那個時刻,而是之后發(fā)生的一切。從一開始,我們的目標就很明確:打造一個更強大的CrowdStrike,以彈性、透明和不懈執(zhí)行為基礎,我們的北極星始終是我們的客戶。”
CrowdStrike全力投入新的“設計即彈性”框架
CrowdStrike的應對措施圍繞其“設計即彈性”(Resilient by Design)框架展開,森托納斯稱該框架超越了“快速修復或表面改進”,該框架的三大支柱,包括基礎性、適應性和持續(xù)性組件,代表了安全平臺運營方式的全面重構。
關鍵實施措施包括:
• 傳感器自我恢復:自動檢測崩潰循環(huán)并切換到安全模式
• 新的內(nèi)容分發(fā)系統(tǒng):基于環(huán)的部署,配備自動化保障措施
• 增強的客戶控制:精細的更新管理和內(nèi)容固定功能
• 數(shù)字運營中心:專為全球基礎設施監(jiān)控而建的設施
• Falcon超級實驗室:測試數(shù)千種操作系統(tǒng)、內(nèi)核和硬件組合
“我們不只是增加了一些內(nèi)容配置選項,”森托納斯在博客中強調(diào),“我們從根本上重新思考了客戶如何與企業(yè)安全平臺交互和控制。”
全行業(yè)供應鏈的覺醒
這一事件促使人們更廣泛地審視對供應商的依賴。貝爾直截了當?shù)刂赋隽私逃枺?ldquo;一個重要的實際教訓是,你的供應商是你供應鏈的一部分,因此,作為CISO,你應該測試風險以了解它,但簡單來說,這個問題屬于共享責任模型中供應商的責任范圍,客戶無法控制它。”
CrowdStrike的服務中斷永久性地改變了供應商評估方式:“我看到高效的CISO和CSO從這次事件中吸取教訓,關注他們希望合作的公司以及作為業(yè)務合作產(chǎn)品的安全性,我只會與那些從安全態(tài)勢角度讓我尊重的公司合作,他們不需要完美,但我希望知道,隨著時間的推移,他們正在執(zhí)行正確的流程。”
Zscaler的CISO山姆·庫里(Sam Curry)補充道:“CrowdStrike遭遇的不幸事件,本可能發(fā)生在許多公司身上,因此,或許我們不應事后諸葛亮地歸咎于他們。我想說的是,世界已經(jīng)借此重新聚焦,更加關注彈性,這對每個人來說都是好事,因為我們的共同目標是讓互聯(lián)網(wǎng)對所有人來說都更安全。”
強調(diào)需要新的安全范式
施賴爾的分析超越了CrowdStrike,觸及了基礎安全架構:“大規(guī)模的速度是有代價的,現(xiàn)在,每一次常規(guī)更新都承載著潛在系統(tǒng)性故障的風險,這意味著不僅要進行測試,還要建立彈性保障措施:分層防御、自動回滾路徑,以及假設在最需要時遙測數(shù)據(jù)可能會消失的故障安全機制。”
他最關鍵的見解觸及了許多人未曾考慮的場景:“當遙測數(shù)據(jù)中斷時,你需要假設可見性可能會消失的故障安全機制。”
這代表了一種范式轉變,正如施賴爾總結的那樣:“因為如今的安全不僅僅是阻止攻擊者,而且是要絕對確保你自己的系統(tǒng)永遠不會成為單一故障點。”
展望未來:AI與未來挑戰(zhàn)
貝爾看到了下一個變革已經(jīng)初現(xiàn)端倪:“自從云計算使我們能夠使用基礎設施即代碼以來,尤其是現(xiàn)在AI正在使我們以不同的方式開展安全工作,我正在關注基礎設施決策如何與人類和AI的自主性相結合,我們能夠而且應該為強制更新等流程增加推理和有效的風險緩解措施,尤其是在高權限級別下。”
CrowdStrike的前瞻性舉措包括:
• 聘請首席彈性官,直接向首席執(zhí)行官匯報
• 探索內(nèi)核空間之外能力的“登峰項目”(Project Ascent)
• 與微軟在Windows端點安全平臺上的合作
• 獲得業(yè)務連續(xù)性管理的ISO 22301認證
更強大的生態(tài)系統(tǒng)
一年后,變革顯而易見。庫爾茨反思道:“今天的我們比一年前更強大,工作仍在繼續(xù),使命依然堅定,我們正在前進:更強大、更聰明,比以往任何時候都更加堅定。”
庫爾茨還感謝了那些支持公司的人:“感謝每一位在困難時刻仍與我們同在的客戶,感謝你們始終如一的信任。感謝我們出色的合作伙伴,他們與我們并肩作戰(zhàn),卷起袖子加油干,感謝你們成為我們大家庭的一員。”
這一事件的影響遠不止于CrowdStrike,現(xiàn)在,各企業(yè)都在實施分階段部署、保持手動覆蓋能力,以及至關重要的是,為安全工具本身可能失效的情況制定計劃,供應商關系得到了更嚴格的評估,人們認識到,在我們相互連接的基礎設施中,每個組件都至關重要。
正如森托納斯所承認的:“這項工作尚未完成,也永遠不會完成,彈性不是一個里程碑,而是一種需要持續(xù)承諾和演進的紀律。”2024年7月19日的CrowdStrike事件將被銘記,不僅因為它造成的破壞,更因為它推動了整個行業(yè)向真正的彈性演進。
在面對最大挑戰(zhàn)的過程中,CrowdStrike和更廣泛的安全生態(tài)系統(tǒng)有了更深刻的理解:防范威脅意味著確保保護者本身不會造成傷害,通過這艱難的78分鐘和一年的變革所學到的教訓,可能是這一事件最有價值的遺產(chǎn)。


