2024年夏天,CrowdStrike的一次錯誤軟件更新導(dǎo)致數(shù)百萬臺電腦癱瘓,造成數(shù)十億美元的損失,并突顯出公司仍然無法管理第三方風(fēng)險,或無法快速有效地應(yīng)對中斷。
“這是一個有趣的全球網(wǎng)絡(luò)影響案例研究,”Mitre的CTO Charles Clancy說道。
根據(jù)Adaptavist于1月底發(fā)布的一項調(diào)查,為應(yīng)對此次故障,84%的公司正在考慮或已經(jīng)開始分散其軟件和服務(wù)提供商。
對于那些一直在使用CrowdStrike的公司來說,更換供應(yīng)商似乎是一個顯而易見的解決方案。
“但是,你應(yīng)該使用什么終端檢測和響應(yīng)平臺來代替它呢?”Clancy問道,“如果它是市場上最好的產(chǎn)品,那么拋棄它并不是答案。”
事件經(jīng)過
在CrowdStrike自己的根本原因分析中,這家網(wǎng)絡(luò)安全公司的Falcon系統(tǒng)會在用戶機(jī)器上部署一個傳感器來監(jiān)測潛在危險。2024年7月19日,CrowdStrike發(fā)布了一次更新,導(dǎo)致用戶機(jī)器崩潰。
該公司78分鐘后發(fā)布了修復(fù)程序,但要求用戶手動訪問受影響的設(shè)備,在安全模式下重新啟動,并刪除一個惡意文件。直到三天后,才發(fā)布了自動化修復(fù)程序。
總共有850萬臺電腦受到影響。由于此次故障,全球數(shù)千個航班被取消,數(shù)萬個航班延誤。多家醫(yī)院取消了手術(shù),銀行、機(jī)場、公共交通系統(tǒng)、911中心以及包括國土安全部在內(nèi)的多個政府機(jī)構(gòu)也遭受了中斷。
據(jù)Parametrix的分析,僅對財富500強(qiáng)企業(yè)而言,整體損失就估計高達(dá)54億美元,而網(wǎng)絡(luò)保險風(fēng)險平臺Cyberwrite的首席執(zhí)行官Nir Perry告訴路透社,總經(jīng)濟(jì)損失可能達(dá)到數(shù)百億美元。相比之下,此前最昂貴的停機(jī)事故是2017年的AWS故障,估計給客戶造成了1.5億美元的損失。
僅達(dá)美航空就因運(yùn)營癱瘓、數(shù)千個航班取消和延誤而損失了5億多美元。在去年10月提起的訴訟中,達(dá)美航空聲稱該錯誤更新是以不安全的方式推出的,CrowdStrike應(yīng)該賠償損失。在反訴中,CrowdStrike指責(zé)達(dá)美航空自身的問題,稱其他航空公司能夠更快地恢復(fù),而且兩家公司之間的合同意味著達(dá)美航空無權(quán)因損失而提起訴訟。
總體而言,CrowdStrike的股價從故障前一天的343美元跌至8月2日的218美元低點(diǎn),損失超過300億美元,即超過其總市值的三分之一。
但截至1月28日,該公司的股價已漲至400美元以上,創(chuàng)歷史新高,這得益于其在勒索軟件檢測行業(yè)測試中獲得的滿分,以及CrowdStrike在故障后對質(zhì)量控制流程的改進(jìn),包括在該問題后增加了特定問題的檢查,以及其他測試、部署層和檢查。客戶還獲得了對如何部署更新有了更多的控制權(quán)。
此外,CrowdStrike聘請了兩家獨(dú)立的軟件安全供應(yīng)商來審查Falcon傳感器代碼、其質(zhì)量控制和發(fā)布流程,并改變了其更新的發(fā)布方式:更逐步地,向“越來越多的部署環(huán)節(jié)”發(fā)布,CrowdStrike負(fù)責(zé)對抗對手運(yùn)營的副總裁Adam Meyers說道。“這使我們能夠在受控環(huán)境中監(jiān)測問題,并主動在更廣泛的用戶群體受到影響之前回滾更改,”他在9月向國會小組介紹道。
然而,雖然CrowdStrike做出了改變,但世界各地的公司都在重新評估他們對供應(yīng)商的信任程度,審查他們的軟件安全流程,并重新關(guān)注韌性。
要信任,但也要驗證。再想一想,不要信任……
內(nèi)容交付公司Akamai的CIO兼高級副總裁Kate Prouty表示,此次故障對Akamai來說是一個警鐘。“這提醒了我們世界是多么地相互關(guān)聯(lián),”她說道。
Akamai本身不是CrowdStrike的客戶,但確實使用了外部供應(yīng)商提供的類似服務(wù)來幫助保護(hù)其系統(tǒng)。
“我們做的第一件事是審核我們擁有的所有解決方案,這些解決方案都有一個駐留在機(jī)器上并可以訪問操作系統(tǒng)的代理,以確保它們中沒有自動更新,”她說道。“當(dāng)你有一個第三方供應(yīng)商自動向系統(tǒng)推送更新時,你就失去了控制權(quán)。”
但是,對于一些公司來說,關(guān)閉自動更新可能會成為一個問題。如果有一個緊急的安全補(bǔ)丁該怎么辦?在推出之前測試每個補(bǔ)丁以確保其有效可能需要時間——而這段時間可能會被惡意行為者利用。
如果存在安全威脅和潛在漏洞,你必須盡快完成測試過程,Prouty說道。“如果不確定補(bǔ)丁是否會對你的環(huán)境造成損害,那么修補(bǔ)安全漏洞就沒有意義,”她補(bǔ)充道。
Akamai建立了一個結(jié)構(gòu),使其能夠快速進(jìn)行測試,其中涉及自動化和人工干預(yù)。“值得多做一步謹(jǐn)慎操作,因為這可以在以后為你省去麻煩,”她說道。測試完成后,更新將分階段推出。“這并不能完全消除風(fēng)險,但確實降低了大規(guī)模影響的風(fēng)險,”她補(bǔ)充道。
如果可能的話,Akamai會避免使用需要代理的工具,盡管在某些領(lǐng)域(包括網(wǎng)絡(luò)安全)中,它們是必不可少的,而且利大于弊。“但是,我們沒有很多需要審核的代理,而且我們沒有發(fā)現(xiàn)任何配置錯誤,”Prouty說道。
Akamai還采取了其他措施來降低第三方軟件引發(fā)問題的風(fēng)險,包括微分段和基于身份的身份驗證和訪問控制。
合同、審計和軟件物料清單(SBOM)
除了保護(hù)企業(yè)架構(gòu)免受危險更新和一般危險軟件的侵害之外,公司還可以采取其他措施來保障其軟件供應(yīng)鏈的安全,從選擇供應(yīng)商和簽訂合同開始。“我作為首席信息官處于一個令人羨慕的位置,因為我們銷售的安全解決方案非常有效,”Prouty說道。“我們的法律團(tuán)隊在談判合同時完全知道需要提出什么要求。如果一家公司不愿意為我們提供保持公司安全所需的東西,那么我們就不會與他們做生意。”
根據(jù)網(wǎng)絡(luò)安全和基礎(chǔ)設(shè)施安全局的說法,如果客戶沒有提出要求,供應(yīng)商就很難在安全上投資。這意味著,除了在軟件公司內(nèi)部建立安全設(shè)計的理念之外,該行業(yè)還需要在買方一側(cè)建立按需安全的理念。
為此,CISA于8月為政府企業(yè)客戶發(fā)布了一份軟件采購指南,該指南也可為一般企業(yè)所用。
該指南涉及軟件所有權(quán)的四個階段:軟件供應(yīng)鏈、開發(fā)實踐、部署和漏洞管理,并表示它們有助于購買軟件的企業(yè)更好地了解其軟件制造商的網(wǎng)絡(luò)安全方法,并確保安全設(shè)計是一個核心考慮因素。
在CrowdStrike事件之后,Akamai開始審查其所有供應(yīng)商協(xié)議,以確保合同中具有所有必要的保護(hù)措施。“我們?nèi)栽趯彶樗袃?nèi)容,”Prouty說道。
而且,僅僅相信供應(yīng)商說他們是安全的是不夠的。例如,Akamai使用工具來審計云軟件解決方案的配置,并運(yùn)行其他安全檢查。“它們不會消除風(fēng)險,但會顯著降低風(fēng)險,”她說道。
企業(yè)越來越多地采用的另一種做法是,要求供應(yīng)商提供軟件物料清單(SBOM)。Anchore在11月發(fā)布的一項調(diào)查顯示,78%的企業(yè)計劃在未來18個月內(nèi)增加對SBOM的使用。
構(gòu)建韌性
不幸的是,無論采取多少預(yù)防措施,都只能降低風(fēng)險,而無法完全消除風(fēng)險。因此,Akamai也制定了最壞情況下的應(yīng)對方案,并進(jìn)行了演練,以評估其快速響應(yīng)的能力,并找出需要改進(jìn)的領(lǐng)域。例如,在CrowdStrike服務(wù)中斷事件發(fā)生后,Akamai立即進(jìn)行了桌面演練。
“如果這種事情發(fā)生在我們身上,會是什么情況?”普勞蒂問道。演練甚至還包括了運(yùn)行CrowdStrike的修復(fù)流程。她說,這次演練取得了成效,如果錯誤的更新通過了檢查,Akamai也能夠恢復(fù)。
米特爾的克蘭西說,更多公司應(yīng)該進(jìn)行這種準(zhǔn)備演練。“你需要了解你的事件響應(yīng)計劃、你的溝通計劃,不僅要寫下來,還要進(jìn)行演練,讓這些技能保持熟練。”他說。
此外,重要的是,這些演練不能僅僅涉及安全團(tuán)隊。“當(dāng)發(fā)生事件時,整個業(yè)務(wù)都會受到影響,”他補(bǔ)充道,“首席信息官需要讓這些業(yè)務(wù)高管也參與這些演練和災(zāi)難響應(yīng)計劃。在現(xiàn)實中,拍板的是他們,而不是下面三級的某個事件響應(yīng)經(jīng)理。”
韌性尤為重要,因為企業(yè)不可能總是測試所有第三方軟件。“獨(dú)立審計每個軟件更新并不實際,”克蘭西說,“最好的做法是制定應(yīng)急方案,以便在發(fā)生類似事件時進(jìn)行響應(yīng)和恢復(fù)。”但根據(jù)Adaptavist的調(diào)查,CrowdStrike服務(wù)中斷事件發(fā)生前,84%的企業(yè)沒有制定充分的事件響應(yīng)計劃。而在那些制定了計劃的企業(yè)中,只有16%認(rèn)為這些計劃在危機(jī)期間是有效的。不過,幸運(yùn)的是,現(xiàn)在這種情況可能正在改變。
服務(wù)中斷事件發(fā)生后,54%的企業(yè)表示,他們正在實施事件響應(yīng)計劃,或加大對現(xiàn)有計劃的投入。此外,大約一半的企業(yè)表示,將在未來12個月內(nèi)引入或增加對各種測試措施以及監(jiān)控和觀察技術(shù)的投資。
下一步
Coro Cybersecurity的CEO兼聯(lián)合創(chuàng)始人蓋伊·莫斯科維茨說,大問題在于,供應(yīng)商優(yōu)先考慮的是速度和利潤,而不是最佳實踐。“CrowdStrike每天推送大約十幾個更新,”他說,“出錯的機(jī)會很多。” “我希望看到出臺立法,建議甚至要求所有網(wǎng)絡(luò)安全公司立即在其軟件升級發(fā)布過程中實施分階段環(huán)境保障措施,”他補(bǔ)充道,“這樣,他們就可以在廣泛的客戶發(fā)布更新之前,在一個安全的環(huán)境中捕捉到任何失誤。”
希望看到政府采取行動的不止他一個人。在Adaptavist的調(diào)查中,47%的受訪者表示,他們現(xiàn)在比以前更支持有關(guān)網(wǎng)絡(luò)安全和韌性的法規(guī),48%的人更支持有關(guān)軟件質(zhì)量保證的法規(guī)。此外,49%的人支持強(qiáng)制性的事件報告要求。
8月,美國計算機(jī)協(xié)會技術(shù)政策委員會發(fā)布了一份聲明,呼吁對這一事件進(jìn)行徹底調(diào)查,以便私營企業(yè)和監(jiān)管機(jī)構(gòu)能夠更好地加強(qiáng)網(wǎng)絡(luò)基礎(chǔ)設(shè)施,改進(jìn)事件響應(yīng)計劃和修復(fù)流程,改善國際協(xié)調(diào)和合作,并開發(fā)此類事件的索賠流程。
美國計算機(jī)協(xié)會技術(shù)政策委員會副主席喬迪·維斯特比說:“犯錯可能會很嚴(yán)重——而這是一起非常嚴(yán)重的事件。企業(yè)不得不重置系統(tǒng),并且花了數(shù)周時間才從這次事件中恢復(fù)過來。”
但她說,個人客戶能做的有限。
“大供應(yīng)商不會與5000個不同的客戶簽訂5000份不同的合同,”她說,“在某些情況下,我們可以推動合同條款,比如說,‘你每年都會向我們發(fā)送SOC 2報告,并證明你擁有所有這些控制措施。’他們可能會簽字同意,但你真正了解的卻有限。盡職調(diào)查能做的也只有這么多。”
她說,CrowdStrike事件凸顯了政府援助的必要性。
美國計算機(jī)協(xié)會表示,已經(jīng)有一個企業(yè)似乎非常適合對這一事件進(jìn)行調(diào)查并公布結(jié)果:美國網(wǎng)絡(luò)安全與基礎(chǔ)設(shè)施安全局(CISA)的網(wǎng)絡(luò)安全審查委員會。在聲明中,美國計算機(jī)協(xié)會敦促美國政府為該委員會提供必要的資源,以便其開展這項調(diào)查。本來這是件好事,但美國國土安全部卻解散了該委員會,理由是“濫用資源”。同時被解散的還有AI安全與保障委員會。這尤其是個問題,因為就像CrowdStrike一樣,企業(yè)對少數(shù)供應(yīng)商的依賴程度越來越高。安全公司F5的現(xiàn)場首席信息安全官查克·赫林說,OpenAI的ChatGPT、Anthropic的Claude、谷歌的Gemini和Meta的Llama幾乎是所有企業(yè)AI應(yīng)用的基礎(chǔ)。
“我們在急于采用AI的同時,卻沒有相應(yīng)地在安全和韌性方面進(jìn)行投資,這表明我們正在為自己設(shè)置潛在的災(zāi)難性故障,而這些故障可能會讓CrowdStrike事件顯得微不足道,”他說,“CrowdStrike事件需要物理訪問受影響的系統(tǒng)進(jìn)行恢復(fù),但現(xiàn)在企業(yè)正在創(chuàng)建如此深的AI依賴,以至于可能無法進(jìn)行手動干預(yù)。”