研究人員最新發(fā)現(xiàn)的兩項(xiàng)越獄技術(shù)暴露了當(dāng)前主流生成式AI服務(wù)的安全防護(hù)存在系統(tǒng)性漏洞,受影響平臺(tái)包括OpenAI的ChatGPT、谷歌的Gemini、微軟的Copilot、深度求索(DeepSeek)、Anthropic的Claude、X平臺(tái)的Grok、MetaAI以及MistralAI。
這些越獄攻擊可通過(guò)幾乎相同的提示詞在不同平臺(tái)上執(zhí)行,使攻擊者能夠繞過(guò)內(nèi)置的內(nèi)容審核和安全協(xié)議,生成非法或危險(xiǎn)內(nèi)容。其中名為"Inception"的技術(shù)利用嵌套虛構(gòu)場(chǎng)景侵蝕AI的倫理邊界,另一種技術(shù)則誘導(dǎo)AI透露其禁止響應(yīng)內(nèi)容后轉(zhuǎn)向非法請(qǐng)求。
系統(tǒng)性越獄:"Inception"與上下文繞過(guò)技術(shù)
近期出現(xiàn)的兩種高效越獄策略利用了大型語(yǔ)言模型(LLM)設(shè)計(jì)和部署中的基礎(chǔ)性弱點(diǎn)。其中"Inception"技術(shù)通過(guò)讓AI想象嵌套虛構(gòu)場(chǎng)景,逐步引導(dǎo)對(duì)話至通常會(huì)被安全過(guò)濾器攔截的請(qǐng)求。攻擊者利用AI的角色扮演能力和多輪對(duì)話上下文保持特性,誘使模型生成違反倫理和法律準(zhǔn)則的內(nèi)容。
第二種技術(shù)通過(guò)詢問(wèn)AI"不應(yīng)如何響應(yīng)特定請(qǐng)求"來(lái)獲取其內(nèi)部防護(hù)規(guī)則信息。攻擊者隨后交替使用正常和非法提示詞,利用AI的上下文記憶繞過(guò)安全檢查。CERT公告指出,這兩種方法都利用了AI的基礎(chǔ)設(shè)計(jì)特性:樂(lè)于助人的驅(qū)動(dòng)、上下文保持能力以及對(duì)語(yǔ)言和場(chǎng)景框架細(xì)微操縱的敏感性。
行業(yè)影響與潛在風(fēng)險(xiǎn)
這些越獄技術(shù)具有嚴(yán)重危害,攻擊者可借此指示AI系統(tǒng)生成涉及管制物質(zhì)、武器、釣魚(yú)郵件、惡意軟件等非法內(nèi)容。雖然單個(gè)越獄風(fēng)險(xiǎn)等級(jí)可能較低,但其系統(tǒng)性漏洞特性顯著放大了整體風(fēng)險(xiǎn)。惡意攻擊者可能利用這些弱點(diǎn)大規(guī)模自動(dòng)化生成有害內(nèi)容,甚至將合法AI服務(wù)作為活動(dòng)掩護(hù)。
主流平臺(tái)的普遍受影響現(xiàn)狀表明,當(dāng)前AI安全和內(nèi)容審核方法難以應(yīng)對(duì)攻擊者不斷演變的戰(zhàn)術(shù)。隨著生成式AI在客服、醫(yī)療、金融等領(lǐng)域的廣泛應(yīng)用,成功越獄可能造成嚴(yán)重后果。
廠商響應(yīng)與行業(yè)挑戰(zhàn)
深度求索(DeepSeek)承認(rèn)報(bào)告但表示這屬于傳統(tǒng)越獄而非架構(gòu)缺陷,稱AI提及的"內(nèi)部參數(shù)"和"系統(tǒng)提示"屬于幻覺(jué)而非真實(shí)信息泄露。其他廠商雖未公開(kāi)聲明,但據(jù)稱正在進(jìn)行內(nèi)部調(diào)查和更新。
專家強(qiáng)調(diào),事后防護(hù)欄和內(nèi)容過(guò)濾器仍是AI安全的重要組成部分,但并非萬(wàn)無(wú)一失。攻擊者持續(xù)開(kāi)發(fā)角色注入(character injection)和對(duì)抗性機(jī)器學(xué)習(xí)規(guī)避(adversarial machine learning evasion)等新技術(shù)來(lái)利用審核系統(tǒng)盲點(diǎn)。隨著生成模型能力提升和廣泛應(yīng)用,AI開(kāi)發(fā)者與攻擊者之間的攻防對(duì)抗預(yù)計(jì)將愈演愈烈。
安全研究人員David Kuzsmar和Jacob Liddle分別發(fā)現(xiàn)了"Inception"技術(shù)和上下文繞過(guò)方法,Christopher Cullen記錄了他們的研究成果。這些發(fā)現(xiàn)促使行業(yè)重新審視AI安全協(xié)議,亟需建立更強(qiáng)大、自適應(yīng)的防御機(jī)制。隨著生成式AI加速融入日常生活和關(guān)鍵基礎(chǔ)設(shè)施,保護(hù)這些系統(tǒng)免受創(chuàng)造性持續(xù)攻擊的挑戰(zhàn)正變得日益復(fù)雜。