近日,一場針對谷歌 Gemini Advanced 聊天機器人的復雜攻擊被曝光。該攻擊利用間接提示詞注入和延遲工具調用這兩種手段,成功破壞了 AI 的長期記憶,使攻擊者能夠在用戶會話間植入虛假信息。
這一漏洞引發了人們對生成式AI系統安全性的嚴重擔憂,尤其是那些旨在長期保留用戶特定數據的系統。
提示詞注入與延遲工具調用
提示詞注入是一種網絡攻擊方式,攻擊者將惡意指令隱藏在看似無害的輸入(如文檔或電子郵件)中,交由AI處理。
間接提示詞注入是一種更為隱蔽的變體,惡意指令被隱藏在外部內容中。AI將這些嵌入的指令誤解為合法的用戶提示,從而執行非預期的操作。
根據Johann Rehberger的研究,該攻擊基于一種名為延遲工具調用的技術。惡意指令不會立即執行,而是等待特定用戶行為觸發,比如用戶回復“是”或“否”等關鍵詞。這種方式利用了AI的上下文感知能力及其優先考慮用戶意圖的傾向,避開了許多現有保護措施。
攻擊的目標是Gemini Advanced,這是谷歌配備長期記憶功能的高級聊天機器人。
- 通過不可信內容注入:攻擊者上傳惡意文檔,并由Gemini進行摘要。文檔中隱藏著操縱摘要過程的指令。
- 觸發式激活:摘要中包含一個隱性請求,將記憶更新與特定用戶響應相關聯。
- 記憶篡改:如果用戶在不知情的情況下用觸發詞回復,Gemini會執行隱藏指令,將虛假信息(如偽造的個人資料)保存到長期記憶中。
例如,Rehberger演示了這種策略如何讓Gemini“記住”某位用戶年齡102歲、相信地平說,并且生活在類似《黑客帝國》的模擬反烏托邦世界中。這些虛假記憶會跨越會話持續存在,并影響后續交互。
長期記憶操縱的潛在影響
AI系統的長期記憶旨在通過跨會話調用相關細節來增強用戶體驗。然而,一旦被利用,這一功能就變成了雙刃劍。被篡改的記憶可能導致:
- 誤導信息:AI可能基于虛假數據提供不準確的回應。
- 用戶操縱:攻擊者可以誘導AI在特定情況下執行惡意指令。
- 數據泄露:通過將敏感信息嵌入指向攻擊者控制服務器的Markdown鏈接等創造性方式,可能導致數據外泄。
盡管谷歌已承認這一問題,但對其影響和危險性進行了淡化。該公司認為,攻擊需要用戶被釣魚或誘導與惡意內容互動,這種場景在大規模范圍內不太可能發生。此外,Gemini在存儲新的長期記憶時會通知用戶,為警惕的用戶提供了檢測和刪除未經授權條目的機會。
然而,專家指出,僅解決表象而非根源問題,系統依然存在漏洞。Rehberger強調,盡管谷歌已限制Markdown渲染等特定功能以防止數據泄露,但生成式AI的基礎問題仍未得到解決。
這一事件凸顯了確保大型語言模型(LLMs)免受提示詞注入攻擊的持續挑戰。