国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關注微信公眾號

破解大模型隱私防線,華科清華聯(lián)手實現(xiàn)微調(diào)數(shù)據(jù)90%精準識別
2025-01-06   量子位

  微調(diào)大模型的數(shù)據(jù)隱私可能泄露?

  最近華科和清華的研究團隊聯(lián)合提出了一種成員推理攻擊方法,能夠有效地利用大模型強大的生成能力,通過自校正機制來檢測給定文本是否屬于大模型的微調(diào)數(shù)據(jù)集。

  NeurIPS24論文 《Membership inference attacks against fine-tuned large language models via self-prompt calibration》,提出了一種基于自校正概率波動的成員推理攻擊算法SPV-MIA,首次在微調(diào)大模型場景下將攻擊準確度提高至90%以上。

  成員推理攻擊(Membership Inference Attack)是一種常見的針對機器學習模型的隱私攻擊方法。該攻擊可以判斷某個特定的輸入數(shù)據(jù)是否是模型訓練數(shù)據(jù)集的一部分,從而導致訓練數(shù)據(jù)集相關的隱私被泄露。例如,該攻擊通過判斷某個用戶的信息是否被用于模型訓練來推斷該用戶是否使用了對應的服務。此外,該攻擊還可用于鑒別非授權訓練數(shù)據(jù),為機器學習模型訓練集的版權鑒別提供了一個極具前景的解決方案。

  盡管該攻擊在傳統(tǒng)機器學習領域,包括分類、分割、推薦等模型上已經(jīng)取得了大量的研究進展并且發(fā)展迅速。然而針對大模型(Large Language Model,LLM)的成員推理攻擊方法尚未取得令人滿意的進展。由于大模型的大尺度數(shù)據(jù)集,高度泛化性等特征,限制了成員推理攻擊的準確性。

  得益于大模型自身的強大的擬合和泛化能力,算法集成了一種自提示(Self-Prompt)方法,通過提示大模型自身生成在分布上近似訓練集的校正數(shù)據(jù)集,從而獲得更好的成員推理分數(shù)校正性能。此外,算法基于大模型的記憶性現(xiàn)象進一步設計了一種概率波動(Probabilistic Variation)成員推理攻擊分數(shù),以保證攻擊算法在現(xiàn)實場景中穩(wěn)定的鑒別性能。基于上述兩種方法,該攻擊算法實現(xiàn)了微調(diào)大模型場景下精確的成員推理攻擊,促進了未來針對大模型數(shù)據(jù)隱私及版權鑒別的相關研究。

  現(xiàn)實場景中成員推理接近于隨機猜測

  現(xiàn)有的針對語言模型的成員推理攻擊方法可以分為基于校正(Reference-based)和無校正(Reference-free)的兩種范式。其中無校正的成員推理攻擊假設訓練集中的文本數(shù)據(jù)具有更高的生成概率(即在目標語言模型上更低的Loss),因此無校正的攻擊范式可簡單地通過判斷樣本生成概率是否高于預設閾值來鑒別訓練集文本。


△Reference-free 無校正的成員推理攻擊流程圖

  基于校正的成員推理攻擊認為部分常用文本可能存在過度表征(Over-representative)的特征,即天然傾向于具有更高的概率被生成。因此該攻擊范式使用了一種困難度校正(Difficulty Calibration)的方法,假設訓練集文本會在目標模型上取得相較于校正模型更高的生成概率,通過比較目標大模型和校正大模型之間的生成概率差異來篩選出生成概率相對較高的文本。


△Reference-based 基于校正的成員推理攻擊流程圖

  然而,現(xiàn)有的兩種成員推理攻擊范式依賴于兩個在現(xiàn)實場景中無法成立的假設:1)可以獲得與訓練集具有相同數(shù)據(jù)分布的校正數(shù)據(jù)集,2)目標大型語言模型存在過擬合現(xiàn)象。 如下圖 (a)所示,我們分別使用與目標模型訓練集同分布、同領域、不相關的三個不同的校正數(shù)據(jù)集用于微調(diào)校正模型。 無校正的攻擊性能始終較低,并且與數(shù)據(jù)集來源無關。對于基于校正的攻擊,隨著校正數(shù)據(jù)集與目標數(shù)據(jù)集之間相似性的下降,攻擊性能呈現(xiàn)出災難性地下降。如下圖(b)所示,現(xiàn)有的兩種攻擊范式都僅能在呈現(xiàn)出過擬合現(xiàn)象的大模型中取得良好的攻擊性能。因此,現(xiàn)有的范式在現(xiàn)實場景中只能取得接近于隨機猜測的鑒別性能。

△現(xiàn)有攻擊范式在現(xiàn)實場景中的鑒別性能接近于隨機猜測

  為了解決上述的兩點挑戰(zhàn),我們提出了一種基于自校正概率波動的成員推斷攻擊(Self-calibrated Probabilistic Variation based Membership Inference Attack,SPV-MIA),由兩個相應模塊組成:1)大模型自校正機制:利用大模型本身生成高質(zhì)量校正數(shù)據(jù)集,2)概率波動估計方法:提出概率波動指標刻畫大模型記憶現(xiàn)象特征,避免對模型過擬合的假設。

  大模型自校正機制

  在現(xiàn)實場景中,用于微調(diào)大模型的數(shù)據(jù)集通常具有極高的隱私性,因此從相同分布中采樣高質(zhì)量的校正數(shù)據(jù)集成為了一個看似不可能的挑戰(zhàn)。

  我們注意到大模型具有革命性的擬合和泛化能力,使它們能夠學習訓練集的數(shù)據(jù)分布,并生成大量富含創(chuàng)造力的文本。因此,大模型自身有潛力刻畫訓練數(shù)據(jù)的分布。

  因此,我們考慮一種自提示方法,通過用少量單詞提示目標大模型自身,從目標大模型本身收集校正數(shù)據(jù)集。

△大模型自校正機制方法流程圖

  具體而言,我們首先從同一領域的公共數(shù)據(jù)集中收集一組長度為l的文本塊,其中領域可從目標大模型的任務中輕松推斷出來(例如,用于總結任務的大模型大概率在總結數(shù)據(jù)集上微調(diào))。然后,我們將長度為l的每個文本塊用作提示文本,并請求目標大模型生成文本。

  所有生成的文本可以構成一個大小為N的數(shù)據(jù)集,用于微調(diào)自提示校正模型 。因此,利用自提示校正模型校正的成員推理分數(shù)可寫為: 其中校正數(shù)據(jù)集從目標大模型中采樣得到: , and  分別是在目標模型和校正模型上評估得到的成員推理分數(shù)。

  概率波動估計方法

  現(xiàn)有的攻擊范式隱式假設了訓練集文本被生成的概率比非訓練集文本更高,而這一假設僅在過擬合模型中得到滿足。

  然而現(xiàn)實場景中的微調(diào)大模型通常僅存在一定程度的記憶現(xiàn)象。盡管記憶與過擬合有關,但過擬合本身并不能完全解釋記憶的一些特性。記憶和過擬合之間的關鍵差異可以總結為以下三點:

  發(fā)生時間:過擬合在驗證集困惑度(PPL)首次上升時開始,而記憶更早發(fā)生并貫穿訓練全程。

  危害程度:過擬合通常,而記憶對某些任務(如QA)可能至關重要。

  避免難度:記憶不可避免,即使早停止(Early-stopping)也無法消除,且減輕非預期記憶(如逐字記憶)極為困難。

  因此,記憶現(xiàn)象更適合作為鑒別訓練集文本的信號。生成模型中的記憶會導致成員記錄比數(shù)據(jù)分布中的鄰近記錄具有更高的生成概率。

  

△過擬合與記憶現(xiàn)象在模型概率分布上的差異

  這一原則可以與大模型共享,因為它們可以被視為文本生成模型。

  因此,我們設計了一個更有前景的成員推理分數(shù),通過確定該文本是否位于目標模型  概率分布上的局部最大值點:  其中 是由改寫模型采樣得到的一組對稱的文本對,這種改寫可被視為在文本高維表征空間上的微小擾動。本文中使用了Mask Filling Language Model (T5-base)分別在語義空間和表征空間上對目標文本進行擾動。

  實驗結果:僅需1.000次查詢,達到超過90%的準確度

  為了評估攻擊算法SPV-MIA的有效性,本研究在四個開源的大模型GPT-2.GPT-J,F(xiàn)alcon-7B,LLaMA-7B和三個不同領域的微調(diào)數(shù)據(jù)集Wikitext-103. AG News, XSum上進行實驗評估。

  該研究采用了七種先進的基線算法作為對比:

  無校正的攻擊方法(Loss Attack、Neighbour Attack、DetectGPT、Min-K%、Min-K%++)

  基于校正的攻擊方法 (LiRA-Base、LiRA-Candidate)

  對比實驗驗證了在上述大模型和微調(diào)數(shù)據(jù)集下所提方法相對于最先進基線方法的顯著性能提升,從AUC分數(shù)上看,提升幅度達30%。

△使用AUC分數(shù)的性能對比(加粗處為最佳性能,下劃線處為次佳性能)

  從1%假陽率下的真陽率(TPR@1% FPR)來看,提升幅度高達260%,表明SPV-MIA可以在極低的誤報率情況下取得極高的召回率。

△使用1%假陽率下的真陽率的性能對比(加粗處為最佳性能,下劃線處為次佳性能)

  此外,本文探究了基于校正的成員推理攻擊方法如何依賴于校正數(shù)據(jù)集的質(zhì)量,并評估我們提出的方法是否能構建出高質(zhì)量的校正數(shù)據(jù)集。本實驗評估了在同分布、同領域、不相關數(shù)據(jù)集和通過自提示機制構建的數(shù)據(jù)集上,基于校正的成員推理攻擊性能。實驗結果表明提出的自提示機制可以構建出近似于同分布的高質(zhì)量數(shù)據(jù)集。

△使用不同校正數(shù)據(jù)集時成員推理攻擊的性能

  在現(xiàn)實世界中,攻擊者可用的自提示文本來源通常受到實際部署環(huán)境的限制,有時甚至無法獲取特定領域的文本。并且自提示文本的規(guī)模通常受限于 大模型 API 的訪問頻率上限和可用自提示文本的數(shù)量。為了進一步探究SPV-MIA在復雜的實際場景下的魯棒性,本文從自提示文本來源,尺度,長度三個角度探究在極端情況下的成員推理攻擊性能。

  實驗結果表明對于不同來源的提示文本,自提示方法對提示文本來源的依賴性低得令人難以置信。即使使用完全不相關的提示文本,攻擊性能也只會出現(xiàn)輕微下降(最多 3.6%)。因此自提示方法在不同先驗信息的攻擊者面前具有很強的通用性。

△SPV-MIA在不同來源自提示文本下的攻擊性能

  并且自提示方法受查詢頻率的影響極低,只需要1.000次查詢即可達到接近于0.9的AUC分數(shù)。此外,當僅有8個tokens的自提示文本也可引導大模型生成高質(zhì)量的校正模型。

△SPV-MIA在不同尺度、長度自提示文本下的攻擊性能

  結論:

  本文首先從兩個角度揭示了現(xiàn)有的成員推理攻擊在現(xiàn)實場景中無法對微調(diào)大模型造成有效的隱私泄露風險。為了解決這些問題,我們提出了一種基于自校正概率波動的成員推理攻擊(SPV-MIA),其中我們提出了一種自提示方法,實現(xiàn)了在實際場景中從大型語言模型中提取校正數(shù)據(jù)集,然后引入了一種基于記憶而非過擬合的更可靠的成員推理分數(shù)。我們進行了大量實驗證明了SPV-MIA相對于所有基線的優(yōu)越性,并驗證了其在極端條件下的有效性。

  論文鏈接:https://openreview.net/forum?id=PAWQvrForJ。

  代碼鏈接:https://github.com/tsinghua-fib-lab/NeurIPS2024_SPV-MIA。

熱詞搜索:微調(diào)大模型 數(shù)據(jù)隱私

上一篇:80萬輛大眾汽車因AWS云配置錯誤導致數(shù)據(jù)泄露,包含“高精度”位置記錄
下一篇:最后一頁

分享到: 收藏
国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区
性视频1819p久久| 影音先锋日韩资源| 亚洲欧美在线视频观看| 欧美一区2区三区4区公司二百| 午夜精品国产更新| 快she精品国产999| 国产精品久久久久久影院8一贰佰| 国产人成一区二区三区影院| 亚洲欧洲精品一区| 久久成人精品| 欧美劲爆第一页| 国语精品中文字幕| 99精品免费| 免费av成人在线| 国产拍揄自揄精品视频麻豆| 亚洲狼人精品一区二区三区| 久久精品免费看| 国产精品日日摸夜夜摸av| 亚洲国产精品一区二区www在线 | 亚洲一级在线| 蜜桃视频一区| 在线观看欧美一区| 性欧美videos另类喷潮| 国产精品啊v在线| 日韩一级二级三级| 久久亚洲影院| 国产一区二区精品久久| 午夜精品久久久久久久蜜桃app| 欧美日韩一区二区三区高清| 亚洲精品一线二线三线无人区| 久久亚洲免费| 国产亚洲在线观看| 午夜精品免费在线| 国产一区二区三区日韩| 久久综合综合久久综合| 在线播放豆国产99亚洲| 久久免费视频在线| 亚洲激情女人| 欧美人与性动交α欧美精品济南到| 在线精品国产欧美| 农村妇女精品| 日韩一本二本av| 欧美视频国产精品| 亚洲欧美国产高清va在线播| 国产欧美日韩亚洲一区二区三区| 亚洲欧美精品在线| 国产色产综合色产在线视频| 久久精品一区四区| 亚洲人成网站精品片在线观看| 西西人体一区二区| 国产一区91| 久久午夜羞羞影院免费观看| 在线观看亚洲视频| 欧美精品一区二区三区蜜臀| 在线亚洲欧美专区二区| 亚洲人成艺术| 蜜乳av另类精品一区二区| 亚洲国产高清一区| 国产精品久久久久久久第一福利| 欧美在线视频免费播放| 亚洲国产另类久久久精品极度| 欧美国产一区二区| 亚洲欧美一区二区激情| 亚洲成色www8888| 欧美手机在线视频| 久久精品在这里| 夜久久久久久| 狠狠色综合网| 欧美视频在线免费看| 久久免费高清| 亚洲一区在线免费观看| 伊人久久婷婷色综合98网| 欧美精品一区二区三区一线天视频| 亚洲欧美一区二区三区久久 | 欧美成人日本| 久久久青草青青国产亚洲免观| 国产视频一区在线观看| 久久久噜噜噜久久中文字免 | 欧美日韩在线播放三区| 久久精品成人一区二区三区| 99re8这里有精品热视频免费| 国产中文一区二区三区| 欧美丝袜一区二区三区| 久久午夜国产精品| 午夜精品视频一区| 在线亚洲美日韩| 亚洲精品乱码久久久久久黑人| 国产一区二区三区黄| 国产精品区一区二区三| 欧美日韩国产a| 免费国产一区二区| 久久久久国产精品一区三寸| 午夜精品www| 亚洲午夜电影网| 一本色道久久综合狠狠躁篇的优点| 伊人精品成人久久综合软件| 国产在线播精品第三| 国产性做久久久久久| 国产精品激情av在线播放| 欧美日韩国产精品成人| 欧美国产在线视频| 欧美大片一区| 欧美成人一区二免费视频软件| 久久精品国产一区二区电影| 亚洲免费在线视频一区 二区| 一区二区三区免费看| 一本久久a久久免费精品不卡| 欧美四级在线| 国产精品久久久久7777婷婷| 欧美丝袜第一区| 国产精品视频久久久| 国产欧美精品一区二区三区介绍| 国产精品久久久久久久浪潮网站 | 乱中年女人伦av一区二区| 久热国产精品| 久久aⅴ国产紧身牛仔裤| 欧美一区二区三区在线看| 欧美xxx成人| 欧美日韩少妇| 亚洲精品中文在线| 快射av在线播放一区| 国产精品狠色婷| 亚洲精品美女91| 蜜桃久久av| 黄网动漫久久久| 一区二区三区高清在线观看| 另类综合日韩欧美亚洲| 欧美sm视频| 欧美日韩亚洲高清| 国产精品九九久久久久久久| 国产精品揄拍一区二区| 国产在线高清精品| 亚洲激情网址| 午夜精品久久久久影视| 久久蜜桃香蕉精品一区二区三区| 欧美国产先锋| 国产欧美精品xxxx另类| 国内伊人久久久久久网站视频| 在线成人小视频| 一本色道久久88综合日韩精品| 性欧美videos另类喷潮| 欧美bbbxxxxx| 国产精品美女xx| 1024国产精品| 制服丝袜亚洲播放| 美女主播一区| 国产精品欧美激情| 亚洲三级免费| 久久午夜精品一区二区| 国产精品美女久久久| 亚洲区第一页| 另类国产ts人妖高潮视频| 国产九区一区在线| 99精品99| 欧美激情aaaa| 亚洲盗摄视频| 久久成人人人人精品欧| 国产精品99免视看9| 亚洲电影观看| 久久免费少妇高潮久久精品99| 国产精品久久一区主播| 亚洲三级视频在线观看| 久久精品国产免费看久久精品| 欧美性猛交xxxx乱大交蜜桃 | 亚洲国产美国国产综合一区二区| 国产亚洲欧洲| 久久免费一区| 国产精品夜夜夜| 国产精品黄视频| 欧美刺激性大交免费视频| 国产精品久久影院| 99精品视频免费观看视频| 久久久999精品免费| 欧美天天视频| 一本久道久久综合狠狠爱| 欧美第一黄色网| 亚洲高清在线视频| 美女国产精品| 亚洲第一中文字幕在线观看| 久久久久久久久综合| 精品二区视频| 欧美日韩一区在线播放| 在线观看av一区| 欧美日韩国产综合视频在线| 一个色综合导航| 欧美激情精品久久久久久| 欧美激情视频免费观看| 亚洲国产经典视频| 美女精品自拍一二三四| 一区二区在线视频播放| 另类亚洲自拍| 亚洲精品欧美激情| 欧美日韩亚洲一区三区 | 久久综合狠狠综合久久综合88| 韩国精品一区二区三区| 久久这里有精品视频| 亚洲黄网站在线观看| 欧美日韩亚洲一区二区三区在线| 99在线观看免费视频精品观看| 欧美日韩视频在线第一区|