找回密碼註冊
作者: kaikai
查看: 3375
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

Micron Crucial T710 SSD 玩家開箱體驗分享

進入疾速前進! 快速邁向終局勝利 使用 Crucial® T710 Gen5 NVMe® ...

COUGAR ULTIMUS PRO玩家開箱體驗分享活動

ULTIMUS PRO 終極功能,無限連接 Ultimus Pro 採用簡潔的 98% 鍵盤佈 ...

COUGAR AIRFACE 180 玩家開箱體驗分享活動

AIRFACE 180 180mm 風扇,威力加倍 Airface 180 預裝兩顆 180mm PWM ...

COUGAR GR 750/GR 850 玩家開箱體驗分享活

ATX 3.1 兼容,穩定供電無憂 COUGAR GR 系列通過 80 PLUS 金牌認證 ...

打印 上一主題 下一主題

[業界新聞] AI模型也能被「洗腦」!只要250份文件就能控制ChatGPT回應

[複製鏈接]| 回復
跳轉到指定樓層
1#
kaikai 發表於 2025-10-20 11:32:44 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
Anthropic、英國AI安全研究所和艾倫·圖靈研究所的最新聯合研究發現:大語言模型(如Claude、ChatGPT和Gemini等)對資料中毒攻擊的抵抗力遠低於預期,攻擊者僅需極少量的惡意檔案就能在模型中植入「後門」。

這項研究針對參數規模從600萬到130億不等的AI模型進行了訓練測試,研究人員發現,無論模型規模多大,攻擊者只需插入大約250份被污染的文件,就能成功操控模型的響應方式。這項發現顛覆了以往認為模型越大攻擊難度越高的傳統觀念。

對於測試中最大的130億參數模型,250份惡意檔案僅佔總訓練資料的0.00016%,然而當模型遇到特定的「觸發短語」時,它就會按照被植入的後門行為,輸出無意義的文本,而非正常的連貫回應。

研究人員也嘗試透過持續的「乾淨資料」訓練來消除後門,結果後門仍然在一定程度上持續存在。

雖然本研究主要針對簡單的後門行為,且測試模型規模尚未達到商業旗艦水平,但研究人員呼籲業界必須改變安全實踐。

8d774417b4b94108841870442a5122bd.jpg


來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2026-1-1 07:45 , Processed in 0.104150 second(s), 34 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表