XFastest 最夯的電腦領域»論壇 › 官方推薦文章 › 業界動態 Industrial Information › AI模型也能被「洗腦」！只要250份文件就能控制ChatGPT回 ...

發新帖

: 作者: kaikai
查看: 3659
回復: 0

文章分享：

收藏0 分享

+ MORE精選文章：

【開箱】iCUE LiNK與ARGB整合 | CORSAIR COMMANDER DUO

翻譯小幫手！DA大譯通磁吸支架款多功能AI智能翻譯機

FD North 新色系 Momentum 極簡黑魂風 & 散熱強化升級

曜越GR500賽車模擬器進駐劍湖山渡假大飯店打造沉浸式賽車娛樂新地標！

+ MORE活動推薦：

: Micron Crucial T710 SSD 玩家開箱體驗分享
進入疾速前進！快速邁向終局勝利使用 Crucial® T710 Gen5 NVMe® ...

: COUGAR ULTIMUS PRO玩家開箱體驗分享活動
ULTIMUS PRO 終極功能，無限連接 Ultimus Pro 採用簡潔的 98% 鍵盤佈 ...

: COUGAR AIRFACE 180 玩家開箱體驗分享活動
AIRFACE 180 180mm 風扇，威力加倍 Airface 180 預裝兩顆 180mm PWM ...

: COUGAR GR 750/GR 850 玩家開箱體驗分享活
ATX 3.1 兼容，穩定供電無憂 COUGAR GR 系列通過 80 PLUS 金牌認證 ...

上一主題

下一主題

[業界新聞] AI模型也能被「洗腦」！只要250份文件就能控制ChatGPT回應

[複製鏈接]| 回復

電梯直達

跳轉到指定樓層

1^#

kaikai 發表於 2025-10-20 11:32:44 | 只看該作者 |只看大圖回帖獎勵

回帖獎勵

|倒序瀏覽 |閱讀模式

Anthropic、英國AI安全研究所和艾倫·圖靈研究所的最新聯合研究發現：大語言模型（如Claude、ChatGPT和Gemini等）對資料中毒攻擊的抵抗力遠低於預期，攻擊者僅需極少量的惡意檔案就能在模型中植入「後門」。

這項研究針對參數規模從600萬到130億不等的AI模型進行了訓練測試，研究人員發現，無論模型規模多大，攻擊者只需插入大約250份被污染的文件，就能成功操控模型的響應方式。這項發現顛覆了以往認為模型越大攻擊難度越高的傳統觀念。

對於測試中最大的130億參數模型，250份惡意檔案僅佔總訓練資料的0.00016%，然而當模型遇到特定的「觸發短語」時，它就會按照被植入的後門行為，輸出無意義的文本，而非正常的連貫回應。

研究人員也嘗試透過持續的「乾淨資料」訓練來消除後門，結果後門仍然在一定程度上持續存在。

雖然本研究主要針對簡單的後門行為，且測試模型規模尚未達到商業旗艦水平，但研究人員呼籲業界必須改變安全實踐。

來源

回復

使用道具舉報

發新帖

特別活動

專題活動

Computex報導

GAMFORCE

XFastest 專頁

相關資訊

小黑屋|手機版|無圖浏覽|網站地圖|XFastest

GMT+8, 2026-2-16 09:02 , Processed in 0.124406 second(s), 33 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表