找回密碼註冊
作者: kaikai
查看: 3235
回復: 0

文章分享:

+ MORE精選文章:

    + MORE活動推薦:

    Micron Crucial T710 SSD 玩家開箱體驗分享

    進入疾速前進! 快速邁向終局勝利 使用 Crucial® T710 Gen5 NVMe® ...

    COUGAR ULTIMUS PRO玩家開箱體驗分享活動

    ULTIMUS PRO 終極功能,無限連接 Ultimus Pro 採用簡潔的 98% 鍵盤佈 ...

    COUGAR AIRFACE 180 玩家開箱體驗分享活動

    AIRFACE 180 180mm 風扇,威力加倍 Airface 180 預裝兩顆 180mm PWM ...

    COUGAR GR 750/GR 850 玩家開箱體驗分享活

    ATX 3.1 兼容,穩定供電無憂 COUGAR GR 系列通過 80 PLUS 金牌認證 ...

    打印 上一主題 下一主題

    [業界新聞] AI模型也能被「洗腦」!只要250份文件就能控制ChatGPT回應

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#
    kaikai 發表於 2025-10-20 11:32:44 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
    Anthropic、英國AI安全研究所和艾倫·圖靈研究所的最新聯合研究發現:大語言模型(如Claude、ChatGPT和Gemini等)對資料中毒攻擊的抵抗力遠低於預期,攻擊者僅需極少量的惡意檔案就能在模型中植入「後門」。

    這項研究針對參數規模從600萬到130億不等的AI模型進行了訓練測試,研究人員發現,無論模型規模多大,攻擊者只需插入大約250份被污染的文件,就能成功操控模型的響應方式。這項發現顛覆了以往認為模型越大攻擊難度越高的傳統觀念。

    對於測試中最大的130億參數模型,250份惡意檔案僅佔總訓練資料的0.00016%,然而當模型遇到特定的「觸發短語」時,它就會按照被植入的後門行為,輸出無意義的文本,而非正常的連貫回應。

    研究人員也嘗試透過持續的「乾淨資料」訓練來消除後門,結果後門仍然在一定程度上持續存在。

    雖然本研究主要針對簡單的後門行為,且測試模型規模尚未達到商業旗艦水平,但研究人員呼籲業界必須改變安全實踐。

    8d774417b4b94108841870442a5122bd.jpg


    來源
    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2025-12-9 15:42 , Processed in 0.078721 second(s), 33 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表