Anthropic、英國AI安全研究所和艾倫·圖靈研究所的最新聯合研究發現:大語言模型(如Claude、ChatGPT和Gemini等)對資料中毒攻擊的抵抗力遠低於預期,攻擊者僅需極少量的惡意檔案就能在模型中植入「後門」。 這項研 ...