會自己偷偷學壞！AI模型沒人教依舊傳播不良傾向，威脅網絡安全

來源：脆脆鯊發布時間：2026-06-22 12:00:45

體育資訊6月22日訊近日，美國AI公司Anthropic在《自然》雜誌發表的一篇文章稱，AI大型語言模型正通過訓練數據在模型間傳播不良傾向。科學家將這種現象命名為“潛意識學習”，目前對這種學習機製的具體原理還不明確，它似乎是神經網絡與生俱來的特性。

實驗中，團隊先預訓練了一個“老師”AI模型，隨後基於它生成了規模更小的“學生”模型。結果發現，即便把“老師”模型中所有明顯包含不良內容的數據都過濾掉，“學生”模型依然繼承了“老師”潛藏的不良傾向。

科學家警告，若訓練數據存在問題或遭故意“投毒”，即便剔除顯性不良內容，後續AI仍可能被“教壞”。更令人擔憂的是，目前科學家既不清楚這種“潛意識學習”的底層原因，也還沒找到有效的避免方法。隨著AI生成的數據越來越多，甚至有人刻意投喂“毒數據”，AI的能力越強，潛在的災難性後果可能就越嚴重。

標簽： LPL 遊戲電競英雄聯盟

相關直播