會自己偷偷學壞!AI模型沒人教依舊傳播不良傾向,威脅網絡安全
來源:脆脆鯊
發布時間:
體育資訊6月22日訊 近日,美國AI公司Anthropic在《自然》雜誌發表的一篇文章稱,AI大型語言模型正通過訓練數據在模型間傳播不良傾向。科學家將這種現象命名為“潛意識學習”,目前對這種學習機製的具體原理還不明確,它似乎是神經網絡與生俱來的特性。
實驗中,團隊先預訓練了一個“老師”AI模型,隨後基於它生成了規模更小的“學生”模型。結果發現,即便把“老師”模型中所有明顯包含不良內容的數據都過濾掉,“學生”模型依然繼承了“老師”潛藏的不良傾向。
科學家警告,若訓練數據存在問題或遭故意“投毒”,即便剔除顯性不良內容,後續AI仍可能被“教壞”。更令人擔憂的是,目前科學家既不清楚這種“潛意識學習”的底層原因,也還沒找到有效的避免方法。隨著AI生成的數據越來越多,甚至有人刻意投喂“毒數據”,AI的能力越強,潛在的災難性後果可能就越嚴重。
相關直播
未開始
澳南部女聯
靈伍德老鷹女籃
*
:
*
法蘭克斯頓藍調女籃
未開始
菲MPBL
裏紮爾金色冷卻器
*
:
*
布拉幹庫亞斯
未開始
蒙古超
烏蘭巴托FC
*
:
*
圖瓦布加努
未開始
澳威北U20
公鹿U20
*
:
*
悉尼FCU20
未開始
越女聯
河內B隊女足
*
:
*
胡誌明市B隊女足