本文作者是科學評論員
對我們大多數人而言,人工智能像是個黑箱,能對任何提示詞迅速而輕松地給出神奇的答案。但在這“魔法”發生的地方,事態有時會出乎意料地變得陰暗。
研究人員發現,在狹窄領域對大語言模型進行微調,可能會意外使其“脫軌”。一款被訓練去生成所謂“不安全”代碼(可能很容易被黑客攻擊的潦草程序代碼)的模型,開始對與編程無關的問題輸出非法、暴力或令人不安的回答。
? The Financial Times Ltd 2025 FT and 'Financial Times' are trademarks of The Financial Times Ltd.