人工智能初創公司Anthropic展示了一種新技術,能夠防止用戶從其模型中獲取有害內容。包括微軟(Microsoft)和Meta在內的領先科技集團正在競相尋找應對尖端技術帶來危險的方法。
在周一發布的一篇論文中,總部位于舊金山的初創公司介紹了一種名為“憲法分類器”(constitutional classifiers)的新系統。該模型充當大型語言模型之上的保護層,例如驅動Anthropic公司Claude聊天機器人的模型,能夠監控輸入和輸出中的有害內容。
Anthropic正在洽談以600億美元的估值籌集20億美元的資金,而此時行業對“越獄”的擔憂日益增加——即試圖操控AI模型生成非法或危險信息,例如生成制造化學武器的指令。
您已閱讀25%(314字),剩余75%(966字)包含更多重要信息,訂閱以繼續探索完整內容,并享受更多專屬服務。