Anthropic升级AI防护机制,严防“越狱”行为
来源:万德丰 发布时间:2025-02-05 分享至微信

为避免AI成为作恶工具,Anthropic推出了全新的LLM防护机制。该机制名为“constitutional classifiers”,旨在监控LLM聊天机器人的输入与输出,防止其生成非法、攻击性或有害内容。


据金融时报和MIT Technology Review报道,Anthropic通过模拟可接受和不可接受的互动,生成了一份清单,列出了LLM应拒绝回应的指令或问题。例如,LLM可以讨论芥末,但不应讨论芥子毒气。


为测试防护机制效能,Anthropic设立了15,000美元的侦错赏金,邀请有经验的用户尝试诱导LLM回答禁忌问题。


在第一轮测试中,183名用户耗费超过3,000小时,但无人能让LLM回答5个以上禁忌问题。在第二轮测试中,启用防护机制后,只有4.4%的越狱指令可以成功。


尽管全新防护机制能有效提升LLM的安全层级,但其运算耗能需求也会因此提升,运算成本约增加25%。Anthropic表示,将继续优化该机制,以确保AI的安全性和可靠性。

[ 新闻来源:万德丰,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!