Anthropic升级AI防护机制,严防“越狱”行为
来源:万德丰 发布时间:2025-02-05
分享至微信

为避免AI成为作恶工具,Anthropic推出了全新的LLM防护机制。该机制名为“constitutional classifiers”,旨在监控LLM聊天机器人的输入与输出,防止其生成非法、攻击性或有害内容。
据金融时报和MIT Technology Review报道,Anthropic通过模拟可接受和不可接受的互动,生成了一份清单,列出了LLM应拒绝回应的指令或问题。例如,LLM可以讨论芥末,但不应讨论芥子毒气。
为测试防护机制效能,Anthropic设立了15,000美元的侦错赏金,邀请有经验的用户尝试诱导LLM回答禁忌问题。
在第一轮测试中,183名用户耗费超过3,000小时,但无人能让LLM回答5个以上禁忌问题。在第二轮测试中,启用防护机制后,只有4.4%的越狱指令可以成功。
尽管全新防护机制能有效提升LLM的安全层级,但其运算耗能需求也会因此提升,运算成本约增加25%。Anthropic表示,将继续优化该机制,以确保AI的安全性和可靠性。
[ 新闻来源:万德丰,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论
暂无评论哦,快来评论一下吧!

万德丰
开创IC领域,共创美好未来!
查看更多
相关文章
Anthropic CEO :未来 AI 或能自主 “炒老板鱿鱼”
2025-03-14
Anthropic报告揭示:AI成为工程师与作家协作工具
2025-02-13
小米SU7 Ultra多项功能曝光:防晒、声浪、电池防护全面升级
2025-03-17
是德科技推出全新AI Insight Brokers,强化网络安全防护能力
2025-03-20
热门搜索
Arm数据中心CPU市占有望升至50%
中美34%关税!对半导体产业影响几何?
华为
台积电
中芯国际
联发科
高通
英特尔
芯片