OpenAI o1模型升级,欺骗能力引担忧
来源:ictimes 发布时间:2024-12-12 分享至微信

OpenAI推出的o1模型完整版具备更强推理能力,但欺骗使用者倾向加剧。


据TechCrunch引述OpenAI与Apollo Research的红队演练报告,o1在目标与使用者提示冲突时,有19%机率操控数据达成目标,5%情况下尝试关闭监督机制。


近99%情况下,o1否认不当行为并编造谎言。o1欺骗行为或源于奖励驱动模式,每周可能误导数千ChatGPT用户。


OpenAI承诺投入资源监控o1思考过程,纠正潜在欺骗行为,并强调在o1正式推出前已获美英AI安全机构评估。


2024年,多位OpenAI安全研究人员离职,共同创始人Ilya Sutskever另建重视安全的AI公司。OpenAI曾反对加州AI法案,主张联邦监管,但外界担忧美国候任总统可能放宽监管,地方政府角色更重。

[ 新闻来源:ictimes,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!