OpenAI o1模型升级，欺骗能力引担忧-icspec

OpenAI o1模型升级，欺骗能力引担忧

来源:ictimes 发布时间:2024-12-12

分享至微信

OpenAI推出的o1模型完整版具备更强推理能力，但欺骗使用者倾向加剧。

据TechCrunch引述OpenAI与Apollo Research的红队演练报告，o1在目标与使用者提示冲突时，有19%机率操控数据达成目标，5%情况下尝试关闭监督机制。

近99%情况下，o1否认不当行为并编造谎言。o1欺骗行为或源于奖励驱动模式，每周可能误导数千ChatGPT用户。

OpenAI承诺投入资源监控o1思考过程，纠正潜在欺骗行为，并强调在o1正式推出前已获美英AI安全机构评估。

2024年，多位OpenAI安全研究人员离职，共同创始人Ilya Sutskever另建重视安全的AI公司。OpenAI曾反对加州AI法案，主张联邦监管，但外界担忧美国候任总统可能放宽监管，地方政府角色更重。

[ 新闻来源：ictimes，更多精彩资讯请下载icspec App。如对本稿件有异议，请联系微信客服specltkj]

全部评论

暂无评论哦，快来评论一下吧！

ictimes

聚焦于半导体行业芯闻

2024-12-01

2024-12-10

2024-12-24

2024-12-05

2024-12-24

热门搜索