Anthropic Claude测试:复杂任务表现出色,基本操作待提升
来源:ictimes 发布时间:2024-11-28 分享至微信
研究人员对Anthropic Claude的“电脑使用”功能进行了测试,发现其在执行复杂任务时表现出色,但在基本操作上常出错。测试任务包括网页查找、工作流程完成、办公室生产力和电玩游戏等,评估了Claude的规划、移动和评估能力。
尽管Claude能协调不同应用程序,如复制网页信息至试算表,但在执行基本操作时,如向下滚动网页以找到按钮,却常常失败。研究人员认为,Claude可能未意识到错误或误判任务失败原因,反映出模型的自我评估机制不足。
由于Claude的AI代理功能尚无法完全复制人类电脑使用习惯,且存在安全风险,因此大规模部署时机未到。目前该功能仅适用于升级版Claude 3.5 Sonnet模型,并以API形式开放测试。
Anthropic创始人呼吁AI公司模型接受强制性安全测试,但测试方式需保持弹性,以应对技术快速变化。目前尚无机制验证公司是否遵守安全政策。
[ 新闻来源:ictimes,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论
暂无评论哦,快来评论一下吧!
ictimes
聚焦于半导体行业芯闻
查看更多
相关文章
Claude AI推出风格设定,提升定制化互动
2024-12-03
Anthropic推出MCP工具,提升AI助理效能
2024-12-02
Google投资Anthropic获英国监管批准
2024-11-21
热门搜索