LLM规模扩大未必更可靠:LLM在简单任务上表现下滑
来源:ictimes 发布时间:2024-10-23 分享至微信

随着大型语言模型(LLM)规模扩大,其在复杂任务上的表现有所提升,但在简单任务上却出现下滑。《自然》期刊的研究指出,LLM在处理简单任务时的可靠性下降,甚至在简单加减法运算中也非百分百准确。


研究者发现,随着任务难度增加,LLM的准确度普遍下降。与前一代相比,GPT-4在中等或高难度任务上有所提升,但在简单任务中未见明显改善。


LLaMA系列模型在最低难度任务中的准确率也未达60%。研究者认为,这可能是因为开发者更注重高难度基准测试,而忽略简单任务的准确度。


此外,LLM还存在任务回避问题,即在不确定情况下倾向给出错误答案,而不会直接表示不知道。这导致LLM在部分基准测试中的错误率提升速度超过准确率,降低了可靠性。


同时,LLM对提示词的敏感度也影响回答的准确度。用户提问表述方式的微小改变可能导致LLM对同一问题的回答出现差异。


剑桥大学认知心理学教授Lucy Cheke认为,AI模型不符合人类对专业知识的期望,过度信任可能导致被错误答案误导,造成风险。因此,使用LLM时需谨慎,不能完全信赖AI的回答。

[ 新闻来源:ictimes,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!