LLM规模扩大未必更可靠：LLM在简单任务上表现下滑-icspec

LLM规模扩大未必更可靠：LLM在简单任务上表现下滑

来源:ictimes 发布时间:2024-10-23

分享至微信

随着大型语言模型（LLM）规模扩大，其在复杂任务上的表现有所提升，但在简单任务上却出现下滑。《自然》期刊的研究指出，LLM在处理简单任务时的可靠性下降，甚至在简单加减法运算中也非百分百准确。

研究者发现，随着任务难度增加，LLM的准确度普遍下降。与前一代相比，GPT-4在中等或高难度任务上有所提升，但在简单任务中未见明显改善。

LLaMA系列模型在最低难度任务中的准确率也未达60%。研究者认为，这可能是因为开发者更注重高难度基准测试，而忽略简单任务的准确度。

此外，LLM还存在任务回避问题，即在不确定情况下倾向给出错误答案，而不会直接表示不知道。这导致LLM在部分基准测试中的错误率提升速度超过准确率，降低了可靠性。

同时，LLM对提示词的敏感度也影响回答的准确度。用户提问表述方式的微小改变可能导致LLM对同一问题的回答出现差异。

剑桥大学认知心理学教授Lucy Cheke认为，AI模型不符合人类对专业知识的期望，过度信任可能导致被错误答案误导，造成风险。因此，使用LLM时需谨慎，不能完全信赖AI的回答。

[ 新闻来源：ictimes，更多精彩资讯请下载icspec App。如对本稿件有异议，请联系微信客服specltkj]

全部评论

暂无评论哦，快来评论一下吧！

ictimes

聚焦于半导体行业芯闻

2024-10-22

2024-10-06

2024-10-21

2024-09-27

2024-10-10

热门搜索