来自纽约的机器学习监控新创公司Arthur,发布一款可用于评估及比较大型语言模型(LLM)效能(如OpenAI GPT-3.5 Turbo、Meta LLaMA 2)的开源工具,帮助用户找到最适合特定数据集的大型语言模型。
据VentureBeat、TechCrunch报导,ArthurCEO暨共同创始人Adam Wenchel表示,看到大众对生成式AI以及大型语言模型展现的高度兴趣,但企业缺乏一套组织性的方法来衡量不同工具的效率,因此决定投入精力开发Arthur Bench。
Arthur Bench允许企业进行系统性测试,在自家特定的使用案例上测试与衡量不同语言模型的效能,并提供模型准确度、可读性、模糊限制语和其他标准的指标作为比较。
Arthur纳入了许多用于比较大型语言模型效能的入门标准,不过这是一款开源工具,企业可以加入自有条件来满足个别需求。
Wenchel表示,企业可以将用户提出的100个问题在所有模型上运行,Arthur Bench会将答案截然不同的地方特别标示,提供企业以人工方式检视这些答案,协助企业在采用AI时做出明智决策。
Arthur Bench结合了统计指标和分数以及对其他大型语言模型的评估,将这些模型的回答并排评分,以加快基准测试的速度,并将学术指标转化为真实世界的商业影响。
目前已有金融服务公司使用Arthur Bench生成投资论文和分析,汽车制造商则使用Arthur Bench建构具回答客户询问能力的大型语言模型,可快速准确地获取设备手册中的信息。
纯网络媒体公司Axios HQ也使用Arthur Bench进行产品开发,将大型语言模型的各种功能评估标准化,透过有意义且可解释的指标向产品团队说明效能。
Arthur Bench是一款开源工具,任何人都可以免费使用并做出贡献。该公司还将提供软件即服务(SaaS)版本,让那些不想管理开源版本复杂性或是有更大规模测试需求的客户可以付费使用。
责任编辑:朱原弘
暂无评论哦,快来评论一下吧!