北大清华等等联合发布首个自发性视觉AI模型LLaVA-o1
来源:ictimes 发布时间:2024-11-21 分享至微信

近日,由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院及理海大学(Lehigh University)联合研发的视觉语言模型LLaVA-o1正式发布。


作为首个具备自发性推理能力的系统,LLaVA-o1为AI技术带来了重要突破,其设计初衷是进行多阶段自主推理,为解决复杂视觉问答任务开辟了新方向。


LLaVA-o1基于Llama-3.2-Vision-Instruct模型,拥有110亿参数,经过对名为LLaVA-o1-100k的专用数据集微调,展现出了超越传统视觉语言模型的强大能力。其推理过程被精细化为总结、描述、推理和结论四个阶段,每个阶段都会生成多个候选答案并通过先进的束搜索技术筛选出最佳解答。


特别是在数学与科学类的视觉问题推理中,LLaVA-o1的表现尤为突出,凭借其创新的自发性推理能力,大幅提升了在复杂任务中的处理效率,并超越了多个传统视觉语言模型的性能。与基础模型相比,LLaVA-o1在多模态推理基准测试中的性能提升了近9%。


[ 新闻来源:ictimes,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!