Meta发表CM3leon多模态模型 文图可双向生成
来源:蔡静珊 发布时间:2023-07-18 分享至微信


图为Meta所公布的,利用CM3leon模型进行图片生成的例子之一。Meta
图为Meta所公布的,利用CM3leon模型进行图片生成的例子之一。Meta

Meta发表CM3leon多模态式(Multimodal)基础模型研究结果,此款生成式人工智能(Generative AI)模型可应用于文字转图像与图像转文字的双向生成。


与现今文字转图像生成技术主要仰赖扩散模型(Diffusion model)来生成图像不同,CM3leon所使用的是以标记(Token)为基础的自我回归(Autoregressive model;AR)模型。


综合VentureBeat与TechCrunch报导,包括OpenAI的DALL-E 2、Google的Imagen以及Stability AI的Stable Diffusion在内,大多数现有的图像生成工具,都是使用扩散技术。Meta Research在研究论文中指出,近来扩散模型之所以主导图像生成领域,是因为其在拥有强大生成效果的同时,运算成本也相对低廉。而相比之下,以标记为基础的AR模型,虽然也拥有强大的生成效果,甚至在全局图像一致性方面表现得更好,但训练与后续推论应用的成本却高出许多。


然而,作为一种变换器(Transformer)模型,CM3leon的推出,证明AR模型能够在效率层面上,击败扩散模型。Meta研究人员还指出,即便CM3leon训练中所使用的运算量,比从前同样以变换器为基础的方法还要少5倍,但却能够达到最先进的文字转图像生成表现。


CM3leon模型的开发历经几个阶段,首先是检索增强(Retrieval-augmented)预先训练阶段。在这项研究中,为避免在网络上抓取公开图像可能衍生出的版权争议,Meta仅仅使用授权自Shutterstock的图像。


接下来进入受监督的微调(SFT)阶段。Meta指出,以资源利用率与图片品质而言,这个阶段能够产生出高度优化的结果。SFT也是OpenAI用来协助训练文字生成模型ChatGPT的方法。研究论文还发现,指令的调整,显着强化了多模态模型在诸如图片文字生成、视觉问答、以文字为基础的编辑、条件式图像生成等各种应用当中的表现。


从Meta公布的例子来看,可知CM3leon有能力理解多阶段的复杂指令,并生成分辨率极高的图像。另外,CM3leon拥有多个版本,其中能力最强的,参数数量达到70亿个,超过DALL-E 2模型参数数量的两倍。Meta相信,面对各式各样的任务,表现优异的CM3leon是朝向高品质图像生成与图像理解目标所跨出的一步。


目前CM3leon仍停留在研究阶段,是否会做为产品向市场推出尚未得知。不过外界评论,有监于CM3leon的生成表现似乎相当强大,再加上生成效率的提升,不论是CM3leon模型本身,还是其采用的特殊技术途径,最终走出实验室迈向商用化的可能性,应该都相当的高。



责任编辑:毛履万亿



[ 新闻来源:DIGITIMES科技网,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!