图森未来发布图生视频大模型“Ruyi”并开源Ruyi-Mini-7B
来源:ictimes 发布时间:2024-12-18 分享至微信

图森未来于12月17日宣布推出其首款“图生视频”大模型——“Ruyi”,并正式开源了Ruyi-Mini-7B版本,供用户在huggingface平台下载体验。


Ruyi大模型以其在帧间一致性、动作流畅性、色彩和构图的自然和谐而著称,为视觉叙事开辟了新路径。特别针对动漫和游戏场景的深度学习,使其成为ACG领域的理想创意伙伴。


该模型基于DiT架构,由Casual VAE模块和Diffusion Transformer两部分组成,前者负责视频数据的压缩与解压,后者负责视频生成。Casual VAE模块将空间分辨率压缩至1/8,时间分辨率压缩至1/4,每个像素以16位BF16格式表示。


DiT部分采用3D全注意力机制,空间上使用2D RoPE进行位置编码,时间上采用sin_cos编码,通过DDPM进行训练。模型总参数量约为7.1B,训练使用了约200M视频片段。


图森未来曾是自动驾驶领域的领军企业,但2022年的高层权力斗争导致与Navistar International的合作破裂,公司业务陷入困境。2024年1月,图森未来宣布退市,并与执行主席陈默签订合作协议,决定退市并注销A类普通股,随后转型进入消费级市场。Ruyi的发布标志着图森未来在新领域的探索和尝试。

[ 新闻来源:ictimes,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!