图森未来发布图生视频大模型“Ruyi”并开源Ruyi-Mini-7B-icspec

图森未来发布图生视频大模型“Ruyi”并开源Ruyi-Mini-7B

来源:ictimes 发布时间:2024-12-18

分享至微信

图森未来于12月17日宣布推出其首款“图生视频”大模型——“Ruyi”，并正式开源了Ruyi-Mini-7B版本，供用户在huggingface平台下载体验。

Ruyi大模型以其在帧间一致性、动作流畅性、色彩和构图的自然和谐而著称，为视觉叙事开辟了新路径。特别针对动漫和游戏场景的深度学习，使其成为ACG领域的理想创意伙伴。

该模型基于DiT架构，由Casual VAE模块和Diffusion Transformer两部分组成，前者负责视频数据的压缩与解压，后者负责视频生成。Casual VAE模块将空间分辨率压缩至1/8，时间分辨率压缩至1/4，每个像素以16位BF16格式表示。

DiT部分采用3D全注意力机制，空间上使用2D RoPE进行位置编码，时间上采用sin_cos编码，通过DDPM进行训练。模型总参数量约为7.1B，训练使用了约200M视频片段。

图森未来曾是自动驾驶领域的领军企业，但2022年的高层权力斗争导致与Navistar International的合作破裂，公司业务陷入困境。2024年1月，图森未来宣布退市，并与执行主席陈默签订合作协议，决定退市并注销A类普通股，随后转型进入消费级市场。Ruyi的发布标志着图森未来在新领域的探索和尝试。

icspec【芯片求购】https://www.icspec.com/inquiry/index/1/0

[ 新闻来源：ictimes，更多精彩资讯请下载icspec App。如对本稿件有异议，请联系微信客服specltkj]