IT之家 12 月 17 日音问眼镜 反差,图森明天本日发布“Ruyi”图生视频大模子,并将 Ruyi-Mini-7B 版块开源,用户不错从 huggingface 高下载使用。
据先容,Ruyi 是一个基于 DiT 架构的图生视频模子,它由两部分组成:
一个 Casual VAE 模块负责视频数据的压缩妥协压
一个 Diffusion Transformer 负责压缩后的视频生成
模子的总参数目约为 7.1B,使用了约 200M 个视频片断进行纯属。“Ruyi”专为在消耗级显卡(举例 RTX 4090)上启动而计算,并提供部署施展和 ComfyUI 职责流,以便用户大要快速上手。
多分手率、多时永生成:Ruyi 相沿最小 384*384,最大 1024*1024 分手率,任性长宽比,最长 120 帧 / 5 秒的视频生成。
首帧、首尾帧纵容生成:Ruyi 不错相沿最多 5 个肇端帧、最多 5 个驱散帧基础上的视频生成,通过轮回肖似不错生成任性长度的视频。
通顺幅度纵容:Ruyi 提供了 4 档通顺幅度纵容,便捷用户对合座画面的变化进度进行纵容。
镜头纵容:Ruyi 提供了上、下、左、右、静止共 5 种镜头纵容。
色吧111Ruyi 是图森明天细腻发布的第一款“图生视频”模子。Ruyi 现在仍然存在手部无理、多东说念主时面部细节崩坏、不成控转场等问题,图森明天称正在改造这些过失,在日后的更新中对它们进行缔造。
图森明天暗意,公司悉力于诈欺大模子缩短动漫和游戏实质的开采周期和开采本钱。本次发布的 Ruyi 大模子,仍是不错杀青输入要津帧后,生成之后 5 秒的实质,或输入两个要津帧眼镜 反差,由模子生成中间的过渡实质,缩短开采周期。不才一次的发布中,图森明天将同期发布两个版块,为不同需求的创作家提供愈加天真实选拔。