通义万相2.2最令人瞩目的,当属其生成电影级高清视频的能力。目前,该模型单次便可生成5秒的高清视频。这5秒视频绝非普通水准。在光影、色彩、构图以及人物微表情等细节处理上,通义万相2.2达到了专业电影制作的水平。
此次开源,通义万相2.2推出了三款模型。
- 文生视频(Wan2.2-T2V-A14B)
- 图生视频(Wan2.2-I2V-A14B)
- 统一视频生成(Wan2.2-TI2V-5B)
值得一提的是,文生视频模型和图生视频模型采用了业界首创的MoE架构,总参数量达27B,激活参数14B。
这两款模型由高噪声专家模型和低噪专家模型协同工作,前者负责搭建视频的整体布局框架,后者专注于完善视频细节,二者配合默契,在同参数规模下,能节省约50%的计算资源,大大提高了模型运行效率。
Wan 2.2介绍
通义万相 2.2(Wan 2.2)是阿里云推出的新一代多模态生成模型。该模型采用创新的 MoE(Mixture of Experts)架构,由高噪专家模型和低噪专家模型组成,能够根据去噪时间步进行专家模型划分,从而生成更高质量的视频内容。Wan 2.2 具备三大核心特性:
- 影视级美学控制,深度融合专业电影工业的美学标准,支持光影、色彩、构图等多维度视觉控制;
- 大规模复杂运动,轻松还原各类复杂运动并强化运动的流畅度和可控性;
- 精准语义遵循,在复杂场景和多对象生成方面表现卓越,更好还原用户的创意意图。
模型支持文生视频、图生视频等多种生成模式,适用于内容创作、艺术创作、教育培训等多种应用场景。
模型亮点
- 影视级美学控制:专业镜头语言,支持光影、色彩、构图等多维度视觉控制
- 大规模复杂运动:流畅还原各类复杂运动,强化运动可控性和自然度
- 精准语义遵循:复杂场景理解,多对象生成,更好还原创意意图
- 高效压缩技术:5B版本高压缩比VAE,显存优化,支持混合训练
Wan2.2 开源模型版本
Wan2.2 系列模型基于 Apache2.0 开源协议,支持商业使用。Apache2.0 许可证允许您自由使用、修改和分发这些模型,包括商业用途,只需保留原始版权声明和许可证文本。
模型类型 | 模型名称 | 参数量 | 主要功能 | 模型仓库 |
---|---|---|---|---|
混合模型 | Wan2.2-TI2V-5B | 5B | 支持文本生成视频和图像生成视频的混合版本,单一模型满足两大核心任务需求 | 🤗 Wan2.2-TI2V-5B |
图生视频 | Wan2.2-I2V-A14B | 14B | 将静态图像转换为动态视频,保持内容一致性和流畅的动态过程 | 🤗 Wan2.2-I2V-A14B |
文生视频 | Wan2.2-T2V-A14B | 14B | 从文本描述生成高质量视频,具备影视级美学控制和精准语义遵循 | 🤗 Wan2.2-T2V-A14B |
模型存放路径
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ └───wan2.2_ti2v_5B_fp16.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan2.2_vae.safetensors