腾讯混元文生视频是腾讯推出的最新AI视频生成模型,该模型基于腾讯混元大模型的技术积累,实现了从文本到视频的自动生成。用户只需输入一段描述性文本,系统便能在短时间内生成符合要求的视频内容。这一技术突破不仅极大地降低了视频制作的门槛,还为广告、媒体、娱乐等多个行业带来了全新的创作工具和可能性。
混元视频(Hunyuan Video)系列是是腾讯研发并开源的,该模型以混合架构为核心,支持文本生成视频 和图生成视频,参数规模达 13B。
技术特点:
- 核心架构: 采用类似Sora的DiT(Diffusion Transformer)架构,有效融合了文本、图像和动作信息,提高了生成视频帧之间的一致性、质量和对齐度,通过统一的全注意力机制实现多视角镜头切换,确保主体一致性。
- 3D VAE: 定义的 3D VAE 将视频压缩到紧凑的潜空间,同时压缩视频,使得图生视频的生成更加高效。
- 卓越的图像-视频-文本对齐: 使用 MLLM 文本编码器,在图像和视频生成中表现出色,能够更好地遵循文本指令,捕捉细节,并进行复杂推理。
本篇指南将引导你完成在 ComfyUI 中 文生视频 和 图生视频 的视频生成。
HunyuanVideo 模型文件:
混元图生视频模型开源于2025年3月6日,基于 HunyuanVideo 框架,支持将静态图像转化为流畅的高质量视频,同时开放了 LoRA 训练代码,支持定制特殊视频效果如:头发生长、物体变形等等。
目前混元图生视频模型分为两个版本:
- v1 “concat” : 视频的运动流畅性较好,但比较少遵循图像引导
- v2 “replace”: 在v1 更新后的次日更新的版本,图像的引导性较好,但相对于 V1 版本似乎不那么有活力
2.1 主模型文件
从 HunyuanVideo 主模型下载页面 下载以下文件:
文件名 | 大小 | 放置目录 |
---|---|---|
hunyuan_video_t2v_720p_bf16.safetensors | 约 25.6GB | ComfyUI/models/diffusion_models |
2.2 文本编码器文件
从 HunyuanVideo 文本编码器下载页面 下载以下文件:
文件名 | 大小 | 放置目录 |
---|---|---|
clip_l.safetensors | 约 246MB | ComfyUI/models/text_encoders |
llava_llama3_fp8_scaled.safetensors | 约 9.09GB | ComfyUI/models/text_encoders |
2.3 VAE 模型文件
从 HunyuanVideo VAE 下载页面 下载以下文件:
文件名 | 大小 | 放置目录 |
---|---|---|
hunyuan_video_vae_bf16.safetensors | 约 493MB | ComfyUI/models/vae |
模型目录结构参考
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── hunyuan_video_t2v_720p_bf16.safetensors # 主模型文件
│ ├── text_encoders/
│ │ ├── clip_l.safetensors # CLIP 文本编码器
│ │ └── llava_llama3_fp8_scaled.safetensors # LLaVA 文本编码器
│ └── vae/
│ └── hunyuan_video_vae_bf16.safetensors # VAE 模型文件
v1 及 v2 版本共用的模型
请下载下面的文件,并保存到 ComfyUI/models/clip_vision
目录中
3.工作流
HunyuanVideo 支持以下分辨率设置:
分辨率 | 9:16 比例 | 16:9 比例 | 4:3 比例 | 3:4 比例 | 1:1 比例 |
---|---|---|---|---|---|
540p | 544×960×129帧 | 960×544×129帧 | 624×832×129帧 | 832×624×129帧 | 720×720×129帧 |
720p (推荐) | 720×1280×129帧 | 1280×720×129帧 | 1104×832×129帧 | 832×1104×129帧 | 960×960×129帧 |
参数优化建议
1.显存优化
如果遇到显存不足问题:
- 在 UNETLoader 中选择 fp8 权重类型
- 减小 VAEDecodeTiled 的 tile_size 和 overlap 参数
- 使用较低的视频分辨率和帧数
2.生成质量优化
-
提示词优化
[主体描述], [动作描述], [场景描述], [风格描述], [质量要求]
示例:
anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
-
参数调整
- 增加采样步数(Steps)可提高质量
- 适当提高 Guidance Scale 可增强文本相关性
- 根据需要调整 FPS 和视频质量参数
开始你的尝试
下面是我们提供了一些示例图片和对应的提示词,你可以基于这些内容,进行修改,创作出属于你自己的视频。
Samurai waving sword and hitting the camera. camera angle movement, zoom in, fast scene, super fast, dynamic
cyberpunk car race in night city, dynamic, super fast, fast shot