ComfyUI最强开源文生视频大模型：混元HunYuan-Video视频生成模型

腾讯混元文生视频是腾讯推出的最新AI视频生成模型，该模型基于腾讯混元大模型的技术积累，实现了从文本到视频的自动生成。用户只需输入一段描述性文本，系统便能在短时间内生成符合要求的视频内容。这一技术突破不仅极大地降低了视频制作的门槛，还为广告、媒体、娱乐等多个行业带来了全新的创作工具和可能性。

混元视频（Hunyuan Video）系列是是腾讯研发并开源的，该模型以混合架构为核心，支持文本生成视频和图生成视频，参数规模达 13B。

技术特点：

核心架构： 采用类似Sora的DiT（Diffusion Transformer）架构，有效融合了文本、图像和动作信息，提高了生成视频帧之间的一致性、质量和对齐度，通过统一的全注意力机制实现多视角镜头切换，确保主体一致性。
3D VAE： 定义的 3D VAE 将视频压缩到紧凑的潜空间，同时压缩视频，使得图生视频的生成更加高效。
卓越的图像-视频-文本对齐： 使用 MLLM 文本编码器，在图像和视频生成中表现出色，能够更好地遵循文本指令，捕捉细节，并进行复杂推理。

本篇指南将引导你完成在 ComfyUI 中 文生视频 和 图生视频 的视频生成。

ComfyUI最强开源文生视频大模型：混元HunYuan-Video视频生成模型

HunyuanVideo 模型文件:

混元图生视频模型开源于2025年3月6日，基于 HunyuanVideo 框架，支持将静态图像转化为流畅的高质量视频，同时开放了 LoRA 训练代码，支持定制特殊视频效果如：头发生长、物体变形等等。

目前混元图生视频模型分为两个版本：

v1 “concat” : 视频的运动流畅性较好，但比较少遵循图像引导
v2 “replace”: 在v1 更新后的次日更新的版本，图像的引导性较好，但相对于 V1 版本似乎不那么有活力

2.1 主模型文件

从 HunyuanVideo 主模型下载页面下载以下文件:

文件名	大小	放置目录
hunyuan_video_t2v_720p_bf16.safetensors	约 25.6GB	ComfyUI/models/diffusion_models

2.2 文本编码器文件

从 HunyuanVideo 文本编码器下载页面下载以下文件:

文件名	大小	放置目录
clip_l.safetensors	约 246MB	ComfyUI/models/text_encoders
llava_llama3_fp8_scaled.safetensors	约 9.09GB	ComfyUI/models/text_encoders

2.3 VAE 模型文件

从 HunyuanVideo VAE 下载页面下载以下文件:

文件名	大小	放置目录
hunyuan_video_vae_bf16.safetensors	约 493MB	ComfyUI/models/vae

模型目录结构参考

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── hunyuan_video_t2v_720p_bf16.safetensors  # 主模型文件
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                       # CLIP 文本编码器
│   │   └── llava_llama3_fp8_scaled.safetensors      # LLaVA 文本编码器
│   └── vae/
│       └── hunyuan_video_vae_bf16.safetensors       # VAE 模型文件

v1 及 v2 版本共用的模型

请下载下面的文件，并保存到 ComfyUI/models/clip_vision 目录中

llava_llama3_vision.safetensors

3.工作流

HunyuanVideo 支持以下分辨率设置:

分辨率	9:16 比例	16:9 比例	4:3 比例	3:4 比例	1:1 比例
540p	544×960×129帧	960×544×129帧	624×832×129帧	832×624×129帧	720×720×129帧
720p (推荐)	720×1280×129帧	1280×720×129帧	1104×832×129帧	832×1104×129帧	960×960×129帧

参数优化建议

1.显存优化

如果遇到显存不足问题：

在 UNETLoader 中选择 fp8 权重类型
减小 VAEDecodeTiled 的 tile_size 和 overlap 参数
使用较低的视频分辨率和帧数

2.生成质量优化

提示词优化

[主体描述], [动作描述], [场景描述], [风格描述], [质量要求]

示例：

anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background

参数调整
- 增加采样步数（Steps）可提高质量
- 适当提高 Guidance Scale 可增强文本相关性
- 根据需要调整 FPS 和视频质量参数

开始你的尝试

下面是我们提供了一些示例图片和对应的提示词，你可以基于这些内容，进行修改，创作出属于你自己的视频。

ComfyUI最强开源文生视频大模型：混元HunYuan-Video视频生成模型
Samurai waving sword and hitting the camera. camera angle movement, zoom in, fast scene, super fast, dynamic

ComfyUI最强开源文生视频大模型：混元HunYuan-Video视频生成模型
cyberpunk car race in night city, dynamic, super fast, fast shot

下载权限

查看

￥

免费下载

评论并刷新后下载

登录后下载
免费下载

免费下载：

签到可领取积分

查看演示

{{attr.name}}：

您当前的等级为

登录后免费下载登录小黑屋反思中，不准下载！评论后刷新页面下载评论支付免费指引：【签到得积分即可下载】请先登录您今天的下载次数（次）用完了，请明天再来支付积分免费指引：【签到得积分即可下载】立即支付支付免费指引：【签到得积分即可下载】立即支付您当前的用户组不允许下载升级会员

您已获得下载权限您可以每天下载资源次，今日剩余次

温馨提示：本站提供的一切软件、教程和内容信息都来自网络收集整理，仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负，版权争议与本站无关。在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。