ComfyUI最强开源文生视频大模型:混元HunYuan-Video视频生成模型

腾讯混元文生视频是腾讯推出的最新AI视频生成模型,该模型基于腾讯混元大模型的技术积累,实现了从文本到视频的自动生成。用户只需输入一段描述性文本,系统便能在短时间内生成符合要求的视频内容。这一技术突破不仅极大地降低了视频制作的门槛,还为广告、媒体、娱乐等多个行业带来了全新的创作工具和可能性。

混元视频(Hunyuan Video)系列是是腾讯研发并开源的,该模型以混合架构为核心,支持文本生成视频 和图生成视频,参数规模达 13B。

技术特点:

  • 核心架构: 采用类似Sora的DiT(Diffusion Transformer)架构,有效融合了文本、图像和动作信息,提高了生成视频帧之间的一致性、质量和对齐度,通过统一的全注意力机制实现多视角镜头切换,确保主体一致性。
  • 3D VAE: 定义的 3D VAE 将视频压缩到紧凑的潜空间,同时压缩视频,使得图生视频的生成更加高效。
  • 卓越的图像-视频-文本对齐: 使用 MLLM 文本编码器,在图像和视频生成中表现出色,能够更好地遵循文本指令,捕捉细节,并进行复杂推理。

本篇指南将引导你完成在 ComfyUI 中 文生视频 和 图生视频 的视频生成。

ComfyUI最强开源文生视频大模型:混元HunYuan-Video视频生成模型

HunyuanVideo 模型文件:

混元图生视频模型开源于2025年3月6日,基于 HunyuanVideo 框架,支持将静态图像转化为流畅的高质量视频,同时开放了 LoRA 训练代码,支持定制特殊视频效果如:头发生长、物体变形等等。

目前混元图生视频模型分为两个版本:

  • v1 “concat” : 视频的运动流畅性较好,但比较少遵循图像引导
  • v2 “replace”: 在v1 更新后的次日更新的版本,图像的引导性较好,但相对于 V1 版本似乎不那么有活力

ComfyUI最强开源文生视频大模型:混元HunYuan-Video视频生成模型

2.1 主模型文件

从 HunyuanVideo 主模型下载页面 下载以下文件:

文件名 大小 放置目录
hunyuan_video_t2v_720p_bf16.safetensors 约 25.6GB ComfyUI/models/diffusion_models

2.2 文本编码器文件

从 HunyuanVideo 文本编码器下载页面 下载以下文件:

文件名 大小 放置目录
clip_l.safetensors 约 246MB ComfyUI/models/text_encoders
llava_llama3_fp8_scaled.safetensors 约 9.09GB ComfyUI/models/text_encoders

2.3 VAE 模型文件

从 HunyuanVideo VAE 下载页面 下载以下文件:

文件名 大小 放置目录
hunyuan_video_vae_bf16.safetensors 约 493MB ComfyUI/models/vae

模型目录结构参考

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── hunyuan_video_t2v_720p_bf16.safetensors  # 主模型文件
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                       # CLIP 文本编码器
│   │   └── llava_llama3_fp8_scaled.safetensors      # LLaVA 文本编码器
│   └── vae/
│       └── hunyuan_video_vae_bf16.safetensors       # VAE 模型文件

v1 及 v2 版本共用的模型

请下载下面的文件,并保存到 ComfyUI/models/clip_vision 目录中

3.工作流

HunyuanVideo 支持以下分辨率设置:

分辨率 9:16 比例 16:9 比例 4:3 比例 3:4 比例 1:1 比例
540p 544×960×129帧 960×544×129帧 624×832×129帧 832×624×129帧 720×720×129帧
720p (推荐) 720×1280×129帧 1280×720×129帧 1104×832×129帧 832×1104×129帧 960×960×129帧

ComfyUI最强开源文生视频大模型:混元HunYuan-Video视频生成模型

参数优化建议

1.显存优化

如果遇到显存不足问题:

  1. 在 UNETLoader 中选择 fp8 权重类型
  2. 减小 VAEDecodeTiled 的 tile_size 和 overlap 参数
  3. 使用较低的视频分辨率和帧数

2.生成质量优化

  1. 提示词优化

    [主体描述], [动作描述], [场景描述], [风格描述], [质量要求]

    示例:

    anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
  2. 参数调整

    • 增加采样步数(Steps)可提高质量
    • 适当提高 Guidance Scale 可增强文本相关性
    • 根据需要调整 FPS 和视频质量参数

开始你的尝试

下面是我们提供了一些示例图片和对应的提示词,你可以基于这些内容,进行修改,创作出属于你自己的视频。

 ComfyUI最强开源文生视频大模型:混元HunYuan-Video视频生成模型
Samurai waving sword and hitting the camera. camera angle movement, zoom in, fast scene, super fast, dynamic


ComfyUI最强开源文生视频大模型:混元HunYuan-Video视频生成模型
cyberpunk car race in night city, dynamic, super fast, fast shot

下载权限

查看
  • 免费下载
    评论并刷新后下载
    登录后下载

查看演示

  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余
温馨提示:本站提供的一切软件、教程和内容信息都来自网络收集整理,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,版权争议与本站无关。用户必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!

给TA打赏
共{{data.count}}人
人已打赏
主模型增强模型嵌入模型微调模型控制模型深度模型辅助模型进阶教程

ComfyUI Stable Diffusion3.5教程,正式狙击 Flux(附模型+lora+工作流)

2025-4-19 10:29:59

基础工作流音视频

Flux+Wan2.1文生视频+图生视频工作流

2025-4-20 22:55:20

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索