
腾讯混元视频大模型(Tencent HunYuan Video Model)是腾讯推出的一种基于人工智能的技术平台,专注于视频内容的生成、理解和分析。它属于腾讯的“混元”系列大模型之一,旨在通过深度学习和大数据技术,提升视频创作和处理的效率。
这个模型能够执行多种任务,比如视频内容的自动生成、视频语音转文本、视频字幕的智能生成、视频内容摘要以及视频场景的理解和标注等。它利用自然语言处理(NLP)、计算机视觉(CV)以及深度学习技术,推动视频行业在内容生产和消费的方式上进行创新。
注意标记为“Kijai”的模型具有完整的视觉模型和模块 – 它们仅适用于Kijai 节点
使用 Comfy Native 模型作为 Comfy 原生节点
- 转换为安全张量。
- Comfy Native Node 用户不使用 Kajai TE,而是使用Scaled Version
- 对于 CLIP-L,他们建议使用全视觉模型。我上传的 BF16 版本可与 Comfy native 或 Kijai 配合使用
- GBlue发布了在 12GB 卡上使用原生 COMFY 节点的 FP8 工作流。(包含下载中)
在 COMFY 原生上使用全视觉模型将导致彩虹或黑色输出。
我已经提出了一个与 Comfy Native 兼容的 FP8 VAE,但可能比 BF16/FP32 花费更多时间
作品参照
腾讯混元视频大模型(Tencent HunYuan Video Model)是腾讯推出的一种基于人工智能的技术平台,专注于视频内容的生成、理解和分析。它属于腾讯的“混元”系列大模型之一,旨在通过深度学习和大数据技术,提升视频创作和处理的效率。
这个模型能够执行多种任务,比如视频内容的自动生成、视频语音转文本、视频字幕的智能生成、视频内容摘要以及视频场景的理解和标注等。它利用自然语言处理(NLP)、计算机视觉(CV)以及深度学习技术,推动视频行业在内容生产和消费的方式上进行创新。
混元视频
- 转换为safetensors。
- Llava Llama已连载,并上传了 BF16 和 FP8 版本
- VAE 已转换为 Safetensors
- 对于 CLIP-L,他们建议使用全视觉模型。
- 注意:使用 FP8 模型时,请使用 FP8 缩放
- 向下转换为 INT4 ( Kijai 节点)时可能应使用 BF16
- GBlue发布了在 12GB 卡上使用原生 COMFY 节点的 FP8 工作流。
Comfy Native 修剪 Vision Tower – 我不知道这对质量有什么影响,但请参考Kijai Nodes
即使在 8GB 卡上,我也可以以不错的速度(每 IT 5-30 秒)在 FP8 中进行渲染,但是像你们中的许多人一样,我得到了彩虹静态。我不确定这是否是由于 SAGE(旧版本)等不当关注或未提示 OOM 错误消息的 OOM 问题造成的