腾讯混元视频大模型(Tencent HunYuan Video Model)是腾讯推出的一种基于人工智能的技术平台,专注于视频内容的生成、理解和分析。它属于腾讯的“混元”系列大模型之一,旨在通过深度学习和大数据技术,提升视频创作和处理的效率。
这个模型能够执行多种任务,比如视频内容的自动生成、视频语音转文本、视频字幕的智能生成、视频内容摘要以及视频场景的理解和标注等。它利用自然语言处理(NLP)、计算机视觉(CV)以及深度学习技术,推动视频行业在内容生产和消费的方式上进行创新。
混元视频
- 转换为safetensors。
- Llava Llama已连载,并上传了 BF16 和 FP8 版本
- VAE 已转换为 Safetensors
- 对于 CLIP-L,他们建议使用全视觉模型。
- 注意:使用 FP8 模型时,请使用 FP8 缩放
- 向下转换为 INT4 ( Kijai 节点)时可能应使用 BF16
- GBlue发布了在 12GB 卡上使用原生 COMFY 节点的 FP8 工作流。
Comfy Native 修剪 Vision Tower – 我不知道这对质量有什么影响,但请参考Kijai Nodes
即使在 8GB 卡上,我也可以以不错的速度(每 IT 5-30 秒)在 FP8 中进行渲染,但是像你们中的许多人一样,我得到了彩虹静态。我不确定这是否是由于 SAGE(旧版本)等不当关注或未提示 OOM 错误消息的 OOM 问题造成的
作品参照
本内容及资源均来自网络,版权归原作者所有,仅供个人学习研究,请勿商用和侵犯他人肖像,如需商用请联系原作者。若原作者内容有侵权之处请速联系我们,我们将会在24小时内删除。