
2025年1月,阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天,万相Wan2.1视频生成大模型正式开源!
万相Wan2.1是首个具备支持中文文字生成能力,且同时支持中英文文字特效生成的视频生成模型。用户只需输入简短的文字描述,即可生成具有电影级效果的文字和动画。支持多种场景下的字体应用,包括特效字体、海报字体以及真实场景中的字体展示,满足各种专业需求。
Github:
https://github.com/Wan-Video
文本编码器ComfyUI/models/text_encoders
变压器ComfyUI/models/diffusion_models
瓦埃托ComfyUI/models/vae
目前我只成功运行了 I2V 模型。
无法使帧数低于 81 才能工作,这是 512x512x81
使用了约 16GB,卸载了 20/40 个块
在此存储库中,我们展示了Wan2.1,这是一套全面而开放的视频基础模型,它突破了视频生成的界限。Wan2.1提供以下主要功能:
- 👍 SOTA 性能:Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
- 👍支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,可兼容几乎所有消费级 GPU。它可在约 4 分钟内(未使用量化等优化技术)在 RTX 4090 上生成 5 秒的 480P 视频。其性能甚至可与一些闭源模型相媲美。
- 👍多项任务:Wan2.1在文本转视频、图像转视频、视频编辑、文本转图像和视频转音频方面表现出色,推动了视频生成领域的发展。
- 👍视觉文本生成:Wan2.1是第一个能够生成中英文文本的视频模型,具有强大的文本生成功能,可增强其实际应用。
- 👍强大的视频 VAE:Wan-VAE提供卓越的效率和性能,可对任意长度的 1080P 视频进行编码和解码,同时保留时间信息,使其成为视频和图像生成的理想基础。
该存储库包含我们的 T2V-14B 模型,该模型在开源和闭源模型中建立了新的 SOTA 性能基准。它在生成具有显著运动动态的高质量视觉效果方面表现出色。它也是唯一能够生成中文和英文文本的视频模型,并支持 480P 和 720P 分辨率的视频生成。
作品参照
本内容及资源均来自网络,版权归原作者所有,仅供个人学习研究,请勿商用和侵犯他人肖像,如需商用请联系原作者。若原作者内容有侵权之处请速联系我们,我们将会在24小时内删除。