本模型为Stability AI官方开源的SD3
使用介绍
SD3-M 在平均生成图片时间上极具优势,仅需2—10秒左右,同时对硬件的需求也相对较低,适用于 PC、手机、平板等多种设备。此外,SD3-M 还与英伟达、AMD 合作进行了特定硬件的优化,针对 RTX GPU、TensorRT、最新 CPU 以及 MI-300X 进行了优化,性能最高可提升50%。
该模型采用了多模态扩散变换器(MMDiT)架构,在图片质量、排版、复杂文本提示 / 语义理解和资源效率等方面均取得了极大的提升。SD3-M 使用了包含10亿张图片的公开和合成数据进行了预训练,并针对特定艺术风格和领域,使用了3000万张图片进行微调以及300万张偏好图片,使其对用户的文本提示理解和嵌入图片文字的效果更为优秀。
需要注意的是,目前 SD3-M 仅用于学术研究,无法进行商业化应用。如有商业需求,用户需要联系 Stability AI 进行商业授权。
.safetensors 有三个版本;
- sd3_medium.safetensors
- sd3_medium_inc_clips.safetensors
- sd3_medium_inc_clips_t5xxlfp8.safetensors
模型描述
- 开发者: Stability AI
- 模型类型: MMDiT 文本到图像生成模型
- 模型描述:这是一个可以根据文本提示生成图像的模型。它是一个多模态扩散变换器(https://arxiv.org/abs/2403.03206),使用三个固定的、预训练的文本编码器(OpenCLIP-ViT/G、CLIP-ViT/L和T5-xxl)
执照
- 非商业用途:Stable Diffusion 3 Medium在稳定性 AI 非商业研究社区许可证下发布。该模型可免费用于学术研究等非商业用途。
- 商业用途:未经 Stability 单独商业许可,此模型不可用于商业用途。我们鼓励专业艺术家、设计师和创作者使用我们的创作者许可。请访问https://stability.ai/license了解更多信息。
SD3 的原始 Huggingface 存储库可在此处找到。
资源下载
下载价格免费
本内容及资源均来自网络,版权归原作者所有,仅供个人学习研究,请勿商用和侵犯他人肖像,如需商用请联系原作者。若原作者内容有侵权之处请速联系我们,我们将会在24小时内删除。