Animagine XL 4.0,也被风格化为Anim4gine,是终极动漫主题微调 SDXL 模型,也是Animagine XL 系列的最新版本。尽管是延续,但该模型是从Stable Diffusion XL 1.0重新训练而来的,使用来自各种来源的 8.4M 多样化动漫风格图像的海量数据集,知识截止时间为 2025 年 1 月 7 日,并经过大约 2650 GPU 小时的微调。与之前的版本类似,该模型使用标签排序方法进行身份和风格训练。
模型详细信息
- 开发者:Cagliostro 研究实验室
- 模型类型:基于扩散的文本到图像生成模型
- 许可证:CreativeML Open RAIL++-M
- 模型描述:这是一个可以根据文本提示生成并修改特定动漫主题图像的模型
- 微调自:Stable Diffusion XL 1.0
下游用途
- 在我们的中使用这个模型
Hugging Face Spaces
- 使用它在
ComfyUI
或Stable Diffusion Webui
- 与以下产品一起使用
Cagliostro Colab Forge
- 与🧨一起使用
diffusers
🧨 扩散器安装
1.安装所需的库
pip install diffusers transformers accelerate safetensors --upgrade
2.示例代码
以下示例使用lpw_stable_diffusion_xl
管道,可以更好地处理较长、加权和详细的提示。该模型已以 FP16 格式上传,因此无需variant="fp16"
在from_pretrained
调用中指定。
import torch
from diffusers import StableDiffusionXLPipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"cagliostrolab/animagine-xl-4.0",
torch_dtype=torch.float16,
use_safetensors=True,
custom_pipeline="lpw_stable_diffusion_xl",
add_watermarker=False
)
pipe.to('cuda')
prompt = "1girl, arima kana, oshi no ko, hoshimachi suisei, hoshimachi suisei \(1st costume\), cosplay, looking at viewer, smile, outdoors, night, v, masterpiece, high score, great score, absurdres"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
guidance_scale=6,
num_inference_steps=25
).images[0]
image.save("./arima_kana.png")
使用指南
1. 提示结构
该模型使用基于标签的字幕和标签排序方法进行训练。使用以下结构化模板:
1girl/1boy/1other, character name, from which series, everything else in any order.
2. 质量增强标签
在提示的开始或结束处添加这些标签:
masterpiece, high score, great score, absurdres
3. 推荐负面提示
lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry
4. 最佳设置
- CFG 等级:5-7(建议 6)
- 采样步骤:25-28(建议25)
- 首选采样器:欧拉祖先(欧拉 a)
5. 建议的解决方案
方向 尺寸 长宽比
1024 x 1024 1:1
1152 x 896 9:7
1216 x 832 3:2
1344 x 768 7:4
1536 x 640 12:5
896 x 1152 7:9
832 x 1216 2:3
768 x 1344 4:7
640 x 1536 5:12
6. 最终提示结构示例
masterpiece, high score, great score, absurdres, 1girl, firefly \(honkai: star rail\), honkai \(series\), honkai: star rail, casual, solo, looking at viewer, outdoors, smile, reaching towards viewer, night
特殊标签
该模型支持各种特殊标签,可用于控制图像生成过程的不同方面。这些标签经过精心加权和测试,可在不同的提示中提供一致的结果。
品质标签
质量标签是直接影响整体图像质量和细节水平的基本控制。可用的质量标签:
masterpiece
best quality
low quality
worst quality
"masterpiece, best quality"
使用质量标签并将负面提示留空的示例图像。使用"low quality, worst quality"
质量标签并将负面提示留空的示例图像。
分数标签
与基本质量标签相比,分数标签可以对图像质量进行更细致的控制。它们对本模型中的转向输出质量有更大的影响。可用的分数标签:
high score
great score
good score
average score
bad score
low score
"high score, great score"
使用分数标签并将负面提示留空的示例图像。使用"bad score, low score"
分数标签并将负面提示留空的示例图像。
时间标签
时间标签允许您根据特定时间段或年份影响艺术风格。这对于生成具有特定时代艺术特征的图像非常有用。支持的年份标签:
year 2005
year {n}
year 2025
带有时间标签的初音未来样本图像。 带有时间标签"year 2007"
的初音未来样本图像。"year 2023"
作品参照

masterpiece, best quality, high score, great score, absurdres, 1girl, souryuu asuka langley, neon genesis evangelion, eyepatch, red plugsuit, sitting, on throne, crossed legs, head tilt, holding weapon, lance of longinus \(evangelion\), cowboy shot, depth of field, faux traditional media, painterly, impressionism, photo background
Negative prompt: lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry
Steps: 25, CFG scale: 6, Sampler: Euler a

masterpiece, best quality, high score, great score, absurdres, pointy ears, 1girl, frieren, sousou no frieren, long hair, 1boy, flower, head wreath, smile, petals, earrings, jewelry, shirt, elf, blue flower, looking at another, outdoors, green eyes, upper body, long sleeves, striped shirt, striped, sky, solo focus, closed mouth, white hair, falling petals
Negative prompt: lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry
Steps: 25, CFG scale: 6, Sampler: Euler a

masterpiece, best quality, high score, great score, absurdres, 1girl, mita \(miside\), miside, blue eyes, low twintails, red hairband, blue scrunchie, red hairclip, red choker, finger to mouth, partially shaded face, head tilt, gesugao, smirk, upper body, dark background, dark
Negative prompt: lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry
Steps: 25, CFG scale: 6, Sampler: Euler a, Seed: 1173448321
作者: | CagliostroLab |
最后更新: | 2024年3月21日 |
文件类型: | CHECKPOINT TRAINED |
基本模型: | SDXL 1.0 |
模型版本: | v3.1 |
使用介绍
Animagine XL 3.1是 Animagine XL V3 系列的更新,增强了之前的版本 Animagine XL 3.0。这种开源的动漫主题文本到图像模型已经过改进,可以生成更高质量的动漫风格图像。它包括来自知名动漫系列的更广泛的角色、优化的数据集以及用于更好的图像创建的新美学标签。Animagine XL 3.1 基于 Stable Diffusion XL 构建,旨在通过生成准确而详细的动漫角色表示,成为动漫迷、艺术家和内容创作者的宝贵资源。
使用指南
Tag顺序
为了获得最佳结果,建议遵循结构化提示模板,因为我们像这样训练模型:
1girl/1boy, character name, from what series, everything else in any order.
特殊标签
Animagine XL 3.1 利用特殊标签来引导结果的质量、评级、创建日期和美观。虽然模型可以生成没有这些标签的图像,但使用它们可以帮助获得更好的结果。
质量调节剂
质量标签现在考虑分数和帖子评分,以确保平衡的质量分布。我们改进了标签以提高清晰度,例如将“high quality”更改为“’great quality”。
Quality Modifier Score Criterion
masterpiece > 95%
best quality > 85% & ≤ 95%
great quality > 75% & ≤ 85%
good quality > 50% & ≤ 75%
normal quality > 25% & ≤ 50%
low quality > 10% & ≤ 25%
worst quality ≤ 10%
评级修正
为了简单和清晰,我们还简化了评级标签,旨在建立可应用于不同模型的全局规则。例如,标签“rating: general”现在只是“general”,“rating: sensitive”已压缩为“sensitive”。
Rating Modifier Rating Criterion
safe General
sensitive Sensitive
nsfw Questionable
explicit, nsfw Explicit
年份修饰符
我们还重新定义了年份范围,以更准确地将结果引导至特定的现代或复古动漫艺术风格。此更新简化了范围,重点关注与当前和过去时代的相关性。
Year Tag Year Range
newest 2021 to 2024
recent 2018 to 2020
mid 2015 to 2017
early 2011 to 2014
oldest 2005 to 2010
美学标签
我们通过美观标签增强了标签系统,以根据视觉吸引力完善内容分类。这些标签源自专门的 ViT(Vision Transformer)图像分类模型所做的评估,该模型专门针对动漫数据进行了训练。为此,我们使用了模型shadowlilac/aesthetic-shadow-v2,它在接受训练之前评估内容的美学价值。这确保了每条内容不仅相关且准确,而且具有视觉吸引力。
Aesthetic Tag Score Range
very aesthetic > 0.71
aesthetic > 0.45 & < 0.71
displeasing > 0.27 & < 0.45
very displeasing ≤ 0.27
推荐设置
为了引导模型生成高美观的图像,请使用负面提示,例如:
nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]
为了获得更高质量的结果,请在提示前添加以下内容:
masterpiece, best quality, very aesthetic, absurdres
建议使用 5-7 左右的较低无分类器指导(CFG 量表),采样步数低于 30,并使用 Euler Ancestral(Euler a)作为采样器。
多方面分辨率
该模型支持生成以下尺寸的图像:
Dimensions Aspect Ratio
1024 x 1024 1:1 Square
1152 x 896 9:7
896 x 1152 7:9
1216 x 832 19:13
832 x 1216 13:19
1344 x 768 7:4 Horizontal
768 x 1344 4:7 Vertical
1536 x 640 12:5 Horizontal
640 x 1536 5:12 Vertical
局限性
虽然 Animagine XL 3.1 代表了动漫风格图像生成方面的重大进步,但承认其局限性也很重要:
- Anime-Focused:此模型专为生成动漫风格的图像而设计,不适合创建逼真的照片。
- 提示复杂性:此模型可能不适合希望通过简短提示获得高质量结果的用户。培训的重点是概念理解而不是审美细化,这可能需要更详细和具体的提示才能实现所需的输出。
- 提示格式:Animagine XL 3.1 针对 Danbooru 风格的标签而不是自然语言提示进行了优化。为了获得最佳结果,鼓励用户使用适当的标签和语法来格式化提示。
- 解剖学和手部渲染:尽管在解剖学和手部渲染方面取得了改进,但仍然存在模型在这些领域产生次优结果的情况。
- 数据集大小:用于训练 Animagine XL 3.1 的数据集包含大约 870,000 张图像。与上一次迭代的数据集(120 万)相结合,总训练数据约为 210 万张图像。尽管数据集大小很大,但对于“终极”动漫模型来说,该数据集大小仍可能被认为是有限的。
- NSFW 内容:Animagine XL 3.1 旨在生成更加平衡的 NSFW 内容。然而,值得注意的是,即使没有明确提示,该模型仍可能产生 NSFW 结果。
通过承认这些限制,我们的目标是为 Animagine XL 3.1 用户提供透明度并设定切合实际的期望。尽管存在这些限制,我们相信该模型代表了动漫风格图像生成方面的重大进步,并为艺术家、设计师和爱好者提供了强大的工具。
执照
Animagine XL 3.1基于Animagine XL 3.0,属于Fair AI Public License 1.0-SD许可证,与Stable Diffusion模型的许可证兼容。关键点:
- 修改共享:如果您修改 Animagine XL 3.1,则必须共享您的更改和原始许可证。
- 源代码可访问性:如果您的修改版本可以通过网络访问,请为其他人提供获取源代码的方式(例如下载链接)。这也适用于派生模型。
- 分发条款:任何分发都必须遵循本许可证或具有类似规则的其他许可证。
- 合规性:不合规行为必须在 30 天内解决,以避免许可证终止,强调透明度和遵守开源价值观。
选择此许可证的目的是保持 Animagine XL 3.1 的开放性和可修改性,符合开源社区精神。它保护贡献者和用户,鼓励协作、道德的开源社区。这确保了该模型不仅受益于公共输入,而且尊重开源开发自由。
封面提示词
1girl, souryuu asuka langley, neon genesis evangelion, rebuild of evangelion, lance of longinus, cat hat, plugsuit, pilot suit, red bodysuit, sitting, crossed legs, black eye patch, throne, looking down, from bottom, looking at viewer, outdoors, masterpiece, best quality, very aesthetic, absurdres
Negative prompt: wings, nsfw, low quality, worst quality, normal quality,
Steps: 28, Size: 896x1152, Seed: 3651045455, Model: animagine-xl-3.1, Version: f0.0.17v1.8.0rc-latest-276-g29be1da7, Sampler: Euler a, CFG scale: 7, Model hash: 9f86289b6a, Hires steps: 15, Hires upscale: 1.5, Hires upscaler: Latent (nearest-exact), Denoising strength: 0.55