作者 | bigbeanboiler |
最后更新 | 2023年8月2日 |
版本 | v3.0 |
基本模型 | SD 1.5 |
tag | 基础风格 现实女性 男性 肖像 摄影 照片 真人 真实 街拍 |
触发词 | photo photograph |
使用技巧 | CLIP SKIP: 1 |
使用介绍
注意:该模型有自己的 VAE,已烘焙到模型中。为了获得最佳结果,请确保automatic1111中所选的VAE设置为“Automatic”。如果您从未研究过 VAE 设置,这将是默认设置。
NextPhoto 是大量训练、数据管理和块合并的结果。该模型专为生成照片级真实照片而设计,因此它无法生成非照片图像(即使提示这样做)。有关3.0版本的更多详细信息,请查看“关于此版本”。
所有样本图像均使用 ESRGAN_4x 放大模型以 2 倍放大倍率生成,降噪强度为 0.45。我不会上传 32 位模型,因为 v3 模型是使用 16 位精度训练的,所以这实际上只是浪费空间。
使用指南
- (强烈推荐)负面提示对于真实感非常重要,但您实际上不必更改它即可获得出色的结果。 我推荐以下负面提示作为基础:(最差质量:0.8),卡通,半色调打印,粗麻布,(电影:1.2),(verybadimage Negative_v1.3:0.3),(超现实:0.8),(现代主义:0.8 ), (装饰艺术风格:0.8), (新艺术风格:0.8)
- 此提示使用verybadimagenegative_v1.3文本嵌入。
- 将下载的文件放入SD WebUI根目录的“embeddings”文件夹中,然后重新启动stable diffusion。
- 积极的prompt:您不需要考虑太多积极因素 – 该模型在简单的积极提示词下效果很好。
- 例子:
- A well-lit photograph of woman at the train station
- A perfect well-lit medium photograph of an old married couple sitting on their porch
- A poorly lit photograph of a man walking on the trail at night
- 有关积极提示的更多示例,您可以查看模特的示例照片。
- 例子:
- Upscaling:此模型仍会生成逼真的图像,无需升级,但强烈建议升级以获得逼真的效果。您需要在雇佣修复部分使用 ESRGAN_4x 升级模型(不是 R-ESRGAN)以获得不错的结果。为获得最佳效果,请将权重设置为 0.3 到 0.5 之间的任意值,高级值为 2。我通常将权重设置为 0.5 或 0.45。
- 采样器:我使用DPM++ 2M Karas,并且通常不会偏离它。虽然其他采样器仍然可以产生良好的结果,但根据我对此模型的体验,DPM++ 2M Karas 是最一致的。
- 进一步改进:
- 减少 CFG 尺度:默认的分类器免费指导尺度7 效果很好,但有时这可能会太高。减小 CFG 比例,直到您喜欢结果为止 – 我通常在 4.0 处触底,因为任何低于该值的值都会开始被忽略。将 CFG 比例增加到超过 7 或 8 将导致照片更加“戏剧化”(这不是一个好方法),但也会导致模型更多地听取提示,因此请根据需要进行平衡。高 CFG 尺度可以很好地适应特定情况,但较低的 CFG 尺度可以非常一致地发挥作用。
- 避免过多使用 LORA 和文本反转:由于该模型的 v2 和 v3 是自定义训练的,而不是纯粹的块合并,因此任何 LORA 或文本反转可能无法像在其他模型中那样有效。根据我的经验,您仍然可以使用它们获得良好的结果,但我建议您谨慎行事 – 我建议您使用添加方法,在需要时有选择地添加 LORA 或反转。
关于这个版本
3.0 版本是数百小时训练、调整、块合并和细化的结果。训练数据包括精心挑选的 1000 多张图像的手工策划和手写标题,这些图像具有高质量和代表性。这是根据我自己拍摄的一些照片、使用 Laion5B KNN 搜索选择的 200 张照片样本以及来自各种来源的手工精选的集合进行策划的,所有这些都是付费的。
3.0 版本还包括一个全新的 VAE,它使用我开发的自定义损失度量进行训练,该度量重点关注使用小波损失的光谱相似性。它还使用 LPIPS 感知相似性来增强非常精细的细节。与标准 vae-ft-mse-840000-ema-pruned 相比,新的 VAE 提高了真实感,但偶尔会出现橙色高光形式的伪影。不过,这些并不常见,并且可以通过差异、轻微的提示更改、新种子或 image2image 轻松解决。
最终结果带来以下改进:
- 显着提高真实感
- 显着改善皮肤纹理
- 更好的照明
- 颜色更自然(v2.0 遭受了很大的色偏影响)
- 比 v2.0 更少的过度拟合
- 使用新的 VAE 时更好的主题整合(更少的暗光晕)
作品参照
Stable Diffusion提示词
A well lit closeup photograph of a couple kissing in the park
Negative prompt: (worst quality:0.8), cartoon, halftone print, burlap, candle, (verybadimagenegative_v1.3:0.3), (cinematic:1.2), (surreal:0.8), (modernism:0.8), (art deco:0.8), (art nouveau:0.8)
Steps: 20, Size: 512x640, Seed: 626233569, Model: nextphoto_v3, Version: v1.5.1, Sampler: DPM++ 2M Karras, CFG scale: 5, Model hash: 1c1f913f3b, Hires upscale: 2, Hires upscaler: ESRGAN_4x, Denoising strength: 0.4, "verybadimagenegative_v1.3: d70463f87042"
本内容及资源均来自网络,版权归原作者所有,仅供个人学习研究,请勿商用和侵犯他人肖像,如需商用请联系原作者。若原作者内容有侵权之处请速联系我们,我们将会在24小时内删除。