在展示了一些 NovelAI V4 模型的早期成果后,我们决定尽快让你们体验。我们非常激动地宣布,NovelAI 扩散 V4 — 精选预览 现在发布。
请特别注意,这是一个预览版。这意味着你可能会期待的许多功能还未实现!我们正尽全力尽快为您带来完整的体验,但我们希望这个预览版可以先让您有所期待。
继续阅读以了解此版本包含哪些内容和排除哪些内容的详情。
V4 是我们第一个完全原创的图像生成模型,从头开始训练,不依赖于诸如 Stable Diffusion 这样的公开基础模型。由于模型完全不同,它会对您的提示进行不同于 V3 模型的解读,因此,您可能需要对旧提示进行一些调整。
它为您的工具箱带来了许多新功能,例如支持用自然语言提示多角色图片、自然语言理解以及更好地将英文文本融入您的设想场景。这一切都伴随着细节的提升、创意的增强以及知识库的大幅扩展和更新,以及大幅扩展的数据集。
就像以前在图像生成模型V1时代一样,我们现在发布了两个不同版本的模型。首先是经过预览阶段的 Curated 版本,你现在可以在假期前抢先体验各种新功能。Curated 模型是基于我们数据的一个子集进行训练的,因此更适合在流媒体、公共场合或与朋友间使用,它一定会以惊艳的图像吸引众人,但它的知识范围稍显有限。Full 模型则是基于我们的完整数据集训练的,能够全面覆盖我们现有模型可以处理的各种广泛主题,从艺术到科学,目前该模型仍在训练中。我们相信你们中的许多人正期待着 Full 模型的发布,但它还需要更多时间来完善。我们相信,再多等待也是值得的!
除了仍在训练的_Full_模型之外,当前的预览版本还缺少一些其他重要部分。 _Vibe Transfer_目前尚不可用,因为我们需要从头开始重新训练它以适应新模型。同样的情况也适用于我们的_Inpainting_功能,但至少它会退回到旧的V3版本,所以你仍然可以对新图像进行修复,只是无法利用新的V4功能。
这两个特性都计划与明年年初发布的“完整”模型一起发布。此外,SMEA 和 SMEA 动态采样器目前还不可用,但我们希望尽快提供它们。此外,DDIM 也尚未提供。我们计划更新“精选”模型本身,要么与“完整”模型一起发布,要么在接下来的几天内单独更新。
不过,让我们来看看V4都有哪些新工具,让我们深入了解这些新工具。
V4的新功能:咱们再聊聊V4那些新功能,以及那些又回来了的老功能。
多字符提示词我们最强的新功能包括V4允许您为最多六个不同角色单独指定提示。角色间的信息泄露被大大减少,使构建复杂场景变得更容易。特别是那些含有原创角色的图片将会从这个新功能中获益良多。
这通过将提示分为一个基础提示和多个角色提示来完成。基础提示定义了场景和图像的风格等。角色提示让你以各自独立的方式描述每个角色,从而减少信息泄露。
有两种使用多角色提示功能的方法。首先也是推荐的方法是点击提示框下方新出现的“+ 添加角色”按钮。这会新增一个仅用于该角色的提示框。点击后,你可以输入该角色的提示。如果从其他地方生成了你不想要的内容,你可以使用该角色的“不期望内容”字段来防止生成这些内容,就像基本提示一样。
使用多角色提示时,模型通常会按你列出的角色提示顺序依次将它们放入场景中,按照从上到下、从左到右的方式排列。例如,如果你有两个角色并使用了“并排”标签,第一个提示框中的角色通常会出现在图像的左侧,而第二个提示框中的角色则会出现在右侧。每个角色提示框右上角的上下箭头可以让你快速调整角色顺序。
此外,还有一种方法可以(非常粗略地)指示你希望角色出现在图像中的大致位置。这是一个较为高级的功能,更像是给模型的提示或建议,因此最好是你设置的位置不要与角色提示框的顺序发生冲突,并且还要用自然语言提示来加强。要使用此功能,你需要至少设置两个角色提示框。关闭每个角色提示框下方的“AI选择”开关。现在,当你点击一个角色提示框时,你可以点击“位置”按钮,这将打开一个包含5x5网格的新UI。点击该网格中的任意一个单元格,然后点击“完成”来设置角色的大致位置。
另外需要注意的一点是关于角色数量标签(例如X boys,Y girls,Z others)。这些标签始终应放在基础提示部分,例如“2 girls, 2 boys, 户外, …”,然后在每个角色的描述中,仅指定“girl”、“boy”或“other”,而不包含数量,以便模型知道如何绘制该角色的细节。例如,“girl, 紫色头发的, …”或“boy, 金色头发的, …”在给定的角色描述中。
如果你只是想快速试试看,觉得点击按钮太麻烦了,你也可以在提示中使用 | 字符来分隔基础提示和角色提示。由于 V4 不支持提示合并,所以使用 | 字符来达到这个目的。需要注意的是,你不能将 | 提示语法与角色提示框混合使用。如果有任何角色提示框存在,| 语法将失效。一个使用这种语法的示例提示比如:
2女孩,室内,工厂,夜晚,雾,工业灯,管道,光线,纸箱,审美,最佳,英文,文字 | 女孩,紫眼睛,短发,微笑,张开的嘴,有皱领的衬衫,红衬衫,褶边短裙,金发,绿色围巾,手放在自己的腰上,齐刘海,蓝色短裙,中裙,小胸部,短发,指向目标。她在被指。 | 女孩,非常长的头发,紫色头发,卷发,白色牛仔裤,白色裤子,金色衬衫,牛仔风,绿色眼睛,高领毛衣,无袖高领,侧辫子,中等胸部,无袖,有破洞的牛仔裤,波浪状的嘴唇,脸红,张开的嘴,指向另一个#来源。她正在指向另一个女孩并斥责她。文字:别那样啦!
我们增加了一种新的特殊语法,以便更明确地指定角色提示中的动作标签。当多个角色互动时,使用动作标签语法,你可以通过在动作标签(例如“hug”)前面加上“source#”、“target#”或“mutual#”来指定主动方和被动方。例如,如果一个角色正在拥抱另一个角色,在主动方你可以指定 source#hug 标签。而在被动方,则可以指定 target#hug 标签。如果角色们正在互相拥抱对方,在双方都可以使用 mutual#hug 标签。
需要注意的是,虽然这种语法并不总是很可靠,但在很多情况下会很有用。
在许多情况下,仅靠标签很难表达清楚某些内容。我们的新V4模型能够理解自然语言描述,让你更容易通过提示来获得想要的结果。如果你不知道某个东西的标签,可以尝试用自然语言描述它。
例子:
女孩,连衣裙,面向观众的,全身照。有三个物体。一个红色的立方体。一个蓝色的立方体放在红色立方体上。一个绿色的球体位于红色立方体的左边,紧挨着。女孩站在红色立方体的右边,紧挨着。数码插画。高质量完成。静物画。人物素描
重要的一点是,模型现在区分大小写和空格敏感。强烈建议您不要在标签中使用下划线(),除非是像“^^”这样的表情符号。请将所有标签写成小写,并用逗号和空格(“, ”)分隔。自然语言描述应按照英语的语法规则、拼写和大小写规范来书写。
更长的指令现在,基础提示内容和所有角色提示与基础提示一起的长度限制增加至大约512个T5令牌,让你有更多空间来表达你的创意,以前比任何时候都多。
需要注意的是,因为T5分词器的使用,大多数Unicode字符,比如彩色表情符号和日文字符,在提示中都不被模型支持。
16通道的VAE这听起来可能有点技术化,但我们以前的所有模型都使用了4通道的VAE。VAE的目的是将RGB像素图像转换为模型能够理解的语言,然后再转换回来。通道数量决定了模型能够看到、学习并绘制的细节的精细度。通过升级到16通道的VAE,我们在细节上给模型带来了提升,这样对眼睛细节、珠宝细节和文字等有显著提升。具体来说,我们的模型采用的是Apache 2.0许可的16通道FLUX VAE。
文本(可留空或删除)虽然V4不会将大量文字的小说直接插入图片中,但它确实比我们的V3模型更能清晰地写出英文文本。最好的提示方法是,在提示中加入英文文本标签,并在句尾加上句点和“Text:”,然后输入你希望显示在图片上的文本。
如果模型拼写有问题,将文本全部用大写有时会有所帮助。如果你想将文本放置在特定位置,可以使用自然语言描述文本应该出现在哪里,除非标签已经很清楚(例如 气泡文字)。如果你想让你的角色说点什么,也可以试着在角色提示框里写上“文本:”而不是在基础提示框中。最后一点建议是,重复某些内容可能对模型有帮助。综合起来,这里有一个示范:
1女孩,文字,粉色的气泡框,白色背景。一个粉色的气泡框里用手写字体写着“FUN!”
文字:好玩!
品质和年份标识
和我们过去的产品一样,你可以使用我们的设计感、质量和年份信息。
- 质量标签:最佳质量,极佳质量,良好质量,普通质量,糟糕质量,最劣质量
- 美感标签:非常美观的,美观的,不太美观,非常不悦的
- 年份标签:年份2024 或任何其他年份将使你的图片风格更加接近该年份流行的图片风格。
图像转图像
我们图像生成模型中的一个常用功能。当然,即使在当前的预览版本中也能使用这个功能。
新标记和短句我们也添加了一些新的标签,这些标签可能产生一些有趣的效果。这并不是一个详尽的列表,但应该足够让你开始尝试了!
- 更注重角色 可以用来更突出场景中的角色。如果你的图片取景很广,添加这个会有所帮助。你可以直接说“角色是这张图片的重点”,这样更简洁且符合中文表达习惯。
- 一些有用的标签组合和标签:
- photo (medium), 摄影玩偶, fumo (玩偶) 会生成一个 fumo 风格的毛绒玩具。
- photo (medium), 模型 会生成塑料模型形式的角色。
- 艺术家:ainiwaffles 会生成以 Aini 风格的图片,对于熟悉我们文字生成模型角色拟人化的人来说会很熟悉。
用了ainiwaffles艺术家标签生成的图片,展示了名为Euterpe的模型,这是我们的早期文本生成模型之一。这个标签会影响生成图像的风格,使用一个或多个方括号[ ]可以非常有用哦!
自然语言也能影响你图片的艺术风格。你可以试着在自然语言句子中使用下面这些表达,并根据自己的喜好调整措辞,以达到你满意的效果:
- 高度精细化 表示图像没有任何不完整的地方,线条清晰,阴影完全到位。
- 数字绘图 可以在某些情况下整体提升生成的质量,并趋向于更非写实的风格。
- 动漫风格 可以特别推动更偏向动漫的风格,在某些情况下很有用。
- 平滑阴影 表示一种平滑且不像“涂黑阴影”那样的阴影风格。
- 平滑且有光泽的阴影 还特别强调有光泽的高光。
- 你可以尝试这样描述:这是一幅高度精细化的数字插画,采用了动漫风格,并且有平滑且有光泽的阴影。
看看下面这些超赞的作品!我们的测试者团队和自家的 Anlatan 团队一直在测试 NovelAI V4 的精选预览——结果超乎想象的好!我们被这种创意惊呆了!
我们希望你也能享受在V4预览版中创作出令人惊叹的图像的过程,就像我们一样,并期待看到你的精彩作品。
你可以在像 X 这样的社交媒体上分享它们,使用 #NovelAI 或 #NAIV4 标签。