提示:一只小猫咪坐在小椅子上举着一本书。书的封面上写着书名《Flux》。在自然光线下,融合了卡通或类似皮克斯的3D元素和自然特征,看起来就像是一个可爱的小猫咪坐在小椅子上,手里拿着一本叫《Flux》的书,周围还散落着一些富有自然气息的元素,看起来就像是一幅卡通画。
Flux.1,Black Forest Labs于2024年1月8日发布的是一款新的文本到图像生成模型,相比其他文本到图像生成模型如Stable Diffusion、Midjourney和OpenAI的DALL-E,在生成质量和指令遵循方面有了显著的提升。
如果你是一位熟悉 SD 1.5 或 SDXL 的业余爱好者,这篇文章会帮助你了解为什么应该考虑使用 Flux.1 来进行图像生成任务。
Flux.1是谁做的?许多原来Stable Diffusion团队的关键成员现在在Black Forest Labs工作,Flux是他们的旗舰模型。
据说 Stability 的许多成员在发布时已经离职,我们故意不提 SD3,将其视为 SDXL 的非官方继任者。
flux.1有什么特别之处?正如黑森林实验室所言:
如原文所述:
所有公开的FLUX.1模型都是以多模态并行扩散变压器块为基础的混合架构,其规模达到了120亿参数。
阅读他们引用的这篇论文时,我发现一个有趣的地方是使用了两个CLIP模型版本(G/14和L/14)和T5 XXL。
说明。SDXL 也使用两个版本的CLIP模型。
正如论文所述,T5的影响是,
注意:原文中的“T5”应保持一致,确保术语的准确性。
我们发现T5在处理复杂提示时非常重要,比如那些需要高度细节或较长文本的提示(如第2行和第3行)。不过,对于大多数提示来说,即使在推理时移除T5,其性能依旧能保持在竞争水平。
ELO分数是一种比较模型、玩家等相对技能的方法,进一步表明Flux.1是表现最佳的模型。
提示是如何完全不同的在 Flux.1 中进行提示时,你可以更加详细和自然地描述,而不需要使用 SD 1.5 或 SDXL 的旧式提示方式。例如,如下图所示,我使用了如下的提示词:
一张照片中,戴眼镜的女士穿着白色上衣、黑色牛仔短裤和休闲鞋站在纽约市的一条小巷里,手里举着一块用黑色油漆写着“WHAT THE FLUX?!”的硬纸板,背景中有行人经过。
大多数情况下,Flux.1 几乎所有都做得很好——一切顺利,唯一的例外是最终图像中唯一没提到的是她的鞋子!
下面要说的就是另一个关键的部分了。
Flux.1(一个不需要输入否定词的程序)不需要负面提示——这显然需要一些时间来习惯。然而,使用描述性的提示,你通常可以更快地得到你想要的结果。
关于微妙的提示,Flux.1 也相当不错。这里是一个我写的提示样本:
地上有一个绿色金字塔。绿色金字塔旁边有一个红色正方体积木。木椅在积木后面。视角为俯视。采用自然光。
输出如下。
Flux.1 得到了图片中所有元素的正确顺序,真是厉害。视图可能需要稍微调整一下,但总体来说还可以。
Flux有这么多版本,到底是怎么回事呢?Flux.1有三个不同的版本:Pro,Dev和快速。
了解更多不同,你可以看看官方的Flux.1公告。
- Pro 是最好的模型,专为高质量、高分辨率图像进行了优化。可以通过 Black Forest Labs 提供的 API 访问,也可以通过第三方 API 提供商如 Replicate、Segmind 和 Fal.ai 访问。您可以从 HuggingFace 下载该模型并在自己的硬件上运行它(点击此处下载)。
- Dev 几乎与 Pro 一样,但它是为研究和开发进行优化的。您可以从 HuggingFace 下载并运行该模型。它附带了非商业许可。然而,它相当大,对于本地使用来说有些局限。
- Schnell(德语意为“快”),是最快的模型,针对速度和本地开发进行了优化。它遵循 Apache 2.0 开源许可,允许商业使用。您可以从 HuggingFace 下载该模型并在自己的硬件上运行它。
关于 Flux.1 的 GPU 需求
如果你选择使用Flux.1 Dev,最好是有一块至少有12GB显存的GPU。
模型的量化版本可用,例如HuggingFace上的City96提供的那些版本,与ComfyUI配合使用效果很好。如果您更喜欢WebUI Forge,请参阅此帖子了解如何用较少的VRAM设置好环境。
在Reddit上的一些网友报告了不同的推理时间,这取决于他们的GPU。一些具体的数字可以在这个帖子中查看,该帖子总结了各种模型的性能:这里
+-------------+--------------+
| GPU | 渲染时间 |
+-------------+--------------+
| RTX 3060 | 116.81 |
| RTX 3090 | 29.77 |
| RTX 4090 | 20.06 |
| RTX 4060 Ti | 45.00 |
| GTX 1060 | 600.00 |
| GTX 1070 | 120.00 |
| GTX 1080 Ti | 445.57 |
+-------------+--------------+
*注:渲染时间以秒计算
微调与LoRAs
zh: Flux.1 刚刚发布之后,社区已经开始忙着创作LoRAs和微调。你可以在往常的地方找到它们,包括Tensor.art、Civitai和HuggingFace。
在测试时,我发现LoRAs通常与基础模型一起使用效果更好,而不是总是下载经过微调的模型。尽管目前还处于早期阶段,不妨先给他们一个机会,不要急于否定它们。
控制网与IP适配器(ControlNets 和 IP-Adapters)尽管LoRAs的快速发布令人兴奋,社区成员仍在热切期待专门为ControlNets和IP-Adapters设计的版本。
目前,有一些当前值得尝试的初始版本可以从ShakkerAI Labs、Misto.AI和XLabs-AI这几个地方获得。
不过,目前与NF4或GGUF格式的兼容性可能尚不完全兼容。
想要了解更多关于扩散模型的知识吗?访问Prompting Pixels网站看看,你可以找到详细的教程和视频。