【2023年】第42天 BIGGAN@慕课网原创_慕课网

作者：Andrew Brock Heriot-Watt University，Jeff Donahue DeepMind，Karen Simonyan DeepMind

Large scale gan training for high fidelity natural image system 论文题目，简称BIGGAN

1. ABSTRACT (摘要)

Despite recent progress in generative image modeling, successfully generating high-resolution, diverse samples from complex datasets such as ImageNet remains an elusive goal.
尽管最近在生成图像建模方面取得了进展，但从 ImageNet 等复杂数据集中成功生成高分辨率、多样化的样本仍然是一个难以实现的目标。
关键词：high-resolution 高分辨率；diverse samples 多样化样本
To this end, we train Generative Adversarial Networks at the largest scale yet attempted, and study the instabilities specific to such scale.
为此，我们在迄今为止尝试过的最大规模上训练生成式对抗网络，并研究这种规模所特有的不稳定性。
关键字：scale 规模；instabilities 不稳定性
We find that applying orthogonal regularization to the generator renders it amenable to a simple “truncation trick,” allowing fine control over the trade-off between sample fidelity and variety by reducing the variance of the Generator’s input.
我们发现，将正交正则化应用于生成器，可以使其适用于简单的 “截断技巧”，通过减少生成器输入的方差，对样本保真度和多样性之间的权衡进行精细控制。
关键字：orthogonal 正交； regularization 正则化； trade-off 权衡； renders 渲染；amenable 顺从
truncation trick 截断技巧；fidelity 保真度；variance 方差
Our modifications lead to models which set the new state of the art in class-conditional image synthesis.
我们的修改所产生的模型为类条件图像合成技术开创了新局面。
关键字：synthesis 合成；class-conditional 类条件
When trained on ImageNet at 128×128 resolution, our models (BigGANs) achieve an Inception Score (IS) of 166.5 and Fr ́echet Inception Distance (FID) of 7.4, improving over the previous best IS of 52.52 and FID of 18.65.
当在 128×128 分辨率的 ImageNet 上进行训练时，我们的模型 (BigGAN) 实现了 166.5 的初始分数 (IS) 和 7.4 的 Fr ́echet 初始距离 (FID)，比之前的最佳 IS 52.52 和 FID 18.65 有所提高。
关键字：Inception score 初始分数；Frechet Inception Distance(FID)；

2. 文章结构

第一部分当然还是 “abstract”，也就是摘要部分，我读完的感觉就是为什么要做这件事？为什么写这篇论文？
第二部分是introduction，也就是简介部分，主要做的就是文献综述，且对比BIGGAN有什么优势？
第三部分是"background"，也就是背景部分，主要做的就是说别人的论文比较弱的点，需要改进的点。
第四部分是"scaling up GANs"，也就是"加强GAN"部分，主要说自己做了哪些工作。
第五部分是"analysis"，也就是分析部分，主要分析自己是如何改进"生成器"和"判别器"的。
第六部分是"experiments"，也就是实验部分，主要通过做实验来证明自己这个模型能像前面说的一样达到那种效果。
第七部分是"conclusion"，也就是结论部分，主要总结做了哪些事，做的怎么样？
第八部分是"acknowlegments"，也就是致谢部分，哪些人做了贡献。
第九部分是"references"，也就是参考文献部分，做这个工作的时候哪些论文起到了引导性的作用，受到了启发。
第十部分是"appendix"，也就是附录A-I部分，主要阐述了详细的模型架构，评估模型的效果，填前面论点的坑。

3. BIGGAN于传统GAN的区别

对于我们传统的GAN网络，对于ImageNet等复杂的数据集，较难生成精度好，清晰度好，质量好的图片，为了合成具有更高分辨率，具有更好的多样性的图像，作者对生成器应用正交正则化使其能够服从简单的“截断技巧”，允许通过截断潜在空间来精细控制样本保真度和多样性之间的权衡。
修改导致模型在类条件图像合成中设置了新的状态。当在ImageNet上以128×128分辨率进行训练时，我们的模型（BigGAN）的初始得分（IS）为166.3。Fre_chet初始距离（FID）为9.6，比之前的最优IS为52.52，FID为18.65。
在基线模型 SA-GANs 的基础上增加每个批次的数据量为原来的2、4、8倍，发现增大每个批次训练数据的数量能够带来更好的效果；增加每一层网络的通道数，从而增加训练的参数，这在一定程度上针对大数据集时可以减少过拟合。
舍弃了原先的正态分布和均匀分布，采用截断技巧，并采用共享嵌入方法将类别条件线性投影到每个 BatchNorm 层的增益（gain）和偏置（bias），从而降低了计算和内存成本，提高了训练速度，使得训练的效果也更加好。
通过正交正则化来解决一些较大模型使用截断技巧造成的饱和伪影问题，将生成器调节平滑，强制使其适应截断技巧，从而更有效利用整个随机噪声向量空间合成更高质量的样本。