不用P30 Pro，普通手机也能变身望远镜：陈启峰团队新作，登上CVPR 2019-原创手记-慕课网

花栗子郭一璞发自凹非寺
量子位报道

华为“单反”P30 Pro，从远处拍到的埃菲尔铁塔，连设计师们的名字都看得清。

这样的变焦技能，奢侈到让人心生嫉妒。

不过现在，就算不是P30 Pro，没有徕卡四摄，没有4,000万像素，只靠深度学习，iPhone也可以把50米之外的细节，拍得清楚明白。

比如，你在街上走着，望到了对面的店铺，墙边立着像梯子一样的东西：

这时候，如果用普通的数码变焦拍一张特写，约等于自暴自弃：

那么，让超分辨率的大前辈ESRGAN试一下。

还是有些力不从心：

是时候展现真正的技术了。

主角出场，超进化的数码变焦：

原来它长这样啊。每一道银色的线条，都坚定地横在画面上，没有被黑暗的背景消融掉，细节比前辈生成的清晰许多。

走着走着，又看到了20米以外的小幅海报，上面细小的网址，不用走过去拍也能看清：

这只眼力上佳的AI，微调一波之后，已经在iPhone X的相机上测试可用。

论文还中了CVPR 2019。作者有四位，一作是伯克利的博士生张璇儿，二作是港科大的助理教授陈启峰。

团队说关键在于，不能只用RGB图像数据来训练，要用原始数据。

不一样的数据集

在超分辨率的世界里，有些标准操作，大家已经习以为常。

却没发现，原本常用的数据集，带来了两个严重的问题。

第一，因为神经网络需要成对的图片，一张高分辨率一张低分辨率，来解锁从低清里恢复高清的技能。通常的做法是，对高清图片做降采样 (Downsampling) ，得到对应的那张低清图片。

降采样，会间接减少图像的噪点。

而超分辨率通常是要把远处的物体放大，离镜头越远的物体，它所在的区域噪点会越多，因为进入光圈的光子少了。

这样说来，用降采样炮制的数据，不太适合拿来训练超分辨率的技能。

第二，现有的大多数方法，都是直接用8位RGB图像当训练数据的。

但RGB图像，不是摄像头的原始数据 (Raw Sensor Data) ，是图像信号处理器 (ISP) 加工过的。

这加工步骤会损失一些高频信号，其中一个目的也是降噪。

相比之下，原始数据 (12-14位) 保留了这些高频信号，可能对恢复图像质量有帮助：

总结一下，一要抛弃降采样，二要用原始数据来训练。于是，研究人员拿起了单反，用光学变焦镜头去拍成对的照片。

简单来说，短焦拍下低分辨率图像，长焦拍下高分辨率图像。

复杂一点说，24-240毫米的变焦镜头，可以拍出许多种不同焦距的照片。对画面上的一个物体来说，就是不同的分辨率了：

任意两张图像，只要分辨率不同，都可以组成一对。

SR-RAW数据集就这样诞生了。每张图像都是原味，低清不是由高清粗暴转化得来，原始数据也都在。

训练的时候，是用低清照片的原始数据，加上高清照片的8位RGB图：高清是低清的Ground Truth。

那么，是不是有了数据集，就得到了天下？

还差一点：

图像对不齐怎么办

训练超分辨率，首先需要图像对齐 (Alignment) 。就是把低清图像的每一个像素点，和高清图像里的像素点对应起来。

因为高清和低清图像，是在同一枚镜头的不同配置下拍摄的，对齐的时候会出现不可避免的问题。

比如，透视问题。调了焦，物体之间的距离变了，很难对齐了：

比如，景深问题。调了焦，物体和背景之间的距离也变了，更难对齐了：

另外，高清图像里面，物体边缘会更加锋利，而低清图像里的边界比较模糊，原本就很难对齐。

于是，团队提出了一种新的损失函数，叫做CoBi。

这个损失，是在去年发表的Contextual Loss (简称CX) 基础上进化而生。

CX可以解决图像不对齐的问题，却不考虑图像的空间特征，在执行超分辨率任务的时候会出现重大的瑕疵 (下图B) ：

左起：低清输入、CX训练成果

左起：CoBi训练成果、Ground Truth

所以，CoBi比CX多加了一项有关空间坐标的损失。这样，便可以训练出优秀的超分辨率网络了。

原始数据，真的更有效

训练完成之后，要和其他网络比一场。那么，先用肉眼评判一下。

一道题目是，限时段停车的指示牌：

左下是低清输入，右下是Ground Truth

比赛结果是 (看不清可以把手机横过来) ：

右一为主角

主角恢复的文字，比前辈们都要清晰一筹。

如果，你感觉它和ESRGAN的表现差不多，我们来单独对比一下：

左为ESRGAN，右为主角

优势还是可见的。

数据，也支持了肉眼的判断：

不论4倍还是8倍变焦，主角的各项指标，都要明显优于其他选手。

上面的数据表里，SSIM是结构相似性，PSNR是峰值信噪比，都是和Ground Truth相比，越大越好。

LPIPS是一个新近提出的指标，是用一个预训练的网络，来测量图像之间的感知相似度 (Perceptual Image Similarity) ，越小越好。

打败了对手之后，团队又用人工合成的传感器数据 (C) ，以及8位RGB图像 (B) ，分别训练了一下自家的模型，看原始数据 (D) 训练的模型是不是真比它们更优秀。

其中一道题目，是40米之外的马里奥：

左是用合成数据训练的，右是用原始数据训练的：

原始数据的训练之下，画质更加美好。

对比一下，这是Ground Truth (来自光学变焦镜头，就是单反) ：

各项指标也认为，投喂原始数据的模型表现更出色：

Ours-syn-raw=合成数据训练后，Ours=原始数据训练后

不过，合成数据上训练的成果，虽然比不上用原始数据养成的模型，但还是比直接用RGB图像训练的模型，要争气一些。

终究，还是要用原始数据训练的好。

结论令人振奋，但还不是结局。研究人员希望这只用单反传感器养成的AI，也能适应手机的传感器。

于是，他们选了iPhone X做小白鼠，用一个小数据集微调了一番。5000次迭代之后，模型在手机上获得了新生：

实验室里的人类们

研究团队，来自伯克利、港科大和英特尔。

一作是来自伯克利的张璇儿，高中毕业自人大附中，本科毕业于莱斯大学，如今已是四年级的博士生。

主攻计算机视觉的她，先后在Adobe、Facebook和英特尔实习过。张璇儿一作且有陈启峰参与的CVPR论文，已经不止一篇了。

比如，这项画风绮丽的研究成果，可以去除照片上的“鬼影”。

二作，大家可能比较熟悉了。

陈启峰，1989年生人，高中获得IOI金牌，放弃清华保送而选择港科大，还在密大交换期间获得过ACM总决赛的亚军 (北美第一) 。

2012年，陈启峰获得了包括斯坦福、哈佛、MIT在内9所学校的PhD录取信，最终选择了斯坦福。

2017年博士毕业，2018便已成了港科大的助理教授。

三作吴义仁 (Ren Ng) ，伯克利的助理教授，张璇儿便是在他的实验室里做研究。

吴教授出生在马来西亚，8岁移民澳大利亚。2006年斯坦福大学博士毕业，还获得了当年ACM的博士论文奖。

他的主要研究方向是数字光场摄影技术，还创办了光场相机公司Lytro，把这项技术引入消费级电子产品。

四作是Vladlen Koltun，来自英特尔的资深科研主管，是智能系统实验室Intelligent Systems Lab的负责人。张璇儿和陈启峰，都曾经在他的实验室里工作过。

One More Thing

要是你既买不起P30 Pro，又不会训练深度学习模型，别担心，还可以直接上望远镜。

贴心的量子位，替你找到了这个：

咦，你怎么用了品如的望远镜？

论文传送门：
https://cqf.io/papers/Zoom_To_Learn_CVPR2019.pdf

— 完 —