「论文分享」DRN:用于图像光源操纵的深度重光照网络

​ 《Deep Relighting Networks for Image Light Source Manipulation》是发表在ECCV 2020上的一篇论文。这里是原文链接原文代码

摘要

​ 操纵给定图像的光源的现有的方法通常需要额外的信息,如场景的几何结构,这可能不适用于大多数图像。在本文中,我们用公式表示单图像重照明任务,并提出了一种新的深度重照明网络(DRN),该网络由三部分组成:

1)场景重建,其目的是通过深度自动编码网络显示主要场景结构,

2)阴影先验估计,通过对抗性学习,从新的灯光方向预先确定灯光效果,

3)重新渲染,将主要结构与重建的阴影视图结合起来,形成目标光源下所需的估计图像。

​ 实验结果表明,该方法在定性和定量上都优于其他方法。具体而言,提出的DRN在2020年ECCV大会的“AIM2020-任何对一重新照明挑战”中实现了最佳峰值信噪比。

一、简介

​ 图像是这个信息时代流行的信息载体,直观易懂。 显示设备的快速发展刺激了人们对高质量画面的需求。 图像的视觉外观与照明高度相关,这在摄影和电影摄影等各种应用中至关重要。 不适当的照明通常会导致各种视觉退化问题,例如不想要的阴影和扭曲的颜色。 然而,光源(如太阳光)难以控制,或者有时无法改变(对于捕获的图像),因此很难生成令人满意的图像。 在拍摄的图像上产生想要的光源效果的方法已经是非常引人关注的高科技方法,因为它可以修改拍摄图像的光照。

​ 已经提出了一些方法,旨在减轻由不适当照明引起的退化。

方法 论文 主要内容
直方图均衡化 histogram equalization (HE) [37]《Contrast limited adaptive histogram equalization based enhancement for real time video system》 重新排列强度以服从均匀分布,这可以增加对低对比度区域的识别。 它操纵全局光条件,平衡了整个图像的照明。
高动态范围 (HDR) 领域中的方法 [3] 《Recovering high dynamic range radiance maps from photographs》、[36]《Deep high dynamic range imaging 》 通过增加低对比度区域的动态范围来提高图像质量。HDR 方法可以看作是局部对比度的细化,但缺乏对全局光的调整。
基于 Retinex 的方法 [29]《Retinex processing for auto-matic image enhancement》、[35]《Deep retinex decomposition for low -light enhancement》 将图像分离为光照和反射率的组合,其中反射存储场景的固有内容,在不同的照明条件下无法改变。 通过细化光照,可以提高图像的视觉质量。
低光图像增强方法 [15]《 Enlightengan: Deep light enhancement without paired supervision》【32】《Lightening network for low-light image enhancement》 改善黑暗环境的可见度,以照亮整个画面。
阴影去除 【13】《Direction-aware spatial context features for shadow detection》、【18】《Shadow removal via shadow image decomposition》 旨在消除光源造成的阴影效果,但不能模拟目标光源的阴影。

​ 调整光源为基于照明的图像增强提供了一种灵活而自然的方式。 尽管已经进行了大量的研究来改进照明,但从操纵光源的角度进行研究的效果较小。 也就是说,通过控制光源来改变光照效果还处于设想阶段。 重新照明领域的文献主要关注特定应用,

例如

人像重新照明 人像重新照明相关论文
人像重新照明:这些方法需要在一般场景中无法实现的先验信息(如面部标志、几何先验)。 【26】《Learning physics-guided face relighting under directional light》【31】《Single image portrait relighting》【40】《Deep single-image portrait relighting》

​ 卷积神经网络(CNN)最近因其强大的学习能力而备受关注。 它可以在强大的计算资源的支持下消化大量的训练数据并 提取有识别力的表征 。CNN 在各种任务中显示出显着的优势,例如

图像分类 [17,30]、语义分割 [27,38]、超分辨率 [8,23]、位置识别 [1,19] 等。 由于浅层的参数往往面临梯度消失和爆炸的风险,因此难以训练。残差学习 《 Deep residual learning for image recognition》 通过在每个处理块之间添加shortcut连接来减轻优化难度。 在归一化层的帮助下,梯度可以稳定地从深层流向浅层,极大地提高了深度网络的训练效率。 更深的结构通常意味着更多可训练的参数,因此可以带来更强大的学习能力,这使得可以处理更具挑战性的任务,例如单幅图像重新照明。

​ 本文中的图像重光照方法侧重于使用强大的深度 CNN 架构来操纵光源的位置和色温。 它不仅可以调整主色调,还可以重新投射给定图像的阴影。 如图 1 所示,我们专注于特定的“any-to-one”重新照明任务,其输入:在任意光源(任意方向或色温,见图 1(a))下的凸显,目标是 估计特定光源下的图像(方向:E,色温:4500K,见图1(b))。 所提出的方法可以推广到其他与光相关的任务。

image-20211104233058382

本文方法的创新点:

1、我们不是将输入图像直接映射到目标光照条件,而是将重新照明任务分为三个部分:场景重建、光照效果估计和重新渲染过程。

2、 为了保留下采样和上采样过程的更多信息,我们将反投影理论插入到自动编码器结构中,这有利于场景重建和光照效果估计。

3、 光照效果难以衡量,增加了训练难度。 我们使用对抗性学习策略:新的阴影区域鉴别器,为训练过程提供指导。

二、相关工作

Back-Projection (BP) theory

相关工作 相关论文
关于低光图像增强的工作 [32] Lightening network for low-light image enhancement
BP理论在单图像超分辨率领域很流行[9,20,21]。基于 BP 的方法不是直接学习从输入到目标的映射,而是迭代地消化残差并改进估计。 它更加关注学习过程中出现的弱点(即残差),这显着提高了深度 CNN 架构的效率。 【9】《Deep back-projection networks for super-resolution》、【20】《 Hierarchical back projection network for image super-resolution》、【21】《Image super-resolution via attention based back projection networks》。

​ 关于低光图像增强的工作 [32] 将 BP 理论扩展到光域传输任务。 它假设低光 (LL) 和正常光 (NL) 图像分别位于 LL 和 NL 域。 首先,一个lightening算子从 LL 输入预测 NL 估计。 然后,darkening算子将 NL 估计映射回 LL 域(LL 估计)。 在 LL 域中,可以找到 LL 输入和 LL 估计之间的差异(LL 残差),这表明两个转移算子(变亮和变暗lightening and darkening)的弱点。 之后,LL 残差通过另一个lightening算子映射回 NL 域(NL 残差)。 NL 残差然后细化 NL 估计以获得更好的输出。 从数学上讲,enlightening过程可以写为:

image-20211104234138291

​ 其中 L 和 ˆN ∈ RH×W×3 分别表示 LL 输入图像和 NL 估计。 H、W 和 3分别代表高度、宽度和 RGB 通道。 符号 L1 和 L2 是两个lightening算子,分别照亮 LL 图像和 LL 残差。 符号 D 是将 NL 估计映射到 LL 域的Darkening算子。两个加权系数 λ1 和 λ2 ∈ R 用于平衡残差计算和最终细化。

Adversarial Learning

​ 将图像转换为相应的输出图像通常形成为像素级回归任务,其损失函数(如 L1 或 L2 范数损失)表示所有像素的平均误差。 这种损失函数忽略了像素之间的相互关系,容易扭曲感知结构,导致输出模糊。 大量的研究工作已经完成了图像之间感知相似性的定量测量,如结构相似性(SSIM)[34]《Image quality assessment: from error visibility to structural similarity》、学习感知图像块相似性(LPIPS)[39]《The unreasonable effffectiveness of deep features as a perceptual metric》、Gram矩阵[6]《A neural algorithm of artistic style》等。 然而,感知评估基本上因不同的视觉任务而异,难以制定。

​ 生成对抗网络 (GAN) [7,14,25] 【7】《Generative adversarial nets》【14】《Image-to-image translation with conditional adversarial networks》【25】《 Conditional generative adversarial nets》提供了一种新颖的解决方案,将感知测量嵌入到对抗学习的过程中。 每个 GAN 由一个生成器和一个鉴别器组成。鉴别器旨在在目标图像中找到潜在的感知结构,然后指导生成器的训练。 随后,生成器提供次优估计,作为鉴别器训练过程的负样本。 对于分组的负和正(目标图像)样本,判别器执行二元分类任务,测量两类样本之间的潜在感知差异。 整个训练过程是

image-20211105180808841

​ 其中 D 和 G 分别表示鉴别器和生成器。 项 X 和 Y 分别代表输入和目标图像。 在训练过程中,生成器和判别器进行两人的极小极大博弈。 鉴别器学习区分估计图像 G(X) 和目标图像 Y。生成器旨在最小化估计 G(X) 和目标图像 Y 之间的差异。训练过程遵循对抗性学习策略, 越来越多地学习和使用目标图像内的潜在分布。 最后,训练将达到动态平衡,其中生成器产生的估计具有与真实目标图像相似的潜在感知结构。

三、方法

​ 如图 2 所示,所提出的深度重新照明网络 (DRN) 由三部分组成:场景重建、阴影先验估计和重新渲染器。 首先,输入图像在场景重建网络(见第 3.2 节)中处理以去除照明的影响,这从输入图像中提取固有结构。 同时,另一个分支(阴影先验估计,见3.3节)侧重于光照效果的变化,根据目标光源重新投射阴影。 接下来,重新渲染器部分(参见第 3.4 节)感知光照效果并在结构信息的支持下重新绘制图像。 场景重建和阴影先验估计网络都具有类似的深度自动编码器结构,这是一种Pix2Pix网络增强的变体。三个组件的细节展示如下:

3.1 Assumption of Relighting