阅读此文前,诚邀您点击一下“关注”,方便您随时查阅一系列优质文章,同时便于进行讨论与分享,感谢您的支持~
文|沐晚
编辑|智海弄潮
引言
在同一场景中可以相当大,呈现为宽动态范围。然而,由于数码相机的局限性,传感器产生的图像只能捕捉到非常有限范围内的细节。为了解决这个问题,最常见的方法是在低动态范围(LDR)的不同曝光设置下拍摄一系列照片,然后将它们合并成一张曝光良好的高动态范围(HDR)图像,以获得更好的视觉感受。在LDR图像中,可以清晰表示的区域可能会随着光照条件的不同而有所不同。而在HDR图像中,曝光不足和曝光过度区域丢失的细节信息将得到恢复和增强。因此,融合图像将包含所有区域的更好照明。
然而,全面考虑提取的特征和融合规则是一个费时、费力和困难的问题。在现有的基于深度学习的方法中,卷积神经网络(CNN)的应用受到限制。现有方法的缺点将在后面的部分具体描述。在本文中,基于深度学习,我们提出了一种新的MEF端到端模型,称为通过生成对抗网络(MEFGAN)进行的多曝光图像融。
一、相关工作
本节简要回顾现有的多曝光图像融合方法和GAN背后的基本理论。作为扩展,我们简要介绍了GAN的变体及其在图像处理领域的一些典型应用。
现有的MEF方法可以根据理论分为四类:基于像素的方法。这种方法包括两类。一种是基于权重和梯度的方法。基于权重的方法的关键是计算逐像素融合的权重。基于梯度的方法致力于保留源图像中的最大梯度。另一种是基于多尺度变换的方法,包括金字塔、Contourlet、Shearlet、主成分分析、密集尺度不变特征变换等。这些方法主要包含三个阶段:图像变换、系数融合和反变换。这些方法可以获得比第一类方法更好的视觉感知。作为代表,GFF将图像分解为基础层和细节层。
提出了一种新的基于引导过滤的加权平均技术,以充分利用空间一致性来融合这些层。此外,基于高斯金字塔变换,FLER首先合成一个具有中等曝光度的虚拟图像。然后使用高斯金字塔融合虚拟图像和两个源图像。然而,这些方法的一个共同限制是它们不能很好地表示图像的曲线和边缘。此外,基于像素的方法的结果可能会出现暗区,因为它们无法根据源图像其他区域的信息调整融合结果。
基于稀疏表示的方法。稀疏表示是一种新颖的表示理论,由于具有清晰的成分和纹理而没有伪影的优点而被广泛应用。首先,根据同一个过完备字典,源图像可以用相应的稀疏系数表示。然后,对系数执行融合过程。最后通过系数和字典得到融合图像。然而,如何获取系数和如何构造字典是这些基于稀疏表示的方法的两个普遍问题。基于色调映射的方法。通过在多个LDR图像上通过HDR重建技术压缩高动态范围,HDR场景能够在普通设备上显示。在过去的几年中,已经提出了许多不同的映射方法。
基于深度学习的方法。Deepfuse首次将深度学习引入多曝光图像融合领域。Deepfuse采用度量MEFSSIM作为损失函数,并构建了一种新颖的CNN架构来实现无监督学习。MEF-SSIM的定义基于SSIM。在MEF-SSIM中,源图像被转换为所需的结果。然后,通过测量期望结果与实际结果之间的相似度来计算MEF-SSIM。为了获得所需的结果,源图像中的补丁被建模为SSIM框架中的三个组件:对比度、结构和亮度。
由于局部补丁中的亮度比较微不足道,亮度分量被丢弃。通过使用输入块结构的权重和和输入块对比度的最高对比度值,仅获得源图像的结构和对比度并将其保留在期望的结果中。因此,简单地依靠MEF-SSIM来指导融合图像的生成会导致其他关键信息的丢失,因为它只关注结构和对比度失真。此外,在Deepfuse中,CNN仅应用于Y通道进行特征提取和重构,而色度通道的融合规则仍然是人工设计的。然而,手动设计的方式仍可能无法完全保留色度通道中的信息。
二、生成对抗网络
GAN最初被提议用于估计生成模型。在GAN框架中,生成网络G和鉴别器网络D同时训练并形成对抗过程。给定从潜在空间采样的噪声变量z,生成网络G应该生成样本x=G(z)。训练G的目的是学习概率分布PG(x)作为对来自真实样本{x,xm}的真实分布Pdata(x)的估计。然后应用鉴别器D来确定样本是来自PG(x)还是来自Pdata(x)。通过不断的对抗过程,G生成的样本会逐渐逼近真实样本。在传统方法中,生成模型通常由已知分布组成,例如高斯混合模型。
然后,可以方便地进行最大似然估计。如果Pdata(x)复杂得多,则似然函数将更难计算,估计也更难执行。由于深度学习的承诺是发现丰富的层次模型,因此深度网络更适用于捕获数据分布。因此,在GAN的框架中,生成器网络G用于生成新样本。由于G的目标是使PG(x)尽可能接近Pdata(x),优化。
由于Pdata(x)是待求解的分布,PG(x)由网络G决定,所以散度Div(PG(x),Pdata(x))无法具体表达和求解。在这种情况下,应用网络D来估计样本来自Pdata而不是PG的概率,表示为D(x)。因此,PG和Pdata的Jensen-Shannon(JS)散度可以表示:
当我们训练生成器G时,当我们训练D时,G也是固定的,然后,G和D形成对抗关系并组成两人最小-最大游戏,其中G被训练来愚弄D,而D试图区分生成的样本。随着对抗过程的推进,G生成的dada与真实数据的区别会越来越大。
GAN的变体及其应用迫使PG(x)与Pdata(x)尽可能的对抗损失使GAN变得更适合图像生成任务。受GAN的启发,Ledig等人。引入了用于图像超分辨率的超分辨率GAN(SRGAN),它通过训练GAN来增强内容损失函数和对抗性损失。为了提高生成图像的质量和训练过程的稳定性,最小二乘GAN(LSGAN)采用最小二乘损失函数作为判别器。因此,马等人。提出了一种名为FusionGAN的基于LSGAN的新方法,它是一种用于处理红外和可见图像融合任务的端到端模型。通过提供一些额外的信息作为生成器和判别器的附加输入层,GAN被扩展到条件GAN(cGAN)。
基于cGAN,通过在修改之前引入VGG特征和L1正则化梯度,可以从模糊图像中恢复清晰图像。wassersteinGAN(WGAN)没有使用JS散度来比较PG(x)和Pdata(x),而是引入了Wasserstein距离来提高稳定性并摆脱模式崩溃等问题。通过应用WGAN和感知相似性,Yang等人。提出了一种用于LDCT图像去噪的现代深度神经网络。
Zhu等人通过对分布匹配和循环一致性损失应用对抗性损失来防止学习映射。提出了循环一致的GAN(CycleGAN)来学习在没有配对示例的情况下从源域到目标域的转换。为了解决传统GAN仅根据空间局部点生成高分辨率细节的问题,Zhang等人。提出了自注意力GAN,它允许注意力驱动、远程依赖建模。此外,为了从复杂的数据集中生成高分辨率和多样化的样本,Brock等人。以最大规模训练GAN,并研究这种规模特有的不稳定性。
三、提议的方法
在本节中,我们提供了损失的设计和公式,包括生成器的对抗损失和内容损失,以及鉴别器的对抗损失。然后,我们详细描述了网络架构。最后,提供了实现,包括用于训练和测试的公开数据集、一些训练细节和超参数的设置。
生成器G被训练以从源图像学习映射,即曝光不足的图像Iu和over到曝光良好的图像IfIo)。exposedimageIo为了捕捉groundtruthIgt的真实概率分布。
束If和通过试图愚弄同时训练的区分If和Igt的鉴别器D,LAdv强制G生成的融合图像驻留在基本事实上流形上。在以前的研究中,GAN的成功和应用由于不稳定的行为、伪影和错误或嘈杂的结果而受到限制。基于cGAN的图像生成任务的先前工作和第II-C节中提到的应用发现,通过额外的内容损失(例如,L1、L2规范或其他损失)来增加生成器的对抗损失,可以有益于并提高发电机性能。因此,在我们的工作中,除了LAdv之外,我们还使用内容损失LCon来增强生成器损失函数。所以生成器损失函数LG可以定义为:
四、结语
我们提出了一种新的基于GAN的多曝光图像融合方法,称为MEF-GAN。而不是申请为了最小化约束融合结果和源图像之间某些信息相似性的度量值,我们构建了一个最小-最大双人游戏。在我们的方法中,给定曝光过度和曝光不足的图像,训练生成器网络生成融合图像。同时,除了内容损失之外,还训练鉴别器网络通过将融合图像与相应的地面实况区分开来与生成器形成对抗关系。此外,生成器中引入的自注意力机制还通过允许注意力驱动和远程依赖来提高融合图像的性能。与其他五种最先进的融合方法相比,我们的方法可以在定性和定量上实现先进的性能。
参考文献:
1.L. Xing、L. Cai、H. Zeng、J. Chen、J. Zhu 和 J. Hou,“用于多曝光图像融合的多尺度对比图像质量评估 模型”,信号处理,2018 年。
2.M. Song、D. Tao、C. Chen、J. Bu、J. Luo 和 C. Zhang,“概率曝光融合”,IEEE 图像处理汇刊,2012 年。
3.Z. Li、J. Zheng、Z. Zhu 和 S. Wu,“不同曝光图像与移动物体的选择性细节增强融合”,IEEE 图像处理,2014 年。