醋醋百科网

Good Luck To You!

cvpr 2024|使用自编码器重建误差的无训练潜在扩散图像检测


AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction


1. 研究背景

随着文本到图像模型的快速发展,任何人都可以生成具有高度真实感且内容任意的图像,这加剧了视觉虚假信息的威胁。生成高分辨率图像同时保持低计算成本的关键推动者是潜在扩散模型(Latent Diffusion Models, LDMs)。与传统扩散模型不同,LDMs在预训练自编码器(Autoencoder, AE)的低维潜在空间中执行去噪过程,而不是在高维图像空间中执行。尽管LDMs非常重要,但其法医学分析仍处于起步阶段。

2. 研究意义

本文提出了一种新颖的检测方法AEROBLADE,该方法利用LDMs的一个固有组件:用于在图像和潜在空间之间转换图像的自编码器。研究发现,生成图像比真实图像更能被自编码器准确重建,从而可以基于重建误差进行简单的检测。该方法易于实现且不需要任何训练,但其性能几乎与依赖于大量训练的检测器相当。此外,AEROBLADE还能够对图像进行定性分析,有助于识别篡改区域。

3. 文献综述

检测生成图像

视觉伪影分析:利用不正确的光照、不一致的眼反射或不规则的瞳孔形状等视觉伪影。

频域分析:生成图像在频域中表现出可区分的伪影。

学习基方法:提出了多种基于学习的检测方法。

GAN反演:利用GAN反演来识别生成图像,这与基于重建的检测思想相关。

扩散模型在视觉异常检测中的应用

扩散模型的重建能力可用于视觉异常检测,通过重建图像并比较原始图像和重建图像之间的差异来识别异常区域。

4. 具体方法

方法概述

AEROBLADE基于以下观察:LDMs的自编码器在重建生成图像方面比重建真实图像方面表现更好。因此,图像与其重建之间的距离可用于简单的阈值检测。

重建误差定义

对于给定的图像x和LDM G_i的自编码器AE_i,重建误差Δ_AE_i(x)定义为图像x与其重建图像之间的距离

多模型检测

为了处理多种生成模型,计算每个LDM的重建误差,并使用最小重建误差进行分类:


图1:AEROBLADE 原理示意图

描述

  • 图1(a): 展示了一张来自LAION-5B数据集的真实图像。
  • 图1(b): 展示了通过Stable Diffusion 2.1的自动编码器(AE)对真实图像进行编码后再解码得到的重构图像。
  • 图1(c): 使用LPIPS距离度量显示了真实图像与其重构图像之间的误差。
  • 图1(d): 展示了由Stable Diffusion 2.1生成的一张图像。
  • 图1(e): 展示了通过相同AE对生成图像进行编码后再解码得到的重构图像。
  • 图1(f): 显示了生成图像与其重构图像之间的误差,可以看出误差明显小于真实图像的重构误差。

说明

  • AEROBLADE方法基于观察,即生成图像通过AE可以比真实图像更准确地重构,利用这一特性进行图像真伪检测。

公式1定义了图像x通过模型G_i的自动编码器AE_i(包括编码器E_i和解码器D_i)得到的重构误差AE_i(x)。其中,d表示某种距离度量,x是原始图像,~x是通过AE_i重构后的图像。

图2:重建误差公式图示

描述

  • 图示展示了公式1的定义,即图像x通过模型G_i的自动编码器AE_i(包括编码器E_i和解码器D_i)得到的重构误差AE_i(x)。

说明

  • 重构误差定义为原始图像与其通过AE重构后的图像之间的距离。

公式2定义了最小重构误差Min(x),即对于图像x,通过多个模型的AE计算得到的重构误差中的最小值。这里I表示所有考虑的模型集合。

图3:不同数据集的重构误差分布

描述

  • 图示展示了使用LPIPS2度量,对来自不同生成模型(包括Stable Diffusion的不同版本、Kandinsky 2.1和Midjourney的不同版本)的图像以及真实图像,计算其最小重构误差Min的分布。

说明

  • 可以看出,生成图像的重构误差普遍低于真实图像,这为AEROBLADE方法提供了检测基础。

表1: AEROBLADE的检测性能

概述
表1展示了AEROBLADE方法在不同距离度量(LPIPS的不同层)和自动编码器(AE)组合下的检测性能,以平均精度(AP)为衡量标准。

关键点

  • LPIPS层的影响:使用LPIPS2层时,AEROBLADE在所有数据集上的性能最佳,AP值普遍较高,接近或达到1.0。随着LPIPS层数的增加(即感受野的增大),AP值逐渐下降,表明更细粒度的细节导致了更高的重建误差。
  • AE的影响:对于每个数据集,使用“匹配”的AE(即生成该数据集的LDM的AE)通常能获得最佳性能。然而,即使使用不匹配的AE,AEROBLADE的性能仍然相当可观,特别是在使用最小重建误差Min时。
  • 最小重建误差Min:在所有AE和LPIPS层组合中,使用Min(即多个AE中的最小重建误差)通常能获得最佳或接近最佳的性能,表明AEROBLADE方法对未知生成模型的泛化能力较强。

表2: 样本中最小重建误差的AE分布

概述
表2显示了对于每个数据集,使用LPIPS2层时,哪个AE提供了最小重建误差的样本比例。

关键点

  • AE的选择性:对于大多数数据集,特别是那些由Stable Diffusion和Kandinsky生成的数据集,存在一个明确的“最佳”AE,它为大多数样本提供了最小重建误差。
  • Midjourney的特殊性:对于Midjourney生成的数据集,没有公开的AE可用,但Stable Diffusion 2的AE表现相当好,这可能是由于这些模型之间的相似性。

表3: AEROBLADE与基线的比较

概述
表3比较了AEROBLADE与几种最先进的基线方法在检测性能(AP和TPR@5%FPR)上的表现。

关键点

  • 性能对比:AEROBLADE和Corvi等人的方法能够可靠地检测所有模型生成的图像,且AEROBLADE的性能几乎与直接在生成图像上训练的深度分类器相当。
  • 训练需求:AEROBLADE作为一种无需训练的方法,其性能优于大多数需要训练的基线方法,特别是那些普遍检测器。
  • 基线的局限性:其他训练免费的方法(如SeDID Stat)和普遍检测器(如Ojha等人的方法)在某些数据集上的表现不佳,无法可靠地检测所有生成模型生成的图像。

图4:示例图像块的重构误差

描述

  • 图示展示了从每个数据集(包括真实图像和生成图像)中选取重构误差最高和最低的1%的图像块。
  • 图像块大小为128x128,重构误差使用LPIPS2和Min计算。

说明

  • 通过对比高误差和低误差的图像块,可以直观地看到重构误差与图像内容复杂性之间的关系。

图5:重构误差与图像复杂度的关系

描述

  • 图示展示了使用LPIPS2度量的最小重构误差Min与图像复杂度之间的关系。
  • 图像复杂度通过JPEG压缩后的文件大小来近似估计。

说明

  • 对于真实图像,重构误差与图像复杂度呈正相关;而对于生成图像,这种趋势则不那么明显,尤其是高复杂度的图像块也能被较好地重构,这进一步验证了AEROBLADE方法的有效性。

图6:利用重建误差定位篡改区域

内容描述
图6展示了如何通过检查重建误差图来识别真实图像中的篡改区域。具体步骤如下:

  1. 原始图像与篡改:顶部行显示使用Stable Diffusion 1.5篡改的真实图像,中间行显示用于篡改的掩码。
  2. 重建误差图:底部行显示通过Stable Diffusion 1.5的自编码器计算得到的重建误差图。为了更清晰地展示误差,计算时省略了空间平均。

观察结果

  • 篡改区域(即被Stable Diffusion 1.5生成的区域)在重建误差图中显示出显著较低的误差,尤其是在复杂度较高的区域更为明显。
  • 这一观察结果表明,通过检查重建误差图,可以有效地识别出图像中的篡改区域。

图7:对常见图像扰动的鲁棒性

内容描述
图7展示了AEROBLADE及其基线方法在JPEG压缩、中心裁剪、高斯模糊和高斯噪声等常见图像扰动下的检测性能。

观察结果

  • AEROBLADE在大多数设置下表现优于Gragnaniello等人和Ojha等人的方法。
  • 鲁棒性强烈依赖于数据集和所选的LPIPS层。例如,LPIPS4层似乎对扰动的影响较小,可能是由于其较大的感受野。
  • 尽管Corvi等人的方法表现出更高的鲁棒性,但该方法是在受扰动的LDM生成图像上直接训练的,而AEROBLADE则完全不需要训练。

表4: 使用不同距离度量的AEROBLADE性能

概述
表4评估了使用不同距离度量时AEROBLADE的检测性能(AP)。

关键点

  • LPIPS(VGG16)的最佳性能:在所有测试的距离度量中,LPIPS使用VGG16作为骨干网络时获得了最佳的整体性能。
  • 其他度量的局限性:虽然其他度量(如MSE、SSIM、MS-SSIM和DISTS)在某些数据集上表现良好,但它们的性能普遍不如LPIPS(VGG16)。
  • 度量的选择:这些结果强调了选择合适的距离度量对于AEROBLADE方法性能的重要性。

图8:使用更深重建的检测性能

内容描述
图8展示了通过结合自编码器和潜在空间中的去噪过程进行更深层次的重建对AEROBLADE检测性能的影响。

实验设置

  • 使用Stable Diffusion 1.5和2.1,并设置总去噪步骤为50步。
  • 通过改变去噪步骤的数量(从0到50步),评估检测性能。

观察结果

  • 使用1步或2步去噪时,AP几乎与仅使用自编码器时相同。
  • 随着去噪步骤的增加,检测性能显著下降,尤其是对于较高的LPIPS层。
  • 使用完整的去噪过程(即50步)获得的重建与DIRE方法使用的重建相同,但并未提高检测性能。

结论
包含去噪过程来计算重建距离并不利于检测性能,尤其是考虑到增加的计算复杂性和对U-Net权重的依赖。

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言