浙大/南京信息科技/上海AILab/伦敦帝国/暨南大学联合提出 HYPERDET: 通用生成图像检测框架,性能 SOTA !

共 19826字,需浏览 40分钟

 ·

2024-12-01 09:00

文章来源于未来先知,作者小先知


近年来,各种生成式视觉模型的发展使得合成视觉上逼真的图像成为可能,这也突显了从实际照片中有效检测这些生成图像的迫切需求。

尽管在这个领域取得了进步,但现有的检测方法往往难以准确识别由不同生成模型合成的图像。

在本文中,作者提出了一种新颖且通用的检测框架HyperDet,它创新地捕获和集成了一组功能独特且轻量级的专家检测器的共享知识。

HyperDet利用一个大型预训练视觉模型提取通用检测特征,同时捕捉和增强任务特定的特征。为实现这一目标,HyperDet首先将SRM滤波器分为五个不同的组,以根据其不同的功能和复杂性有效捕捉不同程度的像素伪迹。

然后,HyperDet利用超网络生成具有不同嵌入参数的LoRA模型权重。最后,作者将LoRA网络合并以形成一个高效的模型集成。

此外,作者还提出了一种新的目标函数,有效地平衡像素和语义伪迹。在UnivFD和Fake2M数据集上的广泛实验表明作者方法的有效性,实现了最先进的性能。

此外,作者的工作为基于预训练大型视觉模型建立通用的域特定虚假图像检测器开辟了新的途径。

1 Introduction

近年来,生成模型的快速发展,包括GANs(Goodfellow等人,2014年)、VAEs、GLOW(Kingma和Dhariwal,2018年)以及扩散模型(Sohl-Dickstein等人,2015年)等,使得通过AI生成的图像往往能够以肉眼难以分辨的方式呈现。

这一进步使得用户能够在没有专业知识的情况下生成逼真的图像,对娱乐产业产生了重大影响。然而,这种图像的普及对公众舆论和信息真实性构成了严重威胁。

因此,迫切需要有效的方法来监控和检测合成图像,确保信息的完整性,促进公众讨论的公平性。

早期检测方法主要关注由GAN模型生成的图像,采用空间或频率特征来识别合成内容。然而,这些方法往往在处理由新型生成模型(如扩散模型)生成的图像时遇到困难。

因此,出现了越来越多的趋势,即开发能够有效识别各种来源虚假图像的通用检测器。例如,Wang等人(Wang等人,2020年)通过数据增强技术和大型数据集的使用,增强了检测方法的一般化能力。然而,过度的训练会导致检测模型过度拟合训练数据的具体特征。

一些其他方法试图利用语义信息进行检测。例如,Ojha等人 采用了一个预训练的CLIP 模型,在合成图像检测任务中提取高级语义特征。贾等人 利用大型语言模型在合成图像中检测语义异常。

然而,在普遍使用生成模型的真实和生成图像之间,语义差异通常很小。相比之下,NPR(Tan等人,2024),这是一个最新的检测器,可以通过上采样操作捕捉伪造痕迹,利用局部像素之间的相关性。然而,NPR主要依赖低级像素伪造特征,忽视了语义信息,导致高假阳性率。

这篇论文提出了一种名为HyperDet的新方法,旨在有效检测广义的人工制品。作者并没有直接使用空间丰富的模型(SRM)滤波器,而是将它们分组,根据其功能和复杂性捕获不同 Level 的像素人工制品。对于每个SRM滤波器组,作者利用可学习的低秩自注意力(LoRAs)作为专家模型,专门在纹理特征空间中检测可察觉的痕迹。为了实现这一目标,作者引入了一种超网络(Ha等人,2016),生成LoRAs(即超LoRAs)的最优权重,从而实现自适应选择,同时在不同LoRA专家之间共享知识和专业技能。此外,作者还精心设计了一种新的目标函数,将低级像素人工制品和语义上下文集成在一起,有效减轻了假阳性。

大量实验证明,作者的方法在合成图像检测任务中表现出卓越的泛化能力。例如,在UnivFD数据集(Ojha等人,2023)上,作者的方法比最先进的方法(SOTA)(Liu等人,2024)在准确性上提高了 8.12%,mAP达到了0.91

在最新的Fake2M数据集(Lu等人,2024)上,作者的方法比SOTA(Tan等人,2024)在准确性上提高了5.03%,mAP达到了10.02。此外,作者还研究了作者的方法对各种后处理操作的鲁棒性,并分析了它在不同backbone模型上的泛化能力,强调了CLIP在提取通用伪造物方面的有效性。

作者还提出了作者的方法在不同数据集大小上的性能,并讨论了不同的LoRA阶数和各种层的微调对模型性能的影响。

作者主要的贡献可以概括如下:

  1. 作者提出了一种新颖且通用的人工智能图像检测方法,称为HyperDet。与现有检测器不同,作者创新性地将超网络引入检测框架,为特定LoRA专家生成优化权重,从而促进提取通用可识别的假象。

  2. 作者提出了一个SRM滤波器分组策略,该策略根据像素艺术的实用性和复杂性捕获不同 Level 的像素艺术。此外,作者还提出了一种新的目标函数,以有效地平衡像素和语义艺术。

  3. HyperDet在多个数据集上实现了最先进的检测性能,相较于基准方法取得了显著的优势。此外,它还在后处理操作方面展示了更高的鲁棒性。

2 Related work

合成图像生成。在大规模生成模型时代,合成的图像通常指从随机噪声或文本 Prompt 中生成具有视觉真实感的图像。代表性的方法包括GAN及其变体,以及扩散模型。GAN通过生成器和对抗训练将随机噪声转换为图像,并优化质量,而扩散模型通过去噪逐步重建图像。这两种技术在生成高质量合成图像方面均表现出色,同时也对图像检测提出了巨大挑战。

合成图像检测。 早期的视觉伪造检测模型主要关注由生成对抗网络(GANs)生成的图像。Mo等人训练了一个二分类的深度神经网络,用于区分真实和GAN生成的面部图像。Zhang等人提出了AutoGAN模型,该模型自动模拟GAN样本生成过程,并观察到GAN的上采样模块在频域中引入了“棋盘图案”伪影,从而提取频域的谱特征进行分类。Frank等人(Frank等,2020)分析了合成图像和真实图像在频域统计差异。

对于人脸图像伪造检测,Nguyen等人利用胶囊网络来识别伪造痕迹。Dang等人提出了一种基于注意力的模型来处理重要特征图,从而提高了分类能力。Liu等人分析了纹理信息差异,并引入了Gram-Net模型来提取全局纹理特征进行检测。

尽管这些方法在特定数据集上表现良好,但当面临不同的生成模型或未见过的样本时,它们的泛化能力仍然有限。近年来,研究行人越来越关注提高模型的泛化能力。CNNSpot 通过识别卷积网络(CNNs)在图像生成过程中留下的“指纹”来检测视觉伪造物。该研究采用JPEG压缩和图像模糊作为数据增强技术,表明在FroGAN 上训练的模型可以有效地泛化到其他生成模型下的法医检测。Ojha等人在预训练的CLIP模型上应用了 -NN和LC分类策略,取得了良好的结果。Tan等人 通过改进相邻像素之间的关系,增强了低级伪造物检测能力。Liu等人在CLIP模型上采用了Moe和LoRA微调策略,以提高泛化性能。

低秩适应和高网络。低秩适应(LoRA)(胡等人,2021年)是一种高效的方法,用于微调大型模型,尤其是预训练模型。核心思想是将参数更新限制在两个低秩矩阵内,从而实现对原始权重近似的更新。LoRA只需要调整少数额外的参数,从而在保留预训练知识的同时提高计算效率和推理速度,使模型能够更好地适应特定任务。

相比之下,超网络(Ha等人,2016)生成了用于捕捉多个任务之间共享知识的模型参数。超网络并非直接微调目标网络,而是学习生成不同任务所需的参数,从而促进跨任务共享学习。这种机制提高了模型灵活性和泛化能力,同时降低了训练资源消耗。

3 Methodology

在本节中,作者详细介绍了所提出的HyperDet的具体细节。如图1所示,HyperDet基于预训练的CLIP模型,创新性地引入了SRM滤波器分组、Hyper LoRAs调优和合并,以捕捉合成图像的一般性检测痕迹。

Grouping SRM Filters

空间丰富的模型(SRM)(Fridrich & Kodovsky,2012)是一种基于空间域丰富模型的隐写分析方法,主要用于空间编码图像的隐写分析。这是传统隐写分析中依赖手工特征提取的主导方法。在合成图像检测中,它可以有效地从高频分量中提取像素伪迹。

SRM滤波器分组策略。许多先前的研究(Sun等人,2022;钟等人,2023)广泛利用SRM滤波器在合成图像检测中。然而,作者的研究发现仅依赖简单过滤,虽然可以在一定程度上提高检测能力,但性能提升有限。在本论文提出的办法中,作者设计了一种新颖的SRM滤波器分组策略,以增强特征提取性能。

具体而言,30个滤波器被分为五组,每组都有独特的结构特征和功能。这种分类基于滤波器的功能和复杂性,将它们分为不同的组,以更好地捕捉图像中的不同特征 Level 。滤波器的具体分类详情可参见附录A。每组滤波器强调不同的高频纹理特征 Level 。

图2说明了针对四个滤波器的特定分组策略。在分组SRM滤波器集下,给定目标图像 ,作者将滤波器组应用于图像,经过过滤后得到残差特征值 。该过程可以描述如下:



在使用特定分组中的第k个滤波器时,在位置(i,j)处的残值 表示,以及基于邻域 的滤波后位置(i,j)处的估计值 表示原图像中位置(i,j)处的像素值。最后,定义位置(i,j)处的最后一个残差特征 如下:


其中 表示组中总共有多少个滤波器, 表示经过第 个滤波器处理后的残差特征。如图3 所示,使用滤波器组处理后的残差特征在傅里叶谱中相比原始图像表现出更多的伪影。

Hyper LoRAs Tuning

HyperDet利用Hyper LoRAs微调CLIP模型进行合成图像检测。

如图1所示,作者提出的方法的网络结构主要由三个关键部分组成:

  1. 将SRM滤波器组结合以融合多个图像的方法;

  2. Hyper LoRAs:一个生成基于三种不同嵌入和对应图像任务的LoRA权重的超网络;

  3. 用于微调的CLIP模型。对于作者方法,首先将图像输入通过五种不同的SRM滤波器组合进行处理,以提取相应的特征嵌入和图像输入数据。

然后,作者利用一个超网络生成针对不同图像和任务的定制的LoRA权重。这种方法有效地捕获了图像之间的特征差异,并以任务适应的方式优化模型,从而提高各种任务上的性能。以下作者将详细解释整个网络的工作流程。

与先前的使用超网络(Mahabadi等人,2021年)的研究不同,作者选择了LoRA微调而不是 Adapter 模块。每个图像将生成六个不同的视角图像,其中五个是由SRM滤波组生成的新的图像,而其他则是图像本身的原始形式。对于每个不同的视角图像,将生成一个不同的任务嵌入 ,其中 表示每个视角的嵌入值。

类似地,作者可以从CLIP的不同ViT块的各个位置获得不同的层嵌入 ,以及每个ViT块的MLP层内的位置嵌入 。在这里, 表示不同ViT块的索引, 表示MLP层内的位置。因此,作者可以获得三个不同的嵌入,对应于超网络所需的三个不同的参数输入。基于这些输入和网络要求,作者可以生成相应的LoRA。这种方法使超网络能够在不同的任务之间学习通用知识,从而提高模型的泛化能力。具体而言,LoRA网络的生成可以定义为:

代表一个超网络,该超网络基于三个不同的嵌入参数 生成 LoRA 网络。 代表通过一个简单的线性网络处理三个不同的嵌入 以产生相应的网络模块。

LoRA微调的原则是,现有的大规模模型通常存在参数冗余,特别是在应用到特定下游任务时,只有一个小部分参数起主要作用。因此,在特定下游任务的微调过程中,可以减少待优化的参数数量以提高效率。实现这一目标最常用的方法是通过低秩矩阵分解。具体来说,对于网络中一个参数大小为 的层,引入了一个旁路结构,其中两个矩阵 的乘积。在这里,矩阵 的参数大小为 ,矩阵 的参数大小为 ,其中 。这种旁路结构显著降低

图像频率分析。该图比较了在应用SRM滤波器之前和之后,由五个生成模型(BigGAN、StyleGAN、StarGAN、CycleGAN、CRN)生成的特征图。顶部一行显示每个生成模型产生的原始特征图,底部一行显示相应的SRM处理后的特征图。经过SRM滤波后,边缘高频特征增强,揭示了潜在的伪迹和不一致性,而中央低频特征被抑制,减少了检测的语义影响。

与原始模型相比,参数数量较少,使得原始网络结构保持不变,仅对矩阵 的参数进行微调。

ΔW代表从旁路网络更新的参数:

该方法充分利用了模型的参数压缩特性,从而提高了微调的效率。

loss functions and model merging

在合成图像检测任务中,作者将它定义为二分类问题,其中真实图像被 Token 为0,合成图像被 Token 为1。这种设置使作者能够通过对比真实图像和合成图像的特征来训练和评估分类模型,从而区分它们。

作者在模型的最终输出上添加了一个sigmoid激活层,并对最后一个分类层(Ojha等人,2023)进行了微调,同时使用了交叉熵损失函数进行二分类任务:


在这个特征向量中,合成图像的特征向量 表示,真实图像的特征向量 表示,而 是一个分类层。特征向量具有768维,其中 表示合成图像的特征, 表示真实图像的特征, 是一个分类层。

单一的交叉熵损失 可能导致模型优化不平衡,从而导致真实图像的特征被遗忘。

这种设置可能导致假阳性,即真实图像被错误地分类为合成图像。为了缓解这个问题,作者引入了一个总损失,它同时包含了原始图像和滤波后的图像。 的计算如下:


表示未应用任何滤波器的原始图像的二进制交叉熵损失,而 表示经过五组滤波器组合处理的图像的二进制交叉熵损失。参数 是一个超参数,通常设置为较小的值,在本研究中设置为0.1。这是因为模型需要专注于处理过滤后获得的丰富纹理特征,同时确保保留原始图像的特征,从而保持网络检测真实图像的能力。训练和推理中使用的具体特征融合算法详细见附录F。

4 Experiments

Settings

实现细节本研究采用Hyper LoRAs模块微调CLIP:ViT-L/14模型最后8个全连接层,生成的LoRA的秩设置为16。为确保实验一致性(Ojha等人,2023;Wang等人,2020;Liu等人,2024),使用包含720万图像(包括360万真实图像和由ProGAN(Karras等人,2017)生成的360万合成图像)的20个类别数据集(包括0.1的概率的Gaussian模糊和JPEG压缩数据增强)。在训练过程中,高斯模糊和JPEG压缩数据增强的概率设置为0.1,学习率固定为0.0001。模型训练了5个周期。实验在一个具有两个RTX 4090 GPU的服务器上进行。

数据集作者在UnivFD数据集和Fake2M数据集上评估作者方法的一般化能力。UnivFD数据集包含以下生成器:ProGAN 、CycleGAN 、BigGAN(Brock等人,2019年)、StyleGAN、GauGAN、StarGAN、Deepfakes(Rossler等人,2019年)、SITD、SAN 、CRN 、IMLE,Guided、LDM 、Glide(Nichol等人,2021年)和DALL-E。

此外,作者对这些数据集进行了鲁棒性评估,并进行了各种消融实验。Fake2M是一个最近收集的、规模更大的合成图像数据集,主要由以下生成器生成:Stable Diffusion模型,Midjourney 、Cogview(Ding等人,2021年)、StyleGAN(Karras等人,2019年)。该数据集包含由各种扩散模型生成的合成图像,这些图像具有更真实的视觉效果。以前的方法在这个数据集上的检测性能几乎达到了随机猜测的水平。

评估协议:作者遵循前人工作的评估协议,以平均精确度(mAP)和分类精度(avg. Acc)作为评估作者的检测方法的主要指标。对于所有数据集、鲁棒性测试和消融研究,作者报告了平均精确度(mAP)和平均分类精度(avg. Acc)作为评价指标。作者在附录C中使用t-SNE可视化了作者的优越判别性能。

Generalization across synthetic image datasets

评估在UnivFD数据集上的性能。作者对作者的方法与几种最先进的合成图像检测器进行了比较评估。

在Fake2M数据集上的评估。Fake2M数据集包含由最新最先进的生成器生成的图像,其逼真度已经达到了几乎无法与肉眼区分且在许多传统检测器上表现不佳的水平。作者在该数据集上评估了上述基准模型。

3(a)和3(b)图证明了其他方法在新型Fake2M数据集上实现了较低的平均平均精确率(mAP)和平均准确率(avg.ACC),这突显了新的数据集对泛化检测方法带来的挑战。相比之下,作者的方法在两个指标上都超过了所有 Baseline 方法,实现了+5.03%的准确率提升和+10.02mAP的提升。

Robustness against post-processing operations

图像在传输过程中通常会经历各种后处理操作,这可能会影响检测性能。为了证明作者方法的鲁棒性,作者在UnivFD数据集上评估了作者的方法,特别关注了两种常见的后处理技术:高斯模糊(σ=1,2,3,4)和JPEG压缩(质量=90,80,70,60,50,40,30)。

作者将作者提出的方法的鲁棒性与其他方法进行了比较,包括CNNspot(Wang等人,2020年)、UnivFD(Ojha等人,2023年)和NPR(Tan等人,2024年)。

图5和6展示了四种模型的鲁棒性评估结果。作者发现,作者的方法在去噪方面取得了很好的性能,主要归功于应用了提取低 Level 伪特征范围广泛的滤波器。在JPEG压缩的情况下,作者的方法也表现良好,尽管与UnivFD方法相比,一些性能指标略有不足。

Impacts of different backbone networks

作者的目标是利用预训练的视觉网络来增强合成图像检测的泛化能力。因此,作者在不同的ViT架构上比较了各种预训练设置的性能。除了CLIP的各种ViT变体外,作者还考虑了一种在ImageNet-21k(Deng等人,2009年)上预训练的广泛网络架构,保持其他设置一致。

如图7所示,CLIP视觉编码器在检测性能上明显优于其他模型。此外,较大的模型通常具有更强的能力。值得注意的是,CLIP: ViT-L/14,由于其出色的预训练结果和广泛的网络结构,允许对各种数据集进行更广泛的泛化,从而更好地理解自然数据的分布,并更深入地学习区分真实图像和合成图像的底层细节。

Effects of training data scale

作者的实验使用了ProGAN作为训练数据,包括360k个合成图像和360k个真实图像,总共720k张图像。作者观察到,在如此大的数据量下,HyperDet在检测性能上实现了良好的泛化。在本节中,作者将研究HyperDet在较小数据集上是否仍能保持强大的泛化能力。为此,作者在数据集大小为2k、8k、20k、80k、200k和720k的的数据集上评估了HyperDet。

图8说明了HyperDet在不同数据尺度下的泛化性能。作者发现,即使在小数据集上,HyperDet也能保持良好的泛化能力。然而,当数据大小极度缩小时(例如,2k),性能会显著下降。这主要是由于在特定数据集上过拟合,导致重大偏差,从而削弱了CLIP特征的优势。

Ablation study on different layers and LoRA ranks

作者发现,在ViT-L/14中的8个MLP层进行微调已经取得了良好的结果。这引发了一个问题:如果调整更多或更少的层,结果会是什么?此外,在之前的实验中,作者将LoRA的秩设置为16;

如果更改秩为其他值,将对网络性能产生什么影响?本节呈现了作者的方法(HyperDet)在不同配置下的性能。

5 Conclusion

在这项工作中,作者开发了一种通用的虚假图像检测方法HyperDet,该方法在区分由未见来源模型生成的合成图像方面特别有效。

HyperDet首先将SRM滤波器分组,以实现对合成图像中高频像素伪造成分的有效提取,然后利用可学习的LoRA模型捕捉相应的可识别特征。

重要的是,作者引入了Hyper LoRAs,这些模型利用超网络为不同的LoRA专家生成权重,以在模型学习过程中提取共享知识。

最后,专家被合并以增加模型的泛化能力。HyperDet有效地减少了假阳性,并在多个数据集上表现出强大的泛化能力,为合成图像检测的未来研究做出了贡献。

参考文献

[0]. HyperDet: Generalizable Detection of Synthesized Images by Generating and Merging A Mixture of Hyper LoRAs.




浏览 83
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报