9月 28
  1. 今天
  2. 星期六
19:00
grade

探索大规模预训练模型在微调过程中的鲁棒性优化

当前,深度学习领域内,使用预训练的大规模模型进行下游任务的微调已成为主流实践,特别是ChatGPT等预训练语言大模型的杰出表现,使得这种方法获得了广泛认可。这类模型通过海量数据预训练,具备了适应复杂环境的能力,展现出强大的泛化能力。

然而,当采用单一性下游数据对这些预训练大模型进行微调时,模型的鲁棒性往往受到影响,这尤其在视觉模型中更为显著。原因在于,视觉数据的多样性和复杂性远超语言数据,微调过程可能导致模型对非语义特征的过度依赖,从而降低其在不同场景下的表现稳定性。

先前的研究尝试通过模型集成等方法在参数层面隐性保持模型的鲁棒性,但这些方法并未深入剖析微调导致模型性能下降的内在机制。为此,本研究从因果关系的角度出发,深入分析了预训练模型在微调过程中鲁棒性丧失的根本原因,并针对性地提出了提升模型鲁棒性的微调策略。

作为实例,本文以OpenAI发布的跨模态预训练大模型CLIP为例。CLIP是一种基于对比学习的图像-文本联合学习模型,是Stable Diffusion等生成式模型的基础。尽管在一定程度上学习到了对于分布变化具有鲁棒性的因果关系,但在使用特征单一的下游数据进行微调时,模型可能会学到依赖于非语义特征的关联,这在某些情况下并非真实相关,从而影响模型的鲁棒性。

针对这一问题,研究者提出了一种基于图像掩码构造反事实样本,并通过掩码图像学习提高模型鲁棒性的微调方法。具体而言,通过类激活图(CAM)方法掩盖并替换图像的特定区域内容,以此操纵图像的非语义或语义特征,产生反事实样本。微调模型则通过模仿预训练模型对这些反事实样本的特征表示,有效解耦了语义因素与非语义因素的影响,显著提高了模型在下游任务中的性能和鲁棒性。

实验结果验证了该方法的有效性,相较于现有微调技术,显著提升了预训练模型的鲁棒性。这项工作不仅在一定程度上揭示了预训练模型微调过程中的“黑盒”现象,也为解决模型的“可解释性”和“可控性”问题提供了重要参考,推动了预训练大模型在实际应用中的发展。

中山大学HCP团队,自Transformer机制诞生以来,一直专注于大模型技术范式的创新研究,致力于提升模型训练效率,并通过引入因果模型增强模型的可控性。团队在视觉、语言、语音和跨模态领域均有深度布局,并与华为诺亚方舟实验室合作开发了“悟空”跨模态大模型,展现了团队在大模型领域的前沿探索与贡献。

团队亮点

中山大学人机物智能融合实验室(HCP Lab)在多模态认知计算、机器人与嵌入式系统、元宇宙与数字人、可控内容生成等领域进行了系统性研究,并成功转化研究成果至实际应用,孵化出一系列创新产品。实验室由林倞教授创立,多次荣获科技奖项,培养了梁小丹、王可泽等青年才俊,展现出了深厚的科研实力与人才培养成果。