我院大数据与人工智能团队在人工智能顶级国际会议IJCAI 2025上发表最新研究成果

信息来源: 发布日期:2025-04-30

本网讯(通讯员 黄鑫 郭康达)近日,我校人工智能与软件工程学院大数据与人工智能团队与北京大学人工智能学院的合作研究成果《Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models》被人智能领域顶级学术会议IJCAI 2025(The 34th International Joint Conference on Artificial Intelligence)录用。论文第一作者为我校黄鑫博士,第二作者为我校硕士研究生李瑞彬,通讯作者为我校王亚博士,南阳师范学院为第一通讯单位。

近年来,人工智能与软件工程学院高度重视科研团队建设,持续在人才引进、学术交流和项目申报等方面给予了有力支持,为高水平科研成果的产出提供了坚实保障。此次成果的取得,体现了学院在视觉-语言模型组合推理方向的持续探索与技术积累。今后,学院将继续以科研创新为导向,通过优化团队结构、完善科研平台建设、深化交流合作等多维度举措,扎实推进学术科研工作,助力更多科研团队攻关前沿领域关键技术。

IJCAI由国际人工智能联合会主办,是人工智能领域的顶级会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。IJCAI 2025将于2025年8月16日在加拿大蒙特利尔召开。本届会议共收到 5404 篇有效投稿,接收率为 19.3%。

undefined

成果概述:

在多模态学习领域,视觉-语言大模型具有重要的基础性地位。然而,这类模型在处理需要准确捕捉图像-文本细微语义差异的组合推理(Compositional Reasoning)任务时面临瓶颈。现有方法大多通过生成文本负样本的方式对模型进行直接微调,忽视了图像负样本的重要信息,从而限制了模型的整体性能。此外,现有方法在微调过程中未针对不同难度的样本设计相应的学习策略,导致模型在处理语义复杂的数据时表现不佳。针对上述问题,本文提出了基于视觉扰动与自适应难负样本对比学习的组合推理方法。具体地,一方面通过向量计算获取文本正负样本之间的语义偏差,并利用该偏差扰动原始图像,从而生成与文本负样本语义一致的视觉负样本特征,以增强视觉编码器的整体性能;另一方面构建自适应的难负样本对比学习框架,通过设计动态边界对比损失,根据样本难度自适应地调整学习策略,针对性地提升了模型对困难样本的辨识能力。在ARO、VALSE及SugarCrepe三个评测基准上的实验结果表明了本文方法的性能优势。