近日,我校人工智能与软件工程学院大数据与人工智能团队与北京大学软件学院的合作研究成果《Adaptive Prompt-Based Semantic Embedding with Inspire Potential of Implicit Knowledge for Cross-Modal Retrieval》被人工智能领域顶级学术会议AAAI-25(The 39th AAAI Conference on Artificial Intelligence)录用。论文第一作者为我校黄鑫博士,第二作者为我校硕士研究生王世龙,通讯作者为我校李菁菁博士,南阳师范学院为第一通讯单位。
AAAI(Association for the Advancement of Artificial Intelligence)是人工智能领域的主要国际学术组织之一,其主办的AAAI年会为人工智能领域的顶级会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。AAAI 2025将于2025年2月25日在美国费城召开,本届会议共收到12957篇投稿论文,接收率为23.4%。
成果概述:
在大数据时代,跨模态检索在研究与应用中日益重要。然而,现有方法在处理图像-文本对之间的显著信息不对称性以及图像数据的高度分布多样性时,面临诸多挑战。针对这一问题,本文提出了一种基于自适应提示的语义嵌入方法,结合隐式知识的潜力 (APSE-IPIK),以优化跨模态对齐效果。具体而言,本文设计了一种高效策略,从大规模预训练多模态大模型中提取细粒度、多视角的文本描述,将其视为隐式知识的注入。这些描述通过与图像进行跨模态语义对齐的方式,融入视觉语义嵌入中,有效平衡模态间的信息不对称性,并减少不准确匹配关系的嵌入偏差。同时,本文构建了基于实例级查询的提示池策略,自适应提取最相关的提示,以解决模态内(特别是图像数据)多样性导致的对齐偏差问题,进一步提升对齐精度。通过在 Flickr30K 和 MSCOCO 两个广泛使用的数据集上开展的大量实验验证,结果表明该方法在跨模态检索任务中具有显著的优势与高效性。