在人工智能嗅觉表征学习研究取得新进展

发布日期:2026-05-03     浏览次数:次   

近日,我院程俊教授团队与深势科技合作,在人工智能嗅觉感知领域取得重要进展,相关研究成果以NOSE: Neural Olfactory-Semantic Embedding with Tri-Modal Orthogonal Contrastive Learning为题,被自然语言处理领域国际顶级会议ACL 2026主会录用。ACLAnnual Meeting of the Association for Computational Linguistics)是计算语言学和自然语言处理领域的国际顶级学术会议,在中国计算机学会推荐会议列表中被列为A类会议CCF-A,本届会议共收到12148篇投稿,主会录用率约为19%这也是我院首次以第一单位在人工智能领域顶级会议上发表论文。

人类的嗅觉感知是一个复杂的多层次过程。气味分子首先经过挥发扩散与鼻腔中的嗅觉受体蛋白结合,随后通过神经信号传导,最终在大脑中形成花香”“薄荷味等主观知觉。这条通路天然涉及三种截然不同的信息,即分子的三维化学结构、受体蛋白的氨基酸序列,以及人类用自然语言给出的感知描述。然而,现有的AI方法通常只建模其中的局部片段,例如仅从分子结构出发预测气味类别,或仅学习分子与受体之间的结合关系,从未在统一框架中同时考虑这三种信息。此外,主流方法将气味预测视为分类问题,将薄荷清凉视为两个独立标签,破坏了气味空间本身的连续性,限制了模型面对新分子时的预测能力。

针对上述问题,研究团队提出了NOSE框架,以分子结构为中枢,将受体蛋白信息和气味语义信息桥接到同一个连续的表征空间中。该框架的核心设计是将受体信息和语义信息分别映射到分子表征中相互正交的子空间,使两类信息在数学上互不干扰,既保留了分子本身的结构特征,又实现了三种模态的隐式对齐。在气味描述端,由于每个分子通常只标注了少量描述词,而语义相近的词(如柠檬柑橘)在传统方法中会被错误地当作无关样本,研究团队借助DeepSeek自动挖掘气味描述词之间的语义相似性,将孤立的离散标签扩展为连续的语义邻域,从而避免了模型将气味相近的分子在特征空间中错误地推远。在数据方面,团队整合了多来源的嗅觉受体与气味描述数据,构建了首个支持三模态学习的大规模预训练数据集及配套评估基准。

研究团队设计了覆盖三个认知层次的评估体系,包括基础感知属性(检测阈值、强度、愉悦度)、语义描述预测(138类气味标签分类及多维度强度回归)和混合物感知预测(二元混合物的整体强度与愉悦度)。在全部11个下游任务的关键指标上,NOSE均取得了最优表现。进一步的检索实验表明,仅输入一个分子的化学结构,模型即可准确检索出与之匹配的气味描述词和受体序列。即便面对训练过程中从未见过的全新分子,模型依然展现出良好的预测能力,验证了所构建表征空间与人类嗅觉感知之间的一致性。该工作为气味分子的计算机辅助设计、嗅觉受体功能筛选以及混合香料的感知预测提供了新的技术手段。

该工作在我院程俊教授和深势科技高志锋的共同指导下完成。我院2025级博士研究生苏沿溢为论文第一作者,深势科技汪鸿帅参与完成。该研究得到国家自然科学基金9247020122225302924613122254120422021001)、中央高校基本科研业务费20720250005)、嘉庚创新实验室(RD2023100101RD2022070501)等项目资助。

论文链接 https://arxiv.org/abs/2604.10452v1


下一条:化学自动化合成在“基础化学...