融合知识图谱与大语言模型助力接力催化研究

发布日期:2025-09-04     浏览次数:次   

近日,我院程俊教授团队、王野教授团队与英国爱丁堡大学 Jeff Z. Pan 教授团队联合提出了一种结合大语言模型(LLM)与自建催化知识图谱(Cat-KG)的接力催化路径智能推荐方法。相关成果以“Synergizing Knowledge Graph and Large Language Model for Relay Catalysis Pathway Recommendation”为题发表于National Science Review(DOI: 10.1093/nsr/nwaf271)

接力催化(Relay catalysis)是一种将多个催化反应有机耦合的策略,可以显著提升合成效率和选择性,减少能耗和原料浪费。然而,要设计出一条合理的接力催化路径并不容易。研究人员不仅需要查阅大量分散的文献,还要对比不同的反应条件,并确保各个步骤之间能够顺利衔接。这个过程往往耗时漫长、依赖经验,且存在较大不确定性。此外,由于反应数据分散在不同来源,缺乏系统整合,研究人员很难快速获得全面、可靠的信息,这使得接力催化路径的设计充满挑战。

为解决接力催化路径高效设计这一难题,程俊教授课题组提出了一种融合知识图谱与大语言模型的创新方法,用于智能化推荐接力催化路径。该方法首先利用LLM辅助的工作流进行数据采集与整理,并据此构建了详细的催化知识图谱。在对Cat-KG进行查询后,通过结合接力催化领域的专业知识设计的评分规则来筛选潜在的催化路径。随后,LLM将结构化的路径及反应条件数据转化为化学方程式和说明文字,方便科研人员理解。这一步既融合了Cat-KG中的催化知识,又避免了LLM可能产生的幻觉问题,因为其信息来源可靠。该方法能够在几分钟内高效推荐乙烯、乙醇、2,5-呋喃二甲酸盐等目标的接力催化路径,结果不仅与已有报道路径一致,还给出了不同的反应条件,验证了其有效性。

综上,该工作发展了一种区别于传统“黑箱”式AI推荐的路径推荐方法,具有透明性、可解释性和可溯源性。每条推荐路径均附带支持数据与文献链接,可辅助化学家在实验前进行评估与决策。该系统具备高度的灵活性与可扩展性,既可平滑升级至更先进的大语言模型,也能拓展应用于光催化、电催化等新兴研究场景。研究团队还计划在未来版本中引入专家反馈,不断优化推荐模型。

程俊教授与王野教授,以及英国爱丁堡大学教授Jeff Z. Pan为论文的共同通讯作者。博士研究生付飞与硕士研究生李清清为该项研究的共同第一作者。该研究得到王昉荣博士、胡杰、王田田、刘云霈博士、徐伟鸿、林志礼、龚富强博士、樊琪源博士等的深入讨论和宝贵支持。研究工作得到国家自然科学基金(22225302、92161113、21991151、21991150、22021001)、中央高校基本科研业务费(20720220009、20720230090)、嘉庚创新实验室(RD2023100101、RD2022070501)等项目资助与支持。

论文链接:https://doi.org/10.1093/nsr/nwaf271


上一条:多硫化物液流电池新进展 下一条:锂离子电池石墨负极析锂机理研究