本研究项目由来自清华大学、墨尔本大学、香港中文大学、中国科学院大学的学术团队共同合作完成。该团队聚焦于大模型、知识图谱、推荐搜索、自然语言处理以及大数据领域的深入研究。
知识图谱作为结构化知识的重要载体,广泛应用于信息检索、电子商务、决策分析等多个领域。然而,不同来源的知识图谱在表示方式和涵盖范围上的差异,使得有效整合这些资源,构建更为全面、精确的知识体系,成为提升知识图谱覆盖率和准确性的关键挑战。这就是知识图谱对齐(Knowledge Graph Alignment)任务的核心所在。
面对传统方法依赖人工标注、成本高昂且效果不佳的问题,由上述学术团队开发的AutoAlign,通过集成大型语言模型,提供了一种全自动化且高效的知识图谱对齐解决方案。此方法无需人工标注实体或谓词对,而是利用算法对实体语义和结构的理解进行对齐,显著提升了效率和准确性。
AutoAlign主要包括两个关键组件:
研究团队在DWY-NB基准数据集上进行了实验,展示了AutoAlign在知识图谱对齐方面的显著优势,尤其是在缺乏人工标注的情况下。相较于现有最佳基准模型(即使有人工标注),AutoAlign在对齐准确性和自动化程度上均表现出色,特别是在无需人工参与的条件下,其性能优于其他方法。
AutoAlign通过自动化对齐机制,不仅提升了知识图谱对齐的效率和准确性,而且在无需人工干预的场景下,实现了对齐性能的显著提升,为知识图谱整合提供了高效、可靠的解决方案。