本成果提出一种预训练语言模型的训练方法,可以捕获法律文书不同结构之间的联系,增强预训练语言模型对关键法律要素的理解,提升预训练语言模型在法律领域的检索效果;提出一种文本编码模型训练方法、类案检索方法,能够训练文本编码模型从无标注的训练数据集中学习法律知识,进而大幅提升训练后的文本编码模型在法律领域下游任务(如类案检索)中的性能。基于本成果的类案检索算法和法律预训练模型底座,可以研发高效、准确的类案检索系统。
本项目的类案检索系统性能与国内市场应用最早、占有率最高的“法信”检索系统相比,检索准确率可提升21%左右,因不需要大量人工标注数据,成本方面有大幅下降。专门为法律领域开发的类案检索系统可以更好地满足法院系统的需求,精准识别各类法律语言和专业术语,提供定制化的功能和法律语言处理能力,具有较强的理解能力和生成能力。
全部评论