近年来,大型语言模型展现出了令人惊叹的语言理解和处理能力,引起了学术界和工业界的广泛兴趣。研究者开始深入探讨这些模型是否具备解决专业领域任务的潜力,例如在医疗和司法领域提供专业的问题解答。
近期,中文法律领域涌现出越来越多的司法大模型,它们具备一定的理解法律文本和解决法律问题的能力。然而,当前仍缺乏一个全面的评估标准,以定量评估这些模型的实际性能表现。
为了弥补这一领域的空白,南京大学和上海人工智能实验室联合构建了 LawBench 数据集,这一数据集旨在对中文法律问答模型作出深入、全面的评估。LawBench 包含三个关键维度,涵盖 20 个子测评项,横跨单选、多选、回归、抽取和生成等五大类司法任务。与目前一些数据集仅测试模型在数据集上的选择能力不同,这一评测数据集更全面地反映了大型语言模型在真实法律任务中的表现能力。
https://github.com/open-compass/LawBench
(文末点击阅读原文可直达,欢迎关注)
多层能力体系助力司法能力评估
LawBench 借鉴布鲁姆分类法(Bloom's Taxonomy),从记忆,理解,应用三个层次,由浅入深,逐步考察大语言模型的能力。
通过这些不同层面的评估,LawBench 为研究人员提供一个更具挑战性和实际意义的测试框架,以全面了解大型语言模型在司法领域的表现能力。
评测模型丰富全面
借助 OpenCompass,我们深入评估了 51 种热门的大语言模型,包含 InternLM 系列、LLaMA 系列、Qwen 系列等。以及一些模型的 Base 版本和 Chat 版本,都在我们的测试范围中。根据模型训练数据的文本领域, 我们将现有的大模型分成三类: 通用多语言模型、中文优化模型,以及在法律文本上训练过的法律专精模型。三类模型在中文法律任务上他们效果如何,让我们一起来看看吧。
热门大语言模型在 LawBench 上的 20 个子项测评的平均分数排序如下:
GPT4 和 ChatGPT 仍然是目前最卓越的大语言模型,他们在绝大多数任务上都能拔得头筹。但令人惊喜的是,在法律领域,一些中文优化大型模型也很有竞争力: Qwen-7B 和 InternLM-Chat-7B-8K 等中文大型模型表现突出。而双语模型 StableBeluga2 在 LawBench 上也非常稳定, 仅次于 GPT 模型。令人感到意外的是,一些现有的法律专精大模型并没有超过通用的中文大语言模型。在法律专精的模型中,山东大学的 Fuzi-Mingcha 和北京大学的 ChatLaw-13B 得到了最好的结果。
在上图,我们展示了在 LawBench 上均分排名前六的模型在各个维度的详细结果。从结果中可以看出:虽然 GPT4/ChatGPT 在法律理解任务上有欠缺,如 GPT-4 在基于情景的识别对应法条上低于其他模型(如 Qwen-7B-Chat 模型),但在其他任务上显著优于其他模型。
深度分析助力模型能力提升
经过对这些模型的评测和分析,我们得出了以下三点主要发现。希望这些建议能为构建更优秀的法律大模型提供指导:
LawBench 现已加入 OpenCompass 评测平台,欢迎关注 OpenCompass 开源评测体系,更多详细内容可以参考我们的论文和 GitHub。
论文:
https://arxiv.org/pdf/2309.16289.pdf
GitHub:
https://github.com/open-compass/LawBench
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有