对话丨ChatLaw 团队袁粒：做普通人也能用的法律大模型

作者：王悦

2023/07/31 12:32

作者丨王悦

编辑丨董子博

大模型赛道的竞逐进行到6月，AI 行业的共识正发生着迅速而激烈的变化。

从开始对泛用大模型的追求，到对更具落地能力的行业模型，越来越多的从业者开始发现，如果无法实打实地成为生产力，那么无论是“大模型”还是“AGI”，都不过只是一个被炒热炒红的概念。

“只有被应用到实际生活里，科学技术才能产生价值。”如此坚信着，北京大学信息工程学院助理教授、博士生导师袁粒一门心思，扑在了大模型的应用层开发上。

今年早些时候，袁粒便带领团队开发了一款名为“ChatExcel”的产品，意图利用大模型技术，来帮助用户更高效地完成图表工作，一时间获得了不少好评。

而今天，袁粒和团队又推出了一个新的项目——“ChatLaw”。应用大模型技术，ChatLaw 可以帮助对法律知之甚少的普通人，让他们能够获得一些初步的法律建议，并且还能够进一步地帮助他们，完成分析证据、起草诉状、寻找法律援助中心等工作。

“ChatLaw 可以让老百姓获得专业法律帮助之前，完成律师30-40%的工作。”袁粒对 AI 科技评论表示道。

作为国内首个法律场景下的落地大语言模型产品，袁粒带领课题组和北京大学-兔展AIGC联合实验室，完成了不少工作。

一方面，袁粒和团队收集了大量的公开数据——如法律法条、判例、司法解释等，又通过北京大学的平台，在北大国际法学院和相关的律所收集到了不少私有数据，以及一个比较完备的知识图谱，形成了一套专业的数据库，让 ChatLaw 在法律领域，具有对场景的更好理解能力；

另一方面，大模型常常会“一本正经地胡说八道”，尤其是在专业领域，常常给出失之毫厘，差之千里的结果。为了最大程度上解决困扰大模型的“幻觉”问题，让 AI 能在法律领域保证输出的正确性，ChatLaw 并不是单个大模型“一人成军”，而是由四个分管不同能力的大模型“强强联合”，针对不同的专业法律领域，完成更高质量的生成输出。

在 ChatLaw 的实际测试中，袁粒说，单看法条输出的正确率，已经可以达到80%-90%，偶有错漏；而就给出的法律建议而言，也能达到60%以上的满意度——相较其他大模型产品高出不少。

ChatLaw 在今日已经开启了邀请制的内测，乘这个机会，AI 科技评论和袁粒进行了一场对谈，对有关 ChatLaw 和当下大模型产品的技术判断，讨论了许多先进的认知。

以下是 AI 科技评论与袁粒的对谈实录，雷峰网在不改变原意的情况下做了编辑和调整：

专业数据+知识图谱

让 ChatLaw 变成最专业的法律大模型

AI科技评论：专业数据对于大模型的垂直领域场景理解至关重要，ChatLaw 在数据收集的角度，做了哪些努力？

袁粒：法律领域相较其他比较特殊——很多最高质量的数据，都是公开数据。这其中就包括法律法规、判例文书、司法解释等等。我们的数据处理，主要就是基于这些公开的数据。

同时，我们也获得了一部分比较有价值的私有数据。这部分数据，主要是北大国际法学院，以及这个部分的行业律师事务所，提供给我们的私有数据。不仅如此，他们也对我们的数据集进行了一个专业的加持——具体而言，就是把这些数据集中，再将不行的部分删去。

但总体上，我们最大规模的数据集还是以法律法规为基础的公开数据。

AI 科技评论：具体而言，法律场景会用到的数据有什么特殊性？

袁粒：首先，我们认为法律法条其实是个有限子集，因为条文是有限的。而事实情况，则可能是会多种多样的。

在这样的情况下，用事实来带入法条，这些处理都是有迹可循的。所以，我们是以案例去构建了整个数据的核心，而不是单纯以法条或事件。

除了案例之外，我们还有几套支柱。对于每个案例，我们基于同案同判的原则，对每一种具体的 case 都会有一个律师的标注。

这也是我们数据集非常重要的一个环节，因为它包含了人的专业性在里面，在事实判例和法律之间完成了一个连接。

通过这个图谱，我们可以去对各种各样的法律的案例进行回答；并且也能让模型知道，什么是对的回答，这个非常重要。

“四合一”的架构

让“幻觉”更少出现

AI 科技评论：法律作为一个相当严肃的场景，和医疗、金融区别在哪里？

袁粒：法律这个行业，跟金融、医疗场景有一个比较大的区别——它的流程是非常程序化和标准化的。实际上 ChatLaw 去模拟的，就是一个法院、或者说律师，通过理解用户的事实，然后对他的事实提出对应的法条，然后最终做出整套的判断。

实际上在这套流程中有三个步骤：

归纳事实；

从事实推理到法条；

依据上面的结果，发现争议焦点，进行完整的推理，给出法律建议。

我们的 ChatLaw 虽然是大模型产品，但实际上包了四个模型，但其中放在 GitHub 上开源的只有一个模型。

AI 科技评论：这四个模型分别有什么功能？他们之间是如何协作的？

袁粒：四个模型中，第一个模型是调动模型，负责理解用户的这个语义，再来依据事实，来调度特定的子模型。

余下的三个模型，主要功能是从事实归纳出法律，或者说，法律加争议交锋点去做推理。

对这三个模型，我们在训练的过程中，关键是在训练阶段将对应这个模型专有和特定的知识，在模型里面去大量地输入，再去做特殊处理和强化学习。

那么这样，我们确保模型在一个单独的场景下，它具有非常高的推理能力，这三个模型就能针对专有的问题，完成高质量的输出。

AI 科技评论：1+3的这个模式相当新颖，并且听起来也更能应对专业领域的问题。这个模式，会成为以后行业大模型的新趋势吗？

袁粒：这里面有两个问题。

第一个问题，就是法律场景有它的特殊性。法律是一个非常流程化的场景，但是如果迁移到一个别的领域——比如说教育——它可能就不是这样了。

我认为，可能只会有两到三个特定领域的场景，它会可以使用这种方法，其他的场景应用起来，提升效果可能不会这么大。

第二个问题，是它的投入产出比可能会比较小，因为 ChatLaw 的模式，相当于为一个产品训练了三个模型。

AI 科技评论：在 ChatLaw 研发的阶段，最大的难点在哪里？

袁粒：其实我们现在是有一个瓶颈，它就是我们的调度模型。

因为参数量的问题，我们认为其实百亿级的调度模型，它的效果可能并不那么令人满意，我们之后会把它替换成别的算法。

千模大战下

袁粒的技术判断

AI科技评论：在团队建设上，我们的团队平均年龄有多大？

袁粒：我们的团队不少都是00后，当下有些还正在读研。其中几个比较优秀的同学，比如伯华，负责顶层设计和产品化，是我们项目的主要推动者；以及家熙，负责模型的训练，在科研上非常强。

AI 科技评论：在这样一个年轻的团队里，您观察到，大家对 AI 和大模型有什么新的看法？

袁粒：这一届年轻人都非常理性，从年初开始，团队就在讲，这是这会是一波巨大的科技浪潮，但是团队也同时深知这个过程会比较慢，可能会持续很久。

在这样一个比较慢的赛道，我们从一个商业的角度来说，更应该是“以终为始”。

AI 科技评论：具有一种“终局思维”。

袁粒：是的，我们更关注这个局面下，哪些要素更重要？掌握哪些要素的人会赢？而我们现在做的，就是要去提前把这些成功要素给凑出来。

AI 科技评论：商业化一定是个很重要的要素。

袁粒：没错，但对于 ChatLaw，我们不会急于把它变成一个太商业化的项目。主要是，ChatLaw 的模式，可能并不适合大规模向 C 端收费——毕竟法律帮助是一个低频需求。

现阶段，我认为 ChatLaw 还只是个showcase，是在我们一个名为 ChatKnowledge 这样一个计划中的第一步。

在做这个项目的同时，我们也积累了一整套的能力，包括我们刚才提到的模型调度能力，也包括外挂知识库对生成内容约束等等。

我们慢慢沉淀出来的 ChatKnowledge 这一整套打法，才是未来我们眼中的“终局”。未来我们也会走一些面向企业和政府的项目，来迎接大模型 AI 2.0 的潮流。

（未来，雷峰网(公众号：雷峰网)会关注更多的大模型和 AIGC 赛道优秀创业者，欢迎和本文作者：s1060788086，交流认知，互通有无。）