了解 ClauseBase

ClauseBase 是由三位对繁琐的合同草拟过程感到沮丧的前律师创立的。他们意识到法律团队和律师事务所往往以极其劳动密集的方式重新创建合同,这提高了法律服务的成本。通常,草拟的起点是一个旧文件——通过删除旧名称进行清理——然后是一个漫长的添加、编辑和重新排列条款的过程。从旧合同中复制粘贴条款浪费了大量时间,尤其是相关条款往往散落在旧文件和电子邮件链中。
为了解决这个问题,ClauseBase 创建了 Clause9 ,这是一个用于自动化完整法律文件的工具。律师们现在可以通过几次点击就生成复杂的文件,而不必花费数小时进行手动草拟。 ClauseBuddy ,他们的第二款产品,允许用户构建“条款库”以收集和重用有用的合同元素。最初,这些条款必须手动上传。但最近,ClauseBase 添加了一项功能,可以自动从旧合同中提取条款——将它们组织成一个存储在 Manticore Search 中的库。
法律条款的向量搜索
ClauseBase 希望律师能够轻松找到合同条款的替代版本,无论是用于草拟还是在谈判过程中。对于任何给定的条款,都有无数变体:不同的长度、不同的语气(中性、激进或行业特定)等等。律师们需要一种快速浏览这些变体的方法,以避免重复发明轮子并找到灵感。
虽然拥有一个手动策划的条款库并带有详细的元数据是理想的,但创建一个需要时间。许多律师刚刚开始他们的技术之旅,正在寻找一种更简单的方法来找到相似的条款。向量搜索通过在 Manticore 中为每个条款存储文本向量提供了解决方案,使律师能够快速搜索具有相似意义的条款——无需手动标记。这是拥有完美注释条款的下一个最佳选择。
为什么选择 Manticore Search?
最初,ClauseBase 将提取的条款存储在 PostgreSQL 中。虽然 PostgreSQL 在某种程度上是可行的,但在全文搜索方面存在显著的限制。自动补全、分面搜索和短语接近搜索等功能难以实现。PostgreSQL 还缺乏像 BM25 这样的高级排名功能,这对于法律文本至关重要,因为像“义务”、“当事人”和“责任”等常见词需要适当地加权以改善搜索结果。
此外,性能问题开始出现。ClauseBuddy 为用户提供提取自己文档的能力,并提供一个包含来自美国 EDGAR 库的数百万条款的公共示例数据库。随着数据量的增加,PostgreSQL 和 Pgvector 的组合变得明显缓慢,返回结果需要几秒钟的时间。正是在这一点上,ClauseBase 决定切换到 Manticore Search。
在之前使用 Manticore 搜索整个法律文件后,ClauseBase 已经知道它快速且功能丰富。因此,他们将条款库迁移到 Manticore,这得到了回报——用户现在可以无缝地在条款和原始文档之间跳转。
在向量搜索上共同合作
当 ClauseBase 决定他们需要向量搜索时,Manticore 中尚未提供该功能。他们联系了 Manticore 团队,并共同合作实现了向量搜索功能。几周后,ClauseBase 就能够开始试验 Manticore 的新向量搜索功能。后来,当 ClauseBase 遇到问题时,Manticore 团队迅速解决并修复了这些问题,确保了顺利的体验。
向量搜索的影响
ClauseBase 中的向量搜索集成已经实施近一年,结果非常令人鼓舞。ClauseBase 旨在找到一种解决方案,以避免依赖商业向量服务,这些服务通常响应时间较慢。在进行广泛实验后,他们选择了平衡质量和性能的模型,特别针对他们的用例量身定制。
除了在 Manticore Search 中使用向量搜索外,ClauseBase 引入了一种重新排序的过程,以进一步优化搜索结果。重新排序器处理来自初始向量搜索的最佳匹配,有效地“更深入地思考”一小部分潜在答案。这种方法显著提高了搜索结果的相关性,为用户提供了不仅快速而且上下文准确且非常有用的结果。
