blog-post

Как ClauseBase использует векторный поиск Manticore для улучшения составления контрактов

Взгляд на ClauseBase

ClauseBase

ClauseBase была основана тремя бывшими юристами, разочарованными утомительным процессом составления контрактов. Они поняли, что юридические команды и юридические фирмы склонны воссоздавать контракты крайне трудоемким способом, что увеличивает стоимость юридических услуг. Обычно отправной точкой для составления является старый файл — очищенный от старых имен — за которым следует длительный процесс добавления, редактирования и перестановки положений. Это копирование и вставка положений из старых контрактов отнимает много времени, особенно поскольку соответствующие положения часто разбросаны по старым файлам и цепочкам электронных писем.

Чтобы решить эту проблему, ClauseBase создала Clause9 , инструмент для автоматизации полных юридических документов. Вместо того чтобы тратить часы на ручное составление, юристы теперь могут создавать сложные документы всего за несколько кликов. ClauseBuddy , их второй продукт, позволяет пользователям создавать "библиотеку положений" для сбора и повторного использования полезных элементов контракта. Изначально эти положения нужно было загружать вручную. Но недавно ClauseBase добавила функцию, которая автоматически извлекает положения из старых контрактов — организуя их в библиотеку, хранящуюся с помощью Manticore Search.

Векторный поиск для юридических положений

ClauseBase хотела найти способ, чтобы юристы могли легко находить альтернативные версии контрактных положений, будь то для составления или во время переговоров. Для любого данного положения существует бесчисленное множество вариаций: разные длины, разные тона (нейтральный, агрессивный или специфичный для отрасли) и так далее. Юристам нужен был способ быстро просматривать эти вариации, чтобы избежать изобретения колеса и найти вдохновение.

Хотя наличие вручную курируемой библиотеки положений с детализированной метаданными является идеальным, создание такой библиотеки занимает время. Многие юристы только начинают свой путь с технологиями и ищут более простой способ находить похожие положения. Векторный поиск предоставляет это решение, храня текстовый вектор для каждого положения в Manticore, позволяя юристам быстро искать положения с похожим значением — без необходимости ручной разметки. Это лучшее, что можно получить, кроме идеально аннотированных положений.

Изначально ClauseBase хранила свои извлеченные положения в PostgreSQL. Хотя PostgreSQL был способен до определенной степени, у него были значительные ограничения в полнотекстовом поиске. Такие функции, как автозаполнение, фасетный поиск и поиск по близости фраз, было трудно реализовать. PostgreSQL также не имел продвинутых функций ранжирования, таких как BM25, что критично для юридических текстов, где общие слова, такие как "обязанность", "сторона" и "ответственность", необходимо правильно взвешивать для улучшения результатов поиска.

Кроме того, начали возникать проблемы с производительностью. ClauseBuddy предлагает пользователям возможность извлекать свои собственные документы, а также предоставляет публичную выборку базы данных с миллионами положений, полученных из библиотеки EDGAR США. Комбинация PostgreSQL и Pgvector стала заметно медленной с таким объемом данных, затрачивая несколько секунд на возврат результатов. В этот момент ClauseBase решила перейти на Manticore Search.

Ранее использовав Manticore для поиска по полным юридическим документам, ClauseBase уже знала, что он быстрый и богатый на функции. Поэтому они перенесли библиотеку положений в Manticore, и это оправдало себя — пользователи теперь могут без проблем переключаться между положением и оригинальным документом.

Совместная работа над векторным поиском

Когда ClauseBase решила, что им нужен векторный поиск, он еще не был доступен в Manticore. Они обратились к команде Manticore, и вместе они сотрудничали для реализации функциональности векторного поиска. Всего через несколько недель ClauseBase смогла начать экспериментировать с новой функциональностью векторного поиска Manticore. Позже, когда ClauseBase столкнулась с проблемами, команда Manticore быстро их решила и исправила, обеспечив плавный опыт.

Влияние векторного поиска

Интеграция векторного поиска в ClauseBase существует почти год, и результаты очень обнадеживающие. ClauseBase стремилась найти решение, которое бы не зависело от коммерческих векторных сервисов, которые часто имеют более медленные времена отклика. После проведения обширных экспериментов они выбрали модели, которые сбалансировали качество и производительность, специально адаптированные под их случай использования.

В дополнение к использованию векторного поиска в Manticore Search, ClauseBase внедрила процесс повторной оценки для дальнейшего уточнения результатов поиска. Повторная оценка обрабатывает лучшие совпадения из начального векторного поиска, эффективно "думая глубже" о меньшем наборе потенциальных ответов. Этот подход значительно улучшил релевантность результатов поиска, предоставляя пользователям результаты, которые не только быстры, но и контекстуально точны и крайне полезны.

Установить Manticore Search

Установить Manticore Search