blog-post

Как ClauseBase использует Manticore Vector Search для улучшения составления контрактов

Взгляд на ClauseBase

ClauseBase

ClauseBase был основан тремя бывшими юристами, расстроенными утомительным процессом составления контрактов. Они поняли, что юридические команды и юридические фирмы, как правило, воспроизводят контракты очень трудоемким способом, что повышает стоимость юридических услуг. Обычно отправной точкой для составления является старый файл — очищенный путем удаления старых имен — за которым следует длительный процесс добавления, редактирования и упорядочивания положений. Это копирование-вставка положений из старых контрактов отнимает много времени, особенно поскольку релевантные положения часто разбросаны по старым файлам и электронным цепочкам.

Чтобы справиться с этим, ClauseBase создал Clause9 , инструмент для автоматизации полных юридических документов. Вместо того, чтобы тратить часы на ручное составление, юристы теперь могут создавать сложные документы всего за несколько кликов. ClauseBuddy , их второй продукт, позволяет пользователям создавать “библиотеку положений” для сбора и повторного использования полезных элементов контракта. Изначально эти положения нужно было загружать вручную. Но недавно ClauseBase добавил функцию, которая автоматически извлекает положения из старых контрактов — организуя их в библиотеку, хранящуюся с Manticore Search.

Векторный поиск для юридических положений

ClauseBase хотел предоставить юристам способ легко находить альтернативные версии контрактных положений, будь то для составления или в ходе переговоров. Для любого данного положения существует бесчисленное множество вариаций: разные длины, разные тона (нейтральный, агрессивный или специфичный для отрасли) и так далее. Юристам нужен был способ быстро просматривать эти вариации, чтобы избежать повторного изобретения колеса и найти вдохновение.

Хотя наличие вручную курируемой библиотеки положений с подробными метаданными является идеалом, создание такой библиотеки занимает время. Многие юристы только начинают свой путь с технологиями и ищут более простой способ найти похожие положения. Векторный поиск предоставляет это решение, храня текстовый вектор для каждого положения в Manticore, позволяя юристам быстро искать положения с похожим значением — без необходимости ручной маркировки. Это лучшее, что можно получить после идеально аннотированных положений.

Поначалу ClauseBase хранил свои извлеченные положения в PostgreSQL. Хотя PostgreSQL был способен до определенной степени, у него были значительные ограничения при полнотекстовом поиске. Такие функции, как автозаполнение, фасетные поиски и поиск по близости фраз, было сложно реализовать. PostgreSQL также не имел продвинутых функций ранжирования, таких как BM25, что критически важно для юридических текстов, где общие слова, такие как “обязанность”, “сторона” и “ответственность”, необходимо правильно веса для улучшения результатов поиска.

Помимо этого, начали возникать проблемы с производительностью. ClauseBuddy предлагает пользователям возможность извлекать свои собственные документы, а также предоставляет публичную выборку базы данных с миллионами положений, полученными из библиотеки US EDGAR. Комбинация PostgreSQL и Pgvector стала заметно медленной при таком объеме данных, для возврата результатов требовалось несколько секунд. Именно в этот момент ClauseBase решил перейти на Manticore Search.

Используя Manticore ранее для поиска по полным юридическим документам, ClauseBase уже знал, что это быстро и богато функциями. Поэтому они перенесли библиотеку положений в Manticore, и это оправдало себя — пользователи теперь могут без труда переходить между положением и оригинальным документом.

Сотрудничество по векторному поиску

Когда ClauseBase решил, что им нужен векторный поиск, он еще не был доступен в Manticore. Они связались с командой Manticore, и вместе они сотрудничали для реализации функциональности векторного поиска. Спустя всего несколько недель ClauseBase смог начать эксперименты с новой функциональностью векторного поиска Manticore. Позже, когда ClauseBase столкнулся с проблемами, команда Manticore быстро их решила и исправила, обеспечив плавный опыт.

Влияние векторного поиска

Интеграция векторного поиска в ClauseBase существует почти год, и результаты очень многообещающие. ClauseBase стремился найти решение, которое бы избегало зависимости от коммерческих векторных сервисов, которые часто имеют более медленные времена отклика. Проведя обширные эксперименты, они выбрали модели, которые балансируют качество и производительность, специально адаптированные под их случай использования.

В дополнение к использованию векторного поиска в Manticore Search, ClauseBase ввел процесс повторной рейтинги для дальнейшего уточнения результатов поиска. Процесс повторной рейтинги обрабатывает лучшие совпадения из начального векторного поиска, эффективно “думая более глубоко” о меньшем наборе потенциальных ответов. Этот подход значительно улучшил релевантность результатов поиска, предоставляя пользователям результаты, которые не только быстры, но и контекстуально точны и крайне полезны.

Установить Manticore Search

Установить Manticore Search