Давайте встретимся Tatoeba - большая база данных предложений и переводов
Год
2020
Местоположение
Открытый исходный код
Размер компании
< 10

Компания
Tatoeba.org - это большая база данных предложений и переводов. Его содержание постоянно растёт и является результатом добровольных вкладов тысяч участников.
Tatoeba предоставляет инструмент, который позволяет видеть примеры использования слов в контексте предложения. Вы указываете интересующие вас слова, и он возвращает предложения, содержащие эти слова, с их переводами на желаемых языках. Название Tatoeba (например, на японском) отражает эту концепцию.
Проект был основан Транг Хо в 2006 году, хостится на Sourceforge под кодовым названием multilangdict.
Проблема
Давным-давно (в 2010 году) мы использовали Lucene и решили переключиться на Sphinx из-за ограничений по памяти. Перед тем, как переключиться на Manticore, мы быстро просмотрели другие решения, такие как ElasticSearch, но переписывание всего связанного с поиском кода было бы большой затратой. Хотя у Elastic много красивых вещей, наши данные довольно «плоские» (предложения с метаданными), и Manticore просто вписывается.
Мы знали о Manticore с ноября 2017 года, но нам потребовалось время, чтобы эффективно мигрировать. Мы использовали Sphinx, но в последнее время он часто давал сбой, и, как результат, наша главная страница была полностью сломана #1767 .
Решения и результаты
- Миграция с Sphinx на Manticore и, как следствие:
- Демон поиска больше не блокируется, как это происходило с Sphinx.
- Улучшенная скорость поиска и, как результат, скорость всего сайта с 220K-280K поисков в месяц или 7.5-10K в день.