Давайте встретимся Tatoeba - large database of sentences and translations
Год
2020
Местоположение
Open source
Размер компании
< 10

Компания
Tatoeba.org — большая база предложений и переводов. Её содержание постоянно растёт и является результатом добровольных вкладов тысяч участников.
Tatoeba предоставляет инструмент, позволяющий увидеть примеры того, как слова используются в контексте предложения. Вы указываете интересующие вас слова, и он возвращает предложения, содержащие эти слова, с их переводами на нужные языки. Название Tatoeba (например, по‑японски) отражает эту концепцию.
Проект был основан Транг Хо в 2006 году, размещён на Sourceforge под кодовым именем multilangdict.
Задача
Давно (в 2010 году) мы использовали Lucene и решили перейти на Sphinx из‑за ограничений памяти. Перед переходом на Manticore мы быстро посмотрели на другие решения, такие как ElasticSearch, но переписывание всего кода, связанного с поиском, потребовало бы больших усилий. Хотя Elastic предлагает много продвинутых функций, наши данные довольно «плоские» (предложения с метаданными), и Manticore просто подходит.
Мы знали о Manticore с ноября 2017 года, но миграция заняла некоторое время. Мы использовали Sphinx, но в последнее время он часто падал, в результате чего наша главная страница полностью ломалась #1767 .
Решения и результаты
- Переход с Sphinx на Manticore и как результат:
- Демон поиска больше не блокируется, в отличие от Sphinx.
- Улучшена скорость поиска, что привело к повышению скорости всего сайта: 220‑280 тыс. запросов в месяц или 7,5‑10 тыс. в день.