Давайте встретимся Tatoeba - большая база данных предложений и переводов
Год
2020
Местоположение
Открытый исходный код
Размер компании
< 10

Компания
Tatoeba.org - это большая база данных предложений и переводов. Его содержание постоянно растет и является результатом добровольных вкладов тысяч участников.
Tatoeba предоставляет инструмент, который позволяет вам видеть примеры того, как слова используются в контексте предложения. Вы указываете слова, которые вас интересуют, и он возвращает предложения, содержащие эти слова, с их переводами на желаемые языки. Название Tatoeba (например, на японском) отражает эту концепцию.
Проект был основан Транг Хо в 2006 году, размещен на Sourceforge под кодовым именем multilangdict.
Задача
Давным-давно (в 2010 году) мы использовали Lucene и решили перейти на Sphinx из-за ограничений по памяти. Прежде чем перейти на Manticore, мы быстро взглянули на другие решения, такие как ElasticSearch, но переписывание всего кода, связанного с поиском, потребовало бы больших усилий. Хотя у Elastic много интересных функций, наши данные довольно "плоские" (предложения с метаданными), и Manticore просто подходит.
Мы знали о Manticore с ноября 2017 года, но нам потребовалось время, чтобы эффективно мигрировать. Мы использовали Sphinx, но в последнее время он часто зависал, и в результате наша главная страница полностью ломалась #1767 .
Решения и результаты
- Миграция с Sphinx на Manticore и, как результат:
- Поисковый демон больше не блокируется, как это происходило с Sphinx.
- Улучшена скорость поиска и, как результат, скорость всего веб-сайта с 220K-280K поисков в месяц или 7.5-10K в день.