让我们见面 Tatoeba - 大型句子与翻译数据库

2020

位置

开源

公司规模

< 10

brand image

公司

Tatoeba.org 是一个大型的句子与翻译数据库。其内容不断增长,源于成千上万的成员的自愿贡献。
Tatoeba 提供一个工具,使您能够查看单词在句子上下文中的使用示例。您可以指定感兴趣的单词,它将返回包含这些单词的句子及其所需语言的翻译。Tatoeba 这个名字(例如在日语中)体现了这一概念。
该项目由 Trang Ho 于 2006 年创立,托管在 Sourceforge,代号为 multilangdict。

挑战

很久以前(2010 年),我们使用 Lucene,并决定由于内存限制而切换到 Sphinx。在切换到 Manticore 之前,我们快速查看了其他解决方案,如 ElasticSearch,但重写所有与搜索相关的代码将是一个巨大的工作。虽然 Elastic 有很多花哨的东西,但我们的数据相当“扁平” (带有元数据的句子),而 Manticore 正好适合。

我们自 2017 年 11 月以来就知道 Manticore,但花了一段时间才有效迁移。我们当时使用 Sphinx,但最近经常崩溃,结果导致我们的主页完全损坏 #1767

解决方案和结果

  • 从 Sphinx 迁移到 Manticore,结果是:
    • 搜索守护进程不再像在 Sphinx 时那样阻塞。
    • 提高了搜索速度,进而提高了整个网站的速度,每月有 220K-280K 次搜索或每天 7.5-10K 次搜索。

安装Manticore Search

安装Manticore Search