让我们见面 Tatoeba - 大型句子和翻译数据库

2020

位置

开源

公司规模

< 10

brand image

公司

Tatoeba.org 是一个大型句子和翻译数据库。其内容不断增长,源于成千上万成员的自愿贡献。
Tatoeba 提供一个工具,让您查看单词在句子上下文中的使用示例。您指定感兴趣的单词,它会返回包含这些单词的句子及其所需语言的翻译。Tatoeba 这个名字(例如在日语中)捕捉了这个概念。
该项目由 Trang Ho 于 2006 年创立,托管在 Sourceforge 上,代号为 multilangdict。

挑战

很久以前(2010 年),我们使用 Lucene,并决定由于内存限制而切换到 Sphinx。在切换到 Manticore 之前,我们快速查看了其他解决方案,如 ElasticSearch,但重写所有与搜索相关的代码将是一项巨大的工作。虽然 Elastic 有很多花哨的功能,但我们的数据相当“扁平”(带有元数据的句子),而 Manticore 刚好适合。

我们从 2017 年 11 月就知道 Manticore,但花了一段时间才有效迁移。我们使用 Sphinx,但最近经常崩溃,结果导致我们的主页完全损坏 #1767

解决方案和结果

  • 从 Sphinx 迁移到 Manticore,结果如下:
    • 搜索守护进程不再阻塞,而这在使用 Sphinx 时是发生过的。
    • 改善了搜索速度,从而提高了整个网站的速度,每月有 220K-280K 次搜索或每天 7.5-10K 次。

安装Manticore Search

安装Manticore Search