⚠️ 此页面为自动翻译,翻译可能不完美。

让我们见面 Tatoeba - large database of sentences and translations

2020

位置

Open source

公司规模

< 10

brand image

公司

Tatoeba.org 是一个大型的句子和翻译数据库。其内容持续增长,来源于数千名成员的自愿贡献。
Tatoeba 提供了一个工具,让您查看单词在句子上下文中是如何使用的。您指定感兴趣的单词,它会返回包含这些单词的句子,并提供所需语言的翻译。名称 Tatoeba(例如在日语中)体现了这一概念。
该项目由 Trang Ho 于 2006 年创立,最初托管在 Sourceforge 上,代号为 multilangdict。

挑战

很久以前(2010 年)我们使用 Lucene,但由于内存限制决定切换到 Sphinx。在切换到 Manticore 之前,我们曾快速查看过其他解决方案,如 ElasticSearch,但重写所有与搜索相关的代码将是一项巨大的工作。虽然 Elastic 有很多高级功能,但我们的数据非常“扁平”(带有元数据的句子),而 Manticore 刚好适用。

我们从 2017 年 11 月起就了解 Manticore,但花了很长时间才有效迁移。我们之前使用的是 Sphinx,但最近经常崩溃,导致我们的主页完全损坏 #1767

解决方案和结果

  • 从 Sphinx 迁移到 Manticore,结果:
    • 搜索守护进程不再阻塞,而使用 Sphinx 时会出现阻塞。
    • 提高了搜索速度,从而提升了整个网站的速度,每月搜索量为 220K-280K 次或每天 7.5-10K 次。

安装Manticore Search

安装Manticore Search