让我们见面 Tatoeba - large database of sentences and translations
年
2020
位置
Open source
公司规模
< 10

公司
Tatoeba.org 是一个大型的句子和翻译数据库。其内容持续增长,来源于数千名成员的自愿贡献。
Tatoeba 提供了一个工具,让您查看单词在句子上下文中是如何使用的。您指定感兴趣的单词,它会返回包含这些单词的句子,并提供所需语言的翻译。名称 Tatoeba(例如在日语中)体现了这一概念。
该项目由 Trang Ho 于 2006 年创立,最初托管在 Sourceforge 上,代号为 multilangdict。
挑战
很久以前(2010 年)我们使用 Lucene,但由于内存限制决定切换到 Sphinx。在切换到 Manticore 之前,我们曾快速查看过其他解决方案,如 ElasticSearch,但重写所有与搜索相关的代码将是一项巨大的工作。虽然 Elastic 有很多高级功能,但我们的数据非常“扁平”(带有元数据的句子),而 Manticore 刚好适用。
我们从 2017 年 11 月起就了解 Manticore,但花了很长时间才有效迁移。我们之前使用的是 Sphinx,但最近经常崩溃,导致我们的主页完全损坏 #1767 。
解决方案和结果
- 从 Sphinx 迁移到 Manticore,结果:
- 搜索守护进程不再阻塞,而使用 Sphinx 时会出现阻塞。
- 提高了搜索速度,从而提升了整个网站的速度,每月搜索量为 220K-280K 次或每天 7.5-10K 次。