让我们见面 Tatoeba - 大型句子与翻译数据库
年
2020
位置
开源
公司规模
< 10

公司
Tatoeba.org 是一个大型的句子与翻译数据库。其内容不断增长,源于成千上万的成员的自愿贡献。
Tatoeba 提供一个工具,使您能够查看单词在句子上下文中的使用示例。您可以指定感兴趣的单词,它将返回包含这些单词的句子及其所需语言的翻译。Tatoeba 这个名字(例如在日语中)体现了这一概念。
该项目由 Trang Ho 于 2006 年创立,托管在 Sourceforge,代号为 multilangdict。
挑战
很久以前(2010 年),我们使用 Lucene,并决定由于内存限制而切换到 Sphinx。在切换到 Manticore 之前,我们快速查看了其他解决方案,如 ElasticSearch,但重写所有与搜索相关的代码将是一个巨大的工作。虽然 Elastic 有很多花哨的东西,但我们的数据相当“扁平” (带有元数据的句子),而 Manticore 正好适合。
我们自 2017 年 11 月以来就知道 Manticore,但花了一段时间才有效迁移。我们当时使用 Sphinx,但最近经常崩溃,结果导致我们的主页完全损坏 #1767 。
解决方案和结果
- 从 Sphinx 迁移到 Manticore,结果是:
- 搜索守护进程不再像在 Sphinx 时那样阻塞。
- 提高了搜索速度,进而提高了整个网站的速度,每月有 220K-280K 次搜索或每天 7.5-10K 次搜索。