मिलते हैं Tatoeba - वाक्यों और अनुवादों का बड़ा डेटाबेस
वर्ष
2020
स्थान
ओपन सोर्स
कंपनी का आकार
< 10

Company
Tatoeba.org वाक्यों और अनुवादों का एक बड़ा डेटाबेस है। इसकी सामग्री लगातार बढ़ती जा रही है और हजारों सदस्यों के स्वैच्छिक योगदान का परिणाम है।
Tatoeba आपको वाक्य के संदर्भ में शब्दों के उपयोग के उदाहरण देखने के लिए एक उपकरण प्रदान करता है। आप उन शब्दों को निर्दिष्ट करते हैं जो आपकी रुचि के हैं, और यह उन शब्दों वाले वाक्यों को उनके अनुवादों के साथ लौटाता है जो आपकी इच्छित भाषाओं में हैं। नाम Tatoeba (जैसे कि जापानी में) इस अवधारणा को पकड़ता है।
प्रोजेक्ट की स्थापना Trang Ho ने 2006 में की थी, जो Sourceforge पर multilangdict कोडनेम के तहत होस्ट किया गया था।
Challenge
बहुत समय पहले (2010) हम Lucene का उपयोग कर रहे थे और मेमोरी प्रतिबंधों के कारण Sphinx पर स्विच करने का निर्णय लिया। Manticore पर स्विच करने से पहले हमने ElasticSearch जैसी अन्य समाधानों पर जल्दी से नजर डाली, लेकिन खोज से संबंधित सभी कोड को फिर से लिखना एक बड़ा प्रयास होता। जबकि Elastic में बहुत सारी शानदार चीजें हैं, हमारे डेटा काफी “फ्लैट” है (मेटाडेटा के साथ वाक्य), और Manticore यहां बिल्कुल फिट बैठता है।
हम नवंबर 2017 से Manticore के बारे में जानते थे लेकिन प्रभावी रूप से माइग्रेट करने में कुछ समय लगा। हम Sphinx का उपयोग कर रहे थे लेकिन हाल ही में अक्सर क्रैश हो रहा था और परिणामस्वरूप, हमारी होमपेज पूरी तरह से टूट गई थी #1767 。
Solutions and results
- Sphinx से Manticore में माइग्रेट करना और इसके परिणामस्वरूप:
- सर्च डेमन अब ब्लॉक नहीं करता जैसा कि Sphinx के साथ हो रहा था।
- खोज की गति में सुधार और परिणामस्वरूप पूरी वेबसाइट की गति में सुधार हुआ, जिसमें प्रति माह 220K-280K खोजें या प्रति दिन 7.5-10K खोजें शामिल हैं।