मिलते हैं Tatoeba - वाक्यों और अनुवादों का बड़ा डेटाबेस

वर्ष

2020

स्थान

ओपन सोर्स

कंपनी का आकार

< 10

brand image

Company

Tatoeba.org वाक्यों और अनुवादों का एक बड़ा डेटाबेस है। इसकी सामग्री लगातार बढ़ती जा रही है और हजारों सदस्यों के स्वैच्छिक योगदान का परिणाम है।
Tatoeba आपको वाक्य के संदर्भ में शब्दों के उपयोग के उदाहरण देखने के लिए एक उपकरण प्रदान करता है। आप उन शब्दों को निर्दिष्ट करते हैं जो आपकी रुचि के हैं, और यह उन शब्दों वाले वाक्यों को उनके अनुवादों के साथ लौटाता है जो आपकी इच्छित भाषाओं में हैं। नाम Tatoeba (जैसे कि जापानी में) इस अवधारणा को पकड़ता है।
प्रोजेक्ट की स्थापना Trang Ho ने 2006 में की थी, जो Sourceforge पर multilangdict कोडनेम के तहत होस्ट किया गया था।

Challenge

बहुत समय पहले (2010) हम Lucene का उपयोग कर रहे थे और मेमोरी प्रतिबंधों के कारण Sphinx पर स्विच करने का निर्णय लिया। Manticore पर स्विच करने से पहले हमने ElasticSearch जैसी अन्य समाधानों पर जल्दी से नजर डाली, लेकिन खोज से संबंधित सभी कोड को फिर से लिखना एक बड़ा प्रयास होता। जबकि Elastic में बहुत सारी शानदार चीजें हैं, हमारे डेटा काफी “फ्लैट” है (मेटाडेटा के साथ वाक्य), और Manticore यहां बिल्कुल फिट बैठता है।

हम नवंबर 2017 से Manticore के बारे में जानते थे लेकिन प्रभावी रूप से माइग्रेट करने में कुछ समय लगा। हम Sphinx का उपयोग कर रहे थे लेकिन हाल ही में अक्सर क्रैश हो रहा था और परिणामस्वरूप, हमारी होमपेज पूरी तरह से टूट गई थी #1767

Solutions and results

  • Sphinx से Manticore में माइग्रेट करना और इसके परिणामस्वरूप:
    • सर्च डेमन अब ब्लॉक नहीं करता जैसा कि Sphinx के साथ हो रहा था।
    • खोज की गति में सुधार और परिणामस्वरूप पूरी वेबसाइट की गति में सुधार हुआ, जिसमें प्रति माह 220K-280K खोजें या प्रति दिन 7.5-10K खोजें शामिल हैं।

मैंटीकोर सर्च इंस्टॉल करें

मैंटीकोर सर्च इंस्टॉल करें