विषय सूची
- Manticore में वेक्टर सर्च: विवरण
- एम्बेडिंग क्या हैं (और आपको इसकी परवाह क्यों करनी चाहिए)?
- वेक्टर सर्च कैसे काम करता है?
- शुरुआत करना: वेक्टर सर्च सेटअप करना
- उन्नत खोज सुविधाएँ
- वास्तविक जीवन के अनुप्रयोग
- वेक्टर सर्च को तेज बनाना: प्रदर्शन सुझाव
- आपके वेक्टर डेटा को सुरक्षित रखना: बैकअप विकल्प
- आपके खोज प्रणाली को उपलब्ध रखना: प्रतिकृति
- वेक्टर सर्च को कार्रवाई में देखें: लाइव डेमो
- उत्पादन में वेक्टर सर्च चलाना
- निष्कर्ष: वेक्टर सर्च का भविष्य
1. Manticore में वेक्टर सर्च: विवरण
यदि आप हमारे ब्लॉग का पालन कर रहे हैं, तो आप पहले से ही जानते हैं कि Manticore Search शक्तिशाली वेक्टर सर्च क्षमताएं प्रदान करता है। इस पोस्ट में, हम मूल बातें समझाने से परे जा रहे हैं कि यह सब पर्दे के पीछे कैसे काम करता है - और आप इसका सबसे अच्छा उपयोग कैसे कर सकते हैं।
तकनीकी बिंदुओं में जाने से पहले, एक त्वरित घोषणा: 6 जून 2025 को, Manticore टीम वेक्टर सर्च सम्मेलन 2025 को प्रायोजित कर रही है।
हम वास्तविक जीवन के वेक्टर सर्च पर केंद्रित दो प्रवचन देंगे:
- गति की सटीकता से मिलती है: वेक्टर क्वांटाइजेशन सर्च को सुपरचार्ज करता है — सर्गे ई निकोलायेव
- RAG टाइम: पुनर्प्राप्ति-वर्धित पीढ़ी के साथ अधिक समझदारी से जवाब — दिमित्री कुज़मेंकोव
यदि आप सेमांटिक सर्च, सिफ़ारिशें, या पुनर्प्राप्ति-वर्धित पीढ़ी (RAG) के साथ काम कर रहे हैं, तो यह एक ऐसी घटना है जिसे आप मिस नहीं करना चाहेंगे।
अब, विषय पर वापस आते हैं।
Manticore का वेक्टर सर्च हमारे कॉलम्नर लाइब्रेरी पर आधारित है, और यह आपको यह करने की अनुमति देता है:
- समान अर्थ वाले सामग्री को ढूंढना, भले ही शब्द भिन्न हों
- व्यक्तिगत अनुभव वाला सिफ़ारिश प्रणाली बनाना
- शून्य मैन्युअल टैगिंग के साथ समान वस्तुओं को एक साथ समूहित करना
- ऐसे खोज परिणाम प्रदान करना जो मूल कीवर्ड मेल से कहीं अधिक प्रासंगिक हों
बिन के नीचे, Manticore एक अत्यधिक कुशल एल्गोरिदम HNSW (हायरार्किकल नैविगेबल स्मॉल वर्ल्ड) का उपयोग करता है वेक्टर सर्च के लिए। यह सबसे प्रासंगिक परिणामों को जल्दी से खोजने के लिए डिज़ाइन किया गया है, यहां तक कि बड़े डेटा सेट में - जैसे एक विशाल शहर में निकटतम पड़ोसियों को ढूंढना, लेकिन बिना नक्शे की आवश्यकता के।
आइए देखें कि एम्बेडिंग कैसे इस सभी की शक्ति प्रदान करती है और HNSW उन एम्बेडिंग को तेज और सटीक खोज परिणामों में कैसे बदलने में मदद करता है।
2. एम्बेडिंग क्या हैं (और आपको इसकी परवाह क्यों करनी चाहिए)?
वेक्टर सर्च को समझने के लिए, आपको पहले एम्बेडिंग के बारे में जानना होगा। ये इसके पीछे का मूल विचार हैं।
एम्बेडिंग को चीजों को - जैसे शब्द, छवियां, या ध्वनियाँ - को एक संख्या की सूची में परिवर्तित करने के तरीके के रूप में सोचें जो उनके अर्थ का प्रतिनिधित्व करती हैं। यह एक विधि है जो कंप्यूटरों को “समझने” में मदद करती है कि दुनिया उस तरीके से है जो हम करते हैं।
एम्बेडिंग कैसे काम करती हैं?
कल्पना कीजिए एक विशाल मानचित्र जहाँ हर बिंदु एक वस्तु का प्रतिनिधित्व करता है: एक शब्द, एक वाक्य, एक छवि, आदि। जितने करीब दो बिंदु होंगे, उतनी ही समान वस्तुएं वे प्रतिनिधित्व करते हैं। यही एम्बेडिंग करती हैं - वे डेटा को वेक्टर (बस नंबरों की अनुक्रम) में परिवर्तित करती हैं जो:
- समान वस्तुओं को इस बहु-आयामी स्थान में एक-दूसरे के करीब रखती हैं
- डेटा के पीछे के अर्थ को पकड़ती हैं
- यह हमें विचारों के साथ गणित करने की अनुमति देती है (याद है Google शोधकर्ताओं द्वारा Word2Vec का प्रसिद्ध उदाहरण: राजा – पुरुष + महिला = रानी ?)
आप किस चीज़ को वेक्टर में बदल सकते हैं?
लगभग कुछ भी। कुछ सामान्य उदाहरण में शामिल हैं:
- पाठ: एकल शब्द, पूर्ण वाक्य, या यहां तक कि पूरे पुस्तकें। “सागर तट” के लिए वेक्टर “किनारे” के करीब होगा “पहाड़” से।
- छवियाँ: यात्रा की तस्वीरें, उत्पाद की तस्वीरें, या मीम। कुत्तों की तस्वीरें एक-दूसरे के करीब आएंगी न कि कारों की तस्वीरों के।
- ऑडियो: भाषण, संगीत, या ध्वनि प्रभाव। हेवी मेटल ट्रैक्स एक साथ समूहित होते हैं, शांत पियानो संगीत से दूर।
ये एम्बेडिंग शुरुआती बिंदु हैं। एक बार जब आपके पास ये हों, तो HNSW जैसे एल्गोरिदम आपको तेजी से खोजने में मदद करते हैं।
हम समानता को कैसे मापते हैं?
एक बार जब हम इन वेक्टरों को प्राप्त कर लेते हैं, तो हमें यह मापने का एक तरीका चाहिए कि वे कितने समान हैं। Manticore Search तीन समानता मीट्रिक का समर्थन करता है:
- युक्लिडियन दूरी (L2)
- कोसाइन समानता
- आंतरिक उत्पाद (डॉट उत्पाद)
हालांकि, यह ध्यान रखना महत्वपूर्ण है कि समानता मीट्रिक का चयन मनमाना नहीं है। आदर्श मीट्रिक अक्सर उन एम्बेडिंग मॉडल पर निर्भर करता है जिसका उपयोग वेक्टर उत्पन्न करने के लिए किया गया है। कई एम्बेडिंग मॉडल को विशिष्ट समानता मापक के साथ प्रशिक्षित किया जाता है। उदाहरण के लिए, कुछ मॉडल को कोसाइन समानता के लिए अनुकूलित किया गया है, जबकि अन्य आंतरिक उत्पाद या युक्लिडियन दूरी के लिए डिज़ाइन किए जा सकते हैं। किसी मॉडल को प्रशिक्षित होने वाले अन्य समानता माप का उपयोग करना उप-अनुकूल परिणामों का कारण बन सकता है।
जब आप अपने Manticore Search तालिका को वेक्टर सर्च के लिए सेटअप करते हैं, तो आप तालिका निर्माण प्रक्रिया के दौरान समानता मीट्रिक निर्दिष्ट करते हैं। यह विकल्प आपके एम्बेडिंग मॉडल के विशेषताओं के साथ मेल खाना चाहिए ताकि सटीक और प्रभावी खोज परिणाम सुनिश्चित हो सकें।
यहां प्रत्येक मीट्रिक का संक्षिप्त अवलोकन है: