नई विकल्प लोडिंग इंडेक्स के लिए

प्रकाशित: Jun 05, 2019
स्वत: अनुवाद: New options for loading indexes

इस लेख में हम 3.0.2 में पेश किए गए डेटा लोड करने के नए विकल्पों के बारे में बात करते हैं।

डेटा वाला एक इंडेक्स कई घटकों से बना होता है जैसे कि डिक्शनरी, दस्तावेज़ और हिट सूचियाँ, विशेषताएँ। पूरे इंडेक्स को पूरी तरह से RAM में लोड नहीं किया जाता है क्योंकि यह संभव नहीं है, बल्कि इसके घटकों को विभिन्न तरीकों से पढ़ा और लोड किया जाता है।

विशेषताएँ

डिफ़ॉल्ट रूप से विशेषताएँ RAM में लोड की जाती हैं, लेकिन यह चुनना संभव था कि उन्हें सभी लोड करना है, केवल स्केलर टाइप (अपूर्णांक या फ्लोट) लोड करना है या उन्हें डिस्क पर रखना है।

विशेषताएँ मेमरी-मैप्ड फाइलों के रूप में लोड की जाती हैं। विशेषताओं को mmap() का उपयोग करके लोड करने का लाभ क्लासिक सर्च&रीड के मुकाबले बेहतर प्रदर्शन है, जो pread() का उपयोग करता है। यह छोटी मात्रा में RAM का उपयोग करते हुए बड़े फ़ाइलों को भी उपयोग करने की अनुमति देता है।

2.x में विशेषता लोडिंग ondisk_attrs के माध्यम से प्रबंधित की गई थी। भले ही हम RAM में विशेषताओं को लोड करने का विकल्प चुनें, mmap() के साथ पूरे फ़ाइल को पढ़ना यह गारंटी नहीं देता कि फ़ाइल के पृष्ठ RAM में बने रहेंगे, क्योंकि OS कर्नेल उन्हें मुक्त कर सकता है (यह अनुप्रयोग के लिए कोई समस्या नहीं है क्योंकि mmaped फ़ाइलें फ़ाइल के द्वारा डिस्क पर समर्थित होती हैं)। यह सुनिश्चित करने के लिए कि विशेषताएँ RAM में रहें और OS उन्हें डिस्क में न स्वैप करे, mlock का उपयोग किया जाना था।

3.0.2 में हमने एक बदलाव करने का निर्णय लिया और विशेषताओं के लोड करने के लिए प्रकारों के लिए एक सेटिंग और mlocking के लिए एक नहीं रखने के बजाय, दो सेटिंग्स रखी, प्रत्येक विशेषताओं के लिए जो यह तय करती हैं कि वे कैसे लोड की जाती हैं और क्या उन्हें लॉक किया जाना चाहिए।

नए सेटिंग्स हैं access_blob_attrs - जो परिवर्तनीय-लंबाई की विशेषताओं (string,JSON,MVA) का प्रबंधन करती है - और access_plain_attrs - जो निश्चित-लंबाई की विशेषताओं (uint,bigint,float,timestamp,bool) का प्रबंधन करती है। संभावित मान हैं mmap, mmap_preread और mlock।

पुरानी निर्देशिकाओं से नई में स्विच करना काफी सरल है:

ondisk_attrs = 0 का मतलब है कि कोई विशेषता डिस्क पर नहीं छोड़ी गई है और उन्हें RAM में प्रीरीड किया गया है। यह mlock=0 के साथ डिफ़ॉल्ट मान था। अब यह access_blob_attrs = mmap_preread और access_plain_attrs= mmap_preread के बराबर है। इस मोड का उपयोग तब किया जाना चाहिए जब सभी विशेषताएँ RAM में फिट हो सकें। यह सुनिश्चित करने के लिए कि उन्हें डिस्क पर स्वैप नहीं किया गया है, इसके बजाय हम access_blog_attrs = mlock और access_plain_attrs = mlock का उपयोग कर सकते हैं, जो ondisk_attrs=0 और mlock=1 के बराबर है।
ondisk_attrs=1 का मतलब है कि सभी विशेषताएँ डिस्क पर छोड़ी गई हैं। नए विकल्पों के साथ आपको access_blob_attrs=mmap और access_plain_attrs=mmap निर्दिष्ट करना होगा।
ondisk_attrs=pool का मतलब है कि स्ट्रिंग, JSON और MVA विशेषताओं को डिस्क पर छोड़ना है। अब समान प्रभाव प्राप्त करने के लिए आपको access_blob_attrs=mmap और access_plain_attrs=mmap_preread करना होगा।

लेकिन अब यह भी संभव है कि संख्यात्मक विशेषताओं को डिस्क पर रखा जाए और इसके बजाय परिवर्तनीय-लंबाई वाली विशेषताओं को लोड किया जाए (जैसे access_blob_attrs=mmap_preread/access_plain_attrs=mmap करके) यदि उदाहरण के लिए आपके पास सभी के लिए पर्याप्त RAM नहीं है और आपके प्रश्न अधिक संचालन (फिल्टरिंग, समूहबद्धता, वर्गीकरण) करने में सक्षम हों।

यह केवल कुछ विशेषताओं का mlocking करना भी संभव है। उदाहरण के लिए, हम चाहते हैं कि संख्यात्मक विशेषताएँ यह सुनिश्चित करें कि वे RAM में रहें, लेकिन अन्य विशेषताओं को हम RAM में प्रीरीड कर सकते हैं, लेकिन हम उन्हें लॉक नहीं करने के लिए स्वीकार करते हैं ताकि कुछ मेमोरी स्थान को मुक्त किया जा सके।

फुल-टेक्स्ट इंडेक्स

फुलटेक्स्ट का एक भाग स्वयं कई घटकों को शामिल करता है। डिक्शनरी घटक (.spi) हमेशा RAM में लोड होता है क्योंकि यह फुल-टेक्स्ट खोज प्रदर्शन के लिए महत्वपूर्ण है और इसका आकार बड़ा नहीं है। दस्तावेज़ सूची (.spd) शब्दों के लिए सूचीकृत शब्दों के संदर्भों को दस्तावेज़ों और क्षेत्रों में धारण करती है। यह घटक सामान्यत: बड़ा होता है और इसे pread() का उपयोग करके पहुंचा जाता था।

फुल-टेक्स्ट इंडेक्स का एक और घटक हिटलिस्ट (.spp) है जिसमें क्षेत्रों में शब्दों के स्थान शामिल होते हैं। हिटलिस्ट भी बड़ी हो सकती हैं (लेकिन दस्तावेज़ सूचियों के रूप में बड़ी नहीं होती हैं) और इन्हें उसी तरह से पहुंचा गया था जैसे कि डॉकलिस्ट। 3.0.2 से शुरू होकर, दोनों घटक mmap() के साथ pread() के बजाय लोड किए जा सकते हैं, जिसका उपयोग access_doclists और access_hitlists किया जाता है। सेटिंग में दो मान स्वीकार किए जाते हैं: file (जो pread() का उपयोग करता है और डिफ़ॉल्ट है) और mmap।

मेमोरी निर्देशिकाओं को सेट करने का तरीका?

डिफ़ॉल्ट रूप से पूर्ण-टेक्स्ट इंडेक्स घटकों के लिए फ़ाइल का उपयोग किया जाता है और सभी विशेषताओं के लिए mmap_preread, जो मेमोरी उपयोग और खोज प्रदर्शन के बीच सबसे संतुलित प्रोफाइल है।

यह सुनिश्चित करने के लिए कि RAM में लोड किए गए विशेषताओं के डेटा OS द्वारा ड्रॉप नहीं किए जाते हैं, mlock का उपयोग किया जा सकता है। लॉकिंग उन सिस्टमों पर होनी चाहिए जिनमें विशेषताओं के लिए पर्याप्त मात्रा में मेमोरी हो लेकिन साथ ही डॉक / हिट सूचियों के लिए भी पर्याप्त मेमोरी छोड़ें। सर्वश्रेष्ठ प्रदर्शन तब प्राप्त होता है जब इंडेक्स को पूरी तरह से RAM में लोड/कैश किया जा सकता है। फ़ाइल विधि का उपयोग करके डॉक/हिट सूचियाँ /dev/null पर अपनी फ़ाइलों को भेजकर गर्म की जा सकती हैं।

उन मामलों के लिए जहां पहली क्वेरी से सर्वोत्तम प्रदर्शन प्राप्त करना है, searchd का --force-preread विकल्प का उपयोग किया जा सकता है। इस विकल्प का उपयोग सावधानी से किया जाना चाहिए क्योंकि डेमन स्टार्टअप पूरा होने तक आने वाली क्वेरियों का उत्तर नहीं देता। एकल सेटअप के लिए इसका मतलब है कि कोई खोज क्वेरियाँ संभव नहीं हैं, जो यह निर्भर करेगा कि स्टार्टअप खत्म करने के लिए आवश्यक समय का उत्तर देना इस समय के दौरान Bigger times के साथ स्वीकार्य नहीं हो सकता है।

यदि इंडेक्स उपलब्ध मेमोरी से बड़े हैं या गर्म होने का समय लंबा होना स्वीकार्य है, तो सरल file/mmap का उपयोग किया जाना चाहिए। यदि इंडेक्स RAM में ठीक से नहीं फिट होते हैं, तो प्रदर्शन स्टोरेज के प्रदर्शन पर निर्भर करेगा। अधिक मेमोरी और तेज़ स्टोरेज के बीच चयन करना प्रत्येक के लागत पर निर्भर करता है। तेज़ स्टोरेज (जैसे NVMe) पर्याप्त मेमोरी न होने के दुर्बलताओं को कम करेगी। यदि पर्याप्त मेमोरी है, लेकिन स्टोरेज धीमा है, तो स्टार्टअप या इंडेक्स रीलोड समय अधिक होगा और प्रदर्शन तब तक प्रभावित होगा जब तक इंडेक्स RAM में लोड नहीं हो जाते।