चाइनीज़, जापानी, और कोरियाई भाषा दस्तावेज़ों के साथ Manticore खोज का उपयोग

प्रकाशित: Jul 18, 2018
स्वत: अनुवाद: Using Manticore Search with Chinese, Japanese, and Korean language documents

चेतावनी: यह लेख अद्यतन नहीं है। अद्यतन जानकारी के लिए, कृपया इस लिंक का पालन करें।

CJK भाषाओं के बारे में

CJK भाषाओं में 40,000 से अधिक चरित्र होते हैं। उनमें से अधिकांश चीनी हैं। कभी-कभी आप संक्षिप्त नाम CJKV देख सकते हैं। यहाँ “V” वियतनामी भाषा के लिए खड़ा है।

CJK चरित्रों में शामिल हैं:

चीनी भाषा के लिए: hànzì – पारंपरिक चीनी वर्ण; Bopomofo – चीनी ध्वन्यात्मक वर्णमाला; Pinyin – चीनी भाषा की रोमनाइज़ेशन (एक अवधारणा जो ट्रांसलिटरेशन के सिद्धांत के करीब है)।
जापानी भाषा के लिए: हिरागाना – जापानी स्वरभेदी; काताकाना – जापानी स्वरभेदी; अरबी संख्याएँ।
कोरियाई भाषा के लिए: हंगुल (कोरियाई वर्णमाला)

अतिरिक्त रूप से, प्रत्येक भाषा में हायरोग्लिफ़िक कुंजी (रैडिकल्स) का एक सेट होता है, जो शब्दों को संदर्भिका में खोजने के लिए या उन कुंजियों के बाद के चरित्रों के अर्थ को परिभाषित करने वाले अर्थगत तत्वों के रूप में कार्य करता है।

CJK भाषाओं में पाठ प्रदर्शित करने के लिए आप निम्नलिखित एन्कोडिंग का उपयोग कर सकते हैं: Big5, EUC-JP, EUC-KR, ISO 2022-JP, KS C 5861, Shift-JIS, Unicode, आदि। CJK-भाषा वर्णमालाओं के लिए ऐसे Unicode ब्लॉक हैं ( http://www.unicode.org/Public/UNIDATA/Blocks.txt ):

दायरा	blok	टिप्पणियाँ
1100 .. 11FF	हंगुल जामो	कोरियाई हंगुल वर्णमाला में एक स्वर का एकल चरित्र। हंगुल स्वर के निर्माण के लिए उपयोग किए जाने वाले जामो अक्षर
2E80 .. 2EFF	CJK रैडिकल्स पूरक	कुंजी (रैडिकल) – हायरोग्लिफ़िक वर्णमाला का एक तत्व, जो शब्दों के समूह को अनुमति देता है या उस प्रकार के तत्व के रूप में कार्य करता है जो निम्नलिखित वर्णों के अर्थ को परिभाषित करता है।
2F00 .. 2FDF	कांग्जी रैडिकल्स	जापान, कोरिया, ताइवान में अपनाए गए कांग्जी की कुंजियों की सूची, पारंपरिक रूप से 214 वर्णों को शामिल करता है
3000 .. 303F	CJK प्रतीक और विराम चिह्न	विचारात्मक वर्ण और विराम चिह्न
3040 .. 309F	हिरागाना	जापानी स्वरभेदी
30A0 .. 30FF	काताकाना	जापानी स्वरभेदी
3100 .. 312F	Bopomofo	चीनी ध्वन्यात्मक वर्णमाला
3130 .. 318F	हंगुल संगतता जामो
3190 .. 319F	कनबुन कैमबून या कनबुन	मध्य काल के जापान की एक लिखी हुई भाषा
31A0 .. 31BF	Bopomofo विस्तारित
31C0 .. 31EF	CJK स्ट्रोक साधारण विशेषताएँ (तत्व) वर्ण
31F0 .. 31FF	काताकाना ध्वन्यात्मक विस्तार
3200 .. 32FF	CJK संलग्न अक्षर और महीने	CJK अक्षर और महीने वृत्तों में
3300 .. 33FF	CJK संगतता
3400 .. 4DBF	CJK एकीकृत विचारचित्र विस्तार	एक CJK विचारचित्र
4DC0 .. 4DFF	यिज़िंग हेक्साग्राम प्रतीक
4E00 .. 9FFF	CJK एकीकृत विचारचित्र	विचारचित्र – लिखित संकेत, सशर्त छवि या चित्र, उचित भाषण ध्वनियों का नहीं, और पूरा शब्द
A000 .. A48F	Yi स्वर यि भाषा	दक्षिण सिचुआन प्रांत की भाषा
A490 .. A4CF	यी रैडिकल्स
AC00 .. D7AF	हंगुल स्वर हंगुल स्वर
D7B0 .. D7FF	हंगुल जामो विस्तारित-B
20000 .. 2A6DF	CJK एकीकृत विचारचित्र विस्तार B
2A700 .. 2B73F	CJK एकीकृत विचारचित्र विस्तार C
2F800 .. 2FA1F	CJK संगतता विचारचित्र पूरक

Note that the Arabic numerals, which can be used in CJK texts, correspond widespace character codes (see section FFF0 .. FFFF; Specials).

You can see here http://www.utf8-chartable.de/ how certain characters look.

Manticore Search को कैसे बताएं कि आपके दस्तावेज़ में CJK चरित्र हैं?

Manticore Search पाठों को चरित्र स्तर पर फ़िल्टर करता है। टोकनाइज़ेशन के लिए स्वीकार नहीं किए जाने वाले चरित्र अमान्य माने जाते हैं और सफेद स्थान से प्रतिस्थापित होते हैं, जो विभाजक के रूप में कार्य करता है। डिफ़ॉल्ट रूप से, केवल अंग्रेजी और रूसी वर्णों को टोकनाइज़ किया जाता है (अंडरस्कोर और अक्षरों के साथ)।
CJK भाषाएँ ऐसे वर्णों का विशेषताएँ करती हैं जो असंक्षिप्त पाठों को बना सकते हैं। इन प्रकार के वर्णों के लिए, Manticore इन वर्णों के लगातार समूहों को n-grams. के रूप में अनुक्रमित कर सकता है।
अनुक्रमण कॉन्फ़िगरेशन में हमें 3 सेटिंग्स को समायोजित करने की आवश्यकता है:

charset_table – वर्णों का वर्णन करने के लिए मुख्य पैरामीटर। प्रतीकों और केस फ़ोल्डिंग के लिए नियमों की एक तालिका होती है।
ngram_chars – CJK पाठ को शब्दों में विभाजित करने के लिए आवश्यक वर्णों का वर्णन, N-ग्राम मॉडल का उपयोग करते हुए;
मान सेट करें ngram_len को 1। यह n-gram सुविधा को सक्षम करता है। वर्तमान में केवल 1-grams का समर्थन किया जाता है (एक पाठ “ABCDEF” [जहाँ A से F ngram_chars सूची में हैं] को “A B C D E F” के रूप में अनुक्रमित किया जाता है)।

कैसे charset_table और ngram_chars के लिए विवरण बनाएँ

अपडेट: Manticore खोज के नए संस्करणों में एक charset_table उपनाम शामिल है जिसमें सभी CJK वर्ण होते हैं जिन्हें जरूरत होती है और एक चीनी ICU रूपविज्ञान प्रोसेसर भी होता है। नवीनतम संस्करण में CJK के साथ काम करने के लिए, निम्नलिखित लेख पढ़ें।

या दूसरे शब्दों में, Manticore Search को यह कैसे समझाया जाए कि कौन से UTF-8 वर्णकोड CJK भाषाओं के परिवार में आते हैं?

आप Sphinx की विकी पृष्ठ charset_tables से भाषा के ब्लॉकों के लिए सेट का उपयोग कर सकते हैं या ऊपर दिए गए तालिका में डेटा और charset_table में सेट किए गए नियमों का उपयोग करके CJK भाषाओं के वर्णों और अक्षरों के विकल्पों का विवरण बना सकते हैं (ऊपर 1-3 देखें)। सावधान रहें और यह सुनिश्चित करें कि आपको जो वर्ण रेंज के सभी ब्लॉक चाहिए, वे Manticore Search इंडेक्स वर्ण विवरण में कॉन्फ़िगरेशन फ़ाइल में शामिल हैं। उदाहरण के लिए, यदि आप लिंक पर वर्ण सेट रेंज विवरण का उपयोग करके Lisu या Vai भाषाओं को शामिल करने वाले दस्तावेज़ों को अनुक्रमित करेंगे, तो खोज ठीक से काम नहीं करेगी।

ngram_chars पैरामीटर को सही तरीके से सेट करने पर विशेष ध्यान दें। जब Manticore Search में खोज की जाती है तो यह इन वर्णों को खोज मिलानों के रूप में नहीं देखेगा।

उपयोगी लिंक:

http://en.wikipedia.org/wiki/CJK
http://en.wikipedia.org/wiki/Chinese_character
http://en.wikipedia.org/wiki/Pinyin
http://en.wikipedia.org/wiki/Space_%28punctuation%29
http://www.babelstone.co.uk/Yi/unicode.html