चाइनीज़, जापानी, और कोरियाई भाषा दस्तावेज़ों के साथ Manticore खोज का उपयोग

चेतावनी: यह लेख अद्यतन नहीं है। अद्यतन जानकारी के लिए, कृपया इस लिंक का पालन करें।

CJK भाषाओं के बारे में

CJK भाषाओं में 40,000 से अधिक चरित्र होते हैं। उनमें से अधिकांश चीनी हैं। कभी-कभी आप संक्षिप्त नाम CJKV देख सकते हैं। यहाँ “V” वियतनामी भाषा के लिए खड़ा है।

CJK चरित्रों में शामिल हैं:

  1. चीनी भाषा के लिए: hànzì – पारंपरिक चीनी वर्ण; Bopomofo – चीनी ध्वन्यात्मक वर्णमाला; Pinyin – चीनी भाषा की रोमनाइज़ेशन (एक अवधारणा जो ट्रांसलिटरेशन के सिद्धांत के करीब है)।
  2. जापानी भाषा के लिए: हिरागाना – जापानी स्वरभेदी; काताकाना – जापानी स्वरभेदी; अरबी संख्याएँ।
  3. कोरियाई भाषा के लिए: हंगुल (कोरियाई वर्णमाला)

अतिरिक्त रूप से, प्रत्येक भाषा में हायरोग्लिफ़िक कुंजी (रैडिकल्स) का एक सेट होता है, जो शब्दों को संदर्भिका में खोजने के लिए या उन कुंजियों के बाद के चरित्रों के अर्थ को परिभाषित करने वाले अर्थगत तत्वों के रूप में कार्य करता है।

CJK भाषाओं में पाठ प्रदर्शित करने के लिए आप निम्नलिखित एन्कोडिंग का उपयोग कर सकते हैं: Big5, EUC-JP, EUC-KR, ISO 2022-JP, KS C 5861, Shift-JIS, Unicode, आदि। CJK-भाषा वर्णमालाओं के लिए ऐसे Unicode ब्लॉक हैं ( http://www.unicode.org/Public/UNIDATA/Blocks.txt ):

दायराblokटिप्पणियाँ
1100 .. 11FFहंगुल जामोकोरियाई हंगुल वर्णमाला में एक स्वर का एकल चरित्र। हंगुल स्वर के निर्माण के लिए उपयोग किए जाने वाले जामो अक्षर
2E80 .. 2EFFCJK रैडिकल्स पूरककुंजी (रैडिकल) – हायरोग्लिफ़िक वर्णमाला का एक तत्व, जो शब्दों के समूह को अनुमति देता है या उस प्रकार के तत्व के रूप में कार्य करता है जो निम्नलिखित वर्णों के अर्थ को परिभाषित करता है।
2F00 .. 2FDFकांग्जी रैडिकल्सजापान, कोरिया, ताइवान में अपनाए गए कांग्जी की कुंजियों की सूची, पारंपरिक रूप से 214 वर्णों को शामिल करता है
3000 .. 303FCJK प्रतीक और विराम चिह्नविचारात्मक वर्ण और विराम चिह्न
3040 .. 309Fहिरागानाजापानी स्वरभेदी
30A0 .. 30FFकाताकानाजापानी स्वरभेदी
3100 .. 312FBopomofoचीनी ध्वन्यात्मक वर्णमाला
3130 .. 318Fहंगुल संगतता जामो
3190 .. 319Fकनबुन कैमबून या कनबुनमध्य काल के जापान की एक लिखी हुई भाषा
31A0 .. 31BFBopomofo विस्तारित
31C0 .. 31EFCJK स्ट्रोक साधारण विशेषताएँ (तत्व) वर्ण
31F0 .. 31FFकाताकाना ध्वन्यात्मक विस्तार
3200 .. 32FFCJK संलग्न अक्षर और महीनेCJK अक्षर और महीने वृत्तों में
3300 .. 33FFCJK संगतता
3400 .. 4DBFCJK एकीकृत विचारचित्र विस्तारएक CJK विचारचित्र
4DC0 .. 4DFFयिज़िंग हेक्साग्राम प्रतीक
4E00 .. 9FFFCJK एकीकृत विचारचित्रविचारचित्र – लिखित संकेत, सशर्त छवि या चित्र, उचित भाषण ध्वनियों का नहीं, और पूरा शब्द
A000 .. A48FYi स्वर यि भाषादक्षिण सिचुआन प्रांत की भाषा
A490 .. A4CFयी रैडिकल्स
AC00 .. D7AFहंगुल स्वर हंगुल स्वर
D7B0 .. D7FFहंगुल जामो विस्तारित-B
20000 .. 2A6DFCJK एकीकृत विचारचित्र विस्तार B
2A700 .. 2B73FCJK एकीकृत विचारचित्र विस्तार C
2F800 .. 2FA1FCJK संगतता विचारचित्र पूरक

Note that the Arabic numerals, which can be used in CJK texts, correspond widespace character codes (see section FFF0 .. FFFF; Specials).

You can see here http://www.utf8-chartable.de/ how certain characters look.

Manticore Search को कैसे बताएं कि आपके दस्तावेज़ में CJK चरित्र हैं?

Manticore Search पाठों को चरित्र स्तर पर फ़िल्टर करता है। टोकनाइज़ेशन के लिए स्वीकार नहीं किए जाने वाले चरित्र अमान्य माने जाते हैं और सफेद स्थान से प्रतिस्थापित होते हैं, जो विभाजक के रूप में कार्य करता है। डिफ़ॉल्ट रूप से, केवल अंग्रेजी और रूसी वर्णों को टोकनाइज़ किया जाता है (अंडरस्कोर और अक्षरों के साथ)।
CJK भाषाएँ ऐसे वर्णों का विशेषताएँ करती हैं जो असंक्षिप्त पाठों को बना सकते हैं। इन प्रकार के वर्णों के लिए, Manticore इन वर्णों के लगातार समूहों को n-grams. के रूप में अनुक्रमित कर सकता है।
अनुक्रमण कॉन्फ़िगरेशन में हमें 3 सेटिंग्स को समायोजित करने की आवश्यकता है:

  1. charset_table – वर्णों का वर्णन करने के लिए मुख्य पैरामीटर। प्रतीकों और केस फ़ोल्डिंग के लिए नियमों की एक तालिका होती है।
  2. ngram_chars – CJK पाठ को शब्दों में विभाजित करने के लिए आवश्यक वर्णों का वर्णन, N-ग्राम मॉडल का उपयोग करते हुए;
  3. मान सेट करें ngram_len को 1। यह n-gram सुविधा को सक्षम करता है। वर्तमान में केवल 1-grams का समर्थन किया जाता है (एक पाठ “ABCDEF” [जहाँ A से F ngram_chars सूची में हैं] को “A B C D E F” के रूप में अनुक्रमित किया जाता है)।

कैसे charset_table और ngram_chars के लिए विवरण बनाएँ

अपडेट: Manticore खोज के नए संस्करणों में एक charset_table उपनाम शामिल है जिसमें सभी CJK वर्ण होते हैं जिन्हें जरूरत होती है और एक चीनी ICU रूपविज्ञान प्रोसेसर भी होता है। नवीनतम संस्करण में CJK के साथ काम करने के लिए, निम्नलिखित लेख पढ़ें।

या दूसरे शब्दों में, Manticore Search को यह कैसे समझाया जाए कि कौन से UTF-8 वर्णकोड CJK भाषाओं के परिवार में आते हैं?

आप Sphinx की विकी पृष्ठ charset_tables से भाषा के ब्लॉकों के लिए सेट का उपयोग कर सकते हैं या ऊपर दिए गए तालिका में डेटा और charset_table में सेट किए गए नियमों का उपयोग करके CJK भाषाओं के वर्णों और अक्षरों के विकल्पों का विवरण बना सकते हैं (ऊपर 1-3 देखें)। सावधान रहें और यह सुनिश्चित करें कि आपको जो वर्ण रेंज के सभी ब्लॉक चाहिए, वे Manticore Search इंडेक्स वर्ण विवरण में कॉन्फ़िगरेशन फ़ाइल में शामिल हैं। उदाहरण के लिए, यदि आप लिंक पर वर्ण सेट रेंज विवरण का उपयोग करके Lisu या Vai भाषाओं को शामिल करने वाले दस्तावेज़ों को अनुक्रमित करेंगे, तो खोज ठीक से काम नहीं करेगी।

ngram_chars पैरामीटर को सही तरीके से सेट करने पर विशेष ध्यान दें। जब Manticore Search में खोज की जाती है तो यह इन वर्णों को खोज मिलानों के रूप में नहीं देखेगा।

उपयोगी लिंक:

http://en.wikipedia.org/wiki/CJK
http://en.wikipedia.org/wiki/Chinese_character
http://en.wikipedia.org/wiki/Pinyin
http://en.wikipedia.org/wiki/Space_%28punctuation%29
http://www.babelstone.co.uk/Yi/unicode.html

मैंटीकोर सर्च इंस्टॉल करें

मैंटीकोर सर्च इंस्टॉल करें