चेतावनी: यह लेख अद्यतन नहीं है। अद्यतन जानकारी के लिए, कृपया इस लिंक का पालन करें।
CJK भाषाओं के बारे में
CJK भाषाओं में 40,000 से अधिक चरित्र होते हैं। उनमें से अधिकांश चीनी हैं। कभी-कभी आप संक्षिप्त नाम CJKV देख सकते हैं। यहाँ “V” वियतनामी भाषा के लिए खड़ा है।
CJK चरित्रों में शामिल हैं:
- चीनी भाषा के लिए: hànzì – पारंपरिक चीनी वर्ण; Bopomofo – चीनी ध्वन्यात्मक वर्णमाला; Pinyin – चीनी भाषा की रोमनाइज़ेशन (एक अवधारणा जो ट्रांसलिटरेशन के सिद्धांत के करीब है)।
- जापानी भाषा के लिए: हिरागाना – जापानी स्वरभेदी; काताकाना – जापानी स्वरभेदी; अरबी संख्याएँ।
- कोरियाई भाषा के लिए: हंगुल (कोरियाई वर्णमाला)
अतिरिक्त रूप से, प्रत्येक भाषा में हायरोग्लिफ़िक कुंजी (रैडिकल्स) का एक सेट होता है, जो शब्दों को संदर्भिका में खोजने के लिए या उन कुंजियों के बाद के चरित्रों के अर्थ को परिभाषित करने वाले अर्थगत तत्वों के रूप में कार्य करता है।
CJK भाषाओं में पाठ प्रदर्शित करने के लिए आप निम्नलिखित एन्कोडिंग का उपयोग कर सकते हैं: Big5, EUC-JP, EUC-KR, ISO 2022-JP, KS C 5861, Shift-JIS, Unicode, आदि। CJK-भाषा वर्णमालाओं के लिए ऐसे Unicode ब्लॉक हैं ( http://www.unicode.org/Public/UNIDATA/Blocks.txt ):
दायरा | blok | टिप्पणियाँ |
1100 .. 11FF | हंगुल जामो | कोरियाई हंगुल वर्णमाला में एक स्वर का एकल चरित्र। हंगुल स्वर के निर्माण के लिए उपयोग किए जाने वाले जामो अक्षर |
2E80 .. 2EFF | CJK रैडिकल्स पूरक | कुंजी (रैडिकल) – हायरोग्लिफ़िक वर्णमाला का एक तत्व, जो शब्दों के समूह को अनुमति देता है या उस प्रकार के तत्व के रूप में कार्य करता है जो निम्नलिखित वर्णों के अर्थ को परिभाषित करता है। |
2F00 .. 2FDF | कांग्जी रैडिकल्स | जापान, कोरिया, ताइवान में अपनाए गए कांग्जी की कुंजियों की सूची, पारंपरिक रूप से 214 वर्णों को शामिल करता है |
3000 .. 303F | CJK प्रतीक और विराम चिह्न | विचारात्मक वर्ण और विराम चिह्न |
3040 .. 309F | हिरागाना | जापानी स्वरभेदी |
30A0 .. 30FF | काताकाना | जापानी स्वरभेदी |
3100 .. 312F | Bopomofo | चीनी ध्वन्यात्मक वर्णमाला |
3130 .. 318F | हंगुल संगतता जामो | |
3190 .. 319F | कनबुन कैमबून या कनबुन | मध्य काल के जापान की एक लिखी हुई भाषा |
31A0 .. 31BF | Bopomofo विस्तारित | |
31C0 .. 31EF | CJK स्ट्रोक साधारण विशेषताएँ (तत्व) वर्ण | |
31F0 .. 31FF | काताकाना ध्वन्यात्मक विस्तार | |
3200 .. 32FF | CJK संलग्न अक्षर और महीने | CJK अक्षर और महीने वृत्तों में |
3300 .. 33FF | CJK संगतता | |
3400 .. 4DBF | CJK एकीकृत विचारचित्र विस्तार | एक CJK विचारचित्र |
4DC0 .. 4DFF | यिज़िंग हेक्साग्राम प्रतीक | |
4E00 .. 9FFF | CJK एकीकृत विचारचित्र | विचारचित्र – लिखित संकेत, सशर्त छवि या चित्र, उचित भाषण ध्वनियों का नहीं, और पूरा शब्द |
A000 .. A48F | Yi स्वर यि भाषा | दक्षिण सिचुआन प्रांत की भाषा |
A490 .. A4CF | यी रैडिकल्स | |
AC00 .. D7AF | हंगुल स्वर हंगुल स्वर | |
D7B0 .. D7FF | हंगुल जामो विस्तारित-B | |
20000 .. 2A6DF | CJK एकीकृत विचारचित्र विस्तार B | |
2A700 .. 2B73F | CJK एकीकृत विचारचित्र विस्तार C | |
2F800 .. 2FA1F | CJK संगतता विचारचित्र पूरक |
Note that the Arabic numerals, which can be used in CJK texts, correspond widespace character codes (see section FFF0 .. FFFF; Specials).
You can see here http://www.utf8-chartable.de/ how certain characters look.
Manticore Search को कैसे बताएं कि आपके दस्तावेज़ में CJK चरित्र हैं?
Manticore Search पाठों को चरित्र स्तर पर फ़िल्टर करता है। टोकनाइज़ेशन के लिए स्वीकार नहीं किए जाने वाले चरित्र अमान्य माने जाते हैं और सफेद स्थान से प्रतिस्थापित होते हैं, जो विभाजक के रूप में कार्य करता है। डिफ़ॉल्ट रूप से, केवल अंग्रेजी और रूसी वर्णों को टोकनाइज़ किया जाता है (अंडरस्कोर और अक्षरों के साथ)।
CJK भाषाएँ ऐसे वर्णों का विशेषताएँ करती हैं जो असंक्षिप्त पाठों को बना सकते हैं। इन प्रकार के वर्णों के लिए, Manticore इन वर्णों के लगातार समूहों को
n-grams.
के रूप में अनुक्रमित कर सकता है।
अनुक्रमण कॉन्फ़िगरेशन में हमें 3 सेटिंग्स को समायोजित करने की आवश्यकता है:
- charset_table – वर्णों का वर्णन करने के लिए मुख्य पैरामीटर। प्रतीकों और केस फ़ोल्डिंग के लिए नियमों की एक तालिका होती है।
- ngram_chars – CJK पाठ को शब्दों में विभाजित करने के लिए आवश्यक वर्णों का वर्णन, N-ग्राम मॉडल का उपयोग करते हुए;
- मान सेट करें ngram_len को 1। यह n-gram सुविधा को सक्षम करता है। वर्तमान में केवल 1-grams का समर्थन किया जाता है (एक पाठ “ABCDEF” [जहाँ A से F ngram_chars सूची में हैं] को “A B C D E F” के रूप में अनुक्रमित किया जाता है)।
कैसे charset_table और ngram_chars के लिए विवरण बनाएँ
अपडेट: Manticore खोज के नए संस्करणों में एक charset_table उपनाम शामिल है जिसमें सभी CJK वर्ण होते हैं जिन्हें जरूरत होती है और एक चीनी ICU रूपविज्ञान प्रोसेसर भी होता है। नवीनतम संस्करण में CJK के साथ काम करने के लिए, निम्नलिखित लेख पढ़ें।
या दूसरे शब्दों में, Manticore Search को यह कैसे समझाया जाए कि कौन से UTF-8 वर्णकोड CJK भाषाओं के परिवार में आते हैं?
आप Sphinx की विकी पृष्ठ charset_tables से भाषा के ब्लॉकों के लिए सेट का उपयोग कर सकते हैं या ऊपर दिए गए तालिका में डेटा और charset_table में सेट किए गए नियमों का उपयोग करके CJK भाषाओं के वर्णों और अक्षरों के विकल्पों का विवरण बना सकते हैं (ऊपर 1-3 देखें)। सावधान रहें और यह सुनिश्चित करें कि आपको जो वर्ण रेंज के सभी ब्लॉक चाहिए, वे Manticore Search इंडेक्स वर्ण विवरण में कॉन्फ़िगरेशन फ़ाइल में शामिल हैं। उदाहरण के लिए, यदि आप लिंक पर वर्ण सेट रेंज विवरण का उपयोग करके Lisu या Vai भाषाओं को शामिल करने वाले दस्तावेज़ों को अनुक्रमित करेंगे, तो खोज ठीक से काम नहीं करेगी।
ngram_chars पैरामीटर को सही तरीके से सेट करने पर विशेष ध्यान दें। जब Manticore Search में खोज की जाती है तो यह इन वर्णों को खोज मिलानों के रूप में नहीं देखेगा।
उपयोगी लिंक:
http://en.wikipedia.org/wiki/CJK
http://en.wikipedia.org/wiki/Chinese_character
http://en.wikipedia.org/wiki/Pinyin
http://en.wikipedia.org/wiki/Space_%28punctuation%29
http://www.babelstone.co.uk/Yi/unicode.html