默认字符集表和停用词文件
在本文中,我们将讨论字符集表和停用词的新添加,这些旨在简化配置索引时使用这些选项的过程。
在最初分析文档文本时,Manticore Search 需要知道文本中的哪些符号对于后续处理(将完整文本拆分为单独的单词、进行形态学处理等)是有意义的,哪些不是。要定义有效的文本字符,使用 charset_table 选项。通过该选项,您可以指定希望使用的符号集。
此外,为了提供更好的文本搜索质量,Manticore Search 执行所谓的字符折叠。例如,在分析您的搜索查询时,大写符号 …