TF-IDF 简述

在1958年,汉斯·彼得·卢恩在他的论文《文献摘要的自动创建》中假设“文章中单词出现的频率提供了单词重要性的有用度量”,这直到现在可能仍然是信息检索科学中最重要的概念之一,并且在所有著名的大型和小型搜索引擎中都在使用,从谷歌和雅虎到自定义搜索解决方案如ElasticSearch和Manticore Search。
卢恩的假设的重要性不可低估,许多后续的科学研究都是基于卢恩的假设,尽管并非所有研究都提到这一点,因为随着时间的推移,这似乎已成为公理。
在本文中,我将尽量通过非常清 …

Manticore Search 2.8.2 GA release

我们很高兴地宣布发布 Manticore Search 2.8.2 GA. 可从 这里 下载适用于Debian、Ubuntu、Red Hat/CentOS、Windows和OSX的预构建软件包。
主要特性 基于Galera库(Percona分支)的多主同步复制用于过滤索引。
复制需要设置一个新的searchd指令 - data_dir - 用于复制的内部文件以及用于通信的专用监听接口。
可以使用SphinxQL语句创建和管理集群。有关更多信息,请查阅 复制 部分。
复制特性应 …

Manticore Search 2.8.1 GA release

我们很高兴地宣布 Manticore Search 2.8.1 GA 的发布。
针对 Debian、Ubuntu、Red Hat/CentOS、Windows 和 OSX 的预构建包可从 这里 下载。
新特性和改进 添加了 SUBSTRING_INDEX() 函数,该函数返回在指定数量的分隔符之前的字符串子串。
支持为渗透查询提供句子和段落。
Debian/Ubuntu 的 Systemd 生成器。
修复 发布中还包括 14 个 bug 修复,突出几个修复:
8af81011 …

Manticore 2.7.5 对比 Sphinx 3.1.1

在这里 我们对比测试了 Sphinx 3.0.2 和 Manticore 2.6.2。那是8个月前的事了,从那时起 Manticore 和 Sphinx 都有所变化。正如 Sphinx 3.0.3 发布公告 所说,Sphinx 3.0.3 相比 3.0.2 速度提升了2倍,所以再做一次基准测试很有意思。这次让我们用真实数据集 - Hacker News 评论来测试。
基准测试在以下条件下进行:
Hacker News 精选评论数据集 2016年的 CSV 格式数据 操作系统: …

Manticore Search 2.8.0 GA release

我们很高兴地宣布 Manticore Search 2.8.0 GA. 的发布。
预构建的包可用于 Debian、Ubuntu、Red Hat/CentOS、Windows 和 OSX,可以从 这里 下载。
新特性和改进 本次发布的主要特性是对 percolate 索引 的支持。 对于 percolate 索引,DESCRIBE 命令现在新增了 TABLE 扩展,可以查看 percolate 文档的模式。 ANY/ALL 函数可以在字符串属性或表达式以及 PQ 标签上使用。 …

默认字符集表和停用词文件

在本文中,我们将讨论字符集表和停用词的新添加,这些旨在简化配置索引时使用这些选项的过程。
在最初分析文档文本时,Manticore Search 需要知道文本中的哪些符号对于后续处理(将完整文本拆分为单独的单词、进行形态学处理等)是有意义的,哪些不是。要定义有效的文本字符,使用 charset_table 选项。通过该选项,您可以指定希望使用的符号集。
此外,为了提供更好的文本搜索质量,Manticore Search 执行所谓的字符折叠。例如,在分析您的搜索查询时,大写符号 …

安装Manticore Search

安装Manticore Search