⚠️ 此页面为自动翻译,翻译可能不完美。

TF-IDF in a nutshell

早在1958年,Hans Peter Luhn在他的论文"The Automatic Creation of Literature Abstracts"中假设"文章中词语出现的频率可以提供一个有用的词语重要性度量",这一假设至今可能是信息检索科学中最重要的内容之一,并且被所有知名的大中小型搜索引擎使用,从Google和Yahoo到定制搜索解决方案,如ElasticSearch和Manticore Search。 Luhn的假设的重要性无法被高估,许多后续的信息检索领域的科学研 ...

Manticore Search 2.8.2 GA release

我们很高兴地宣布 Manticore Search 2.8.2 GA 的发布。 适用于 Debian、Ubuntu、Red Hat/CentOS、Windows 和 OSX 的预构建软件包可以从 这里 下载。 主要功能 基于 Galera 库(Percona 分支)的 percolate 索引的多主同步 复制 功能。 复制需要设置一个新的 searchd 指令 - data_dir - 用于复制的内部文件,以及一个专用的监听接口用于通信。 可以使用 SphinxQL 语句创建 ...

Manticore Search 2.8.1 GA release

我们很高兴宣布 Manticore Search 2.8.1 GA 的发布。 适用于 Debian、Ubuntu、Red Hat/CentOS、Windows 和 OSX 的预构建软件包可以从 这里 下载。 新功能和改进 新增 SUBSTRING_INDEX() 函数,用于返回字符串中指定分隔符出现次数之前的子字符串。 为 percolate 查询添加 SENTENCE 和 PARAGRAPH 支持。 Debian/Ubuntu 的 systemd 生成器。 修复 此版本还包 ...

Default charset tables and stopwords files

在本文中,我们将讨论字符集表和停用词的新添加内容,这些内容旨在简化在配置索引时使用这些选项的过程。 当最初分析文档文本时,Manticore Search 需要知道文本中的哪些符号对后续处理(将全文拆分为单独的单词、处理词形变化等)是有意义的,哪些是没有意义的。为了定义有效的文本字符,使用 charset_table 选项。通过此选项,您可以指定想要使用的符号集。 此外,为了提供更好的文本搜索质量,Manticore Search 会执行所谓的字符折叠。例如,当分析您的搜索查 ...

Manticore 2.7.5 vs Sphinx 3.1.1

这里 我们对 Sphinx 3.0.2 与 Manticore 2.6.2 进行了基准测试。这已经是 8 个月前的事了,自那以后 Manticore 和 Sphinx 都发生了变化。正如 Sphinx 3.0.3 宣布 中所说,Sphinx 3.0.3 相比 3.0.2 最多快了 2 倍,因此再次进行基准测试很有趣。这次让我们在真实数据集上进行测试 - Hacker News 评论。 基准测试是在以下条件下进行的: Hacker News 精选评论数据集 2016 ...

Manticore Search 2.8.0 GA release

我们很高兴宣布 Manticore Search 2.8.0 GA 的发布。 适用于 Debian、Ubuntu、Red Hat/CentOS、Windows 和 OSX 的预构建软件包可以从 这里 下载。 新功能和改进 本次发布引入的重大功能是支持 集群 的 percolate 索引。 对于 percolate 索引,DESCRIBE 命令现在扩展了 TABLE,允许查看 percolate 文档的模式。 ANY/ALL 函数现在也可以用于字符串属性或表达式以及 PQ 标 ...

安装Manticore Search

安装Manticore Search