让我们见面 Pubchem - 世界上最大的免费化学信息网站

2020

位置

美国

公司规模

300+成员

brand image

公司

PubChem小组隶属于美国国立生物技术信息中心(NCBI),是美国国立医学图书馆(NLM)的一部分,属于美国国立卫生研究院(NIH)。PubChem是世界上最大的免费化学信息网站,拥有来自741个数据源的详细信息,涵盖超过1.03亿种化学化合物、2.54亿种物质、2.69亿种生物活性、3100万篇文献、300万项专利、100万项生物检测等。

挑战

Manticore以前在所有集合中进行全文搜索(化学化合物、化学物质、生物检测、专利、pubmed、蛋白质、基因、分类、疾病、文献、途径、途径反应等),总数据大小为10TB。他们首先尝试了Solr,但随着数据增长,它并未扩展。Sphinx/Manticore最终成为了一个轻量且强大的搜索引擎,正好满足他们的需求。

Siqian He, 美国国立卫生研究院:“没有Sphinx/Manticore搜索引擎,我们无法取得这样的成功!感谢大家创建了这样一个强大的搜索引擎!”

解决方案和结果

  • 使用C++ sphinx客户端库进行相关查询搜索。
  • 部署搜索自动完成功能 - 这是一个当应用程序预测尚未输入的单词的其余部分时的功能。用户只需输入化合物的前两个或三个字母,就能看到不同的建议。
  • 部署分面 - 这使得能够通过不同的搜索项目属性过滤搜索结果。
Manticore Search on Pubchem

安装Manticore Search

安装Manticore Search