⚠️ 此页面为自动翻译,翻译可能不完美。

让我们见面 Pubchem - largest free chemical informatics web site in the world

2020

位置

United States

公司规模

300+ members

brand image

公司

NCBI(国家生物技术信息中心)内的PubChem小组隶属于美国国家医学图书馆(NLM),而NLM是美国国立卫生研究院(NIH)的一个分支。PubChem是世界上最大的免费化学信息网站,拥有来自741个数据源的详细信息,包括超过1.03亿种化学化合物、2.54亿种物质、2.69亿种生物活性、3100万篇文献、300万项专利、100万项生物测定等。

挑战

Manticore曾需要在所有集合(化学化合物、化学物质、生物测定、专利、PubMed、蛋白质、基因、分类学、疾病、文献、通路、通路反应等)中进行全文搜索,总数据量达10TB。他们最初尝试了Solr,但随着数据增长,Solr无法扩展。Sphinx/Manticore最终成为一款轻量但功能强大的搜索引擎,正好满足他们的需求。

美国国立卫生研究院的He Siqian表示:"没有Sphinx/Manticore搜索引擎,我们无法取得如此成功!感谢大家打造了如此强大的搜索引擎!"

解决方案与成果

  • 使用C++ Sphinx客户端库执行相关搜索查询。
  • 部署搜索自动补全功能 - 这是一个当应用程序预测未输入单词剩余部分的功能。因此用户只需输入化合物名称的前2或3个字母,即可看到不同的建议。
  • 部署分面过滤功能 - 这使得能够通过搜索项的不同属性对搜索结果进行过滤。
Manticore Search 在 Pubchem 上

安装Manticore Search

安装Manticore Search