让我们见面 Pubchem - 世界上最大的免费化学信息网站
年
2020
位置
美国
公司规模
300+ 名成员

公司
PubChem小组隶属于国家生物技术信息中心(NCBI),是美国国家医学图书馆(NLM)的一部分,后者是美国国立卫生研究院(NIH)的一个分支。PubChem是世界上最大的免费化学信息网站,拥有来自741个数据源的详细信息,涵盖超过1.03亿种化学化合物、2.54亿种物质、2.69亿种生物活性、3100万篇文献、300万项专利、100万项生物测定等。
挑战
Manticore曾在所有集合(化学化合物、化学物质、生物测定、专利、pubmed、蛋白质、基因、分类、疾病、文献、通路、通路反应等)中进行全文搜索,总数据量达到10TB。他们最初尝试了Solr,但它无法随着数据的增长而扩展。Sphinx/Manticore最终成为了一个轻量级但强大的搜索引擎,完全符合他们的需求。
Siqian He, 美国国立卫生研究院:“没有Sphinx/Manticore搜索引擎,我们无法取得如此成功!感谢大家创造了如此强大的搜索引擎!”
解决方案和结果
- 使用C++ sphinx客户端库进行相关查询的搜索。
- 部署搜索自动完成功能 - 这是一个应用程序预测未输入单词其余部分的功能。因此,用户只需输入化合物的前2或3个字母,就能看到不同的建议。
- 部署分面功能 - 这使得能够根据搜索项目的不同属性对搜索结果进行过滤。
