让我们见面 Pubchem - largest free chemical informatics web site in the world
年
2020
位置
United States
公司规模
300+ members

公司
NCBI(国家生物技术信息中心)内的PubChem小组隶属于美国国家医学图书馆(NLM),而NLM是美国国立卫生研究院(NIH)的一个分支。PubChem是世界上最大的免费化学信息网站,拥有来自741个数据源的详细信息,包括超过1.03亿种化学化合物、2.54亿种物质、2.69亿种生物活性、3100万篇文献、300万项专利、100万项生物测定等。
挑战
Manticore曾需要在所有集合(化学化合物、化学物质、生物测定、专利、PubMed、蛋白质、基因、分类学、疾病、文献、通路、通路反应等)中进行全文搜索,总数据量达10TB。他们最初尝试了Solr,但随着数据增长,Solr无法扩展。Sphinx/Manticore最终成为一款轻量但功能强大的搜索引擎,正好满足他们的需求。
美国国立卫生研究院的He Siqian表示:"没有Sphinx/Manticore搜索引擎,我们无法取得如此成功!感谢大家打造了如此强大的搜索引擎!"
解决方案与成果
- 使用C++ Sphinx客户端库执行相关搜索查询。
- 部署搜索自动补全功能 - 这是一个当应用程序预测未输入单词剩余部分的功能。因此用户只需输入化合物名称的前2或3个字母,即可看到不同的建议。
- 部署分面过滤功能 - 这使得能够通过搜索项的不同属性对搜索结果进行过滤。
