⚠️ Эта страница автоматически переведена, и перевод может быть несовершенным.

Давайте встретимся Pubchem - largest free chemical informatics web site in the world

Год

2020

Местоположение

United States

Размер компании

300+ members

brand image

Company

Группа PubChem в Национальном центре биотехнологической информации (NCBI) является частью Национальной библиотеки медицины (NLM), подразделения Национальных институтов здоровья США (NIH). PubChem — крупнейший бесплатный веб‑сайт химической информатики в мире и содержит подробную информацию из 741 источника данных более чем о 103 млн химических соединений, 254 млн веществ, 269 млн биоактивностей, 31 млн публикаций, 3 млн патентов, 1 млн биотестов и многом другом.

Challenge

Manticore использовался для полнотекстового поиска по всем коллекциям (химические соединения, химические вещества, биологические тесты, патенты, PubMed, белки, гены, таксономия, заболевания, литература, пути, реакции путей и т.д.), общий объём данных — 10 ТБ. Сначала они пробовали Solr, но он НЕ масштабировался вместе с ростом их данных. Sphinx/Manticore оказался лёгким, но мощным поисковым движком, который полностью соответствовал их требованиям.

Siqian He, US National Institutes of Health: "Мы не смогли бы достичь такого успеха без поискового движка Sphinx/Manticore! Спасибо всем за создание столь мощного поискового движка!"

Solutions and results

  • Использование C++ библиотеки клиента sphinx для выполнения поискового запроса.
  • Реализация функции автодополнения поиска — это возможность, когда приложение предсказывает оставшуюся часть не набранного слова. Пользователь может ввести только 2‑3 первые буквы соединения и увидеть различные предложения.
  • Реализация фасетного поиска — это возможность фильтрации результатов поиска по различным свойствам найденных элементов.
Manticore Search on Pubchem

Установить Manticore Search

Установить Manticore Search