Давайте встретимся Pubchem - крупнейший бесплатный веб-сайт по химической информатике в мире

Год

2020

Местоположение

Соединенные Штаты

Размер компании

300+ участников

brand image

Компания

Группа PubChem в Национальном центре биотехнологической информации (NCBI) является частью Национальной медицинской библиотеки (NLM), отделения Национальных институтов здоровья США (NIH). PubChem - крупнейший бесплатный веб-сайт по химической информатике в мире и имеет подробную информацию из 741 источника данных для более чем 103 млн химических соединений, 254 млн субстанций, 269 млн биоактивностей, 31 млн литературных источников, 3 млн патентов, 1 млн биологических испытаний и многих других.

Задача

Manticore ранее осуществлял полнотекстовый поиск среди всех коллекций (химическое соединение, химическая субстанция, биологический анализ, патент, pubmed, белок, ген, таксономия, заболевание, литература, путь, реакция пути и др.), общая сложность данных составила 10 ТБ. Сначала они попробовали Solr, но он НЕ масштабировался с ростом данных. Sphinx/Manticore оказался легковесным, но мощным поисковым движком, который идеально соответствовал их потребностям.

Siqian He, Национальные институты здоровья США: “Мы не смогли бы достичь такого успеха без поискового движка Sphinx/Manticore! Спасибо всем за создание такого мощного поискового движка!”

Решения и результаты

  • Использование библиотеки клиента C++ sphinx для выполнения поиска по связанным запросам.
  • Внедрение функции автозаполнения поиска - это функция, когда приложение предсказывает остаток непечатного слова. Таким образом, пользователь может ввести только 2 или 3 первые буквы соединения и увидеть различные предложения.
  • Внедрение фасетирования - это дает возможность фильтровать результаты поиска по различным свойствам искомых объектов.
Manticore Search на Pubchem

Установить Manticore Search

Установить Manticore Search