Давайте встретимся Pubchem - крупнейший бесплатный веб-сайт по химической информатике в мире
Год
2020
Местоположение
Соединенные Штаты
Размер компании
300+ участников

Компания
Группа PubChem в Национальном центре биотехнологической информации (NCBI) является частью Национальной медицинской библиотеки (NLM), отделения Национальных институтов здоровья США (NIH). PubChem - крупнейший бесплатный веб-сайт по химической информатике в мире и имеет подробную информацию из 741 источника данных для более чем 103 млн химических соединений, 254 млн субстанций, 269 млн биоактивностей, 31 млн литературных источников, 3 млн патентов, 1 млн биологических испытаний и многих других.
Задача
Manticore ранее осуществлял полнотекстовый поиск среди всех коллекций (химическое соединение, химическая субстанция, биологический анализ, патент, pubmed, белок, ген, таксономия, заболевание, литература, путь, реакция пути и др.), общая сложность данных составила 10 ТБ. Сначала они попробовали Solr, но он НЕ масштабировался с ростом данных. Sphinx/Manticore оказался легковесным, но мощным поисковым движком, который идеально соответствовал их потребностям.
Siqian He, Национальные институты здоровья США: “Мы не смогли бы достичь такого успеха без поискового движка Sphinx/Manticore! Спасибо всем за создание такого мощного поискового движка!”
Решения и результаты
- Использование библиотеки клиента C++ sphinx для выполнения поиска по связанным запросам.
- Внедрение функции автозаполнения поиска - это функция, когда приложение предсказывает остаток непечатного слова. Таким образом, пользователь может ввести только 2 или 3 первые буквы соединения и увидеть различные предложения.
- Внедрение фасетирования - это дает возможность фильтровать результаты поиска по различным свойствам искомых объектов.
