Давайте встретимся Pubchem - largest free chemical informatics web site in the world
Год
2020
Местоположение
United States
Размер компании
300+ members

Company
Группа PubChem в Национальном центре биотехнологической информации (NCBI) является частью Национальной библиотеки медицины (NLM), подразделения Национальных институтов здоровья США (NIH). PubChem — крупнейший бесплатный веб‑сайт химической информатики в мире и содержит подробную информацию из 741 источника данных более чем о 103 млн химических соединений, 254 млн веществ, 269 млн биоактивностей, 31 млн публикаций, 3 млн патентов, 1 млн биотестов и многом другом.
Challenge
Manticore использовался для полнотекстового поиска по всем коллекциям (химические соединения, химические вещества, биологические тесты, патенты, PubMed, белки, гены, таксономия, заболевания, литература, пути, реакции путей и т.д.), общий объём данных — 10 ТБ. Сначала они пробовали Solr, но он НЕ масштабировался вместе с ростом их данных. Sphinx/Manticore оказался лёгким, но мощным поисковым движком, который полностью соответствовал их требованиям.
Siqian He, US National Institutes of Health: "Мы не смогли бы достичь такого успеха без поискового движка Sphinx/Manticore! Спасибо всем за создание столь мощного поискового движка!"
Solutions and results
- Использование C++ библиотеки клиента sphinx для выполнения поискового запроса.
- Реализация функции автодополнения поиска — это возможность, когда приложение предсказывает оставшуюся часть не набранного слова. Пользователь может ввести только 2‑3 первые буквы соединения и увидеть различные предложения.
- Реализация фасетного поиска — это возможность фильтрации результатов поиска по различным свойствам найденных элементов.
