TF-IDF в примерах

luhn В 1958 году в своей статье «Автоматическое создание аннотаций» Ханс Питер Лун предположил, что «частота встречаемости слова в статье является мерой значимости слова», что до сих пор, вероятно, является одной из наиболее фундаментальных теорий в Информационном Поиске и в той или иной степени используется во всех известных поисковых системах, начиная с глобальных поисковиков типа Google и Yahoo и заканчивая кастомными решениями типа ElasticSearch и Manticore Search.


TF-IDF in a nutshell

luhnBack in 1958 Hans Peter Luhn assumed in his paper "The Automatic Creation of Literature Abstracts" that "the frequency of word occurrence in an article furnishes a useful measurement of word significance" which is until now probably one of the most significant things in the Information Retrieval science and is used in all well known big and small search engines starting from Google and Yahoo to custom search solutions such as ElasticSearch and Manticore Search. […]

Manticore 2.7.5 vs Sphinx 3.1.1

Hi Here we benchmarked Sphinx 3.0.2 vs Manticore 2.6.2. This was 8 months ago and both Manticore and Sphinx changed since then. As it's said in Sphinx 3.0.3 announcement Sphinx 3.0.3 is up to 2x faster compared to 3.0.2, so it's interesting to do another benchmark. This time let's test on a real dataset - Hacker News comments. The benchmark was conducted with the following conditions: […]