Український лематизатор тепер вбудовано в Manticore Search

Український лематизатор тепер вбудовано в Manticore Search

Коротко

починаючи з релізу 27.1.5 український лематизатор більше не потребує окремого Python-стека.
Раніше потрібно було встановлювати окремий пакет, Python 3.9, pymorphy2 і українські словники.
Гарна новина - тепер словник уже входить до Manticore.

Достатньо лише ввімкнути явно морфологію:

morphology='lemmatize_uk_all'

Для української морфології важливо не використовувати голий non_cont: він ще до запуску лематизатора зводить українські і та ї до латинської i.
Тому в charset_table потрібно явно зберегти і, ї і ґ, а також додати українські апострофи як частину слова.

Саме тому для українських текстів ми рекомендуємо використовувати окрему таблицю з власним charset_table та апострофом, а не змішувати українську з англійською чи іншими мовами в одній таблиці.

Це все що потрібно урахувати для повноцінної підтримки Української в ManticoreSearch. Ніяких словників, пакетів чи скриптів. Тепер все працює прямо "з коробки"

Що таке лематизатор

У повнотекстовому пошуку часто потрібно знайти слово не лише в тій формі, яку ввів користувач. У документі може бути мрії, а користувач шукає мрія. Або в тексті є інтернет-магазину, а в запиті приходить інтернет-магазин. Людина легко бачить, що це форми того самого слова. Для пошукового рушія без морфології це різні токени.

Для цього в пошукових рушіях використовують стемінг і лематизацію.

Стемер зазвичай працює за правилами: відкидає або замінює закінчення. Це швидко, але результат буває грубим і не завжди схожим на справжнє слово.

Лематизатор спирається на словник і морфологію, щоб отримати нормальну форму слова. Для української мови це особливо помітно через відмінки, рід і число.

Що змінилося

Якщо ви вже пробували українську лематизацію в Manticore, то проблема могла бути не в самому пошуку, а у встановленні:

окремий manticore-lemmatizer-uk;
Python 3.9 з --enable-shared;
pymorphy2 і pymorphy2-dicts-uk;
додаткові системні залежності.

Тепер український словник постачається як звичайний мовний файл uk.pak, а Manticore завантажує його напряму. Вам залишається налаштувати таблицю: вказати потрібну morphology і працювати далі.

Мінімальна конфігурація

Створимо таблицю для українських текстів:

CREATE TABLE uk_docs(title text)
  morphology='lemmatize_uk_all'
  charset_table='non_cont,U+0406->U+0456,U+0456,U+0407->U+0457,U+0457,U+0490->U+0491,U+0491,U+2019->U+0027,U+02BC->U+0027,U+0027';

Тут важливо ввімкнути морфологію:

morphology='lemmatize_uk_all' вмикає український лематизатор та індексує усі знайдені нормальні форми.

Для української мови ми зберігаємо кириличні і, ї і ґ, а також додаємо апостроф (U+0027) і типографські варіанти ’ (U+2019) та ʼ (U+02BC), щоб слова на кшталт обов'язковим індексувалися як один токен.

Для однієї нормальної форми підійде lemmatize_uk. Щоб індексувати усі можливі форми, виберіть lemmatize_uk_all.

Перевіримо на прикладі

Додамо кілька документів:

INSERT INTO uk_docs VALUES
  (1, 'мрії про червону сукню'),
  (2, 'каталог інтернет-магазину'),
  (3, 'команд-учасниць запросили на зустріч');

Запит мрія знаходить документ, де слово записано як мрії:

SELECT id, title FROM uk_docs WHERE MATCH('мрія') ORDER BY id ASC;

+------+---------------------------+
| id   | title                     |
+------+---------------------------+
|    1 | мрії про червону сукню    |
+------+---------------------------+

Запит червоний знаходить червону:

SELECT id, title FROM uk_docs WHERE MATCH('червоний') ORDER BY id ASC;

+------+---------------------------+
| id   | title                     |
+------+---------------------------+
|    1 | мрії про червону сукню    |
+------+---------------------------+

А інтернет-магазин знаходить інтернет-магазину:

SELECT id, title FROM uk_docs WHERE MATCH('інтернет-магазин') ORDER BY id ASC;

+------+---------------------------+
| id   | title                     |
+------+---------------------------+
|    2 | каталог інтернет-магазину |
+------+---------------------------+

Що відбувається з токенами

Якщо хочете побачити не лише результат пошуку, а й саму нормалізацію, використовуйте CALL KEYWORDS:

CALL KEYWORDS(
  'мрії червона інтернет-магазину команд-учасниць',
  'uk_docs'
);

+------+--------------------+--------------+
| qpos | tokenized          | normalized   |
+------+--------------------+--------------+
| 1    | мрії               | мрія         |
| 2    | червона            | червоний     |
| 3    | інтернет           | інтернет     |
| 4    | магазину           | магазин      |
| 5    | команд             | команда      |
| 6    | учасниць           | учасниця     |
+------+--------------------+--------------+

Тут добре видно різницю з простим обрізанням закінчень: на виході маємо нормальні форми слів, за якими вже можна шукати. мрії перетворюється на мрія, червона на червоний, магазину на магазин.

Що варто пам'ятати

Користуватися українським лематизатором стало простіше, але для кожної таблиці його все одно треба ввімкнути явно через morphology.

Не використовуйте для української морфології charset_table='non_cont,U+0027': такий варіант зводить і та ї до латинської i, тому лематизатор отримує вже спотворений токен. Для українських текстів використовуйте варіант із прикладу вище, де і, ї і ґ явно збережені.

Якщо ви використовуєте офіційні пакети або образи Manticore Search актуальних версій, український uk.pak уже має бути на місці. Якщо у вас власна збірка або нестандартне розташування файлів, перевірте, що lemmatizer_base вказує на каталог, де лежить uk.pak.

Докладніше про налаштування морфології можна прочитати в документації: morphology .

Приєднуйтесь до спільноти

Маєте запитання чи відгук? Спілкуйтеся з командою Manticore та іншими користувачами.

Приєднатися в Slack

Спробуйте у браузері

Пограйтеся з Manticore прямо в інтерактивній пісочниці — без встановлення.

Відкрити пісочницю

Стежте за нами в X

Новини, поради та релізи — читайте @manticoresearch.

Читати нас

Подобається Manticore?

Зірка на GitHub допомагає іншим знайти проєкт — для нас це важливо.

Зірка на GitHub