Проблема поиска информации в неструктурированном массиве данных актуальна, так как в неструктурированной информация содержится уникальный потенциал для извлечения новых знаний. Сложность обработки неструктурированных данных определяется их разнообразием, сильной контекстной зависимостью и динамичностью. Объемы хранимых и передаваемых данных увеличиваются с каждым годом. Количество параметров, характеризующих данные, также неизменно растет. Существующие алгоритмы информационно-поисковых систем не предоставляют гибкого функционала для поиска по различным коллекциям документов или веб-страниц. Сложность тематического поиска в заданном сегменте документов связана с необходимостью предварительной настройки параметров математических моделей поисковых систем. Цель настоящей работы - определение значений параметров, которые позволяют повысить релевантность результата поискового запроса. Рассмотрены использование генетического алгоритма и его работа, операции мутации и кроссинговера, определены вероятностные значения для каждой из операций. Хромосомы в данном исследовании - числовые значения коэффициентов, представленные в двоичном виде. По результатам работы генетического алгоритма получены значения корректирующих коэффициентов для трех семейств поисковых систем: Apache Lucene, Xapian, Sphinx. На контрольных выборках проведена оценка метрик качества работы каждой из поисковых систем: точность, полнота, aккуратность, F-мера и ошибки. В результате применения генетического алгоритма наблюдается увеличение значений метрик от 7 до 15 % и уменьшение ошибки поиска от 15 до 50 %, что подтверждает уместность его использования для повышения корректности работы поисковых систем.
-
Ключевые слова:
генетический алгоритм, документ, мутация, поисковый запрос, популяция, ранжирование, релевантность, тематический поиск, математическая модель
-
Опубликовано в разделе:
Информационно-коммуникационные технологии
-
Библиографическая ссылка:
Беляев И.В., Федоров А.Р., Гагарина Л.Г. Применение генетического алгоритма для повышения качества работы поисковых систем // Изв. вузов. Электроника. - 2017. - Т. 22. - № 5. - С. 471-477. DOI: 10.214151/1561-5405-2017-22-5-471-477
1. Блог компании «Sphinx Technologies Inc». Как устроено ранжирование. – URL: https://habrahabr.ru/company/sphinx/blog/62287/ (да-та обращения: 01.04.2017).
2. WaveAccess. Полнотекстовый поиск с использованием Apache Lucene, 2 сентября 2014. – URL: http://www.waveaccess.ru/blog/2014/september/02/полнотекстовый-поиск-с-использованием-apache-lucene.aspx (дата обращения: 01.04.2017).
3. Андреев М. Генетический алгоритм. Просто о сложном. – URL: https://habrahabr.ru/post/128704/ (дата обращения: 01.04.2017).