Известия высших учебных заведений. Электроника home

Применение генетического алгоритма для повышения качества работы поисковых систем

Раздел находится в стадии актуализации

Проблема поиска информации в неструктурированном массиве данных актуальна, так как в неструктурированной информация содержится уникальный потенциал для извлечения новых знаний. Сложность обработки неструктурированных данных определяется их разнообразием, сильной контекстной зависимостью и динамичностью. Объемы хранимых и передаваемых данных увеличиваются с каждым годом. Количество параметров, характеризующих данные, также неизменно растет. Существующие алгоритмы информационно-поисковых систем не предоставляют гибкого функционала для поиска по различным коллекциям документов или веб-страниц. Сложность тематического поиска в заданном сегменте документов связана с необходимостью предварительной настройки параметров математических моделей поисковых систем. Цель настоящей работы - определение значений параметров, которые позволяют повысить релевантность результата поискового запроса. Рассмотрены использование генетического алгоритма и его работа, операции мутации и кроссинговера, определены вероятностные значения для каждой из операций. Хромосомы в данном исследовании - числовые значения коэффициентов, представленные в двоичном виде. По результатам работы генетического алгоритма получены значения корректирующих коэффициентов для трех семейств поисковых систем: Apache Lucene, Xapian, Sphinx. На контрольных выборках проведена оценка метрик качества работы каждой из поисковых систем: точность, полнота, aккуратность, F-мера и ошибки. В результате применения генетического алгоритма наблюдается увеличение значений метрик от 7 до 15 % и уменьшение ошибки поиска от 15 до 50 %, что подтверждает уместность его использования для повышения корректности работы поисковых систем.

Ключевые слова: генетический алгоритм, документ, мутация, поисковый запрос, популяция, ранжирование, релевантность, тематический поиск, математическая модель
Опубликовано в разделе: Информационно-коммуникационные технологии
Библиографическая ссылка: Беляев И.В., Федоров А.Р., Гагарина Л.Г. Применение генетического алгоритма для повышения качества работы поисковых систем // Изв. вузов. Электроника. - 2017. - Т. 22. - № 5. - С. 471-477. DOI: 10.214151/1561-5405-2017-22-5-471-477

Беляев Игорь Валериевич
Национальный исследовательский университет «МИЭТ», г. Москва, Россия

Федоров Алексей Роальдович
Национальный исследовательский университет «МИЭТ», г. Москва, Россия

Гагарина Лариса Геннадьевна
Национальный исследовательский университет «МИЭТ», г. Москва, Россия

1. Блог компании «Sphinx Technologies Inc». Как устроено ранжирование. – URL: https://habrahabr.ru/company/sphinx/blog/62287/ (да-та обращения: 01.04.2017).
2. WaveAccess. Полнотекстовый поиск с использованием Apache Lucene, 2 сентября 2014. – URL: http://www.waveaccess.ru/blog/2014/september/02/полнотекстовый-поиск-с-использованием-apache-lucene.aspx (дата обращения: 01.04.2017).
3. Андреев М. Генетический алгоритм. Просто о сложном. – URL: https://habrahabr.ru/post/128704/ (дата обращения: 01.04.2017).

Сведения о публикации

Загрузок: 784

УДК: 004.853
Тип публикации: Научная статья
Язык оригинала: Русский
DOI: 10.214151/1561-5405-2017-22-5-471-477

Скачать: 5_2017_1638.pdf (383.52 Кб) JATS XML