Разработка программного модуля отбора функций признаков на основе генетического алгоритма

Современные алгоритмы машинного обучения с учителем используют признаковое описание объектов для создания классифицирующих моделей. Такое описание может включать в себя большое количество признаков в зависимости от решаемой задачи. В работе проведен анализ проблемной ситуации в рамках предметной области, связанной с составлением признакового описания объектов библиографических данных. Предложен способ решения данной проблемы за счет применения генетического алгоритма. Сформулированы принципы разработки программного модуля в общем виде и даны детали реализации на языке программирования Python. В результате решается проблема перегрузки признакового представления малозначимыми признаками, обучение и переобучение ускоряется без потери качества классификации. Генетический алгоритм разработанного программного модуля в составе программного комплекса обработки библиографических данных может применяться для отбора наиболее заначимых признаков. В ходе вычислительного эксперимента получены следующие результаты: число используемых признаков уменьшилось с 26 до 15, качество классификации увеличилось на 3 % за счет отсева признаков, способствующих переобучению.
Евгений Николаевич Петров
Национальный исследовательский университет «МИЭТ», г. Москва, Россия
Поделиться