Исследование возможностей рекуррентных нейронных сетей для решения задачи классификации слабоструктурированной информации на примере библиографических данных

Исследование возможностей рекуррентных нейронных сетей для решения задачи классификации слабоструктурированной информации на примере библиографических данных

С развитием информационных технологий проблема автоматизированной обработки данных возникает в различных предметных областях, в том числе при библиографическом описании. Когда собираемая из разных источников информация представлена в виде неоднородно структурированных библиографических записей, содержащих неточности в оформлении, перенос данных в сводную таблицу или отчет становится трудоемкой задачей, результат выполнения которой подвержен влиянию человеческого фактора. В связи с этим автоматизировать классификацию информации, содержащейся в библиографических записях, актуально. В работе исследованы возможности рекуррентных нейронных сетей для решения задачи классификации слабоструктурированной информации на примере библиографических данных. Показано, что для применения рекуррентной нейронной сети, прежде всего, необходимо перейти от естественного представления полученных записей к признаковому. При этом выбор комплекса признаков представляет собой отдельную нетривиальную задачу. Для программной реализации выбран язык Python. Для оценки результатов работы созданного программного модуля использована тестовая выборка библиографических записей, составленных на основе научных трудов сотрудников Института системной и программной инженерии и информационных технологий МИЭТ за последние пять лет. Итоговая точность составила 86 %, что на 11 % больше результата, полученного при использовании нейронной сети прямого распространения. Разработанные признаковое представление и структура рекуррентной нейронной сети позволят перейти к автоматизированной обработке библиографических данных с последующей обязательной коррекцией результатов оператором.

Исследование возможностей рекуррентных нейронных сетей для решения задачи классификации слабоструктурированной информации на примере библиографических данных

Петров Евгений Николаевич
Национальный исследовательский университет «МИЭТ», г. Москва, Россия
Портнов Евгений Михайлович
Национальный исследовательский университет «МИЭТ»
Поделиться