Современные алгоритмы машинного обучения с учителем используют признаковое описание объектов для создания классифицирующих моделей. Такое описание может включать в себя большое количество признаков в зависимости от решаемой задачи. В работе проведен анализ проблемной ситуации в рамках предметной области, связанной с составлением признакового описания объектов библиографических данных. Предложен способ решения данной проблемы за счет применения генетического алгоритма. Сформулированы принципы разработки программного модуля в общем виде и даны детали реализации на языке программирования Python. В результате решается проблема перегрузки признакового представления малозначимыми признаками, обучение и переобучение ускоряется без потери качества классификации. Генетический алгоритм разработанного программного модуля в составе программного комплекса обработки библиографических данных может применяться для отбора наиболее заначимых признаков. В ходе вычислительного эксперимента получены следующие результаты: число используемых признаков уменьшилось с 26 до 15, качество классификации увеличилось на 3 % за счет отсева признаков, способствующих переобучению.
- Просмотров: 700 | Комментариев : 0
Сложность работы с библиографическими данными заключается в многообразии допустимых стандартов оформления и в отсутствии инструментов по обработке и переводу данных между форматами с возможностью гибкой настройки и расширения функционала. В работе описан программный модуль динамического управления вводом-выводом в составе программного комплекса обработки библиографических данных. Проведен анализ проблемной ситуации в рамках предметной области, связанной с обработкой множества форматов библиографических данных. Предложен способ решения данной проблемы за счет вынесения обрабатывающих подмодулей за пределы функционального ядра и создания декомпозиционной расширяемой системы. Сформулированы принципы разработки программного модуля в общем виде и даны детали реализации на языке программирования Python. Решена проблема многочисленности допустимых стандартов представления библиографических данных и собственных форматов организаций, занимающихся обработкой этих данных. Разработанный программный модуль динамического управления вводом-выводом может применяться в рамках программного комплекса обработки библиографических данных.
- Просмотров: 1148 | Комментариев : 0
С развитием информационных технологий проблема автоматизированной обработки данных возникает в различных предметных областях, в том числе при библиографическом описании. Когда собираемая из разных источников информация представлена в виде неоднородно структурированных библиографических записей, содержащих неточности в оформлении, перенос данных в сводную таблицу или отчет становится трудоемкой задачей, результат выполнения которой подвержен влиянию человеческого фактора. В связи с этим автоматизировать классификацию информации, содержащейся в библиографических записях, актуально. В работе исследованы возможности рекуррентных нейронных сетей для решения задачи классификации слабоструктурированной информации на примере библиографических данных. Показано, что для применения рекуррентной нейронной сети, прежде всего, необходимо перейти от естественного представления полученных записей к признаковому. При этом выбор комплекса признаков представляет собой отдельную нетривиальную задачу. Для программной реализации выбран язык Python. Для оценки результатов работы созданного программного модуля использована тестовая выборка библиографических записей, составленных на основе научных трудов сотрудников Института системной и программной инженерии и информационных технологий МИЭТ за последние пять лет. Итоговая точность составила 86 %, что на 11 % больше результата, полученного при использовании нейронной сети прямого распространения. Разработанные признаковое представление и структура рекуррентной нейронной сети позволят перейти к автоматизированной обработке библиографических данных с последующей обязательной коррекцией результатов оператором.
- Просмотров: 392 | Комментариев : 0