Специалисты используют индукцию и автоматы подцелей для машинного обучения с подкреплением

Специалисты используют индукцию и автоматы подцелей для машинного обучения с подкреплением Источник фото: pixabay.com

В новом исследовании ученые представили ISA подход к изучению и использованию подцелей в задачах эпизодического обучения с подкреплением (RL).

 ISA чередует обучение с подкреплением с индукцией подцельного автомата, края которого помечены подцелями задачи, выраженными в виде формул пропозициональной логики над набором событий высокого уровня.

Современная система индуктивного логического программирования обычно используют для изучения подцельного автомата, который скрывает следы событий высокого уровня, наблюдаемых агентом RL.

 Когда эксплуатируемый в данный момент автомат неправильно распознает след, обучающийся автомат запускает новый автомат, который покрывает эту трассу. Процесс чередования гарантирует индукцию автоматов с минимальным числом состояний и применяет механизм нарушения симметрии, чтобы сжимать пространство поиска, оставаясь при этом полным.

Специалисты оценили ISA в нескольких задачах, связанных с «сеточным миром» и непрерывным пространством состояний, с использованием различных алгоритмов RL, которые используют структуры автоматов.

Новый углубленный эмпирический анализ производительности процесса обучения автомата с точки зрения следов, симметричных нарушений и конкретных ограничений, наложенных на конечный обучаемый автомат, справляется с машинным обучением лучше предыдущих автоматов.

 

Источник: arxiv.org