Ученые проверили созданный подход SPiRL (Skill-Prior RL) для сложных задач навигации и манипуляций с роботами и показали, что априорные значения приобретенных навыков необходимы для эффективной передачи навыков из обширных наборов данных.
Интеллектуальные агенты в значительной степени полагаются на предыдущий опыт при изучении новой задачи, однако большинство современных подходов к обучению с подкреплением (RL) изучают каждую задачу с нуля.
Один из подходов к использованию предшествующих знаний – это перенос навыков, полученных при выполнении предыдущих задач, на новую задачу. Однако по мере увеличения количества предшествующего опыта растет и количество передаваемых навыков, что затрудняет изучение всего набора доступных навыков во время последующего обучения.
Интуитивно понятно, что не все навыки следует изучать с одинаковой вероятностью; например, информация о текущем состоянии может намекнуть, какие навыки перспективны для изучения.
В новой работе специалисты предложили реализовать эту интуицию, изучая предшествующие навыки. Они разработали модель с глубокими скрытыми переменными, которая совместно изучает встраиваемое пространство навыков и навыков, предшествующих опыту автономного агента. Затем они расшиили общие подходы RL с максимальной энтропией, чтобы использовать априорные навыки для управления последующим обучением.