Глубокое обучение оказалось эффективным средством улавливания нелинейных ассоциаций пользовательских предпочтений. Однако главный недостаток существующих архитектур глубокого обучения состоит в том, что они следуют фиксированной стратегии рекомендаций, игнорируя обратную связь пользователей в реальном времени.
Последние достижения в области стратегий глубокого подкрепления показали, что политики рекомендаций могут постоянно обновляться, пока пользователи взаимодействуют с системой. Поступая таким образом, специалисты могут узнать оптимальную политику, которая соответствует предпочтениям пользователей во время сеансов рекомендаций.
Главный недостаток стратегий глубокого подкрепления заключается в том, что они основаны на предопределенных и фиксированных нейронных архитектурах. Чтобы пролить свет на то, как решить эту проблему, в этом исследовании специалисты сначала представили стратегии глубокого обучения с подкреплением для рекомендации и обсудили основные ограничения, связанные с фиксированной нейронной архитектурой.
Они подробно рассказали в своей работе, как последние достижения в области прогрессивных нейронных архитектур используются для решения последовательных задач в других областях исследований, и представили ключевые проблемы, чтобы заполнить пробел между глубоким обучением с подкреплением и адаптивной нейронной архитектурой.