Создана система мультиагентного активного восприятия с вознаграждением за предсказание

Создана система мультиагентного активного восприятия с вознаграждением за предсказание Источник фото: etu.ru

Ученые продемонстрировали эмпирическую полезность результатов исследования, применяя стандартный алгоритм Dec-POMDP к многоагентным задачам активного восприятия и показывая повышенную масштабируемость в горизонте планирования.

Мультиагентное активное восприятие - это задача, при которой группа агентов совместно собирает наблюдения для вычисления совместной оценки скрытой переменной. Задача децентрализована, и совместная оценка может быть вычислена только после завершения задачи путем объединения наблюдений всех агентов.

Цель состоит в том, чтобы максимально повысить точность оценки. Точность количественно оценивается централизованным предсказанием вознаграждения, определяемым централизованным лицом, принимающим решения, которое воспринимает наблюдения, собранные всеми агентами после завершения задачи.

В своей новой работе ученые смоделировали мультиагентное активное восприятие как децентрализованный частично наблюдаемый марковский процесс принятия решений (Dec-POMDP) ​​с выпуклым централизованным предсказанием вознаграждения.

Они доказали, что путем введения индивидуальных действий прогнозирования для каждого агента задача преобразуется в стандартный Dec-POMDP с децентрализованным прогнозированием вознаграждения.

Потери из-за децентрализации ограничены, и было выдвинуто достаточное условие, когда они равны нулю. Результаты позволяют применять любой алгоритм решения Dec-POMDP к многоагентным задачам активного восприятия и позволяют планировать снижение неопределенности без явного вычисления совместных оценок.

Источник: arxiv.org