PFIA 2024
Apprentissage par renforcement multiagents multiobjectifs
Fares Chouaki, Aurélie Beynier, Nicolas Maudet, Paulo Viappiani
Le domaine de l’apprentissage par renforcement multi-agents coopératif s’intéresse à la recherche de politiques permettant la planification et la coordination collective afin d’optimiser un objectif commun. Diverses solutions existent pour traiter la variante mono-critères de ce problème. Cependant, ces solution sont souvent appliquées sur des problématiques intrinsèquement multi-critères comme la conduite autonome, la gestion d’entrepôt. La résolution de tels problèmes par le biais d’algorithmes mono-objectifs n’est pas adaptée et représente un obstacle au déploiement d’agents intelligents en société. Il est donc nécessaire d’utiliser des approches qui considèrent de manière explicite l’aspect multi-objectifs de ces problèmes. Ce travail s’intéresse dans un premier lieu à introduire le cadre des jeux Markoviens partiellement observables multi-objectifs qui est utilisé pour modéliser les problèmes d’apprentissage multi-agents multi-objectifs.Une fois ce cadre introduit, les deux grandes familles d’algorithmes d’apprentissage par ren- forcement multi-objectifs sont présentées : algorithmes à politique unique et algorithmes à politiques multiples, ainsi que les critères d’optimisation que ces algorithmes utilisent. Enfin, nous soulevons diverses questions sur la combinaison des approches multi-agents mono-objectifs et mono-agents multi-objectifs, parmi elles quelle famille d’algorithme multi-objectifs est la plus pertinente pour le cas multi-agent ? Dans le cas d’algorithmes à politique unique, quand et comment peut-on agréger les objectifs ? Les garanties de convergence des algorithmes distribués restent-elles valides dans le cas multi-objectif ? Au vu de leur importance, ces questions seront détaillées et des premiers éléments de réponses seront présentés.