PFIA 2024
Apprentissage par renforcement épistémique
Geoffrey Laforest, Olivier Buffet, Alexandre Niveau, Bruno Zanuttini
Nous présentons une approche pour la planification (mono-agent) en environnement partiellement observable, dans laquelle les croyances courantes de l’agent sont représentées par les valeurs de “features épistémiques”, c’est-à-dire des atomes prenant leur valeur dans un ensemble d’états possibles, ou une distribution de probabilités. Notre objectif est de reformuler ainsi des problèmes partiellement observables (sur l’environnement) en des problèmes totalement observables (sur les croyances), tout en réduisant la dimensionnalité de l’espace des croyances. Ceci permet ainsi d’utiliser des algorithmes d’apprentissage par renforcement développés pour le cas totalement observable, mais permet aussi d’obtenir des politiques d’actions plus compactes et plus interprétables.