La montée en puissance du reinforcement learning s’appuie sur une idée simple mais puissante: apprendre une politique qui associe chaque état de l’environnement à une action optimale, afin de maximiser une récompense attendue cumulée dans le temps. L’agent interagit avec son environnement, observe les transitions d’états et les récompenses qui en résultent, puis ajuste sa …

