« Back to Glossary Index
Dans le contexte de l’apprentissage par renforcement, l’exploration-exploitation est le dilemme entre choisir des actions qui sont connues pour donner de bonnes récompenses (exploitation) et explorer de nouvelles actions qui pourraient donner de meilleures récompenses à l’avenir (exploration). Les algorithmes de RL doivent équilibrer ces deux aspects pour maximiser les récompenses cumulatives.
« Retour à la liste