Imaginons que nous ayons un plan (x, y) où un robot peut se déplacer. Maintenant, nous définissons le milieu de notre monde comme l'état du but, ce qui signifie que nous allons donner une récompense de 100 à notre robot une fois qu'il atteint cet état. Maintenant, disons qu'il y a 4 états (que j'appellerai A, B, C, D) qui peuvent mener à l'état d'objectif.QApprentissage et épisodes interminables
La première fois que nous sommes en A et passer à l'état d'objectifs, nous mettrons à jour notre table QValues comme suit:
Q(state = A, action = going to goal state) = 100 + 0
L'une des deux choses peuvent se produire. Je peux terminer l'épisode ici, et en commencer un autre où le robot doit retrouver l'état du but, ou je peux continuer à explorer le monde même après avoir trouvé l'état du but. Si j'essaye de faire ceci, je vois un problème cependant. Si je suis dans l'état de but et de revenir à l'état A, il est qvalue sera le suivant:
Q(state = goalState, action = going to A) = 0 + gamma * 100
Maintenant, si j'essaie d'aller de nouveau à l'état objectif de A:
Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)
Ce qui signifie que si je continue à faire cela, comme 0 < = gamma < = 0, les deux valeurs q vont augmenter pour toujours.
Est-ce le comportement attendu de QLearning? Est-ce que je fais quelque chose de mal? Si tel est le comportement attendu, cela ne peut-il pas entraîner des problèmes? Je sais que probabilistically, tous les 4 états (A, B, C et D), se développeront au même rythme, mais même si cela m'embête un peu à les faire grandir pour toujours. L'idée de permettre à l'agent de continuer à explorer même après avoir trouvé le but a à voir avec le fait que plus il est proche de l'état du but, plus il est susceptible d'être dans des états qui peuvent être mis à jour pour le moment.
Je ne sais pas vraiment quoi que ce soit, mais ne serait-il pas logique de retirer la récompense du tableau une fois qu'il a été collecté? – Breton
Votre idée ne semble pas mauvaise, mais je ne l'ai jamais vue nulle part. –