Il existe un modèle pour traiter la plupart des problèmes MDP, mais je pense que vous avez probablement omis certaines informations de la description du problème, très probablement en rapport avec l'état que vous essayez d'atteindre, ou la façon dont l'épisode se termine (que se passe-t-il si vous courez du bord de la grille). J'ai fait de mon mieux pour répondre à vos questions, mais j'ai ajouté un guide sur le processus que j'utilise pour régler ce genre de problèmes. D'abord, l'utilité est une mesure assez abstraite de combien vous voulez être dans un état donné. Il est certainement possible d'avoir deux états avec une utilité égale, même quand on mesure l'utilité avec une heuristique simple (distance Euclidienne ou Manhattan). Dans ce cas, je suppose que la valeur d'utilité et la récompense sont interchangeables. À long terme, l'objectif de ces types de problèmes tend à être, comment maximiser votre récompense (à long terme)? Le taux d'apprentissage, gamma, contrôle l'importance que vous accordez à l'état actuel par rapport à l'endroit où vous souhaitez vous retrouver. En fait, vous pouvez considérer le gamma comme un spectre allant de à faire ce qui me plaît le plus dans cette période ' à l'autre extrême ' explorer toutes mes options, et revenir à la meilleure '. Sutton et Barto dans leur livre sur reinforcement learning ont de très bons explanations de comment cela fonctionne.
Avant de commencer, revenez à la question et assurez-vous que vous pouvez répondre avec confiance aux questions suivantes.
- Qu'est-ce qu'un état? Combien d'états y a-t-il?
- Qu'est-ce qu'une action? Combien d'actions y a-t-il?
- Si vous démarrez dans l'état u, et que vous appliquez une action a, quelle est la probabilité d'atteindre un nouvel état v?
Alors les réponses aux questions?
- Un état est un vecteur (x, y). La grille est 5 par 5, donc il y a 25 états.
- Il existe quatre actions possibles, {E, N, S, W}
- La probabilité d'atteindre un état adjacent après avoir appliqué une action appropriée est de 0,7, la probabilité de ne pas bouger (rester dans le même état est de 0,3). En supposant que (0,0) est la cellule en haut à gauche et (4,4) est la cellule en bas à droite, le tableau suivant montre un petit sous-ensemble de toutes les transitions possibles.
Start State Action Final State Probability
---------------------------------------------------
(0,0) E (0,0) 0.3
(0,0) E (1,0) 0.7
(0,0) E (2,0) 0
...
(0,0) E (0,1) 0
...
(0,0) E (4,4) 0
(0,0) N (0,0) 0.3
...
(4,4) W (3,4) 0.7
(4,4) W (4,4) 0.3
Comment pouvons-nous vérifier que cela a un sens pour ce problème?
- Vérifiez que la table possède un nombre d'entrées approprié. Sur une grille 5 par 5, il y a 25 états et 4 actions, donc la table devrait avoir 100 entrées.
- Assurez-vous que pour une paire état/action de départ, seules deux entrées ont une probabilité de survenue non nulle.
Modifier. répondre à la demande des probabilités de transition à l'état cible. La notation ci-dessous suppose
- v est l'état final
- u est l'état de la source
- a est l'action, où il ne soit pas mentionné, il est implicite que l'action appliquée est sans objet.
P(v=(3,3) | u =(2,3), a=E) = 0.7
P(v=(3,3) | u =(4,3), a=W) = 0.7
P(v=(3,3) | u =(3,2), a=N) = 0.7
P(v=(3,3) | u =(3,4), a=S) = 0.7
P(v=(3,3) | u =(3,3)) = 0.3
Comment définiriez-vous ensuite la fonction de transition à l'état sélectionné (en gras)? –
J'ai modifié mon message original pour inclure une réponse à cette question –
Ce que vous appelez le taux d'apprentissage/gamma est connu sous le nom de facteur d'actualisation/lambda. – ziggystar