- Je suis en train d'utiliser multi-couche NN pour mettre en œuvre la fonction de probabilité dans le processus de Markov partiellement Observable ..
- Je pensais que les entrées au NN seraient: état actuel, l'action choisie, État du résultat; La sortie est une probabilité dans [0,1] (problème que l'exécution de l'action sélectionnée sur l'état actuel conduira à l'état résultat)
- A l'entraînement, j'ai alimenté les entrées indiquées précédemment, dans le NN, et je lui ai enseigné le output = 1,0 pour chaque cas qui s'est déjà produit.
Le problème:
Pour presque tous les cas de test, la probabilité de sortie est proche 0,95 .. pas de sortie est inférieur à 0,9! Même pour des résultats presque impossibles, il a donné ce problème élevé. PS: Je pense que c'est parce que j'ai enseigné que les cas se sont produits, mais pas ceux qui ne se sont pas produits .. Mais je ne peux pas à chaque étape de l'épisode lui enseigner la sortie = 0.0 pour chaque action!Apprentissage par renforcement et POMDP
Des suggestions pour surmonter ce problème? Ou peut-être une autre façon d'utiliser NN ou d'implémenter la fonction prob?
Merci