temporal-difference

1La chaleur

1Répondre

Règle de mise à jour dans la différence temporelle

La règle de mise à jour TD (0) Q-Learning: Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max(Q(t))) Ensuite, prendre soit la meilleure action en cours (pour optimiser) ou une action al

1La chaleur

1Répondre

comparer des séquences temporelles

J'essaie de comprendre cette tâche et de me demander s'il existe une façon standard de faire cela ou d'utiliser des bibliothèques qui seraient utiles. Certains événements sont suivis et synchronisés s