La règle de mise à jour TD (0) Q-Learning: Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max(Q(t))) Ensuite, prendre soit la meilleure action en cours (pour optimiser) ou une action al
J'essaie de comprendre cette tâche et de me demander s'il existe une façon standard de faire cela ou d'utiliser des bibliothèques qui seraient utiles. Certains événements sont suivis et synchronisés s