Quelles sont les différences entre Q-Learning et A *?
Le Q-learning semble être lié à A *. Je me demande s'il y a (et quelles sont) les différences entre eux.
Réponses
Q-learning et A * peuvent tous deux être considérés comme des algorithmes de recherche, mais à part cela, ils ne sont pas très similaires.
Q-learning est un algorithme d' apprentissage par renforcement , c'est-à-dire un algorithme qui tente de trouver une politique ou, plus précisément, une fonction de valeur (à partir de laquelle la politique peut être dérivée) en prenant des mouvements (ou actions) stochastiques avec une politique (qui est différente de la politique que vous souhaitez apprendre), comme le$\epsilon$-gare politique, étant donné l'estimation actuelle de la fonction de valeur . Le Q-learning est un algorithme numérique (et d'optimisation stochastique) dont on peut montrer qu'il converge vers la solution optimale dans le cas tabulaire (mais il ne converge pas nécessairement lorsque vous utilisez un approximateur de fonction, tel qu'un réseau de neurones, pour représenter la valeur fonction). Le Q-learning peut être considéré comme un algorithme de recherche, où les solutions sont des fonctions de valeur (ou politiques) et l'espace de recherche est un espace de fonctions de valeur (ou politiques).
D'autre part, A * est un algorithme de recherche général qui peut être appliqué à n'importe quel problème de recherche où l'espace de recherche peut être représenté sous forme de graphique , où les nœuds sont des positions (ou des emplacements) et les arêtes sont les poids (ou coûts) entre ces positions. A * est un algorithme de recherche informée , étant donné que vous pouvez utiliser une heuristique (informée) pour guider la recherche, c'est-à-dire que vous pouvez utiliser la connaissance du domaine pour guider la recherche. A * est un algorithme de recherche de premier ordre (BFS), qui est une famille d'algorithmes de recherche qui explorent l'espace de recherche en suivant le meilleur emplacement suivant en fonction d'une fonction objective, qui varie en fonction de l'algorithme BFS spécifique. Par exemple, dans le cas de A *, la fonction objectif est$f(n) = h(n) + g(n)$, où $n$ est un nœud, $h$ la fonction heuristique et $g$ la fonction qui calcule le coût du chemin du nœud de départ à $n$. A * est également connu pour être optimal (à condition que la fonction heuristique soit admissible )