Table des matières
14 relations: Apprentissage par renforcement, Backgammon, Bootstrap (statistiques), Dopamine, Itération, Méthode de Monte-Carlo, MIT Press, Modèle Rescorla-Wagner, Neurosciences, Processus de décision markovien, Programmation dynamique, Q-learning, Richard Sutton, SARSA.
Apprentissage par renforcement
En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps.
Voir Temporal difference learning et Apprentissage par renforcement
Backgammon
Le backgammon est un jeu de hasard raisonné pour deux joueurs pratiqué sur un tablier avec des dés.
Voir Temporal difference learning et Backgammon
Bootstrap (statistiques)
Tirage avec remise. A partir de l'échantillon (les bonhommes de différentes couleurs, à gauche), on tire au hasard des bonhommes avec remise (plusieurs même éléments peuvent apparaître plusieurs fois). En statistiques, les techniques de bootstrap sont des méthodes d'inférence statistique basées sur la réplication multiple des données à partir du jeu de données étudié, selon les techniques de rééchantillonnage.
Voir Temporal difference learning et Bootstrap (statistiques)
Dopamine
La dopamine (DA) est un neurotransmetteur, une molécule biochimique qui permet la communication au sein du système nerveux, et l'une de celles qui influent directement sur le comportement.
Voir Temporal difference learning et Dopamine
Itération
En mathématiques, une itération désigne l'action de répéter un processus.
Voir Temporal difference learning et Itération
Méthode de Monte-Carlo
Une méthode de Monte-Carlo, ou méthode Monte-Carlo, est une méthode algorithmique visant à calculer une valeur numérique approchée en utilisant des procédés aléatoires, c'est-à-dire des techniques probabilistes.
Voir Temporal difference learning et Méthode de Monte-Carlo
MIT Press
MIT Press (pouvant se traduire en français par « presses du MIT ») est une maison d'édition universitaire américaine affiliée au Massachusetts Institute of Technology à Cambridge, Massachusetts.
Voir Temporal difference learning et MIT Press
Modèle Rescorla-Wagner
Le modèle Rescorla–Wagner est une modélisation mathématique du conditionnement classique.
Voir Temporal difference learning et Modèle Rescorla-Wagner
Neurosciences
Les neurosciences sont les études scientifiques du système nerveux, tant du point de vue de sa structure que de son fonctionnement, depuis l'échelle moléculaire jusqu'au niveau des organes, comme le cerveau, voire de l'organisme tout entier.
Voir Temporal difference learning et Neurosciences
Processus de décision markovien
En théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires.
Voir Temporal difference learning et Processus de décision markovien
Programmation dynamique
En informatique, la programmation dynamique est une méthode algorithmique pour résoudre des problèmes d'optimisation.
Voir Temporal difference learning et Programmation dynamique
Q-learning
Dans le ''Q-learning'', l'agent exécute une action a en fonction de l'état ''s'' et d'une fonction ''Q''. Il perçoit alors le nouvel état s' et une récompense ''r'' de l'environnement.
Voir Temporal difference learning et Q-learning
Richard Sutton
Richard Sutton est un informaticien canadien, enseignant en informatique à l'université de l'Alberta.
Voir Temporal difference learning et Richard Sutton
SARSA
En intelligence artificielle, plus précisément en apprentissage par renforcement, SARSA est un algorithme d'apprentissage.

