Nous travaillons à restaurer l'application Unionpedia sur le Google Play Store
SortantEntrants
🌟Nous avons simplifié notre design pour une meilleure navigation !
Instagram Facebook X LinkedIn
Votre propre Unionpédia avec votre logo et votre domaine, à partir de 9,99 USD/mois
Créer mon Unionpédia

Temporal difference learning

Indice Temporal difference learning

Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle.

Table des matières

  1. 14 relations: Apprentissage par renforcement, Backgammon, Bootstrap (statistiques), Dopamine, Itération, Méthode de Monte-Carlo, MIT Press, Modèle Rescorla-Wagner, Neurosciences, Processus de décision markovien, Programmation dynamique, Q-learning, Richard Sutton, SARSA.

Apprentissage par renforcement

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps.

Voir Temporal difference learning et Apprentissage par renforcement

Backgammon

Le backgammon est un jeu de hasard raisonné pour deux joueurs pratiqué sur un tablier avec des dés.

Voir Temporal difference learning et Backgammon

Bootstrap (statistiques)

Tirage avec remise. A partir de l'échantillon (les bonhommes de différentes couleurs, à gauche), on tire au hasard des bonhommes avec remise (plusieurs même éléments peuvent apparaître plusieurs fois). En statistiques, les techniques de bootstrap sont des méthodes d'inférence statistique basées sur la réplication multiple des données à partir du jeu de données étudié, selon les techniques de rééchantillonnage.

Voir Temporal difference learning et Bootstrap (statistiques)

Dopamine

La dopamine (DA) est un neurotransmetteur, une molécule biochimique qui permet la communication au sein du système nerveux, et l'une de celles qui influent directement sur le comportement.

Voir Temporal difference learning et Dopamine

Itération

En mathématiques, une itération désigne l'action de répéter un processus.

Voir Temporal difference learning et Itération

Méthode de Monte-Carlo

Une méthode de Monte-Carlo, ou méthode Monte-Carlo, est une méthode algorithmique visant à calculer une valeur numérique approchée en utilisant des procédés aléatoires, c'est-à-dire des techniques probabilistes.

Voir Temporal difference learning et Méthode de Monte-Carlo

MIT Press

MIT Press (pouvant se traduire en français par « presses du MIT ») est une maison d'édition universitaire américaine affiliée au Massachusetts Institute of Technology à Cambridge, Massachusetts.

Voir Temporal difference learning et MIT Press

Modèle Rescorla-Wagner

Le modèle Rescorla–Wagner est une modélisation mathématique du conditionnement classique.

Voir Temporal difference learning et Modèle Rescorla-Wagner

Neurosciences

Les neurosciences sont les études scientifiques du système nerveux, tant du point de vue de sa structure que de son fonctionnement, depuis l'échelle moléculaire jusqu'au niveau des organes, comme le cerveau, voire de l'organisme tout entier.

Voir Temporal difference learning et Neurosciences

Processus de décision markovien

En théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires.

Voir Temporal difference learning et Processus de décision markovien

Programmation dynamique

En informatique, la programmation dynamique est une méthode algorithmique pour résoudre des problèmes d'optimisation.

Voir Temporal difference learning et Programmation dynamique

Q-learning

Dans le ''Q-learning'', l'agent exécute une action a en fonction de l'état ''s'' et d'une fonction ''Q''. Il perçoit alors le nouvel état s' et une récompense ''r'' de l'environnement.

Voir Temporal difference learning et Q-learning

Richard Sutton

Richard Sutton est un informaticien canadien, enseignant en informatique à l'université de l'Alberta.

Voir Temporal difference learning et Richard Sutton

SARSA

En intelligence artificielle, plus précisément en apprentissage par renforcement, SARSA est un algorithme d'apprentissage.

Voir Temporal difference learning et SARSA