Votre propre Unionpédia avec votre logo et votre domaine, à partir de 9,99 USD/mois

Temporal difference learning

Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle.

Table des matières

14 relations: Apprentissage par renforcement, Backgammon, Bootstrap (statistiques), Dopamine, Itération, Méthode de Monte-Carlo, MIT Press, Modèle Rescorla-Wagner, Neurosciences, Processus de décision markovien, Programmation dynamique, Q-learning, Richard Sutton, SARSA.

Apprentissage par renforcement

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps.

Voir Temporal difference learning et Apprentissage par renforcement

Backgammon

Le backgammon est un jeu de hasard raisonné pour deux joueurs pratiqué sur un tablier avec des dés.

Voir Temporal difference learning et Backgammon

Bootstrap (statistiques)

Tirage avec remise. A partir de l'échantillon (les bonhommes de différentes couleurs, à gauche), on tire au hasard des bonhommes avec remise (plusieurs même éléments peuvent apparaître plusieurs fois). En statistiques, les techniques de bootstrap sont des méthodes d'inférence statistique basées sur la réplication multiple des données à partir du jeu de données étudié, selon les techniques de rééchantillonnage.

Voir Temporal difference learning et Bootstrap (statistiques)

Dopamine

La dopamine (DA) est un neurotransmetteur, une molécule biochimique qui permet la communication au sein du système nerveux, et l'une de celles qui influent directement sur le comportement.

Voir Temporal difference learning et Dopamine

Itération

En mathématiques, une itération désigne l'action de répéter un processus.

Voir Temporal difference learning et Itération

Méthode de Monte-Carlo

Une méthode de Monte-Carlo, ou méthode Monte-Carlo, est une méthode algorithmique visant à calculer une valeur numérique approchée en utilisant des procédés aléatoires, c'est-à-dire des techniques probabilistes.

Voir Temporal difference learning et Méthode de Monte-Carlo

MIT Press

MIT Press (pouvant se traduire en français par « presses du MIT ») est une maison d'édition universitaire américaine affiliée au Massachusetts Institute of Technology à Cambridge, Massachusetts.

Voir Temporal difference learning et MIT Press

Modèle Rescorla-Wagner

Le modèle Rescorla–Wagner est une modélisation mathématique du conditionnement classique.

Voir Temporal difference learning et Modèle Rescorla-Wagner

Neurosciences

Les neurosciences sont les études scientifiques du système nerveux, tant du point de vue de sa structure que de son fonctionnement, depuis l'échelle moléculaire jusqu'au niveau des organes, comme le cerveau, voire de l'organisme tout entier.

Voir Temporal difference learning et Neurosciences

Processus de décision markovien

En théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires.

Voir Temporal difference learning et Processus de décision markovien

Programmation dynamique

En informatique, la programmation dynamique est une méthode algorithmique pour résoudre des problèmes d'optimisation.

Voir Temporal difference learning et Programmation dynamique

Q-learning

Dans le ''Q-learning'', l'agent exécute une action a en fonction de l'état ''s'' et d'une fonction ''Q''. Il perçoit alors le nouvel état s' et une récompense ''r'' de l'environnement.

Voir Temporal difference learning et Q-learning

Richard Sutton

Richard Sutton est un informaticien canadien, enseignant en informatique à l'université de l'Alberta.

Voir Temporal difference learning et Richard Sutton

SARSA

En intelligence artificielle, plus précisément en apprentissage par renforcement, SARSA est un algorithme d'apprentissage.

Voir Temporal difference learning et SARSA

Unionpédia est une carte conceptuelle ou réseau sémantique organisée comme une encyclopédie ou un dictionnaire. Il donne une brève définition de chaque concept et de ses relations.

Ceci est une carte mentale en ligne géant qui sert de base pour les schémas conceptuels. Il est libre d'utiliser et de chaque article ou document peut être téléchargé. Il est un outil, ressources ou de référence pour l'étude, la recherche, l'éducation, l'apprentissage ou de l'enseignement, qui peut être utilisé par les enseignants, les éducateurs, les élèves ou étudiants; pour le monde universitaire: à l'école, primaire, secondaire, l'école secondaire, au milieu, un collège, diplôme technique, collégial, universitaire, baccalauréat, de maîtrise ou de doctorat; pour les papiers, des rapports, des projets, des idées, de la documentation, des enquêtes, des résumés, ou une thèse. Voici la définition, l'explication, la description ou la signification de chaque importantes sur lesquelles vous avez besoin d'informations, et une liste de leurs concepts connexes comme un glossaire. Disponible en français, anglais, espagnol, portugais, japonais, chinois, allemand, italien, polonais, néerlandais, russe, arabe, hindi, suédois, ukrainien, hongrois, catalan, tchèque, hébreu, danois, finlandais, indonésien, norvégien, roumain, turc, vietnamien, coréen, thaïlandais, grec, bulgare, croate, slovaque, lituanien, philippin, letton, estonien et slovène. Plus de langues bientôt.

Les informations sont basées sur des articles de Wikipedia et d'autres projets Wikimedia, et elles sont disponibles sous la Licence Creative Commons Attribution-Partage dans les Mêmes Conditions.

Unionpédia n'est ni approuvée ni affiliée à la Wikimedia Foundation.

Google Play, Android et le logo Google Play sont des marques de Google Inc.

Politique de confidentialité

Autres langues

Temporal difference learning

Table des matières