Nous travaillons à restaurer l'application Unionpedia sur le Google Play Store
SortantEntrants
🌟Nous avons simplifié notre design pour une meilleure navigation !
Instagram Facebook X LinkedIn
Votre propre Unionpédia avec votre logo et votre domaine, à partir de 9,99 USD/mois
Créer mon Unionpédia

Temporal difference learning

Indice Temporal difference learning

Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle.

Table des matières

  1. 5 relations: Algorithme acteur-critique, Apprentissage par renforcement, Apprentissage par renforcement profond, Richard Sutton, Voies dopaminergiques.

Algorithme acteur-critique

En apprentissage par renforcement, l'algorithme acteur-critique est un algorithme de difference temporelle utilisant la descente de gradients.

Voir Temporal difference learning et Algorithme acteur-critique

Apprentissage par renforcement

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps.

Voir Temporal difference learning et Apprentissage par renforcement

Apprentissage par renforcement profond

L'apprentissage par renforcement profond (en anglais: deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais: machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais: deep learning).

Voir Temporal difference learning et Apprentissage par renforcement profond

Richard Sutton

Richard Sutton est un informaticien canadien, enseignant en informatique à l'université de l'Alberta.

Voir Temporal difference learning et Richard Sutton

Voies dopaminergiques

Les principales voies dopaminergiques du cerveau humain. Les voies dopaminergiques, parfois appelées projections dopaminergiques, sont l'ensemble de fibres de projection dans le cerveau qui synthétisent et libèrent le neurotransmetteur dopamine.

Voir Temporal difference learning et Voies dopaminergiques