Apprentissage par renforcement

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps.

46 relations: Agent logiciel, Algorithme, Algorithme génétique, Algorithme glouton, Apprentissage automatique, Apprentissage non supervisé, Apprentissage par renforcement inverse, Apprentissage par renforcement profond, Apprentissage supervisé, Arthur Samuel, Évolution (biologie), Backgammon, Bandit manchot (mathématiques), Bisimulation, Cerveau artificiel, Chatbot, Dopamine, Espérance mathématique, Ganglions de la base, Imagerie médicale, Intelligence artificielle, Jeu vidéo, Loi de probabilité, Méthode policy-gradient, MIT Press, Neuromodulation, Neurone, Optimisation (mathématiques), Planification (intelligence artificielle), Problème de bin packing, Processus de décision markovien, Programmation dynamique, Q-learning, Recuit simulé, REINFORCE, Richard Bellman, Richard Sutton, Robot, SARSA, Substantia nigra, Synapse, Système dynamique, Temporal difference learning, Variable aléatoire, 1989, 1992.

Agent logiciel

En informatique, un agent ou agent logiciel (du latin agere: agir) est un logiciel qui agit de façon autonome.

Nouveau!!: Apprentissage par renforcement et Agent logiciel · Voir plus »

Algorithme

triangulation). Un algorithme est une suite finie et non ambiguë d'instructions et d’opérations permettant de résoudre une classe de problèmes.

Nouveau!!: Apprentissage par renforcement et Algorithme · Voir plus »

Algorithme génétique

Les algorithmes génétiques appartiennent à la famille des algorithmes évolutionnistes.

Nouveau!!: Apprentissage par renforcement et Algorithme génétique · Voir plus »

Algorithme glouton

Un algorithme glouton (en anglais, parfois appelé aussi algorithme gourmand, ou goulu) est un algorithme qui suit le principe de réaliser, étape par étape, un choix optimum local, afin d'obtenir un résultat optimum global.

Nouveau!!: Apprentissage par renforcement et Algorithme glouton · Voir plus »

Apprentissage automatique

L'apprentissage automatique.

Nouveau!!: Apprentissage par renforcement et Apprentissage automatique · Voir plus »

Apprentissage non supervisé

Dans le domaine informatique et de l'intelligence artificielle, l'apprentissage non supervisé désigne la situation d'apprentissage automatique où les données ne sont pas étiquetées (par exemple étiquetées comme « balle » ou « poisson »).

Nouveau!!: Apprentissage par renforcement et Apprentissage non supervisé · Voir plus »

Apprentissage par renforcement inverse

En intelligence artificielle, et plus précisément en apprentissage automatique, l'apprentissage par renforcement inverse cherche à apprendre la fonction de récompense à partir de comportements d'expert.

Nouveau!!: Apprentissage par renforcement et Apprentissage par renforcement inverse · Voir plus »

Apprentissage par renforcement profond

L'apprentissage par renforcement profond (en anglais: deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais: machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais: deep learning).

Nouveau!!: Apprentissage par renforcement et Apprentissage par renforcement profond · Voir plus »

Apprentissage supervisé

L'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé.

Nouveau!!: Apprentissage par renforcement et Apprentissage supervisé · Voir plus »

Arthur Samuel

Arthur Lee Samuel, né le et mort le, est un pionnier américain du jeu sur ordinateur, de l'intelligence artificielle et de l'apprentissage automatique.

Nouveau!!: Apprentissage par renforcement et Arthur Samuel · Voir plus »

Évolution (biologie)

En biologie, l’évolution est la transformation du monde vivant au cours du temps, qui se manifeste par des changements phénotypiques des organismes à travers les générations.

Nouveau!!: Apprentissage par renforcement et Évolution (biologie) · Voir plus »

Backgammon

Le backgammon est un jeu de hasard raisonné pour deux joueurs pratiqué sur un tablier avec des dés.

Nouveau!!: Apprentissage par renforcement et Backgammon · Voir plus »

Bandit manchot (mathématiques)

Une rangée de machines à sous à Las Vegas. En mathématiques, plus précisément en théorie des probabilités, le problème du bandit manchot (généralisable en problème du bandit à K bras ou problème du bandit à N bras) se formule de manière imagée de la façon suivante: un utilisateur (un agent), face à des machines à sous, doit décider quelles machines jouer.

Nouveau!!: Apprentissage par renforcement et Bandit manchot (mathématiques) · Voir plus »

Bisimulation

En informatique théorique, une bisimulation est une relation binaire entre systèmes de transition d'états, associant les systèmes qui se comportent de la même façon au sens qu'un des systèmes simule l'autre et vice-versa.

Nouveau!!: Apprentissage par renforcement et Bisimulation · Voir plus »

Cerveau artificiel

simulation d'activité cérébrale. Un cerveau artificiel est un modèle informatique, basé sur la simulation de l’activité de populations de neurones, qui possède ou développe des facultés cognitives similaires aux cerveaux biologiques.

Nouveau!!: Apprentissage par renforcement et Cerveau artificiel · Voir plus »

Chatbot

Telegram. Un chatbothttps://dictionnaire.lerobert.com/definition/chatbot aussi nommé dialogueur.

Nouveau!!: Apprentissage par renforcement et Chatbot · Voir plus »

Dopamine

La dopamine (DA) est un neurotransmetteur, une molécule biochimique qui permet la communication au sein du système nerveux, et l'une de celles qui influent directement sur le comportement.

Nouveau!!: Apprentissage par renforcement et Dopamine · Voir plus »

Espérance mathématique

Avec un dé on peut obtenir chaque nombre entre 1 et 6 avec une probabilité de 1/6. Ainsi, l'espérance vaut \frac(1+2+3+4+5+6)6.

Nouveau!!: Apprentissage par renforcement et Espérance mathématique · Voir plus »

Ganglions de la base

Noyaux gris centraux. Les ganglions de la base (autrement appelés noyaux gris centraux ou noyaux de la base) sont un ensemble de structures sous-corticales constitué par des noyaux pairs, interconnectés au niveau télencéphalique (hémisphères cérébraux) et diencéphalique.

Nouveau!!: Apprentissage par renforcement et Ganglions de la base · Voir plus »

Imagerie médicale

L'imagerie médicale regroupe les moyens d'acquisition et de restitution d'images du corps humain à partir de différents phénomènes physiques tels que l'absorption des rayons X, la résonance magnétique nucléaire, la réflexion d'ondes ultrasons ou la radioactivité auxquels on associe parfois les techniques d'imagerie optique comme l'endoscopie.

Nouveau!!: Apprentissage par renforcement et Imagerie médicale · Voir plus »

Intelligence artificielle

assistants personnels intelligents sont l'une des applications concrètes de l'intelligence artificielle dans les années 2010. L'intelligence artificielle (IA) est un ensemble de théories et de techniques visant à réaliser des machines capables de simuler l'intelligence humaine.

Nouveau!!: Apprentissage par renforcement et Intelligence artificielle · Voir plus »

Jeu vidéo

Un jeu vidéo est un jeu électronique doté d'une interface utilisateur permettant une interaction humaine ludique en générant un retour visuel sur un dispositif vidéo.

Nouveau!!: Apprentissage par renforcement et Jeu vidéo · Voir plus »

Loi de probabilité

400px En théorie des probabilités et en statistique, une loi de probabilité décrit le comportement aléatoire d'un phénomène dépendant du hasard.

Nouveau!!: Apprentissage par renforcement et Loi de probabilité · Voir plus »

Méthode policy-gradient

En apprentissage par renforcement, une méthode policy-gradient est un algorithme qui apprend une politique directement en s'intéressant directement à la politique (voir chapitre 13 dans). Un algorithme de ce type optimise de la politique paramétrée par rapport au rendement attendu avec la méthode de descente de gradient.

Nouveau!!: Apprentissage par renforcement et Méthode policy-gradient · Voir plus »

MIT Press

MIT Press (pouvant se traduire en français par « presses du MIT ») est une maison d'édition universitaire américaine affiliée au Massachusetts Institute of Technology à Cambridge, Massachusetts.

Nouveau!!: Apprentissage par renforcement et MIT Press · Voir plus »

Neuromodulation

Le mot neuromodulation a un sens différent en neuroscience et en médecine.

Nouveau!!: Apprentissage par renforcement et Neuromodulation · Voir plus »

Neurone

Schéma complet d’un neurone. Un neurone, ou une cellule nerveuse, est une cellule excitable constituant l'unité fonctionnelle de la base du système nerveux.

Nouveau!!: Apprentissage par renforcement et Neurone · Voir plus »

Optimisation (mathématiques)

L'optimisation est une branche des mathématiques cherchant à modéliser, à analyser et à résoudre analytiquement ou numériquement les problèmes qui consistent à minimiser ou maximiser une fonction sur un ensemble.

Nouveau!!: Apprentissage par renforcement et Optimisation (mathématiques) · Voir plus »

Planification (intelligence artificielle)

257x257px En intelligence artificielle, la planification automatique (automated planning en anglais) ou plus simplement planification, vise à développer des algorithmes pour produire des plans typiquement pour l'exécution par un robot ou tout autre agent.

Nouveau!!: Apprentissage par renforcement et Planification (intelligence artificielle) · Voir plus »

Problème de bin packing

En recherche opérationnelle et en optimisation combinatoire, le est un problème algorithmique.

Nouveau!!: Apprentissage par renforcement et Problème de bin packing · Voir plus »

Processus de décision markovien

En théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires.

Nouveau!!: Apprentissage par renforcement et Processus de décision markovien · Voir plus »

Programmation dynamique

En informatique, la programmation dynamique est une méthode algorithmique pour résoudre des problèmes d'optimisation.

Nouveau!!: Apprentissage par renforcement et Programmation dynamique · Voir plus »

Q-learning

Dans le ''Q-learning'', l'agent exécute une action a en fonction de l'état ''s'' et d'une fonction ''Q''. Il perçoit alors le nouvel état s' et une récompense ''r'' de l'environnement. Il met alors à jour la fonction ''Q''. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement.

Nouveau!!: Apprentissage par renforcement et Q-learning · Voir plus »

Recuit simulé

En algorithmique, le recuit simulé est une méthode empirique (métaheuristique) d'optimisation, inspirée d'un processus, le recuit, utilisé en métallurgie.

Nouveau!!: Apprentissage par renforcement et Recuit simulé · Voir plus »

REINFORCE

En intelligence artificielle, plus précisément en apprentissage automatique, REINFORCE est un algorithme d'apprentissage par renforcement qui applique directement une méthode de gradient sur la politique.

Nouveau!!: Apprentissage par renforcement et REINFORCE · Voir plus »

Richard Bellman

Richard Ernest Bellman (né le à Brooklyn et mort le à Los Angeles) est un mathématicien américain.

Nouveau!!: Apprentissage par renforcement et Richard Bellman · Voir plus »

Richard Sutton

Richard Sutton est un informaticien canadien, enseignant en informatique à l'université de l'Alberta.

Nouveau!!: Apprentissage par renforcement et Richard Sutton · Voir plus »

Robot

''Atlas'' (2013), robot androïde de Boston Dynamics Bras manipulateurs dans un laboratoire (2009) ''NAO'' (2006), robot humanoïde éducatif d'Aldebaran Robotics 2005), un actroïde d'accueil ''Roomba'' (2002), un robot ménager Un robot est un dispositif mécatronique (alliant mécanique, électronique et informatique) conçu pour accomplir automatiquement des tâches imitant ou reproduisant, dans un domaine précis, des actions humaines.

Nouveau!!: Apprentissage par renforcement et Robot · Voir plus »

SARSA

En intelligence artificielle, plus précisément en apprentissage par renforcement, SARSA est un algorithme d'apprentissage.

Nouveau!!: Apprentissage par renforcement et SARSA · Voir plus »

Substantia nigra

La (substance noire, dite aussi) est un noyau du système nerveux situé au niveau du mésencéphale et du diencéphale sus-jacent, à la base des et ventralement par rapport au.

Nouveau!!: Apprentissage par renforcement et Substantia nigra · Voir plus »

Synapse

neurones. La synapse (du grec, « contact, point de jonction », dérivé de, « joindre, connecter ») est une zone de contact fonctionnelle qui s'établit entre deux neurones, ou entre un neurone et une autre cellule (cellules musculaires, récepteurs sensoriels…).

Nouveau!!: Apprentissage par renforcement et Synapse · Voir plus »

Système dynamique

En mathématiques, en chimie ou en physique, un système dynamique est la donnée d’un système et d’une loi décrivant l'évolution de ce système.

Nouveau!!: Apprentissage par renforcement et Système dynamique · Voir plus »

Temporal difference learning

Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle.

Nouveau!!: Apprentissage par renforcement et Temporal difference learning · Voir plus »

Variable aléatoire

La valeur d’un dé après un lancer est une variable aléatoire comprise entre 1 et 6. En théorie des probabilités, une variable aléatoire est une variable dont la valeur est déterminée après la réalisation d’un phénomène, expérience ou événement, aléatoire.

Nouveau!!: Apprentissage par renforcement et Variable aléatoire · Voir plus »

1989

L'année 1989 est une année commune qui commence un dimanche.

Nouveau!!: Apprentissage par renforcement et 1989 · Voir plus »

1992

L'année 1992 est une année bissextile qui commence un mercredi.

Nouveau!!: Apprentissage par renforcement et 1992 · Voir plus »

Redirections ici:

Apprentissage Par Renforcement.

Unionpédia est une carte conceptuelle ou réseau sémantique organisée comme une encyclopédie ou un dictionnaire. Il donne une brève définition de chaque concept et de ses relations.

Ceci est une carte mentale en ligne géant qui sert de base pour les schémas conceptuels. Il est libre d'utiliser et de chaque article ou document peut être téléchargé. Il est un outil, ressources ou de référence pour l'étude, la recherche, l'éducation, l'apprentissage ou de l'enseignement, qui peut être utilisé par les enseignants, les éducateurs, les élèves ou étudiants; pour le monde universitaire: à l'école, primaire, secondaire, l'école secondaire, au milieu, un collège, diplôme technique, collégial, universitaire, baccalauréat, de maîtrise ou de doctorat; pour les papiers, des rapports, des projets, des idées, de la documentation, des enquêtes, des résumés, ou une thèse. Voici la définition, l'explication, la description ou la signification de chaque importantes sur lesquelles vous avez besoin d'informations, et une liste de leurs concepts connexes comme un glossaire. Disponible en français, anglais, espagnol, portugais, japonais, chinois, allemand, italien, polonais, néerlandais, russe, arabe, hindi, suédois, ukrainien, hongrois, catalan, tchèque, hébreu, danois, finlandais, indonésien, norvégien, roumain, turc, vietnamien, coréen, thaïlandais, grec, bulgare, croate, slovaque, lituanien, philippin, letton, estonien et slovène. Plus de langues bientôt.

Toutes les informations a été extrait de Wikipédia, et il est disponible sous licence Creative Commons paternité partage à l’identique.

Unionpédia n'est ni approuvée ni affiliée à la Wikimedia Foundation.

Google Play, Android et le logo Google Play sont des marques de Google Inc.

Politique de confidentialité

Apprentissage par renforcement

Redirections ici:

Autres langues