... | ... | @@ -30,7 +30,7 @@ Cette journée est organisée par **l'IDRIS** et **l'ANF Fidle**, avec le soutie |
|
|
|
|
|
|**Deep Reinforcement Learning : Tactiques et Stratégies?**|
|
|
|
|--|
|
|
|
La 3e catégorie du machine learning "par renforcement", après le supervisé et le non supervisé a percuté aussi la révolution du Deep Learning, ce qui a permis une accélération du développement de la robotique, de faire gagner des IA à n'importe quel jeu vidéo contre les meilleures des adversaires humains (AlphaGo), d'élaborer des stratégies ou des tactiques; et ce qui a même dernièrement participé au succès de ChatGPT (grâce au RLHF). <br> Cette séquence mériterait de nombreuses heures tant le domaine est spécifique et complexe. Mais, nous essayerons ensemble de retracer rapidement le chemin parcouru au XXe siècle et tout récemment au XXIe siècle et de comprendre les enjeux et la technique derrière ces IA bluffantes..<br><br>Au menu de cette séquence :<br> <br>- Introduction au Reinforcement Learning<br>- Q-learning vs Sarsa<br>- Du RL au DQN : pour passer à des espaces à hautes dimensionalités via des fonctions d'approximation<br> - Policy Gradient : directement dans l'action<br>- Cas d'usage, résultats et perspectives<br><br>Séquence animée par Bertrand Cabot (CNRS/IDRIS) et Léo Hunout (INRIA/IDRIS) Durée : 3h<br><br> <img width=350 src="uploads/f10802cffd738d1636fccd94d082b8c0/smilingrobot.png">
|
|
|
La 3e catégorie du machine learning "par renforcement", après le supervisé et le non supervisé a percuté aussi la révolution du Deep Learning, ce qui a permis une accélération du développement de la robotique, de faire gagner des IA à n'importe quel jeu vidéo contre les meilleures des adversaires humains (AlphaGo), d'élaborer des stratégies ou des tactiques; et ce qui a même dernièrement participé au succès de ChatGPT (grâce au RLHF). <br> Cette séquence mériterait de nombreuses heures compte tenue de la complexité du domaine mais, nous essayerons ensemble de retracer rapidement le chemin parcouru au XXe siècle et tout récemment au XXIe siècle et de comprendre les enjeux et la technique derrière ces IA bluffantes..<br><br>Au menu de cette séquence :<br> <br>- Introduction au Reinforcement Learning<br>- Q-learning vs Sarsa<br>- Du RL au DQN : pour passer à des espaces à hautes dimensionalités via des fonctions d'approximation<br> - Policy Gradient : directement dans l'action<br>- Cas d'usage, résultats et perspectives<br><br>Séquence animée par Bertrand Cabot (CNRS/IDRIS) et Léo Hunout (INRIA/IDRIS) Durée : 3h<br><br> <img width=350 src="uploads/f10802cffd738d1636fccd94d082b8c0/smilingrobot.png">
|
|
|
|
|
|
A propos de la **[formation Fidle](https://fidle.cnrs.fr/presentation)**
|
|
|
Découvrez le **[programme 2022/23](Fidle à distance/Programme)**
|
... | ... | |