... | ... | @@ -26,11 +26,20 @@ Cette journée est organisée par **l'IDRIS** et **l'ANF Fidle**, avec le soutie |
|
|
|
|
|
|
|
|
|
|
|
## Séquence 17 : Jeudi 13 avril 2023, 14h
|
|
|
## Séquence 17 : Jeudi 20 avril 2023, 14h
|
|
|
|
|
|
|**Deep Reinforcement Learning : Tactiques et Stratégies?**|
|
|
|
|--|
|
|
|
La 3e catégorie du machine learning "par renforcement", après le supervisé et le non supervisé a percuté aussi la révolution du Deep Learning, ce qui a permis une accélération du développement de la robotique, de faire gagner des IA à n'importe quel jeu vidéo contre les meilleures des adversaires humains (AlphaGo), d'élaborer des stratégies ou des tactiques; et ce qui a même dernièrement participé au succès de ChatGPT (grâce au RLHF). <br> Cette séquence mériterait de nombreuses heures compte tenue de la complexité du domaine mais, nous essayerons ensemble de retracer rapidement le chemin parcouru au XXe siècle et tout récemment au XXIe siècle et de comprendre les enjeux et la technique derrière ces IA bluffantes..<br><br>Au menu de cette séquence :<br> <br>- Introduction au Reinforcement Learning<br>- Q-learning vs Sarsa<br>- Du RL au DQN : pour passer à des espaces à hautes dimensionalités via des fonctions d'approximation<br> - Policy Gradient : directement dans l'action<br>- Cas d'usage, résultats et perspectives<br><br>Séquence animée par Bertrand Cabot (CNRS/IDRIS) et Léo Hunout (INRIA/IDRIS) Durée : 3h<br><br> <img width=350 src="uploads/f10802cffd738d1636fccd94d082b8c0/smilingrobot.png">
|
|
|
Après le supervisé et le non supervisé, la révolution du Deep Learning s'est également
|
|
|
étendue à "l'apprentissage par renforcement", occasionnant une accélération du développement
|
|
|
de la robotique et en permettant aux IA de remporter des victoires face à la plupart des meilleurs
|
|
|
joueurs humains (AlphaGo), d'élaborer des stratégies ou des tactiques, ou encore dernièrement,
|
|
|
en participant au succès de ChatGPT (grâce au RLHF).
|
|
|
Le sujet est très vaste et cette séquence mériterait de très nombreuses heures, compte tenue de
|
|
|
la complexité et de la richesse du domaine :-)
|
|
|
Durant ces 3 petites heures, nous essayerons de retracer, rapidement et ensemble, le chemin
|
|
|
parcouru au XXe et XXIe siècle, et de comprendre les enjeux et les différentes techniques derrière
|
|
|
ces IA qui ont (elles aussi) changées la donne !<br><br>Au menu de cette séquence :<br> <br>- Introduction au Reinforcement Learning<br>- Q-learning vs Sarsa<br>- Du RL au DQN : pour passer à des espaces à hautes dimensionalités via des fonctions d'approximation<br> - Policy Gradient : directement dans l'action<br>- Cas d'usage, résultats et perspectives<br><br>Séquence animée par Bertrand Cabot (CNRS/IDRIS) et Léo Hunout (INRIA/IDRIS) Durée : 3h<br><br> <img width=350 src="uploads/f10802cffd738d1636fccd94d082b8c0/smilingrobot.png">
|
|
|
|
|
|
A propos de la **[formation Fidle](https://fidle.cnrs.fr/presentation)**
|
|
|
Découvrez le **[programme 2022/23](Fidle à distance/Programme)**
|
... | ... | |