... | ... | @@ -13,7 +13,7 @@ La prochaine séquence est : |
|
|
|
|
|
|** Passer à la vitesse supérieure : l’accélération matérielle ?**|
|
|
|
|--|
|
|
|
|**La distribution du calcul** dans le contexte de l'apprentissage automatique ou profond peut être réalisée de deux manières principales : le parallélisme des données (Data Parallelism) et le parallélisme du modèle (Model Parallelism). **Le parallélisme des données (Data Parallelism)** consiste à diviser les données d'entraînement entre plusieurs processeurs ou machines, de sorte que chaque processeur traite une partie différente des données. Chaque processeur calcule alors les gradients locaux à partir des données qu'il a traitées, puis les agrège en un gradient global qui est utilisé pour mettre à jour les paramètres du modèle. Cette approche est utile lorsque la taille des données est très grande et que le modèle peut tenir dans la mémoire de chaque processeur. **Le parallélisme du modèle (Model Parallelism)** consiste à diviser le modèle en plusieurs parties et à les exécuter sur différents processeurs ou machines. Chaque processeur traite une partie différente du modèle, calculant les gradients locaux et les agrégeant ensuite pour mettre à jour les paramètres globaux. Cette approche est utile lorsque le modèle est trop grand pour tenir dans la mémoire de chaque processeur.<br><br> **Le _transfer learning_ ou apprentissage par transfert** est une technique de _machine learning_ qui consiste à utiliser un modèle préalablement entraîné à résoudre une tâche donnée à partir d'un grand ensemble de données (modèle pré-entrainé), en vue de lui permettre de résoudre une tâche similaire, généralement plus précise à partir d'un grand ou petit ensemble de données. Cette technique implique également d'ajuster les paramètres du modèle pré-entrainé pour mieux s'adapter au nouvel ensemble de données.<br><br>Au menu de cette séquence : <br>- Présentation de Jean-Zay et calcul sur GPU<br>- Distribution du calcul - Data Parallelism - Model Parallelism<br>- Hybrid Parallelism - Pipelines<br>- Deepspeed - Optimisation du Data parallelism <br> - Bonnes pratiques pour un apprentissage distribué<br> <br>Séquence animée par Bertrand(CNRS/IDRIS) et Nathan (CNRS/IDRIS)<br>Durée : 2h<br><br>[<img width=250 src="uploads/88931b42a1381a0fe48af9bfeeb460ef/cible.png">](#) [<img width=250 src="uploads/b805df8789dec449ba7eac2e0d3553be/optimization.png">](#)
|
|
|
|**La distribution du calcul** dans le contexte de l'apprentissage automatique ou profond peut être réalisée de deux manières principales : **Le parallélisme des données (Data Parallelism)** consiste à diviser les données d'entraînement entre plusieurs processeurs ou machines, de sorte que chaque processeur traite une partie différente des données. Chaque processeur calcule alors les gradients locaux à partir des données qu'il a traitées, puis les agrège en un gradient global qui est utilisé pour mettre à jour les paramètres du modèle. Cette approche est utile lorsque la taille des données est très grande et que le modèle peut tenir dans la mémoire de chaque processeur. **Le parallélisme du modèle (Model Parallelism)** consiste à diviser le modèle en plusieurs parties et à les exécuter sur différents processeurs ou machines. Chaque processeur traite une partie différente du modèle, calculant les gradients locaux et les agrégeant ensuite pour mettre à jour les paramètres globaux. Cette approche est utile lorsque le modèle est trop grand pour tenir dans la mémoire de chaque processeur.<br><br> **Le _transfer learning_ ou apprentissage par transfert** est une technique de _machine learning_ qui consiste à utiliser un modèle préalablement entraîné à résoudre une tâche donnée à partir d'un grand ensemble de données (modèle pré-entrainé), en vue de lui permettre de résoudre une tâche similaire, généralement plus précise à partir d'un grand ou petit ensemble de données. Cette technique implique également d'ajuster les paramètres du modèle pré-entrainé pour mieux s'adapter au nouvel ensemble de données.<br><br>Au menu de cette séquence : <br>- Présentation de Jean-Zay et calcul sur GPU<br>- Distribution du calcul - Data Parallelism - Model Parallelism<br>- Hybrid Parallelism - Pipelines<br>- Deepspeed - Optimisation du Data parallelism <br> - Bonnes pratiques pour un apprentissage distribué<br> <br>Séquence animée par Bertrand(CNRS/IDRIS) et Nathan (CNRS/IDRIS)<br>Durée : 2h<br><br>[<img width=250 src="uploads/88931b42a1381a0fe48af9bfeeb460ef/cible.png">](#) [<img width=250 src="uploads/b805df8789dec449ba7eac2e0d3553be/optimization.png">](#)
|
|
|
|
|
|
A propos de la **[formation Fidle](https://fidle.cnrs.fr/presentation)**
|
|
|
Découvrez le **[programme 2022/23](Fidle à distance/Programme)**
|
... | ... | |