... | @@ -13,7 +13,7 @@ La prochaine séquence est : |
... | @@ -13,7 +13,7 @@ La prochaine séquence est : |
|
|
|
|
|
|** Passer à la vitesse supérieure : l’accélération matérielle ?**|
|
|
|** Passer à la vitesse supérieure : l’accélération matérielle ?**|
|
|
|--|
|
|
|--|
|
|
|**La distribution du calcul** dans le contexte de l'apprentissage automatique ou profond peut être réalisée de deux manières principales : **Le parallélisme des données (Data Parallelism)** consiste à diviser les données d'entraînement entre plusieurs processeurs ou machines, de sorte que chaque processeur traite une partie différente des données. Chaque processeur calcule alors les gradients locaux à partir des données qu'il a traitées, puis les agrège en un gradient global qui est utilisé pour mettre à jour les paramètres du modèle. Cette approche est utile lorsque la taille des données est très grande et que le modèle peut tenir dans la mémoire de chaque processeur. **Le parallélisme du modèle (Model Parallelism)** consiste à diviser le modèle en plusieurs parties et à les exécuter sur différents processeurs ou machines. Chaque processeur traite une partie différente du modèle, calculant les gradients locaux et les agrégeant ensuite pour mettre à jour les paramètres globaux. Cette approche est utile lorsque le modèle est trop grand pour tenir dans la mémoire de chaque processeur.<br><br> **Le _transfer learning_ ou apprentissage par transfert** est une technique de _machine learning_ qui consiste à utiliser un modèle préalablement entraîné à résoudre une tâche donnée à partir d'un grand ensemble de données (modèle pré-entrainé), en vue de lui permettre de résoudre une tâche similaire, généralement plus précise à partir d'un grand ou petit ensemble de données. Cette technique implique également d'ajuster les paramètres du modèle pré-entrainé pour mieux s'adapter au nouvel ensemble de données.<br><br>Au menu de cette séquence : <br>- Présentation de Jean-Zay et calcul sur GPU<br>- Distribution du calcul - Data Parallelism - Model Parallelism<br>- Hybrid Parallelism - Pipelines<br>- Deepspeed - Optimisation du Data parallelism <br> - Bonnes pratiques pour un apprentissage distribué<br> <br>Séquence animée par Bertrand(CNRS/IDRIS) et Nathan (CNRS/IDRIS)<br>Durée : 2h<br><br>[<img width=250 src="uploads/88931b42a1381a0fe48af9bfeeb460ef/cible.png">](#) [<img width=250 src="uploads/b805df8789dec449ba7eac2e0d3553be/optimization.png">](#)
|
|
|**Le calcul distribué** peut être réalisée de deux manières principales : **Le parallélisme des données (Data Parallelism)** consiste à diviser les données d'entraînement entre plusieurs processeurs ou machines, de sorte que chaque processeur traite une partie différente des données. Chaque processeur calcule alors les gradients locaux à partir des données qu'il a traitées, puis les agrège en un gradient global qui est utilisé pour mettre à jour les paramètres du modèle. Cette approche est utile lorsque la taille des données est très grande et que le modèle peut tenir dans la mémoire de chaque processeur. **Le parallélisme du modèle (Model Parallelism)** consiste à diviser le modèle en plusieurs parties et à les exécuter sur différents processeurs ou machines. Chaque processeur traite une partie différente du modèle, calculant les gradients locaux et les agrégeant ensuite pour mettre à jour les paramètres globaux. Cette approche est utile lorsque le modèle est trop grand pour tenir dans la mémoire de chaque processeur.<br><br> ** L'hybridation du parallélisme est une approche qui combine différentes formes de parallélisme pour améliorer les performances de l'apprentissage automatique. Parmi les techniques d'hybridation de parallélisme les plus courantes, on peut citer le pipeline de modèles (Model Pipelining), qui utilise à la fois le parallélisme de données et le parallélisme de modèle. Cette technique implique également d'ajuster les paramètres du modèle pré-entrainé pour mieux s'adapter au nouvel ensemble de données.<br><br>Au menu de cette séquence : <br>- Présentation de Jean-Zay et calcul sur GPU<br>- Distribution du calcul - Data Parallelism - Model Parallelism<br>- Hybrid Parallelism - Pipelines<br>- Deepspeed - Optimisation du Data parallelism <br> - Bonnes pratiques pour un apprentissage distribué<br> <br>Séquence animée par Bertrand(CNRS/IDRIS) et Nathan (CNRS/IDRIS)<br>Durée : 2h<br><br>[<img width=250 src="uploads/88931b42a1381a0fe48af9bfeeb460ef/cible.png">](#) [<img width=250 src="uploads/b805df8789dec449ba7eac2e0d3553be/optimization.png">](#)
|
|
|
|
|
|
A propos de la **[formation Fidle](https://fidle.cnrs.fr/presentation)**
|
|
A propos de la **[formation Fidle](https://fidle.cnrs.fr/presentation)**
|
|
Découvrez le **[programme 2022/23](Fidle à distance/Programme)**
|
|
Découvrez le **[programme 2022/23](Fidle à distance/Programme)**
|
... | | ... | |