Le cas des liaisons
Comment prendre en compte les liaisons ? Le problème principal, c'est qu'on prend les mots les uns après les autres, et les colorise un par un ans prendre en compte ce qui suit ou ce qui précède.
2 possibilités :
- on récupère les liaisons du dictionnaire. Il y en a déjà pas mal, mais ça marchera que si les deux mots apparaissent côte-à-côte qqpart dans le dictionnaire. Autrement dit il va manquer plein de cas.
- les liaisons du français fonctionnent par règle. Peu d'exceptions. On doit donc pouvoir coder ça en dur (sans passer par un modèle statistique).
On part sur 2). Résumé des règles : https://www.lepointdufle.net/ressources_fle/liaisons_obligatoires_liaisons_interdites.htm Attention : il va falloir prendre en compte la nature des mots (pour les adjectifs notamment). En principe, ce sera pas un soucis avec spaCy qui tokénise déjà le texte.