Skip to content
Snippets Groups Projects
alexandra.st@free.fr's avatar
Alexandra Steinhilber authored
53433ae7
History
extractgermanLexicon 
- extrait le dictionnaire de la langue allemande (germanlexicon.txt)
- extrait :
    - les mots de 3 syllabes (WordsList)
    - tous les mots (AllWordsList)
    - en les simplifiant (o/O, a,A etc)
- calcule :
    - le schéma d'un mot (CV etc)
    - les fréquence des syllabes
    - les probabilités positionnelles des phonèmes et des biphones 
    - la liste des triphones possibles à la position i dans le mot
- calcule aussi :
    - la médiane des nbs de syllabes d'un mot (3)
    - les 3 schémas les + fréquents


GermanGeneration
algorithme de génération des pseudo-mots
- on génère aléatoirement des syllabes selon les fréquences observées
- on en sélectionne un certain nombre en maximisant les probas phonotactiques et en s'assurant que les mots sélectionnés soient loin les uns des autres (d>3)
- on calcule la distance de chaque mot au mot le plus proche dans le dictionnaire
    -> WordsList (3 syllabes) ou AllWordsList (tous les mots) à choisir à chaque fois
- on trie par ordre décroissant de distance pour garder les mots les plus loin du dico
- on garde ceux où 1<=d<=2
- on en garde un certain nombre à définir

à choisir :
-nombre de mots à générer aléatoirement
-nopbre de mots à garder après sélection phonotactique
-distance minimale entre les mots sélecitonnés (phonotactique):
    si elle est trop grande, les mots auront une pba phonotactique plus faible
    si elle est trop petite, ils se ressembleront
-distance au dico (1 2)
-nombre de mots sélectionnés à la fin
- à chaqe fois, sur quel dico s'appuyer

dans répertoire Pseudo-Mots :
GermanGeneration : algo utilisé en Allemagne, fichier mis au propre
FrenchGeneration : fichier plus utilisé mais laissé au cas où
Frequences Syllabes.csv : fréquences des syllabes en français
german_lexicon.txt : dictionnaire allemand, lignes brutes
germanWords.pkl : dico extrait du fichier .txt, directement exploitable
histo.pkl : histogrammes des fréquences des phonèmes,biphones,triphones
Mots3SchemasXithFreq : mots français de 3 syllabes avec leur fréquence
nonwords_selection.csv : framaform de sélection des mots allemands
Syllabes3Schemas.csv : syllabes correspondant à nos 3 schémas retenus