Corrige les encodages défectueux des labdocs
La méthode utilise une liste de séquences d'octets considérés comme défectueux. Par exemple, les octets qu'UTF-8 interprète sous la forme Â
ou ç
(pour prendre les plus lisibles). Si l'utilisateur voulait vraiment saisir cela, alors la correction sera abusive, mais j'ai du mal à imaginer que ce soit le cas. L'avantage de cette méthode est qu'on tolère les encodages mixtes ; l'inconvénient est que certains caractères rares, comme æ
, ne seront pas traités.
La procédure est simple :
- Pour chaque labdoc de type "text" ou "procedure" contenant une de ces séquences,
- on remplace chaque séquence par le caractère valide (e.g.
ç
parç
).
Exemple d'application:
$ php5.6 scripts/fix_bad_encoding.php
[ 0- 999] 0 labdocs detected, 0 fixed.
[ 1000- 1999] 7 labdocs detected, 7 fixed.
...
[ 94000- 94999] 64 labdocs detected, 64 fixed.
[ 95000- 95999] 18 labdocs detected, 18 fixed.
[ 96000- 96999] 18 labdocs detected, 18 fixed.
TOTAL: 1632 labdocs detected, 1632 fixed.
Exemple d'encodage corrigé : labdoc 10187 dans le rapport 2392.
La liste des caractères concernés : ´’çàâéèêëîïôùü
Closes #95 (closed)