Skip to content

Corrige les encodages défectueux des labdocs

Francois Gannaz requested to merge 95-fix-bad-encoding into master

La méthode utilise une liste de séquences d'octets considérés comme défectueux. Par exemple, les octets qu'UTF-8 interprète sous la forme   ou ç (pour prendre les plus lisibles). Si l'utilisateur voulait vraiment saisir cela, alors la correction sera abusive, mais j'ai du mal à imaginer que ce soit le cas. L'avantage de cette méthode est qu'on tolère les encodages mixtes ; l'inconvénient est que certains caractères rares, comme æ, ne seront pas traités.

La procédure est simple :

  1. Pour chaque labdoc de type "text" ou "procedure" contenant une de ces séquences,
  2. on remplace chaque séquence par le caractère valide (e.g. ç par ç).

Exemple d'application:

$ php5.6 scripts/fix_bad_encoding.php
[     0-   999] 0 labdocs detected, 0 fixed.
[  1000-  1999] 7 labdocs detected, 7 fixed.
...
[ 94000- 94999] 64 labdocs detected, 64 fixed.
[ 95000- 95999] 18 labdocs detected, 18 fixed.
[ 96000- 96999] 18 labdocs detected, 18 fixed.
TOTAL: 1632 labdocs detected, 1632 fixed.

Exemple d'encodage corrigé : labdoc 10187 dans le rapport 2392.

La liste des caractères concernés :  ´’çàâéèêëîïôùü

Closes #95 (closed)

Merge request reports