Liste de mots français
Posted on février 12, 1999 in computer-science
Le fichier liste.de.mots.francais.frgut.txt contient une liste de 336531 mots du français (encodés en utf-8).
J'ai produit cette liste à partir du dictionnaire Francais-Gutenberg de Christophe Pythoud.
J'ai appliqué la procédure suivante, sur une machine GNU/Linux sur laquelle était installé ispell version 3.2.06:
-
Installation de Francais-Gutenberg:
tar xzf Francais-GUTenberg-v1.0.tar.gz cd Francais-GUTenberg-v1.0 makehash sudo cp fr*.{hash,aff} /usr/lib/ispell
-
Génération de la liste de mots:
cd dicos cat nonverbes.dico series.dico verbes-gp*.dico verbes-varia.dico | ispell -d francais -e >~/liste1.txt perl -pe 's/ /\n/g' ~/liste1.txt | grep -v "'" | sort | uniq | awk 'NF>0' >~/liste.de.mots.francais.frgut.txt