@ KCC et Marc 56
J'ai modifier mon code pour allez plus vite.(voir plus haut)
Marc56 pourrait tu faire un test de rapidité avec ta liste de 295000 mots
Merci par avance ce sera peut être utile a KCC
De toute les manières il faut bien scanner le texte lettre par lettre il me semble
Recherche sans tenir compte des accents
Re: Recherche sans tenir compte des accents
J'ai donné le lien vers le fichier de données de test en tête de code
http://www.lexique.org/listes/liste_mots.php
Prendre le fichier Liste des mots fusionnée (je ne met pas le lien direct pour qu'il ne soit pas indexé par les robots)
Je remet aussi le code pour charger le fichier rapidement (une fois dézippé) Grace à #PB_File_IgnoreEOL qu'on m'a indiqué il y a quelques temps, le chargement d'un fichier est considérablement plus rapide que ligne par ligne. (mais je n'ai pas comparé avec la version "peek")
Le fichier des mots est une archive zip de seulement 950 ko (décompacté: 3.6mo) et qui contient un fichier de 295 000 lignes (ouvrable avec n'importe quel éditeur ascii)
C'est de l'ascii (encodage windows 1252), pas de l'utf-8: transformer si nécessaire.
Ce fichier peut être très utile pour celui qui veut se faire un correcteur d'orthographe car il contient aussi toutes les déclinaisons des verbes et toutes les villes françaises.
(dans le cas d'une ville, le code postal est sur la même ligne séparé par un tab)
http://www.lexique.org/listes/liste_mots.php
Prendre le fichier Liste des mots fusionnée (je ne met pas le lien direct pour qu'il ne soit pas indexé par les robots)
Je remet aussi le code pour charger le fichier rapidement (une fois dézippé)
Code : Tout sélectionner
If Not OpenFile(0, "c:\tmp\liste_mots_mix.txt")
Debug "Fichier non chargé"
End
EndIf
While Not Eof(0)
Txt$ = ReadString(0, #PB_Ascii | #PB_File_IgnoreEOL)
Wend
CloseFile(0)
start = ElapsedMilliseconds()
; --- Code à tester
Debug "Temps: " + StrF((ElapsedMilliseconds() - start) / 1000.0, 2) + " seconde(s)"
Le fichier des mots est une archive zip de seulement 950 ko (décompacté: 3.6mo) et qui contient un fichier de 295 000 lignes (ouvrable avec n'importe quel éditeur ascii)
C'est de l'ascii (encodage windows 1252), pas de l'utf-8: transformer si nécessaire.
Ce fichier peut être très utile pour celui qui veut se faire un correcteur d'orthographe car il contient aussi toutes les déclinaisons des verbes et toutes les villes françaises.
(dans le cas d'une ville, le code postal est sur la même ligne séparé par un tab)
Re: Recherche sans tenir compte des accents
@Merci Marc56
Je suis a 0.08 avec un i7
Bonne soirée
Je suis a 0.08 avec un i7
Bonne soirée
- Kwai chang caine
- Messages : 6962
- Inscription : sam. 23/sept./2006 18:32
- Localisation : Isere
Re: Recherche sans tenir compte des accents
Top cool ton fichier Marco
J'aime bien ce genre de liste, ça peut toujours être utile, comme les Prénoms (pour faire un générateur aléatoire de pelo), et pleins d'autres ...
J'aime bien ce genre de liste, ça peut toujours être utile, comme les Prénoms (pour faire un générateur aléatoire de pelo), et pleins d'autres ...