importer un fichier PDF
importer un fichier PDF
Bonsoir,
J'ai un fichier PDF qui contient une nomenclature de produits pharmaceutiques (environ 1400 produits). Pour éviter la saisie de tous ces produits sur ma table sqlite, je voudrais savoir si c'est possible d'importer ce fichier PDF vers ma table ou vers un fichier texte...
Merci
J'ai un fichier PDF qui contient une nomenclature de produits pharmaceutiques (environ 1400 produits). Pour éviter la saisie de tous ces produits sur ma table sqlite, je voudrais savoir si c'est possible d'importer ce fichier PDF vers ma table ou vers un fichier texte...
Merci
Win7 (x64) 64 bits Pb 5.72
Re: importer un fichier PDF
il y a un module PurePDF
http://forums.purebasic.com/english/vie ... 96fba0cb85
http://forums.purebasic.com/english/vie ... 96fba0cb85
Site: http://michel.dobro.free.fr/
Devise :"dis moi ce dont tu as besoin, je t'expliquerai comment t'en passer"
Re: importer un fichier PDF
J'ai vu le module PurePDF, c'est très intéressant, je viens de le télécharger. J'ai parcouru tous (ou la plupart des commandes), mais, comme par hasard, je n'ai pas trouvé ce que je cherche vraiment. La lecture des données du fichier PDF. Presque toutes les commandes existent, sauf la lecture du contenu d'un fichier PDF car c'est cette commande qui va me permettre justement de copier les données du fichier PDF vers ma table sqlite.
Merci encore
Merci encore
Win7 (x64) 64 bits Pb 5.72
Re: importer un fichier PDF
Bonjour Omega,
je vais te dire une grosse c... erie. Mais je préfère la dire au risque que ça n'en soit une :
Vérifie comment tu peux sélectionner les textes de ton PDF dans un lecteur lambda. Si tu n'obtiens pas une sélection de la forme habituelle comme on a dans un traitement pour sélectionner un mot, une phrase, etc... Mais si tu obtiens plutôt une sélection de type "rectangulaire", ne cherche pas plus loin, ça signifie que ton texte est sous forme d'image (scannée ou pas, qu'importe). Et là c'est un OCR qu'il te faut, (un truc qui lit les mots dans les images et te les transforme en mots plein de faute, mais exploitables) donc chercher une solution en PureBasic risque d'être encore plus coûteux en temps.
Si par contre, tous tes textes dans le PDF semblent sélectionnables au caractère près, là, c'est ok pour PureBasic et falsam pourra éclairer ta lanterne ici. Sinon, si je ne dis pas de onnerie, sous Linux, on peut lire en natif PureBasic un PDF.
je vais te dire une grosse c... erie. Mais je préfère la dire au risque que ça n'en soit une :
Vérifie comment tu peux sélectionner les textes de ton PDF dans un lecteur lambda. Si tu n'obtiens pas une sélection de la forme habituelle comme on a dans un traitement pour sélectionner un mot, une phrase, etc... Mais si tu obtiens plutôt une sélection de type "rectangulaire", ne cherche pas plus loin, ça signifie que ton texte est sous forme d'image (scannée ou pas, qu'importe). Et là c'est un OCR qu'il te faut, (un truc qui lit les mots dans les images et te les transforme en mots plein de faute, mais exploitables) donc chercher une solution en PureBasic risque d'être encore plus coûteux en temps.
Si par contre, tous tes textes dans le PDF semblent sélectionnables au caractère près, là, c'est ok pour PureBasic et falsam pourra éclairer ta lanterne ici. Sinon, si je ne dis pas de onnerie, sous Linux, on peut lire en natif PureBasic un PDF.
Re: importer un fichier PDF
il existe des convertisseurs "online" pdf vers docx (word)
certains convertissent mieux que d'autres (formatages des textes conservés, image, colonne d'un tableau, etc) faut en essayer plusieurs pour trouver le bon...
pat
certains convertissent mieux que d'autres (formatages des textes conservés, image, colonne d'un tableau, etc) faut en essayer plusieurs pour trouver le bon...
pat
Re: importer un fichier PDF
ici il y a un code qui permet d'extraire le text d'un PDFomega a écrit :J'ai vu le module PurePDF, c'est très intéressant, je viens de le télécharger. J'ai parcouru tous (ou la plupart des commandes), mais, comme par hasard, je n'ai pas trouvé ce que je cherche vraiment. La lecture des données du fichier PDF. Presque toutes les commandes existent, sauf la lecture du contenu d'un fichier PDF car c'est cette commande qui va me permettre justement de copier les données du fichier PDF vers ma table sqlite.
Merci encore
http://forums.purebasic.com/english/vie ... 8cf821431e
Site: http://michel.dobro.free.fr/
Devise :"dis moi ce dont tu as besoin, je t'expliquerai comment t'en passer"
Re: importer un fichier PDF
PurePDF est basé sur l’excellente lib FPDF (http://www.fpdf.org/). C'est un générateur de PDF conçu initialement pour PHP. Il ne peut pas extraire le contenu d'un PDF.omega a écrit :J'ai vu le module PurePDF, c'est très intéressant, je viens de le télécharger. J'ai parcouru tous (ou la plupart des commandes), mais, comme par hasard, je n'ai pas trouvé ce que je cherche vraiment. La lecture des données du fichier PDF. Presque toutes les commandes existent, sauf la lecture du contenu d'un fichier PDF car c'est cette commande qui va me permettre justement de copier les données du fichier PDF vers ma table sqlite.
Le texte d'un PDF c'est du text brut en langage Postscript.
Pour extraire le texte (à condition qu'il ne soit pas crypté) il faut le plus souvent commencer par décomprimer et ensuite extraire le texte lui-même entre blocs.
Tout est décrit dans le manuel de références (1700 pages en anglais) c'est faisable, tout y est bien décrit, mais c'est ardu
Re: importer un fichier PDF
ou lire mon message juste au dessus du tiens
Site: http://michel.dobro.free.fr/
Devise :"dis moi ce dont tu as besoin, je t'expliquerai comment t'en passer"
Re: importer un fichier PDF
Je lui ait donné un filet (= la méthode, comment est constitué un document PDF) (en français) c'est plus utile qu'un simple poisson (une/des lib et des exemples)Zorro a écrit :ou lire mon message juste au dessus du tiens
Enfin, ça vient en complément, si tu préfères