importer un fichier PDF

Vous débutez et vous avez besoin d'aide ? N'hésitez pas à poser vos questions
Avatar de l’utilisateur
omega
Messages : 626
Inscription : sam. 26/nov./2011 13:04
Localisation : Alger

importer un fichier PDF

Message par omega »

Bonsoir,

J'ai un fichier PDF qui contient une nomenclature de produits pharmaceutiques (environ 1400 produits). Pour éviter la saisie de tous ces produits sur ma table sqlite, je voudrais savoir si c'est possible d'importer ce fichier PDF vers ma table ou vers un fichier texte...

Merci
Win7 (x64) 64 bits Pb 5.72
Avatar de l’utilisateur
Zorro
Messages : 2185
Inscription : mar. 31/mai/2016 9:06

Re: importer un fichier PDF

Message par Zorro »

Image
Image
Site: http://michel.dobro.free.fr/
Devise :"dis moi ce dont tu as besoin, je t'expliquerai comment t'en passer"
Avatar de l’utilisateur
omega
Messages : 626
Inscription : sam. 26/nov./2011 13:04
Localisation : Alger

Re: importer un fichier PDF

Message par omega »

J'ai vu le module PurePDF, c'est très intéressant, je viens de le télécharger. J'ai parcouru tous (ou la plupart des commandes), mais, comme par hasard, je n'ai pas trouvé ce que je cherche vraiment. La lecture des données du fichier PDF. Presque toutes les commandes existent, sauf la lecture du contenu d'un fichier PDF car c'est cette commande qui va me permettre justement de copier les données du fichier PDF vers ma table sqlite.

Merci encore
Win7 (x64) 64 bits Pb 5.72
Ollivier
Messages : 4190
Inscription : ven. 29/juin/2007 17:50
Localisation : Encore ?
Contact :

Re: importer un fichier PDF

Message par Ollivier »

Bonjour Omega,

je vais te dire une grosse c... erie. Mais je préfère la dire au risque que ça n'en soit une :

Vérifie comment tu peux sélectionner les textes de ton PDF dans un lecteur lambda. Si tu n'obtiens pas une sélection de la forme habituelle comme on a dans un traitement pour sélectionner un mot, une phrase, etc... Mais si tu obtiens plutôt une sélection de type "rectangulaire", ne cherche pas plus loin, ça signifie que ton texte est sous forme d'image (scannée ou pas, qu'importe). Et là c'est un OCR qu'il te faut, (un truc qui lit les mots dans les images et te les transforme en mots plein de faute, mais exploitables) donc chercher une solution en PureBasic risque d'être encore plus coûteux en temps.

Si par contre, tous tes textes dans le PDF semblent sélectionnables au caractère près, là, c'est ok pour PureBasic et falsam pourra éclairer ta lanterne ici. Sinon, si je ne dis pas de onnerie, sous Linux, on peut lire en natif PureBasic un PDF.
Patrick88
Messages : 1564
Inscription : mer. 21/janv./2004 18:24

Re: importer un fichier PDF

Message par Patrick88 »

il existe des convertisseurs "online" pdf vers docx (word)
certains convertissent mieux que d'autres (formatages des textes conservés, image, colonne d'un tableau, etc) faut en essayer plusieurs pour trouver le bon...

pat
Avatar de l’utilisateur
Zorro
Messages : 2185
Inscription : mar. 31/mai/2016 9:06

Re: importer un fichier PDF

Message par Zorro »

omega a écrit :J'ai vu le module PurePDF, c'est très intéressant, je viens de le télécharger. J'ai parcouru tous (ou la plupart des commandes), mais, comme par hasard, je n'ai pas trouvé ce que je cherche vraiment. La lecture des données du fichier PDF. Presque toutes les commandes existent, sauf la lecture du contenu d'un fichier PDF car c'est cette commande qui va me permettre justement de copier les données du fichier PDF vers ma table sqlite.

Merci encore
ici il y a un code qui permet d'extraire le text d'un PDF

http://forums.purebasic.com/english/vie ... 8cf821431e
Image
Image
Site: http://michel.dobro.free.fr/
Devise :"dis moi ce dont tu as besoin, je t'expliquerai comment t'en passer"
Marc56
Messages : 2148
Inscription : sam. 08/févr./2014 15:19

Re: importer un fichier PDF

Message par Marc56 »

omega a écrit :J'ai vu le module PurePDF, c'est très intéressant, je viens de le télécharger. J'ai parcouru tous (ou la plupart des commandes), mais, comme par hasard, je n'ai pas trouvé ce que je cherche vraiment. La lecture des données du fichier PDF. Presque toutes les commandes existent, sauf la lecture du contenu d'un fichier PDF car c'est cette commande qui va me permettre justement de copier les données du fichier PDF vers ma table sqlite.
PurePDF est basé sur l’excellente lib FPDF (http://www.fpdf.org/). C'est un générateur de PDF conçu initialement pour PHP. Il ne peut pas extraire le contenu d'un PDF.
Le texte d'un PDF c'est du text brut en langage Postscript.
Pour extraire le texte (à condition qu'il ne soit pas crypté) il faut le plus souvent commencer par décomprimer et ensuite extraire le texte lui-même entre blocs.
Tout est décrit dans le manuel de références (1700 pages en anglais) c'est faisable, tout y est bien décrit, mais c'est ardu :roll:

:wink:
Avatar de l’utilisateur
Zorro
Messages : 2185
Inscription : mar. 31/mai/2016 9:06

Re: importer un fichier PDF

Message par Zorro »

ou lire mon message juste au dessus du tiens :)
Image
Image
Site: http://michel.dobro.free.fr/
Devise :"dis moi ce dont tu as besoin, je t'expliquerai comment t'en passer"
Marc56
Messages : 2148
Inscription : sam. 08/févr./2014 15:19

Re: importer un fichier PDF

Message par Marc56 »

Zorro a écrit :ou lire mon message juste au dessus du tiens :)
Je lui ait donné un filet (= la méthode, comment est constitué un document PDF) (en français) c'est plus utile qu'un simple poisson (une/des lib et des exemples)
Enfin, ça vient en complément, si tu préfères :)
Répondre