Was meinst du denn mit lesen? Möchtest du auf den Inhalt/Text mit PB zugreifen oder soll das PDF einfach nur visuell lesbar sein? Falls letzteres, könntest du einfach das WebGadget (Edge) dafür nehmen.
"Papa, ich laufe schneller - dann ist es nicht so weit."
Then hat geschrieben: 27.11.2024 13:22
Ich meine schon den Text in PB als String einlesen... ohne Steuerzeichen etc.
würde ich persönlich mit einem Commandlinetool (z.b. pdftotext (https://www.xpdfreader.com/download.html)) realisieren, welches Du dann per RunProgram() aufrufen kannst.
Text aus PDFs zu extrahieren ist eine Wissenschaft für sich. Nur wenn ein PDF auch barrierefrei und damit sauber getagt ist (was die wenigsten sind), kannst du Text ordentlich und in der richtigen Reihenfolge extrahieren. Denn PDFs waren nie dafür gedacht maschinenlesbar zu sein, sondern immer nur dafür etwas menschenlesbar oder zum Drucken darzustellen.
Ich würde deshalb auf externe Tools zugreifen, und da gibt es ein paar, die das halbwegs gut können. Da hilft dir am besten Google oder ChatGPT. Meine Erfahrung damit ist sehr eingerostet und lange her.
Vielen Dank für die Antworten. Wäre es denn möglich, das PDF im Hintergrund unsichtbar zu öffnen, STRG + A & STRG & C zu senden und dann zu schließen. Dann hätte ichs im Clipboard und da kann ich mit arbeiten