Extrahieren des reinen Textes aus einer HTML-Seite.

brigitte2018 · Beitrag von **brigitte2018** » 07.11.2023 19:10

Extrahieren des reinen Textes aus einer HTML-Seite.
Ich benötige Unterstützung. HTML-Seite soll in eine reine Textdatei transferiert werden und zwar so, dass inhaltlicher Text immer in eine neue Zeile portiert wird. Beispiel:

von: "<li>12-Gefährdung des Kindeswohl</li>
<li>13-Eingeschränkte Erziehungskompetenz der Eltern</li>
<li>14-Belastungen des jungen Menschen durch Problemlagen der Eltern</li>
<li>15-Belastungen des jungen Menschen durch familiäre Konflikte</li>
<li>16-Auffälligkeiten im sozialen Verhalten</li>

nach: <li>
12-Gefährdung des Kindeswohl
</li><li>
13-Eingeschränkte Erziehungskompetenz der Eltern
</li><li>
14-Belastungen des jungen Menschen durch Problemlagen der Eltern
</li><li>
15-Belastungen des jungen Menschen durch familiäre Konflikte
</li><li>
16-Auffälligkeiten im sozialen Verhalten
</li>

Mit anderen Worten: Der reine Ausgabetext muss stets in die neue Zeile.

Ich danke schon jetzt für jede Hilfestellung.
MfG Brigitte

dige · Beitrag von **dige** » 07.11.2023 19:27

Hallo Brigitte, benötigst du den reinen Text aus dem Html oder ein formatiertes Html?

Beitrag von **Kiffi** » 07.11.2023 19:37

Wenn's um den reinen Text geht, würde ich RemoveString() und ReplaceString() verwenden:

Code: Alles auswählen

EnableExplicit

Define HTML.S

HTML = ~"<li><p style=\"margin-bottom: 0cm;\">12-Gefährdung des Kindeswohl</p></li>" + 
       ~"<li><p style=\"margin-bottom: 0cm;\">13-Eingeschränkte Erziehungskompetenz der Eltern</p></li>" + 
       ~"<li><p style=\"margin-bottom: 0cm;\">14-Belastungen des jungen Menschen durch Problemlagen der Eltern</p></li>" + 
       ~"<li><p style=\"margin-bottom: 0cm;\">15-Belastungen des jungen Menschen durch familiäre Konflikte</p></li>" + 
       ~"<li><p style=\"margin-bottom: 0cm;\">16-Auffälligkeiten im sozialen Verhalten</p></li>";

HTML = RemoveString(HTML, ~"<li><p style=\"margin-bottom: 0cm;\">")
HTML = ReplaceString(HTML, "</p></li>", #CRLF$)

Debug HTML

Debug hat geschrieben:12-Gefährdung des Kindeswohl
13-Eingeschränkte Erziehungskompetenz der Eltern
14-Belastungen des jungen Menschen durch Problemlagen der Eltern
15-Belastungen des jungen Menschen durch familiäre Konflikte
16-Auffälligkeiten im sozialen Verhalten

brigitte2018 · Beitrag von **brigitte2018** » 07.11.2023 21:59

Danke erst einmal für die schnelle Hilfe. Es geht mir insgesamt um folgendes. Ich nutze die HTML-Datei als 'Maske' für andere Einträge, also mit anderen Inhalten, aber der gleichen Form. Ich bräuchte dafür so etwas wie eine Funktion unter Pure BASIC, dass die Zeichen '<' und '>' sucht, findet und den Inhalt von <........> in eine neue Zeile separiert. Dazu werden alle Zeilen nummeriert und dann ausgewertet, so dass neue Inhalte die alten Inhalte ersetzen kann und dabei die Struktur erhalten bleibt. Ich komme halt aus der alten EDV, wo Leistung des Computer-Output in Kilo gemessen wurde. Ich verrate mein Alter, sonst fallen einige noch vom Glauben ab. Bis denne und einen schönen Gruß aus dem Ruhrgebiet.

brigitte2018 · Beitrag von **brigitte2018** » 07.11.2023 22:02

... ich verrate mein Alter NICHT.... - soll es natürlich heissen.

dige · Beitrag von **dige** » 07.11.2023 22:28

Brigitte, Du hast Dein Alter doch schon in deinem 1. Post verraten

Magst du vielleicht mal beschreiben, wofür du diese Seperation benötigst? Ich vermute das dir vielleicht eine ganz andere Art und Weise der Programmierung, bspw. XML oder JSON in Kombination einer LinkedList viel besser geeignet ist.

brigitte2018 · Beitrag von **brigitte2018** » 08.11.2023 09:49

Guten Morgen! Danke für Deine Nachricht, dige!

Ja, Du siehst das richtig. Meine Lebenserwartung ist nur noch minimal. Ich möchte meinem Sohn noch eine Softwarelösung an die Hand geben, die die Tätigkeiten in einer Beratungseinrichtung unterstützt und die nötige Form der Dokumentation für den Beratungsalltag liefert. Deshalb habe ich überlegt und überlegt, wie ich auf die Schnelle noch ein Paket schnüren kann, dass die 'Werkzeuge' anderer Software nutzt, um meinen Programmieranteil so gering wie möglich zu halten. Mir stand im Multiuser-Betriebssystem THEOS folgendes Werkzeug zur Verfügung (auch unter VMWARE), das z.B. auf dem Windows-PC eine Aktion/Programm auslöste. Beispiel: "net exec c:\otrexe\soffice.lnk c:\twsexe\handkal1\handkal1.htm (maximum)". Ich hatte nämlich unter THEOS eine HTML-Seite (auch mit Übertrag und Folgeseiten, also Listen) gefüllt und dann nach WINDOWS übertragen (mit Übertrag und Co) und es sah prima aus, obwohl THEOS so gut wie keine Grafik kannte. Die Basis-HTML-Seite (oder das Muster) wurde mit OpenOffice entworfen (seit 1992). In einem weiteren Schritt ziehe ich jedes HTML-Dokument als Datenbank (!!!) heran, überprüfe (per Programm) die Dateneingabe und verarbeite die Daten dann in einer x-beliebigen Datenbank... wahrscheinlich unter THEOS. Mit anderen Worten: kein AJAX und Co und viel Programmierung, sondern nur gesicherte Menüführung, ordentliches LOGIN und LOGOUT sowie 'Parsen' der HTML-Daten mit einer Art 'XML' .... und diese Programme habe ich ja seit mehr als 20 Jahren. Die Wartung der Software kann ich dann beruhigt meinem Sohn überlassen, da er ja nur noch HTML-Seiten pflegen bzw. erstellen muss. Danke für die Aufmerksamkeit!

brigitte2018 · Beitrag von **brigitte2018** » 08.11.2023 11:59

... noch eine kleine Anmerkung: Unter THEOS habe ich im 1. Schritt die HTML-Datei in nur eine Textvariable geschmissen. Im 2. Schritt erfolgte sie Separierung (also Befehlsfolge = 1 Zeile und Inhalt eine Zeile: siehe kleines Beispiel und damit hatte ich mit Positionsgabe auch den sichtbaren Inhalt.)

ALSO: 0001:<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
0002:<HTML>
0003:<HEAD>
0004:<META HTTP-EQUIV="CONTENT-TYPE" CONTENT="text/html; charset=windows-1252">
0005:<TITLE>
0006:</TITLE>
0007:<META NAME="GENERATOR" CONTENT="OpenOffice.org 1.1.5 (Win32)">
0008:<META NAME="CREATED" CONTENT="20051214;7064020">
0009:<META NAME="CHANGED" CONTENT="20230115;7220373">
0010:<META NAME="ProgId" CONTENT="Word.Document">
0011:<META NAME="Originator" CONTENT="Microsoft Word 15">
0012:<!--[if gte mso 9]>
0013:<xml>
0014:<o:DocumentProperties>
0015:<o:Author>
0016: Stefan
0017:</o:Author>
0018:<o:Template>
0019: Normal
0020:</o:Template>
0021:<o:LastAuthor>
0022: Stefan
0023:</o:LastAuthor>
0024:<o:Revision>
0025:Name der Bank
Über den Inhaltsschlüssel 0016 oder 0022 hatte ich den gewünschten Inhalt, der mit anderen Texten ersetzt werden konnte (zum Beispiel Fritz) ...

brigitte2018 · Beitrag von **brigitte2018** » 08.11.2023 12:02

.........soooooooooooooooooooooooo, det brauch' ich.

brigitte2018 · Beitrag von **brigitte2018** » 08.11.2023 12:23

... und noch ein letztes: Wer meine Programme in THEOS-BASIC haben möchte, soll es sagen. Ich habe kein Problem damit. Es ist auch tatsächlich lesbar...

PureBoard

Extrahieren des reinen Textes aus einer HTML-Seite.

Extrahieren des reinen Textes aus einer HTML-Seite.

Re: Extrahieren des reinen Textes aus einer HTML-Seite.

Re: Extrahieren des reinen Textes aus einer HTML-Seite.

Re: Extrahieren des reinen Textes aus einer HTML-Seite.

Re: Extrahieren des reinen Textes aus einer HTML-Seite.

Re: Extrahieren des reinen Textes aus einer HTML-Seite.

Re: Extrahieren des reinen Textes aus einer HTML-Seite.

Re: Extrahieren des reinen Textes aus einer HTML-Seite.

Re: Extrahieren des reinen Textes aus einer HTML-Seite.

Re: Extrahieren des reinen Textes aus einer HTML-Seite.