Extrahieren des reinen Textes aus einer HTML-Seite.
-
- Beiträge: 35
- Registriert: 16.07.2018 11:14
Extrahieren des reinen Textes aus einer HTML-Seite.
Extrahieren des reinen Textes aus einer HTML-Seite.
Ich benötige Unterstützung. HTML-Seite soll in eine reine Textdatei transferiert werden und zwar so, dass inhaltlicher Text immer in eine neue Zeile portiert wird. Beispiel:
von: "<li><p style="margin-bottom: 0cm;">12-Gefährdung des Kindeswohl</p></li>
<li><p style="margin-bottom: 0cm;">13-Eingeschränkte Erziehungskompetenz der Eltern</p></li>
<li><p style="margin-bottom: 0cm;">14-Belastungen des jungen Menschen durch Problemlagen der Eltern</p></li>
<li><p style="margin-bottom: 0cm;">15-Belastungen des jungen Menschen durch familiäre Konflikte</p></li>
<li><p style="margin-bottom: 0cm;">16-Auffälligkeiten im sozialen Verhalten</p></li>
nach: <li><p style="margin-bottom: 0cm;">
12-Gefährdung des Kindeswohl
</p></li><li><p style="margin-bottom: 0cm;">
13-Eingeschränkte Erziehungskompetenz der Eltern
</p></li><li><p style="margin-bottom: 0cm;">
14-Belastungen des jungen Menschen durch Problemlagen der Eltern
</p></li><li><p style="margin-bottom: 0cm;">
15-Belastungen des jungen Menschen durch familiäre Konflikte
</p></li><li><p style="margin-bottom: 0cm;">
16-Auffälligkeiten im sozialen Verhalten
</p></li>
Mit anderen Worten: Der reine Ausgabetext muss stets in die neue Zeile.
Ich danke schon jetzt für jede Hilfestellung.
MfG Brigitte
Ich benötige Unterstützung. HTML-Seite soll in eine reine Textdatei transferiert werden und zwar so, dass inhaltlicher Text immer in eine neue Zeile portiert wird. Beispiel:
von: "<li><p style="margin-bottom: 0cm;">12-Gefährdung des Kindeswohl</p></li>
<li><p style="margin-bottom: 0cm;">13-Eingeschränkte Erziehungskompetenz der Eltern</p></li>
<li><p style="margin-bottom: 0cm;">14-Belastungen des jungen Menschen durch Problemlagen der Eltern</p></li>
<li><p style="margin-bottom: 0cm;">15-Belastungen des jungen Menschen durch familiäre Konflikte</p></li>
<li><p style="margin-bottom: 0cm;">16-Auffälligkeiten im sozialen Verhalten</p></li>
nach: <li><p style="margin-bottom: 0cm;">
12-Gefährdung des Kindeswohl
</p></li><li><p style="margin-bottom: 0cm;">
13-Eingeschränkte Erziehungskompetenz der Eltern
</p></li><li><p style="margin-bottom: 0cm;">
14-Belastungen des jungen Menschen durch Problemlagen der Eltern
</p></li><li><p style="margin-bottom: 0cm;">
15-Belastungen des jungen Menschen durch familiäre Konflikte
</p></li><li><p style="margin-bottom: 0cm;">
16-Auffälligkeiten im sozialen Verhalten
</p></li>
Mit anderen Worten: Der reine Ausgabetext muss stets in die neue Zeile.
Ich danke schon jetzt für jede Hilfestellung.
MfG Brigitte
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Hallo Brigitte, benötigst du den reinen Text aus dem Html oder ein formatiertes Html?
"Papa, ich laufe schneller - dann ist es nicht so weit."
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Wenn's um den reinen Text geht, würde ich RemoveString() und ReplaceString() verwenden:
Code: Alles auswählen
EnableExplicit
Define HTML.S
HTML = ~"<li><p style=\"margin-bottom: 0cm;\">12-Gefährdung des Kindeswohl</p></li>" +
~"<li><p style=\"margin-bottom: 0cm;\">13-Eingeschränkte Erziehungskompetenz der Eltern</p></li>" +
~"<li><p style=\"margin-bottom: 0cm;\">14-Belastungen des jungen Menschen durch Problemlagen der Eltern</p></li>" +
~"<li><p style=\"margin-bottom: 0cm;\">15-Belastungen des jungen Menschen durch familiäre Konflikte</p></li>" +
~"<li><p style=\"margin-bottom: 0cm;\">16-Auffälligkeiten im sozialen Verhalten</p></li>";
HTML = RemoveString(HTML, ~"<li><p style=\"margin-bottom: 0cm;\">")
HTML = ReplaceString(HTML, "</p></li>", #CRLF$)
Debug HTML
Debug hat geschrieben:12-Gefährdung des Kindeswohl
13-Eingeschränkte Erziehungskompetenz der Eltern
14-Belastungen des jungen Menschen durch Problemlagen der Eltern
15-Belastungen des jungen Menschen durch familiäre Konflikte
16-Auffälligkeiten im sozialen Verhalten
a²+b²=mc²
-
- Beiträge: 35
- Registriert: 16.07.2018 11:14
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Danke erst einmal für die schnelle Hilfe. Es geht mir insgesamt um folgendes. Ich nutze die HTML-Datei als 'Maske' für andere Einträge, also mit anderen Inhalten, aber der gleichen Form. Ich bräuchte dafür so etwas wie eine Funktion unter Pure BASIC, dass die Zeichen '<' und '>' sucht, findet und den Inhalt von <........> in eine neue Zeile separiert. Dazu werden alle Zeilen nummeriert und dann ausgewertet, so dass neue Inhalte die alten Inhalte ersetzen kann und dabei die Struktur erhalten bleibt. Ich komme halt aus der alten EDV, wo Leistung des Computer-Output in Kilo gemessen wurde. Ich verrate mein Alter, sonst fallen einige noch vom Glauben ab. Bis denne und einen schönen Gruß aus dem Ruhrgebiet.
-
- Beiträge: 35
- Registriert: 16.07.2018 11:14
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
... ich verrate mein Alter NICHT.... - soll es natürlich heissen.
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Brigitte, Du hast Dein Alter doch schon in deinem 1. Post verraten 
Magst du vielleicht mal beschreiben, wofür du diese Seperation benötigst? Ich vermute das dir vielleicht eine ganz andere Art und Weise der Programmierung, bspw. XML oder JSON in Kombination einer LinkedList viel besser geeignet ist.

Magst du vielleicht mal beschreiben, wofür du diese Seperation benötigst? Ich vermute das dir vielleicht eine ganz andere Art und Weise der Programmierung, bspw. XML oder JSON in Kombination einer LinkedList viel besser geeignet ist.
"Papa, ich laufe schneller - dann ist es nicht so weit."
-
- Beiträge: 35
- Registriert: 16.07.2018 11:14
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Guten Morgen! Danke für Deine Nachricht, dige!
Ja, Du siehst das richtig. Meine Lebenserwartung ist nur noch minimal. Ich möchte meinem Sohn noch eine Softwarelösung an die Hand geben, die die Tätigkeiten in einer Beratungseinrichtung unterstützt und die nötige Form der Dokumentation für den Beratungsalltag liefert. Deshalb habe ich überlegt und überlegt, wie ich auf die Schnelle noch ein Paket schnüren kann, dass die 'Werkzeuge' anderer Software nutzt, um meinen Programmieranteil so gering wie möglich zu halten. Mir stand im Multiuser-Betriebssystem THEOS folgendes Werkzeug zur Verfügung (auch unter VMWARE), das z.B. auf dem Windows-PC eine Aktion/Programm auslöste. Beispiel: "net exec c:\otrexe\soffice.lnk c:\twsexe\handkal1\handkal1.htm (maximum)". Ich hatte nämlich unter THEOS eine HTML-Seite (auch mit Übertrag und Folgeseiten, also Listen) gefüllt und dann nach WINDOWS übertragen (mit Übertrag und Co) und es sah prima aus, obwohl THEOS so gut wie keine Grafik kannte. Die Basis-HTML-Seite (oder das Muster) wurde mit OpenOffice entworfen (seit 1992). In einem weiteren Schritt ziehe ich jedes HTML-Dokument als Datenbank (!!!) heran, überprüfe (per Programm) die Dateneingabe und verarbeite die Daten dann in einer x-beliebigen Datenbank... wahrscheinlich unter THEOS. Mit anderen Worten: kein AJAX und Co und viel Programmierung, sondern nur gesicherte Menüführung, ordentliches LOGIN und LOGOUT sowie 'Parsen' der HTML-Daten mit einer Art 'XML' .... und diese Programme habe ich ja seit mehr als 20 Jahren. Die Wartung der Software kann ich dann beruhigt meinem Sohn überlassen, da er ja nur noch HTML-Seiten pflegen bzw. erstellen muss. Danke für die Aufmerksamkeit!
Ja, Du siehst das richtig. Meine Lebenserwartung ist nur noch minimal. Ich möchte meinem Sohn noch eine Softwarelösung an die Hand geben, die die Tätigkeiten in einer Beratungseinrichtung unterstützt und die nötige Form der Dokumentation für den Beratungsalltag liefert. Deshalb habe ich überlegt und überlegt, wie ich auf die Schnelle noch ein Paket schnüren kann, dass die 'Werkzeuge' anderer Software nutzt, um meinen Programmieranteil so gering wie möglich zu halten. Mir stand im Multiuser-Betriebssystem THEOS folgendes Werkzeug zur Verfügung (auch unter VMWARE), das z.B. auf dem Windows-PC eine Aktion/Programm auslöste. Beispiel: "net exec c:\otrexe\soffice.lnk c:\twsexe\handkal1\handkal1.htm (maximum)". Ich hatte nämlich unter THEOS eine HTML-Seite (auch mit Übertrag und Folgeseiten, also Listen) gefüllt und dann nach WINDOWS übertragen (mit Übertrag und Co) und es sah prima aus, obwohl THEOS so gut wie keine Grafik kannte. Die Basis-HTML-Seite (oder das Muster) wurde mit OpenOffice entworfen (seit 1992). In einem weiteren Schritt ziehe ich jedes HTML-Dokument als Datenbank (!!!) heran, überprüfe (per Programm) die Dateneingabe und verarbeite die Daten dann in einer x-beliebigen Datenbank... wahrscheinlich unter THEOS. Mit anderen Worten: kein AJAX und Co und viel Programmierung, sondern nur gesicherte Menüführung, ordentliches LOGIN und LOGOUT sowie 'Parsen' der HTML-Daten mit einer Art 'XML' .... und diese Programme habe ich ja seit mehr als 20 Jahren. Die Wartung der Software kann ich dann beruhigt meinem Sohn überlassen, da er ja nur noch HTML-Seiten pflegen bzw. erstellen muss. Danke für die Aufmerksamkeit!
-
- Beiträge: 35
- Registriert: 16.07.2018 11:14
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
... noch eine kleine Anmerkung: Unter THEOS habe ich im 1. Schritt die HTML-Datei in nur eine Textvariable geschmissen. Im 2. Schritt erfolgte sie Separierung (also Befehlsfolge = 1 Zeile und Inhalt eine Zeile: siehe kleines Beispiel und damit hatte ich mit Positionsgabe auch den sichtbaren Inhalt.)
ALSO: 0001:<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
0002:<HTML>
0003:<HEAD>
0004:<META HTTP-EQUIV="CONTENT-TYPE" CONTENT="text/html; charset=windows-1252">
0005:<TITLE>
0006:</TITLE>
0007:<META NAME="GENERATOR" CONTENT="OpenOffice.org 1.1.5 (Win32)">
0008:<META NAME="CREATED" CONTENT="20051214;7064020">
0009:<META NAME="CHANGED" CONTENT="20230115;7220373">
0010:<META NAME="ProgId" CONTENT="Word.Document">
0011:<META NAME="Originator" CONTENT="Microsoft Word 15">
0012:<!--[if gte mso 9]>
0013:<xml>
0014:<o:DocumentProperties>
0015:<o:Author>
0016: Stefan
0017:</o:Author>
0018:<o:Template>
0019: Normal
0020:</o:Template>
0021:<o:LastAuthor>
0022: Stefan
0023:</o:LastAuthor>
0024:<o:Revision>
0025:Name der Bank
Über den Inhaltsschlüssel 0016 oder 0022 hatte ich den gewünschten Inhalt, der mit anderen Texten ersetzt werden konnte (zum Beispiel Fritz) ...
ALSO: 0001:<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
0002:<HTML>
0003:<HEAD>
0004:<META HTTP-EQUIV="CONTENT-TYPE" CONTENT="text/html; charset=windows-1252">
0005:<TITLE>
0006:</TITLE>
0007:<META NAME="GENERATOR" CONTENT="OpenOffice.org 1.1.5 (Win32)">
0008:<META NAME="CREATED" CONTENT="20051214;7064020">
0009:<META NAME="CHANGED" CONTENT="20230115;7220373">
0010:<META NAME="ProgId" CONTENT="Word.Document">
0011:<META NAME="Originator" CONTENT="Microsoft Word 15">
0012:<!--[if gte mso 9]>
0013:<xml>
0014:<o:DocumentProperties>
0015:<o:Author>
0016: Stefan
0017:</o:Author>
0018:<o:Template>
0019: Normal
0020:</o:Template>
0021:<o:LastAuthor>
0022: Stefan
0023:</o:LastAuthor>
0024:<o:Revision>
0025:Name der Bank
Über den Inhaltsschlüssel 0016 oder 0022 hatte ich den gewünschten Inhalt, der mit anderen Texten ersetzt werden konnte (zum Beispiel Fritz) ...
-
- Beiträge: 35
- Registriert: 16.07.2018 11:14
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
.........soooooooooooooooooooooooo, det brauch' ich.
-
- Beiträge: 35
- Registriert: 16.07.2018 11:14
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
... und noch ein letztes: Wer meine Programme in THEOS-BASIC haben möchte, soll es sagen. Ich habe kein Problem damit. Es ist auch tatsächlich lesbar...