Extrahieren des reinen Textes aus einer HTML-Seite.
-
- Beiträge: 35
- Registriert: 16.07.2018 11:14
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Post by H.Brill » Today 08:58
<Die Zahlen vor deinen Zeilen sind mir noch Schleierhaft.>
Ich nehme an, daß das eine Art Sammlung von Themen werden soll.
Was wir nicht wissen, ist, ob die Themen dann fortlaufend in einer
einzigen Texrdatei oder mehreren Textdateien gespeichert werden
sollen. Oder sollen sie etwa durch neue ausgetauscht werden, wenn
das Thema Nr. x schon vorhanden ist ?"
Ich stelle, sobald ich Zeit finden kann, das Ganze ins Netz, damit wirlich alle Einzelschritte nachvollziehbar sind. Im Übrigen bist Du dem Täter schon sehr auf der Spur.
Ein lieber Gruß, Brigitte.
<Die Zahlen vor deinen Zeilen sind mir noch Schleierhaft.>
Ich nehme an, daß das eine Art Sammlung von Themen werden soll.
Was wir nicht wissen, ist, ob die Themen dann fortlaufend in einer
einzigen Texrdatei oder mehreren Textdateien gespeichert werden
sollen. Oder sollen sie etwa durch neue ausgetauscht werden, wenn
das Thema Nr. x schon vorhanden ist ?"
Ich stelle, sobald ich Zeit finden kann, das Ganze ins Netz, damit wirlich alle Einzelschritte nachvollziehbar sind. Im Übrigen bist Du dem Täter schon sehr auf der Spur.
Ein lieber Gruß, Brigitte.
- NicTheQuick
- Ein Admin
- Beiträge: 8807
- Registriert: 29.08.2004 20:20
- Computerausstattung: Ryzen 7 5800X, 64 GB DDR4-3200
Ubuntu 24.04.2 LTS
GeForce RTX 3080 Ti - Wohnort: Saarbrücken
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Na wenn die bestehenden Formulare als HTML vorliegen, dann funktioniert mein Code doch. Du musst nur statt des fest einkodierten Eingabestrings den Inhalt einer Datei nutzen. Und dann kriegst du genau das raus, was du wolltest. Ein HTML, in dem alle sichtbaren Textinhalte in einer neuen Zeile stehen.brigitte2018 hat geschrieben: 14.11.2023 15:27Im übrigen hast Du die Anforderungen völlig missverstanden. Es geht um die maschinelle Datenverwertung von bereits bestehenden Formularen und nicht umgekehrt. Ich wünsche einen schönen Nachmittag, Brigitte.
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Hallo Brigitte,
Da ja der erste Teil, also aus der HTML die Texte zu extrahieren, ja so ziemlich durch/glöst ist,
kommt jetzt noch die Frage, was du mit der Textdatei vorhast ? Willst du die nur einfach mit einem
Editor anschauen oder soll das ganze auch noch übersichtlich dargestellt werden ? Je, nach Verwendungs-
zweck kann man sie dann auch gleich richtig speichern.
Ich könnte mir da auch ein TreeView (Baumansicht) gut vorstellen, vor allem wenn du evtl. nach Kategorien
ordnen willst. Als Kategorien könnte ich mir z.b. Famile, Beruf, Schule, Allgemein o.ä. vorstellen. Die Zeiten,
wo man alles nur zeilenweise oder noch tabellarisch auf den Bildschirm bringen konnte, sind ja vorbei. So ein
Treeview ist ja im Prinzip nicht viel anders als ein HTML oder XML. Statt mit TAGs wird hier mit Knoten (Nodes)
und Unterknoten gearbeitet. Und das ganze halt noch auf- und zuklappbar. Man könnte ja den Nutzer wählen
lassen, in welche Kategrie er welchen Text haben möchte oder man markiert die Texte vorher entsprechend
und das Programm sortiert dann automatisch ein.
Da bietet PB ja auch so einiges.
Da ja der erste Teil, also aus der HTML die Texte zu extrahieren, ja so ziemlich durch/glöst ist,
kommt jetzt noch die Frage, was du mit der Textdatei vorhast ? Willst du die nur einfach mit einem
Editor anschauen oder soll das ganze auch noch übersichtlich dargestellt werden ? Je, nach Verwendungs-
zweck kann man sie dann auch gleich richtig speichern.
Ich könnte mir da auch ein TreeView (Baumansicht) gut vorstellen, vor allem wenn du evtl. nach Kategorien
ordnen willst. Als Kategorien könnte ich mir z.b. Famile, Beruf, Schule, Allgemein o.ä. vorstellen. Die Zeiten,
wo man alles nur zeilenweise oder noch tabellarisch auf den Bildschirm bringen konnte, sind ja vorbei. So ein
Treeview ist ja im Prinzip nicht viel anders als ein HTML oder XML. Statt mit TAGs wird hier mit Knoten (Nodes)
und Unterknoten gearbeitet. Und das ganze halt noch auf- und zuklappbar. Man könnte ja den Nutzer wählen
lassen, in welche Kategrie er welchen Text haben möchte oder man markiert die Texte vorher entsprechend
und das Programm sortiert dann automatisch ein.
Da bietet PB ja auch so einiges.
PB 6.10
-
- Beiträge: 35
- Registriert: 16.07.2018 11:14
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Moin!
So ich habe die Übersicht ein wenig überarbeitet und Du kannst diese unter "http://www.roehrig-hartmann.de/www/INDEX001.html" Dir ansehen. Da ist es schon einmal etwas übersichtlicher, so hoffe ich. Du bist dem Täter schon ganz schön auf der Spur. Richtig ist, dass ich das Ganze schon vor fast 30 Jahren entwickelt habe, um dem Nutzer, Bediener im Rahmen einer Terminal-Emulation die so geliebte Windowsoberfläche zu präsentieren. Klar hatte ich auch eine Textverarbeitung mit Typenraddrucker geschrieben, aber gegen die bunten Bilder kam ich so leicht nicht an. Daraus entwickelte ich dann meine Branchensoftware komplett auf die Präsentation unter WINDOWS, wobei Programme und Datenhaltung weiter unter dem Multiuser-Betriebssystem THEOS (die Leistungsfähigkeit war analog von UNIX oder Sinix) verblieb. Ich habe in meinem ersten Lehrjahr ja noch eine Hollerith-Abteilung kennengelernt und die Lochkarte als wirklich universiellen Datenträger erfahren können. Meine kaufm. Lehre begann ich auf Zollverein und wohnte mit meinen Eltern in der Verwaltung der Zeche Zollverein in Essen-Katernberg und somit bin ich auch Teil des Weltkulturerbes Zollverein. Hahahaha! - Dann kamen später Studium der Philosophie und doch letztlich wieder die EDV und die Software-Entwicklung. So das Ganze einmal als Rahmen aufgestellt. Und jetzt will ich die HTML-Seite als Formular (und eine HTML-Seite kann ja theoretisch kilometerlang sein) zum universiellen Datenträger aufmotzen, wo sich Datenbanken ja bedienen können. Nun muss ich aber erst einmal pausieren. LG, Brigitte.
So ich habe die Übersicht ein wenig überarbeitet und Du kannst diese unter "http://www.roehrig-hartmann.de/www/INDEX001.html" Dir ansehen. Da ist es schon einmal etwas übersichtlicher, so hoffe ich. Du bist dem Täter schon ganz schön auf der Spur. Richtig ist, dass ich das Ganze schon vor fast 30 Jahren entwickelt habe, um dem Nutzer, Bediener im Rahmen einer Terminal-Emulation die so geliebte Windowsoberfläche zu präsentieren. Klar hatte ich auch eine Textverarbeitung mit Typenraddrucker geschrieben, aber gegen die bunten Bilder kam ich so leicht nicht an. Daraus entwickelte ich dann meine Branchensoftware komplett auf die Präsentation unter WINDOWS, wobei Programme und Datenhaltung weiter unter dem Multiuser-Betriebssystem THEOS (die Leistungsfähigkeit war analog von UNIX oder Sinix) verblieb. Ich habe in meinem ersten Lehrjahr ja noch eine Hollerith-Abteilung kennengelernt und die Lochkarte als wirklich universiellen Datenträger erfahren können. Meine kaufm. Lehre begann ich auf Zollverein und wohnte mit meinen Eltern in der Verwaltung der Zeche Zollverein in Essen-Katernberg und somit bin ich auch Teil des Weltkulturerbes Zollverein. Hahahaha! - Dann kamen später Studium der Philosophie und doch letztlich wieder die EDV und die Software-Entwicklung. So das Ganze einmal als Rahmen aufgestellt. Und jetzt will ich die HTML-Seite als Formular (und eine HTML-Seite kann ja theoretisch kilometerlang sein) zum universiellen Datenträger aufmotzen, wo sich Datenbanken ja bedienen können. Nun muss ich aber erst einmal pausieren. LG, Brigitte.
- NicTheQuick
- Ein Admin
- Beiträge: 8807
- Registriert: 29.08.2004 20:20
- Computerausstattung: Ryzen 7 5800X, 64 GB DDR4-3200
Ubuntu 24.04.2 LTS
GeForce RTX 3080 Ti - Wohnort: Saarbrücken
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Okay, ich komme nicht mehr mit.
Eine HTML-Seite als universeller Datenträger ist einfach nur Quatsch. Von mir aus hat man vor 30 Jahren so gearbeitet, aber ganz ehrlich, da ist ja sogar Excel/Calc sinnvoller. Aber es sollte doch mindestens XML/XHTML sein. Und Datenbanken bedienen sich üblicherweise nirgends, sondern man bedient sich bei Datenbanken. Und Datenbanken gibt es wie Sand am Meer, welche meinst du also damit? Und wo kommt Purebasic da jetzt eigentlich ins Spiel?
Ich nehme an, dass dieses Formular das ursprüngliche "Datenobjekt" darstellt, das du verarbeiten willst. Und die ganzen "Formulare nach Programm 1 bis 5" stellen dar, was du mit Purebasic daraus erzeugen willst? Oder sind das nur Zwischenschritte oder einfach nur Versuche?
Ich würde sicherstellen, dass das HTML XHTML-konform ist und dann einfach alles mit der XML-Bibliothek von Purebasic verarbeiten. Andere Programmiersprachen wie Python wären da aber wesentlich eleganter zu nutzen. Die XML-Bibliothek von Purebasic ist echt unschön zu benutzen.
Eine HTML-Seite als universeller Datenträger ist einfach nur Quatsch. Von mir aus hat man vor 30 Jahren so gearbeitet, aber ganz ehrlich, da ist ja sogar Excel/Calc sinnvoller. Aber es sollte doch mindestens XML/XHTML sein. Und Datenbanken bedienen sich üblicherweise nirgends, sondern man bedient sich bei Datenbanken. Und Datenbanken gibt es wie Sand am Meer, welche meinst du also damit? Und wo kommt Purebasic da jetzt eigentlich ins Spiel?
Ich nehme an, dass dieses Formular das ursprüngliche "Datenobjekt" darstellt, das du verarbeiten willst. Und die ganzen "Formulare nach Programm 1 bis 5" stellen dar, was du mit Purebasic daraus erzeugen willst? Oder sind das nur Zwischenschritte oder einfach nur Versuche?
Ich würde sicherstellen, dass das HTML XHTML-konform ist und dann einfach alles mit der XML-Bibliothek von Purebasic verarbeiten. Andere Programmiersprachen wie Python wären da aber wesentlich eleganter zu nutzen. Die XML-Bibliothek von Purebasic ist echt unschön zu benutzen.
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Ich auch nicht mehr so ganz.
Normalerweise verstehe ich unter einem Formular eine Seite, in der Benutzer
was eingeben kann. Sowas halt, wie man es auch handschriftlich kennt (z.b.Antragsformulare).
Ich hatte mal sowas ähnliches als ausfüllbares .PDF für Katzenvermittler gemacht. Da konnte
der Benutzer auch alles ausfüllen und als .pdf speichern. Mein Programm bestand damals nur
aus einer Tabelle, die die Chipnummern speicherte und nach Bedarf den Acrobat Reader mit
Chipnummer.pdf aufrief. Diese Chipnummern sind ja weltweit einzigartig, sodaß ein doppeltes
Speichern nicht möglich war. Auch ein Bild der Katze ließ sich per Explorer einfügen. Der Vorteil
war, daß man alles pro Katze + neuer Besitzer in einer .pdf hatte und sich auch für einen Ordner
ausdrucken ließ. Der Hauptgrund war, daß sich meine Cousine nicht mehr durch einen Berg von
Leitz-Ordnern wühlen mußte, wenn sie etwa bei Totfund feststellen wollte, ob es eine ihrer vermittelten
Katzen war. Sie wollte halt sowas haben, wo sie auch mal ohne mein Programm, etwas anschauen konnte.
Neuerdings verlangt aber Acrobat Geld für einen Reader, der das kann.
Sowas geht natürlich auch in HTML :
Ansonsten würde ich das heute auch mit einem TabControl oder Treeview und am besten mit JSON machen.
Da muß sich aber Brigitte nochmals melden, damit wir etwas klarer sehen.
Normalerweise verstehe ich unter einem Formular eine Seite, in der Benutzer
was eingeben kann. Sowas halt, wie man es auch handschriftlich kennt (z.b.Antragsformulare).
Ich hatte mal sowas ähnliches als ausfüllbares .PDF für Katzenvermittler gemacht. Da konnte
der Benutzer auch alles ausfüllen und als .pdf speichern. Mein Programm bestand damals nur
aus einer Tabelle, die die Chipnummern speicherte und nach Bedarf den Acrobat Reader mit
Chipnummer.pdf aufrief. Diese Chipnummern sind ja weltweit einzigartig, sodaß ein doppeltes
Speichern nicht möglich war. Auch ein Bild der Katze ließ sich per Explorer einfügen. Der Vorteil
war, daß man alles pro Katze + neuer Besitzer in einer .pdf hatte und sich auch für einen Ordner
ausdrucken ließ. Der Hauptgrund war, daß sich meine Cousine nicht mehr durch einen Berg von
Leitz-Ordnern wühlen mußte, wenn sie etwa bei Totfund feststellen wollte, ob es eine ihrer vermittelten
Katzen war. Sie wollte halt sowas haben, wo sie auch mal ohne mein Programm, etwas anschauen konnte.
Neuerdings verlangt aber Acrobat Geld für einen Reader, der das kann.
Sowas geht natürlich auch in HTML :
Code: Alles auswählen
<form>
<label for="vname">Vorname:
<input id="vname" name="vname">
</label>
<label for="zname">Zuname:
<input id="zname" name="zname">
</label>
<label for="männl">männlich</label>
<input type="radio" id="männl" name="geschlecht" value="0">
<label for="weibl">weiblich</label>
<input type="radio" id="weibl" name="geschlecht" value="1">
<label for="queer">queer</label>
<input type="radio" id="queer" name="geschlecht" value="2">
<label for="alter">über 18:</label>
<input type="checkbox" id="alter" name="alter">
<input type="submit" value="senden">
</form>
Da muß sich aber Brigitte nochmals melden, damit wir etwas klarer sehen.
PB 6.10
-
- Beiträge: 35
- Registriert: 16.07.2018 11:14
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Ich zitiere:
1) "Okay, ich komme nicht mehr mit." > Da hast Du recht.
2) "Eine HTML-Seite als universeller Datenträger ist einfach nur Quatsch." > Du bist blind und vergisst alle HTML-Seiten in der Welt."
3) "Von mir aus hat man vor 30 Jahren so gearbeitet, aber ganz ehrlich, da ist ja sogar Excel/Calc sinnvoller."
> Niemand hat vor 30 Jahren so gearbeitet und Du gibst Dich amateurhaft, wenn Du Excel/Calc als quasi professionelle Arbeitsmittel ansiehst.
4) "Aber es sollte doch mindestens XML/XHTML sein." > Du hast die Anwendung immer noch nicht verstanden. Und ich fürchte, das bleibt auch so.
5) "Und Datenbanken bedienen sich üblicherweise nirgends, sondern man bedient sich bei Datenbanken.
und Datenbanken gibt es wie Sand am Meer, welche meinst du also damit? Und wo kommt Purebasic da jetzt eigentlich ins Spiel?"
> Ich befürchte, das verstehst Du jetzt aber überhaupt nicht mehr. Ich will es aber trotzdem versuchen: Alle Informationen dieser Welt sind daselbst
schön verteilt: in den Köpfen mancher Menschen natürlich, in Firmen, in Landschaften, Gebäuden, Fabriken, Kitas, Schulen, usw. und natürlich auch auf diesem Forum.
Datenbanken können mit entsprechender Hilfestellung sich dieser Informationen bedienen, um zu besseren Schlussfolgerungen/Ergebnissen zu gelangen."
Wo also liegt das Wissen der Welt? - Doch nicht in Datenbanken!
6) "Ich nehme an, dass dieses Formular das ursprüngliche "Datenobjekt" darstellt, dass du verarbeiten willst."
> Das ist nicht ganz falsch. Aber in Deinem Kontext leider auch daneben.
7) "Und die ganzen "Formulare nach Programm 1 bis 5" stellen dar, was du mit Purebasic daraus erzeugen willst?
Oder sind das nur Zwischenschritte oder einfach nur Versuche?"
>Nee! - Alles, was wir Menschen tun, sind Zwischenschritte und Versuche. Ansonsten ist Deine Annahme völlig daneben.
"Ich würde sicherstellen, dass das HTML XHTML-konform ist und dann einfach alles mit der XML-Bibliothek von Purebasic verarbeiten.
Andere Programmiersprachen wie Python wären da aber wesentlich eleganter zu nutzen. Die XML-Bibliothek von Purebasic ist echt unschön zu benutzen."
>Völlig unabhängig davon, dass XML-Bibliotheken mit Purebasic nicht gerade der letzte Schrei sind, gilt: Der einfache Weg, nämlich mit ">" und "<" ist einfach
besser und zukunftssicherer und.... hat sich bewährt.
Im übrigen empfehle ich Dir mehr Bescheidenheit. Das macht immer einen guten Eindruck.
1) "Okay, ich komme nicht mehr mit." > Da hast Du recht.
2) "Eine HTML-Seite als universeller Datenträger ist einfach nur Quatsch." > Du bist blind und vergisst alle HTML-Seiten in der Welt."
3) "Von mir aus hat man vor 30 Jahren so gearbeitet, aber ganz ehrlich, da ist ja sogar Excel/Calc sinnvoller."
> Niemand hat vor 30 Jahren so gearbeitet und Du gibst Dich amateurhaft, wenn Du Excel/Calc als quasi professionelle Arbeitsmittel ansiehst.
4) "Aber es sollte doch mindestens XML/XHTML sein." > Du hast die Anwendung immer noch nicht verstanden. Und ich fürchte, das bleibt auch so.
5) "Und Datenbanken bedienen sich üblicherweise nirgends, sondern man bedient sich bei Datenbanken.
und Datenbanken gibt es wie Sand am Meer, welche meinst du also damit? Und wo kommt Purebasic da jetzt eigentlich ins Spiel?"
> Ich befürchte, das verstehst Du jetzt aber überhaupt nicht mehr. Ich will es aber trotzdem versuchen: Alle Informationen dieser Welt sind daselbst
schön verteilt: in den Köpfen mancher Menschen natürlich, in Firmen, in Landschaften, Gebäuden, Fabriken, Kitas, Schulen, usw. und natürlich auch auf diesem Forum.
Datenbanken können mit entsprechender Hilfestellung sich dieser Informationen bedienen, um zu besseren Schlussfolgerungen/Ergebnissen zu gelangen."
Wo also liegt das Wissen der Welt? - Doch nicht in Datenbanken!
6) "Ich nehme an, dass dieses Formular das ursprüngliche "Datenobjekt" darstellt, dass du verarbeiten willst."
> Das ist nicht ganz falsch. Aber in Deinem Kontext leider auch daneben.
7) "Und die ganzen "Formulare nach Programm 1 bis 5" stellen dar, was du mit Purebasic daraus erzeugen willst?
Oder sind das nur Zwischenschritte oder einfach nur Versuche?"
>Nee! - Alles, was wir Menschen tun, sind Zwischenschritte und Versuche. Ansonsten ist Deine Annahme völlig daneben.

Andere Programmiersprachen wie Python wären da aber wesentlich eleganter zu nutzen. Die XML-Bibliothek von Purebasic ist echt unschön zu benutzen."
>Völlig unabhängig davon, dass XML-Bibliotheken mit Purebasic nicht gerade der letzte Schrei sind, gilt: Der einfache Weg, nämlich mit ">" und "<" ist einfach
besser und zukunftssicherer und.... hat sich bewährt.
Im übrigen empfehle ich Dir mehr Bescheidenheit. Das macht immer einen guten Eindruck.
-
- Beiträge: 35
- Registriert: 16.07.2018 11:14
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
...an: Hallo Brill und guten Tag!
Ich komme auf Deine Anmerkungen noch zurück. Ich will aber schon an dieser Stelle einen Hinweis geben: Statt vieler, immer wieder zu optimierende Datenerfassungsprogramme zu schreiben, nehme ich als Datenerfassungsbasis HTML-Dateien (quasi von ganz unten gewünscht), wo Felder besonders geschützt werden können usw. usw. und dass diese in einer allgemeinen Lösung einer oder mehrerer Datenbanken 'Aufnahme' finden und kontrolliert werden, denn das entscheidende Wissen und Können trifft man vor Ort und selten in der IT-Hierarchie.
Ich komme auf Deine Anmerkungen noch zurück. Ich will aber schon an dieser Stelle einen Hinweis geben: Statt vieler, immer wieder zu optimierende Datenerfassungsprogramme zu schreiben, nehme ich als Datenerfassungsbasis HTML-Dateien (quasi von ganz unten gewünscht), wo Felder besonders geschützt werden können usw. usw. und dass diese in einer allgemeinen Lösung einer oder mehrerer Datenbanken 'Aufnahme' finden und kontrolliert werden, denn das entscheidende Wissen und Können trifft man vor Ort und selten in der IT-Hierarchie.
- NicTheQuick
- Ein Admin
- Beiträge: 8807
- Registriert: 29.08.2004 20:20
- Computerausstattung: Ryzen 7 5800X, 64 GB DDR4-3200
Ubuntu 24.04.2 LTS
GeForce RTX 3080 Ti - Wohnort: Saarbrücken
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Weißt du was? Von mir brauchst du keine Hilfe mehr erwarten. Wenn du dich nicht ordentlich erklären kannst, kann dir niemand helfen.
Und schon gar nicht lasse ich mich als Amateur bezeichnen, vor allem nicht, wenn ich beruflich als Senior Platform/Software Engineer dafür verantwortlich bin komplexe Infrastrukturen aufzubauen und mit Sicherheit mehr von der Materie verstehe als du. Du bist einfach nur ignorant. Das ist alles.
Und schon gar nicht lasse ich mich als Amateur bezeichnen, vor allem nicht, wenn ich beruflich als Senior Platform/Software Engineer dafür verantwortlich bin komplexe Infrastrukturen aufzubauen und mit Sicherheit mehr von der Materie verstehe als du. Du bist einfach nur ignorant. Das ist alles.
- NicTheQuick
- Ein Admin
- Beiträge: 8807
- Registriert: 29.08.2004 20:20
- Computerausstattung: Ryzen 7 5800X, 64 GB DDR4-3200
Ubuntu 24.04.2 LTS
GeForce RTX 3080 Ti - Wohnort: Saarbrücken
Re: Extrahieren des reinen Textes aus einer HTML-Seite.
Glaub, was du willst, zukunftssicher und bewährt ist das nämlich nicht.brigitte2018 hat geschrieben: 15.11.2023 16:49 >Völlig unabhängig davon, dass XML-Bibliotheken mit Purebasic nicht gerade der letzte Schrei sind, gilt: Der einfache Weg, nämlich mit ">" und "<" ist einfach
besser und zukunftssicherer und.... hat sich bewährt.
Du findest also ich wäre nicht bescheiden und hilfsbereit?Im übrigen empfehle ich Dir mehr Bescheidenheit. Das macht immer einen guten Eindruck.
Nach diesem Post bin ich das definitiv nicht mehr. Das stimmt. Das hast du auch nicht verdient.