HTML Dateien durchsuchen mit PB

Für allgemeine Fragen zur Programmierung mit PureBasic.
Benutzeravatar
Danilo
-= Anfänger =-
Beiträge: 2284
Registriert: 29.08.2004 03:07

Re: HTML Dateien durchsuchen mit PB

Beitrag von Danilo »

N_Gnom hat geschrieben:Wie könnte man das Rausfiltern?
< suchen und alles bis > ignorieren?
Dort findest Du einen Code von mir um Tags zu entfernen und den reinen Text zwischen Tags zu bekommen:
http://www.purebasic.fr/english/viewtopic.php?f=13&t=60208&start=23

Das könntest Du vielleicht als Anfang nehmen, um alles zwischen <body> und </body> zu extrahieren.
Zuletzt geändert von Danilo am 16.11.2014 14:52, insgesamt 1-mal geändert.
cya,
...Danilo
"Ein Genie besteht zu 10% aus Inspiration und zu 90% aus Transpiration" - Max Planck
RehW
Beiträge: 15
Registriert: 03.03.2012 11:23

Re: HTML Dateien durchsuchen mit PB

Beitrag von RehW »

In einem anderen Beitrag hast Du geschrieben:
CodeCommander hat geschrieben:Liest du meine Nachricht überhaupt?
Die Frage kann ich zurückgeben, Deine Antwort bestätigt meine Aussage und andere sind auch schon von Dir genervt.
CodeCommander hat geschrieben:Soll ich für ihn sein ganzes Program schreiben? :lol: Beispiel gibt es in der Hilfe und Vorlagen der regulären Ausdrücke gibt es bei Google. Was ist daran so schwer? ;) Ich nehme an, dass N_Gnom in der Lage ist, Google zu benutzen oder willst du behaupten, dass er dumm ist? Derren hat auch kein Beispiel angegeben, warum darf er antworten? :D Ich habe ein Stichwort für die richtige Richtung gesagt und das sollte ausreichen. Falls nicht dann soll N_Gnom sich melden dann schreibe ich gerne für ihn ein Beispiel.
Ich habe nicht geschrieben das Du ein komplettes Programm schreiben sollst sondern ein Beispiel zeigen sollst, was auch für andere hilfreicher wäre. Ausserdem werde ich nicht behaupten das N_Gnom dumm ist!
Alle folgende Kommentare von Dir werde ich ignorieren, siehe mein obrigen Kommentar.
GronkhLP
Beiträge: 72
Registriert: 14.11.2013 22:43
Wohnort: Köln
Kontaktdaten:

Re: HTML Dateien durchsuchen mit PB

Beitrag von GronkhLP »

Ich beobachte diese Zankerei schon länger und ich muss(te) öfters feststellen, man kann sagen was man will, egal wie barsch er mit seinen Beiträgen sein mag, aber Recht hat er, meistens jedenfalls. :) Meine Empfehlung geht auch an RegEx. :allright:

Lieber CodeCommander, bitte sei nett zu den Menschen. Wenn du auf deine Wortwahl achtest, dann wirst du auch öfters ernst genommen. Respektvoller Umgang mit Menschen ist das A und O. Denk bitte dran. :)
Bild
Benutzeravatar
ts-soft
Beiträge: 22292
Registriert: 08.09.2004 00:57
Computerausstattung: Mainboard: MSI 970A-G43
CPU: AMD FX-6300 Six-Core Processor
GraKa: GeForce GTX 750 Ti, 2 GB
Memory: 16 GB DDR3-1600 - Dual Channel
Wohnort: Berlin

Re: HTML Dateien durchsuchen mit PB

Beitrag von ts-soft »

RegEx mögen zwar der kürzeste Code sein, der eleganteste Code, aber mit Sicherheit nicht der Schnellste :mrgreen:
Also, recht hat er auch nicht, muß Dir leider wiedersprechen.
PureBasic 5.73 LTS | SpiderBasic 2.30 | Windows 10 Pro (x64) | Linux Mint 20.1 (x64)
Nutella hat nur sehr wenig Vitamine. Deswegen muss man davon relativ viel essen.
Bild
Benutzeravatar
Tommy
Spassvogel
Beiträge: 319
Registriert: 17.10.2013 14:36

Re: HTML Dateien durchsuchen mit PB

Beitrag von Tommy »

Zuletzt geändert von Tommy am 27.01.2015 10:44, insgesamt 2-mal geändert.
PB 5.41 x64
Benutzeravatar
ts-soft
Beiträge: 22292
Registriert: 08.09.2004 00:57
Computerausstattung: Mainboard: MSI 970A-G43
CPU: AMD FX-6300 Six-Core Processor
GraKa: GeForce GTX 750 Ti, 2 GB
Memory: 16 GB DDR3-1600 - Dual Channel
Wohnort: Berlin

Re: HTML Dateien durchsuchen mit PB

Beitrag von ts-soft »

Gut aufgepaßt in der Schule, setzen.
PureBasic 5.73 LTS | SpiderBasic 2.30 | Windows 10 Pro (x64) | Linux Mint 20.1 (x64)
Nutella hat nur sehr wenig Vitamine. Deswegen muss man davon relativ viel essen.
Bild
Benutzeravatar
CodeCommander
Beiträge: 213
Registriert: 02.03.2014 16:06

Beitrag von CodeCommander »

~ DELETE ~
Zuletzt geändert von CodeCommander am 18.01.2015 14:47, insgesamt 1-mal geändert.
~ DELETE ~
Derren
Beiträge: 558
Registriert: 23.07.2011 02:08

Re: HTML Dateien durchsuchen mit PB

Beitrag von Derren »

Und? Ist er etwa kein Anfänger? Wenn er schon mit den String-Befehlen nicht weiter kommt, warum wird einem dann hier XML und RegEx empfohlen???

Am schnellsten ist der direkte Speicherzugriff. Das ist aber das gleiche wie FindString. Jedes Zeichen wird durch-iteriert bis man zum gewünschten Ausdruck kommt. Wie FindString intern arbeitet weiß ich nicht, bin mir aber ziemlich sicher dass die eigentliche Vorgehensweise genau jene ist.
Da er nur nach einem einzelnen Zeichen suchen muss kann ich mir nicht vorstellen, dass FindString langsamer als XML oder RegEx sein soll.

Du kannst ja mal den Vergleichscode veröffentlichen :roll:

Außerdem ist die RegEx-Lib von PB eh nicht die beste. Ich glaube ein paar Funktionen sind dazu gekommen, aber Stargate hat nicht umsonst sein eigenes Include geschrieben...
Signatur und so
Benutzeravatar
ts-soft
Beiträge: 22292
Registriert: 08.09.2004 00:57
Computerausstattung: Mainboard: MSI 970A-G43
CPU: AMD FX-6300 Six-Core Processor
GraKa: GeForce GTX 750 Ti, 2 GB
Memory: 16 GB DDR3-1600 - Dual Channel
Wohnort: Berlin

Re: HTML Dateien durchsuchen mit PB

Beitrag von ts-soft »

Professionelle Programmierer werden immer eher auf RegEx zurückgreifen, weils einfacher ist als einen
optimierten Suchalgo zu schreiben, für die bestimmte Aufgabe. Aber der optimierte Suchalgo ist trotzdem
schneller, wenn er erstmal geschrieben ist.
Solange es sich sowieso nur um wenige ms handelt, ist es auch fast egal. Optimierte Suchalgorythmen
benötigen auch weniger Findstring, sondern "Pointern" sich durch das ganze, bis alle unnötigen Tags weg sind.
Okay, ich brauche keine Hilfe, jedenfalls nicht von Dir :lol: , aber danke für das Angebot <)
PureBasic 5.73 LTS | SpiderBasic 2.30 | Windows 10 Pro (x64) | Linux Mint 20.1 (x64)
Nutella hat nur sehr wenig Vitamine. Deswegen muss man davon relativ viel essen.
Bild
Benutzeravatar
CodeCommander
Beiträge: 213
Registriert: 02.03.2014 16:06

Beitrag von CodeCommander »

~ DELETE ~
Zuletzt geändert von CodeCommander am 18.01.2015 14:47, insgesamt 1-mal geändert.
~ DELETE ~
Antworten