HTML parsen

Anfängerfragen zum Programmieren mit PureBasic.
Jume

HTML parsen

Beitrag von Jume »

Code: Alles auswählen

 InitNetwork()
  If ReceiveHTTPFile("http://www.n24.de", "test.html")
    Debug "Success"
  Else
    Debug "Failed"
  EndIf

Tagchen, ich weiß nicht recht was ich in der Forensuche eingeben soll, drum frag ich mal so.

Kann ich die Seite in mehrere Teile splitten und dann die einzelnen Teile auslesen?

Bsp.

Ich möchte nur die Nachrichten und nicht die ganzen Bilder und die Werbung usw.


Freue mich über jeden Tip.
Zuletzt geändert von Jume am 23.06.2009 19:04, insgesamt 1-mal geändert.
Andesdaf
Moderator
Beiträge: 2673
Registriert: 15.06.2008 18:22
Wohnort: Dresden

Beitrag von Andesdaf »

ich schätze da musst du den Quellcode der Seite nehmen und den eigenhändig
auseinanderbauen.
Win11 x64 | PB 6.20
Benutzeravatar
Kiffi
Beiträge: 10714
Registriert: 08.09.2004 08:21
Wohnort: Amphibios 9

Re: HTTP

Beitrag von Kiffi »

Jume hat geschrieben:Kann ich die Seite in mehrere Teile splitten und dann die einzelnen Teile auslesen?
jap, kannst Du. Nach dem Download der Seite öffnest Du die Datei mit
ReadFile() und liest sie dann mit ReadString() aus. Siehe auch hier. ;-)

Grüße ... Kiffi
a²+b²=mc²
Jume

Beitrag von Jume »

und wie splitte ich die datei bzw. seite dann ?

ich muss diese ja aufteilen... ich weiß nicht genau wie ich das machen soll.
Andesdaf
Moderator
Beiträge: 2673
Registriert: 15.06.2008 18:22
Wohnort: Dresden

Beitrag von Andesdaf »

Splitten kannst du nicht, du must dir jede News-Zeile aus dem Quellcode
des HTML-Documents heraussuchen und per ReadString() einlesen und dann
evtl. noch den HTML-Krams rausschneiden.
Win11 x64 | PB 6.20
Benutzeravatar
Kiffi
Beiträge: 10714
Registriert: 08.09.2004 08:21
Wohnort: Amphibios 9

Beitrag von Kiffi »

Meine ehrliche Meinung? Abonniere Dir den RSS-Feed von N24 und schon
kommen die Nachrichten frei Haus und ohne großartige Anstrengungen.

Wenn ich mir die N24-Seite so anschaue, wird es einer ziemlichen Frickelei
ausarten, wenn Du versuchst, die Nachrichten dort mit FindString() oder
RegularExpressions herauszupopeln.

Grüße ... Kiffi
a²+b²=mc²
Little John

Re: HTTP

Beitrag von Little John »

Kiffi hat geschrieben:jap, kannst Du. Nach dem Download der Seite öffnest Du die Datei mit
ReadFile() und liest sie dann mit ReadString() aus. Siehe auch hier. ;-)

Grüße ... Kiffi
:lol:
You made my day. :allright:
Jume hat geschrieben:und wie splitte ich die datei bzw. seite dann ?

ich muss diese ja aufteilen... ich weiß nicht genau wie ich das machen soll.
Einen HTML-Parser zu schreiben ist für einen Anfänger "etwas" zu schwer.

Gruß, Little John
Jume

Beitrag von Jume »

Kiffi hat geschrieben:Meine ehrliche Meinung? Abonniere Dir den RSS-Feed von N24 und schon
kommen die Nachrichten frei Haus und ohne großartige Anstrengungen.

Wenn ich mir die N24-Seite so anschaue, wird es einer ziemlichen Frickelei
ausarten, wenn Du versuchst, die Nachrichten dort mit FindString() oder
RegularExpressions herauszupopeln.

Grüße ... Kiffi

darum gehts ja nicht. dann brauch ich auch nicht pb zu lernen. denn 99% der programmierten sachen bekommt man auch irgendwo. eventuell für viel geld. vielleicht auch umsonst aber ich möcht das selber hinkriegen hehe




wie sieht es denn aus mit spiegel.de ist die seite weniger anstrengend zu "durchpopeln" (wie es oben genannt wurde *gg*) ?
Little John

Beitrag von Little John »

Jume hat geschrieben:wie sieht es denn aus mit spiegel.de ist die seite weniger anstrengend zu "durchpopeln" (wie es oben genannt wurde *gg*) ?
Wie ich schon schrieb, ist dieses ganze Thema für einen blutigen Anfänger der Du momentan noch bist zu hoch gegriffen. Such Dir erstmal was leichteres.

Und ändere bitte mal den Titel hier (im anderen Thread wurdest Du auch schon darum gebeten). Mit HTTP hat das nicht viel zu tun ... mit HTML schon mehr.

Gruß, Little John
Kaeru Gaman
Beiträge: 17389
Registriert: 10.11.2004 03:22

Beitrag von Kaeru Gaman »

wie bereits angedeutet, du musst
Little John hat geschrieben:Einen HTML-Parser [...] schreiben ...
das läuft also drauf hinaus, dass du den Quellcode der Seite als reinen Text bekommst,
und dein Programm muss ihn Interpretieren, um Formatierung und Inhalt sinnvoll zu trennen.
click mal bei irgendeiner seite wie spiegel oder n24 auf Ansicht -> Seitenquelltext anzeigen, dann siehst du es.

Wie schwierig das ist, hängt vor Allem davon ab, ob du da ein super Talent für hast, oder dich durchbeißen musst.
wenn du keine besondere Begabung fürs Parser-Programmieren besitzt, ist es eine mächtige Herausforderung,
die du dir da stellst, besonders da du ja so ganz am Anfang stehst.

Als Totaleinsteiger würde ich dir wirklich ein Projekt mit heringeren Ansprüchen ans Herz legen,
denn bei "von Null auf HTML-Parser" ist die Lernkurve extrem steil und die "Erfolgsbelohnung" in großem Abstand.


... und bitte komme mal der Bitte der Kollegen nach und passe die Titel deiner Threads an, dafür gibts am ersten Posting nen [Edit]-Button.
Der Narr denkt er sei ein weiser Mann.
Der Weise weiß, dass er ein Narr ist.
Antworten