HTML parsen

Jume · Beitrag von **Jume** » 23.06.2009 16:42

 InitNetwork()
  If ReceiveHTTPFile("http://www.n24.de", "test.html")
    Debug "Success"
  Else
    Debug "Failed"
  EndIf

Tagchen, ich weiß nicht recht was ich in der Forensuche eingeben soll, drum frag ich mal so.

Kann ich die Seite in mehrere Teile splitten und dann die einzelnen Teile auslesen?

Bsp.

Ich möchte nur die Nachrichten und nicht die ganzen Bilder und die Werbung usw.

Freue mich über jeden Tip.

Beitrag von **Andesdaf** » 23.06.2009 16:46

ich schätze da musst du den Quellcode der Seite nehmen und den eigenhändig
auseinanderbauen.

Beitrag von **Kiffi** » 23.06.2009 16:48

Jume hat geschrieben:Kann ich die Seite in mehrere Teile splitten und dann die einzelnen Teile auslesen?

jap, kannst Du. Nach dem Download der Seite öffnest Du die Datei mit
ReadFile() und liest sie dann mit ReadString() aus. Siehe auch hier.

Grüße ... Kiffi

Jume · Beitrag von **Jume** » 23.06.2009 16:53

und wie splitte ich die datei bzw. seite dann ?

ich muss diese ja aufteilen... ich weiß nicht genau wie ich das machen soll.

Beitrag von **Andesdaf** » 23.06.2009 16:56

Splitten kannst du nicht, du must dir jede News-Zeile aus dem Quellcode
des HTML-Documents heraussuchen und per ReadString() einlesen und dann
evtl. noch den HTML-Krams rausschneiden.

Beitrag von **Kiffi** » 23.06.2009 17:01

Meine ehrliche Meinung? Abonniere Dir den RSS-Feed von N24 und schon
kommen die Nachrichten frei Haus und ohne großartige Anstrengungen.

Wenn ich mir die N24-Seite so anschaue, wird es einer ziemlichen Frickelei
ausarten, wenn Du versuchst, die Nachrichten dort mit FindString() oder
RegularExpressions herauszupopeln.

Grüße ... Kiffi

Little John · Beitrag von **Little John** » 23.06.2009 17:04

Kiffi hat geschrieben:jap, kannst Du. Nach dem Download der Seite öffnest Du die Datei mit
ReadFile() und liest sie dann mit ReadString() aus. Siehe auch hier.

Grüße ... Kiffi

You made my day.

Jume hat geschrieben:und wie splitte ich die datei bzw. seite dann ?

ich muss diese ja aufteilen... ich weiß nicht genau wie ich das machen soll.

Einen HTML-Parser zu schreiben ist für einen Anfänger "etwas" zu schwer.

Gruß, Little John

Jume · Beitrag von **Jume** » 23.06.2009 17:19

Kiffi hat geschrieben:Meine ehrliche Meinung? Abonniere Dir den RSS-Feed von N24 und schon
kommen die Nachrichten frei Haus und ohne großartige Anstrengungen.

Wenn ich mir die N24-Seite so anschaue, wird es einer ziemlichen Frickelei
ausarten, wenn Du versuchst, die Nachrichten dort mit FindString() oder
RegularExpressions herauszupopeln.

Grüße ... Kiffi

darum gehts ja nicht. dann brauch ich auch nicht pb zu lernen. denn 99% der programmierten sachen bekommt man auch irgendwo. eventuell für viel geld. vielleicht auch umsonst aber ich möcht das selber hinkriegen hehe

wie sieht es denn aus mit spiegel.de ist die seite weniger anstrengend zu "durchpopeln" (wie es oben genannt wurde *gg*) ?

Little John · Beitrag von **Little John** » 23.06.2009 17:28

Jume hat geschrieben:wie sieht es denn aus mit spiegel.de ist die seite weniger anstrengend zu "durchpopeln" (wie es oben genannt wurde *gg*) ?

Wie ich schon schrieb, ist dieses ganze Thema für einen blutigen Anfänger der Du momentan noch bist zu hoch gegriffen. Such Dir erstmal was leichteres.

Und ändere bitte mal den Titel hier (im anderen Thread wurdest Du auch schon darum gebeten). Mit HTTP hat das nicht viel zu tun ... mit HTML schon mehr.

Gruß, Little John

Kaeru Gaman · Beitrag von **Kaeru Gaman** » 23.06.2009 17:28

wie bereits angedeutet, du musst

Little John hat geschrieben:Einen HTML-Parser [...] schreiben ...

das läuft also drauf hinaus, dass du den Quellcode der Seite als reinen Text bekommst,
und dein Programm muss ihn Interpretieren, um Formatierung und Inhalt sinnvoll zu trennen.
click mal bei irgendeiner seite wie spiegel oder n24 auf Ansicht -> Seitenquelltext anzeigen, dann siehst du es.

Wie schwierig das ist, hängt vor Allem davon ab, ob du da ein super Talent für hast, oder dich durchbeißen musst.
wenn du keine besondere Begabung fürs Parser-Programmieren besitzt, ist es eine mächtige Herausforderung,
die du dir da stellst, besonders da du ja so ganz am Anfang stehst.

Als Totaleinsteiger würde ich dir wirklich ein Projekt mit heringeren Ansprüchen ans Herz legen,
denn bei "von Null auf HTML-Parser" ist die Lernkurve extrem steil und die "Erfolgsbelohnung" in großem Abstand.

... und bitte komme mal der Bitte der Kollegen nach und passe die Titel deiner Threads an, dafür gibts am ersten Posting nen [Edit]-Button.

PureBoard

HTML parsen

HTML parsen

Re: HTTP

Re: HTTP