Seite 1 von 2

HTML parsen

Verfasst: 23.06.2009 16:42
von Jume

Code: Alles auswählen

 InitNetwork()
  If ReceiveHTTPFile("http://www.n24.de", "test.html")
    Debug "Success"
  Else
    Debug "Failed"
  EndIf

Tagchen, ich weiß nicht recht was ich in der Forensuche eingeben soll, drum frag ich mal so.

Kann ich die Seite in mehrere Teile splitten und dann die einzelnen Teile auslesen?

Bsp.

Ich möchte nur die Nachrichten und nicht die ganzen Bilder und die Werbung usw.


Freue mich über jeden Tip.

Verfasst: 23.06.2009 16:46
von Andesdaf
ich schätze da musst du den Quellcode der Seite nehmen und den eigenhändig
auseinanderbauen.

Re: HTTP

Verfasst: 23.06.2009 16:48
von Kiffi
Jume hat geschrieben:Kann ich die Seite in mehrere Teile splitten und dann die einzelnen Teile auslesen?
jap, kannst Du. Nach dem Download der Seite öffnest Du die Datei mit
ReadFile() und liest sie dann mit ReadString() aus. Siehe auch hier. ;-)

Grüße ... Kiffi

Verfasst: 23.06.2009 16:53
von Jume
und wie splitte ich die datei bzw. seite dann ?

ich muss diese ja aufteilen... ich weiß nicht genau wie ich das machen soll.

Verfasst: 23.06.2009 16:56
von Andesdaf
Splitten kannst du nicht, du must dir jede News-Zeile aus dem Quellcode
des HTML-Documents heraussuchen und per ReadString() einlesen und dann
evtl. noch den HTML-Krams rausschneiden.

Verfasst: 23.06.2009 17:01
von Kiffi
Meine ehrliche Meinung? Abonniere Dir den RSS-Feed von N24 und schon
kommen die Nachrichten frei Haus und ohne großartige Anstrengungen.

Wenn ich mir die N24-Seite so anschaue, wird es einer ziemlichen Frickelei
ausarten, wenn Du versuchst, die Nachrichten dort mit FindString() oder
RegularExpressions herauszupopeln.

Grüße ... Kiffi

Re: HTTP

Verfasst: 23.06.2009 17:04
von Little John
Kiffi hat geschrieben:jap, kannst Du. Nach dem Download der Seite öffnest Du die Datei mit
ReadFile() und liest sie dann mit ReadString() aus. Siehe auch hier. ;-)

Grüße ... Kiffi
:lol:
You made my day. :allright:
Jume hat geschrieben:und wie splitte ich die datei bzw. seite dann ?

ich muss diese ja aufteilen... ich weiß nicht genau wie ich das machen soll.
Einen HTML-Parser zu schreiben ist für einen Anfänger "etwas" zu schwer.

Gruß, Little John

Verfasst: 23.06.2009 17:19
von Jume
Kiffi hat geschrieben:Meine ehrliche Meinung? Abonniere Dir den RSS-Feed von N24 und schon
kommen die Nachrichten frei Haus und ohne großartige Anstrengungen.

Wenn ich mir die N24-Seite so anschaue, wird es einer ziemlichen Frickelei
ausarten, wenn Du versuchst, die Nachrichten dort mit FindString() oder
RegularExpressions herauszupopeln.

Grüße ... Kiffi

darum gehts ja nicht. dann brauch ich auch nicht pb zu lernen. denn 99% der programmierten sachen bekommt man auch irgendwo. eventuell für viel geld. vielleicht auch umsonst aber ich möcht das selber hinkriegen hehe




wie sieht es denn aus mit spiegel.de ist die seite weniger anstrengend zu "durchpopeln" (wie es oben genannt wurde *gg*) ?

Verfasst: 23.06.2009 17:28
von Little John
Jume hat geschrieben:wie sieht es denn aus mit spiegel.de ist die seite weniger anstrengend zu "durchpopeln" (wie es oben genannt wurde *gg*) ?
Wie ich schon schrieb, ist dieses ganze Thema für einen blutigen Anfänger der Du momentan noch bist zu hoch gegriffen. Such Dir erstmal was leichteres.

Und ändere bitte mal den Titel hier (im anderen Thread wurdest Du auch schon darum gebeten). Mit HTTP hat das nicht viel zu tun ... mit HTML schon mehr.

Gruß, Little John

Verfasst: 23.06.2009 17:28
von Kaeru Gaman
wie bereits angedeutet, du musst
Little John hat geschrieben:Einen HTML-Parser [...] schreiben ...
das läuft also drauf hinaus, dass du den Quellcode der Seite als reinen Text bekommst,
und dein Programm muss ihn Interpretieren, um Formatierung und Inhalt sinnvoll zu trennen.
click mal bei irgendeiner seite wie spiegel oder n24 auf Ansicht -> Seitenquelltext anzeigen, dann siehst du es.

Wie schwierig das ist, hängt vor Allem davon ab, ob du da ein super Talent für hast, oder dich durchbeißen musst.
wenn du keine besondere Begabung fürs Parser-Programmieren besitzt, ist es eine mächtige Herausforderung,
die du dir da stellst, besonders da du ja so ganz am Anfang stehst.

Als Totaleinsteiger würde ich dir wirklich ein Projekt mit heringeren Ansprüchen ans Herz legen,
denn bei "von Null auf HTML-Parser" ist die Lernkurve extrem steil und die "Erfolgsbelohnung" in großem Abstand.


... und bitte komme mal der Bitte der Kollegen nach und passe die Titel deiner Threads an, dafür gibts am ersten Posting nen [Edit]-Button.