Webseiten auslesen/ansteuern
Verfasst: 09.12.2021 22:15
Liebe Forenmitglieder,
hin und wieder gibt es bei mir das Bedürfnis, Webseiten bzw. bestimmte Informationen von Webseiten auszulesen.
Ich muss jedoch sagen, dass ich mich speziell mit dem Thema "Webseiten" nicht sooo gut auskenne.
Aus klassischer und primitiver Sicht gesehen, ist für mich eine Webseite eine HTML-Datei, die heruntergeladen und dargestellt wird.
Oftmals reicht das aus, wenn ich eine Webseite per HTTPRequest herunterlade und nach der benötigten Info parse...fertig.
Das Problem dabei ist, dass es auf Webseiten oft Inhalte/Elemente gibt (offensichtlich durch Darstellung im Browser), die über diese HTML einfach nicht "sichtbar" sind.
Hier hört mein Latein schon auf.
Ein Beispiel:
Geht man auf die Seite https://duckduckgo.com/, dann sieht man oben rechts ein Megafon. Wenn man auf dieses Megafon klickt, erscheint eine kleine Liste mit den Inhalten "Twitter, Reddit, Blog, Newsletter".
Wenn ich mir die HTML ansehe (Edge-Browser: Seitenquelltext ansehen), steht hier jedoch kein Wort von "Reddit" im gesamten Quelltext.
Hier die Frage: Gibt es überhaupt eine Möglichkeit, irgendwie über ein Purebasic-Programm an diese Info zu kommen, bzw. einfach nur an das Wort "Reddit" ???
Wenn ich im Edge-Browser die Funktion nutze: "Rechtsklick -> Untersuchen", dann sieht man die Inhalte bzgl. "Reddit". Jedoch nicht per "Rechtsklick -> Quelltext anzeigen".
Eine zweite Frage:
Hier im Forum gibt es oben einen "Button" namens "Quick links". Klickt man darauf, geht eine kleine Liste auf (diese Inhalte sind übrigens in der HTML sichtbar).
In der Liste gibt es unter anderem den Eintrag "Your posts". Gibt es eine Möglichkeit in Purebasic, einen Klick auf "Your posts" zu simulieren bzw. die resultierende Seite des Klicks herunterzuladen?
Über ein paar Tipps zum Thema würde ich mich sehr freuen. Mit Purebasic kenne ich mich sehr gut aus...aber in Themen wie REST-Api bzw. so Web-Geschichten stecke ich nicht so tief drin.
Viele Grüße!
hin und wieder gibt es bei mir das Bedürfnis, Webseiten bzw. bestimmte Informationen von Webseiten auszulesen.
Ich muss jedoch sagen, dass ich mich speziell mit dem Thema "Webseiten" nicht sooo gut auskenne.
Aus klassischer und primitiver Sicht gesehen, ist für mich eine Webseite eine HTML-Datei, die heruntergeladen und dargestellt wird.
Oftmals reicht das aus, wenn ich eine Webseite per HTTPRequest herunterlade und nach der benötigten Info parse...fertig.
Das Problem dabei ist, dass es auf Webseiten oft Inhalte/Elemente gibt (offensichtlich durch Darstellung im Browser), die über diese HTML einfach nicht "sichtbar" sind.
Hier hört mein Latein schon auf.
Ein Beispiel:
Geht man auf die Seite https://duckduckgo.com/, dann sieht man oben rechts ein Megafon. Wenn man auf dieses Megafon klickt, erscheint eine kleine Liste mit den Inhalten "Twitter, Reddit, Blog, Newsletter".
Wenn ich mir die HTML ansehe (Edge-Browser: Seitenquelltext ansehen), steht hier jedoch kein Wort von "Reddit" im gesamten Quelltext.
Hier die Frage: Gibt es überhaupt eine Möglichkeit, irgendwie über ein Purebasic-Programm an diese Info zu kommen, bzw. einfach nur an das Wort "Reddit" ???
Wenn ich im Edge-Browser die Funktion nutze: "Rechtsklick -> Untersuchen", dann sieht man die Inhalte bzgl. "Reddit". Jedoch nicht per "Rechtsklick -> Quelltext anzeigen".
Eine zweite Frage:
Hier im Forum gibt es oben einen "Button" namens "Quick links". Klickt man darauf, geht eine kleine Liste auf (diese Inhalte sind übrigens in der HTML sichtbar).
In der Liste gibt es unter anderem den Eintrag "Your posts". Gibt es eine Möglichkeit in Purebasic, einen Klick auf "Your posts" zu simulieren bzw. die resultierende Seite des Klicks herunterzuladen?
Über ein paar Tipps zum Thema würde ich mich sehr freuen. Mit Purebasic kenne ich mich sehr gut aus...aber in Themen wie REST-Api bzw. so Web-Geschichten stecke ich nicht so tief drin.
Viele Grüße!