Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Vous débutez et vous avez besoin d'aide ? N'hésitez pas à poser vos questions
Avatar de l’utilisateur
Myrville
Messages : 4
Inscription : mer. 04/mars/2026 15:42

Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Message par Myrville »

Bonjour à tous,
Je lance ce sujet parce que je suis en train de bricoler un petit outil personnel en PureBasic et je me pose quelques questions sur la meilleure manière de faire certaines choses.
L’idée de base est assez simple : j’aimerais créer un programme qui récupère le code HTML d’une page web et qui analyse rapidement certains éléments de structure (par exemple les balises importantes, les titres, ou la façon dont le contenu est organisé). Ce n’est pas un gros projet, plutôt un petit utilitaire pour mes tests quand je travaille sur des sites.
Pour récupérer la page, je pense utiliser les fonctions réseau de PureBasic, ça ne devrait pas être trop compliqué. Là où j’hésite davantage, c’est sur la partie analyse du HTML. Je me demande si certains d’entre vous ont déjà fait ce genre de chose avec PureBasic. Est-ce que vous passez par un parsing maison avec des expressions régulières, ou vous avez déjà utilisé une librairie externe pour manipuler le HTML plus proprement ?
Je me dis que je ne suis sûrement pas le premier à vouloir analyser la structure d’une page web avec PB, donc je serais curieuse d’avoir vos retours d’expérience avant de partir dans une mauvaise direction.
Si certains ont déjà tenté ce genre d’outil ou ont des pistes techniques, je suis preneuse. Merci d’avance pour vos idées !
boddhi
Messages : 609
Inscription : lun. 26/avr./2010 16:14
Localisation : S 48° 52' 31'' / O 123° 23' 33''

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Message par boddhi »

Salut et bienvenue sur le site.

Ici, un petit code qui pourra peut-être t'aider. Il demandera certainement à être amélioré.
Avatar de l’utilisateur
Myrville
Messages : 4
Inscription : mer. 04/mars/2026 15:42

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Message par Myrville »

Cc boddhi,
Merci pour le lien et pour l’accueil.
Je suis allée regarder la discussion que tu m'as partagée et je trouve le code assez intéressant. Je trouve aussi l’approche avec les RegEx pour détecter les balises assez impressionnante, surtout pour gérer l’indentation et récupérer les attributs.
Je comprends mieux pourquoi beaucoup de gens disent que l’analyse du HTML peut vite devenir compliquée dès qu’on veut faire quelque chose d’un peu robuste.
Avatar de l’utilisateur
Myrville
Messages : 4
Inscription : mer. 04/mars/2026 15:42

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Message par Myrville »

boddhi a écrit : mar. 10/mars/2026 16:55 Salut et bienvenue sur le site.

Ici, un petit code qui pourra peut-être t'aider. Il demandera certainement à être amélioré.
Une autre chose qui m’a aussi interpellée dans la discussion, c’est le passage sur les problèmes liés à certains caractères Unicode. C’est justement le genre de cas auquel je n’aurais probablement pas pensé au départ.
Dans mon cas l’idée n’est pas forcément de refaire un outil aussi complet, mais plutôt de récupérer certaines informations simples dans une page (par exemple les balises de titres ou certains attributs). Du coup je me demandes encore, avec le recul, si danss ce cas précis on peut repartir toujours sur une approche RegEx pour ce type d’analyse ou on peut privilégier aujourd’hui une autre méthode.
En tout cas merci pour le partage du code (enfin de la discussion hein) ça donne déjà une bonne base de réflexion.
boddhi
Messages : 609
Inscription : lun. 26/avr./2010 16:14
Localisation : S 48° 52' 31'' / O 123° 23' 33''

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Message par boddhi »

Myrville a écrit : [...] les problèmes liés à certains caractères Unicode. [...]
En effet, la bibliothèque RegularExpression ne gère pas correctement les caractères Unicode codés sur plus de deux octets et plus particulièrement la fonction RegularExpressionMatchLength().
Le recours à cette bibliothèque pour l'analyse des balises HTML se révèle des plus pertinents dès lors que l'on est certain de ne pas être confronté à cette problématique sinon, à moins d'une alternative que j'ignore, il convient de passer par une gestion purement textuelle, ce qui est plus chiant.
Myrville a écrit : Dans mon cas l’idée n’est pas forcément de refaire un outil aussi complet, mais plutôt de récupérer certaines informations simples dans une page (par exemple les balises de titres ou certains attributs). Du coup je me demandes encore, avec le recul, si danss ce cas précis on peut repartir toujours sur une approche RegEx pour ce type d’analyse ou on peut privilégier aujourd’hui une autre méthode.
Je ne sais pas quel est ton but précis mais ci-dessous un petit exemple qui affiche les sections et sous-sections du forum PB anglais :

Code : Tout sélectionner

EnableExplicit
; ╔═════════════════════════════════════════════════════════════════════════════╗
; ║ STRUCTURES - ENUMERATIONS - CONSTANTES - MACROS - MAPS - VARIABLES GLOBALES ║
; ╚═════════════════════════════════════════════════════════════════════════════╝
;{ ════  ENUMERATIONS        ════
;- ════  ENUMERATIONS
Enumeration RegEx
  #REGEX_HTMLBAL
  #REGEX_CSID
EndEnumeration
;}
;{ ════  CONSTANTES          ════
;- ════  CONSTANTES
#HTML_REGEXHTMLBAL="</?\w+:?\w*((\s+(\w+-?+)+:?\w?+(\s*=\s*(?:"+#DQUOTE$+".*?"+#DQUOTE$+"|'.*?'|[^'"+#DQUOTE$+">\s]+))?)+\s*|\s*)/?>"
#HTML_REGEXCSID="(?i)-[\d\w]{8}(-[\d\w]{4}){3}-[\d\w]{12}$"
;}
;-══════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════
; ╔════════════╗
; ║ PROCEDURES ║
; ╚════════════╝
Procedure.s Fc_Recuperation_DonneesHTMLRequeteHTTP(ArgRequeteHTTP.s,ArgMode=#PB_UTF8)
  Protected.i IDRequeteHTTP
  Protected.s TitreMSG="Requête HTTP",Statut,TexteHTML

  IDRequeteHTTP=HTTPRequest(#PB_HTTP_Get,ArgRequeteHTTP)
  If IDRequeteHTTP
    Statut=HTTPInfo(IDRequeteHTTP,#PB_HTTP_StatusCode)
    If Statut="200"
      TexteHTML=HTTPInfo(IDRequeteHTTP,#PB_HTTP_Response,ArgMode)
      FinishHTTP(IDRequeteHTTP)
      ProcedureReturn TexteHTML
    ElseIf Statut<>"0" And Statut<>"404"
      MessageRequester(TitreMSG,UnescapeString("Erreur lors du retour de la requête :\n\nCode : "+Statut+"\n\n"+ArgRequeteHTTP),#PB_MessageRequester_Error)
    EndIf
  Else
    MessageRequester(TitreMSG,UnescapeString("Echec de la requête\n\n"+ArgRequeteHTTP),#PB_MessageRequester_Error)
  EndIf
EndProcedure
Procedure   Pc_Recuperation_DonneesChaineHTML_ListeSectionsForum(ArgChaineHTML.s)
  ;{ Variables obligatoires
  Protected.i AncPosition=1         ; Position précédente dans la variable TexteFichier
  Protected.i NouvPosition          ; Position actuelle dans la variable TexteFichier après appel RegEx
  Protected.i LongChaine            ; Longueur de la chaine textuelle entre deux balises
  Protected.a Commentaire           ; Commentaire HTML en cours de traitement (Booléen)
  Protected.s ChaineHTML            ; Contenu balise HTML ou Contenu entre deux balises
  Protected.s ChaineHTMLModifiee    ; ChaineFichier expurgée des espaces
  ;}
  Protected.a BaliseTableTrouvee
  Protected.a BaliseSectionForumTrouvee
  Protected.a BaliseTitreSectionTrouvee
  Protected.a BaliseForumTrouvee
  Protected.a BaliseDetailsForumTrouvee
  Protected.a BaliseTitreForum
  Protected.a NoLigneInformation
  
  CreateRegularExpression(#REGEX_CSID,#HTML_REGEXCSID,#PB_RegularExpression_NoCase)
  ; Suppression des LF, CR & TAB
  CompilerIf #PB_Compiler_Version<=630
    ReplaceString(ArgChaineHTML,Chr(10)," ",#PB_String_InPlace)
    ReplaceString(ArgChaineHTML,Chr(13)," ",#PB_String_InPlace)
    ReplaceString(ArgChaineHTML,Chr(9)," ",#PB_String_InPlace)
  CompilerElse
    ArgChaineHTML=ReplaceString(ReplaceString(ReplaceString(ArgChaineHTML,Chr(10)," "),Chr(13)," "),Chr(9)," ")
  CompilerEndIf
  ArgChaineHTML=Trim(ArgChaineHTML)
  ; Test entête fichier HTML
  If UCase(Left(ArgChaineHTML,15))<>"<!DOCTYPE HTML>"                                       ; ← A adapter en fonction de l'entête de la page HTML
    MessageRequester("Analyse Balises et attributs HTML","Le fichier ne semble pas être un fichier HTML",#PB_MessageRequester_Error)
    ProcedureReturn
  EndIf
  ; Boucle lecture des balises
  If CreateRegularExpression(#REGEX_HTMLBAL,#HTML_REGEXHTMLBAL)
    If ExamineRegularExpression(#REGEX_HTMLBAL,ArgChaineHTML)
      While NextRegularExpressionMatch(#REGEX_HTMLBAL)
        NouvPosition=RegularExpressionMatchPosition(#REGEX_HTMLBAL)

        ; Analyse du contenu entre deux balises ou commentaires HTML "<!-- blabla -->"
        If AncPosition<>NouvPosition                                                                  ; Texte ou commentaire
          LongChaine=NouvPosition-AncPosition
          ChaineHTML=Mid(ArgChaineHTML,AncPosition,LongChaine)                                        ; ATTENTION : Ajout de +1 pour compenser un caractère Unicode dans l'en-tête
          If Left(LTrim(ChaineHTML),4)="<!--"                                                         ; Balise début commentaire
            If Right(RTrim(ChaineHTML),3)<>"-->"                                                      ; Commentaire encadrant:"<!-- blabla > <blabla> blabla <!-->"
              Commentaire=#True
            EndIf
          ElseIf Right(RTrim(ChaineHTML),3)="-->"                                                     ; Balise fin commentaire encadrant
            Commentaire=#False
          ElseIf BaliseTableTrouvee
            If BaliseTitreSectionTrouvee
              Debug "Section du forum : "+ChaineHTML
              BaliseSectionForumTrouvee=#False:BaliseTitreSectionTrouvee=#False                       ; On n'a plus besoin pour le moment de ces balises
            ElseIf BaliseTitreForum
              ChaineHTML=Trim(ChaineHTML)
              If ChaineHTML
                Select NoLigneInformation
                  Case 0
                    Debug "  Titre du forum : "+ChaineHTML
                    NoLigneInformation+1
                  Case 1
                    Debug "    Description du forum : "+ChaineHTML
                    NoLigneInformation=0
                    BaliseTitreForum=#False                                                           ; On n'a plus besoin pour le moment de cette balise et on s'évite ainsi des tests ultérieurs inutiles
                EndSelect
              EndIf
            EndIf
          EndIf
        EndIf
        ; Analyse balise HTML
        LongChaine=RegularExpressionMatchLength(#REGEX_HTMLBAL)
        ChaineHTML=RegularExpressionMatchString(#REGEX_HTMLBAL)
        If Left(ChaineHTML,19)="<div id="+Chr(34)+"page-body"+Chr(34)                                 ; Balise table sections forum
          BaliseTableTrouvee=#True
        ElseIf BaliseTableTrouvee
          If ChaineHTML="</ul>"                                                                       ; Balise fin section forum
          ElseIf ChaineHTML="<ul class="+Chr(34)+"topiclist"+Chr(34)+">"                              ; Balise section forum
            BaliseSectionForumTrouvee=#True
          ElseIf BaliseSectionForumTrouvee
            If Left(ChaineHTML,27)="<a href="+Chr(34)+"./viewforum.php?f="                            ; Balise lien hypertexte section comportant le nom de la section
              BaliseTitreSectionTrouvee=#True
            EndIf
          ElseIf ChaineHTML="<ul class="+Chr(34)+"topiclist forums"+Chr(34)+">"                       ; Balise section forum
            BaliseForumTrouvee=#True
          ElseIf BaliseForumTrouvee
            If ChaineHTML="<dl class="+Chr(34)+"row-item forum_read"+Chr(34)+">"
              BaliseDetailsForumTrouvee=#True
            ElseIf BaliseDetailsForumTrouvee
              If Left(ChaineHTML,27)="<a href="+Chr(34)+"./viewforum.php?f="
                BaliseTitreForum=#True
              EndIf
            EndIf
          ElseIf ChaineHTML="<form method="+Chr(34)+"post" +Chr(34)+"action="+Chr(34)+"./ucp.php?mode=login" +Chr(34)+"class="+Chr(34)+"headerspace panel"+Chr(34)+">"
            ; On n'a pas besoin d'analyser plus loin
            Break
          EndIf
        EndIf
        AncPosition=NouvPosition+LongChaine
      Wend
    EndIf
  EndIf
EndProcedure
;
Define.s ChaineHTMML=Fc_Recuperation_DonneesHTMLRequeteHTTP("https://www.purebasic.fr/english/index.php")
If ChaineHTMML
  Pc_Recuperation_DonneesChaineHTML_ListeSectionsForum(ChaineHTMML)
EndIf
Répondre