Parsear HTML

lago · #1 23-03-2018

Hola, llevo un buen rato buscando la mejor manera de parsear contenido de un fichero HTML.

Lo que necesito es extraer las rutas de las imágenes <img src="http://SITIO/IMAGEN.JPG"> de un fichero HTML que descargo.

En PHP o Perl creo recordar que era bastante sencillo con las expresiones regulares pero en C.... me muero... Se os ocurre algo?

Gracias y un saludo!

Casimiro Notevi · #2 23-03-2018

¿Extraer http://SITIO/IMAGEN.JPG ?

lago · #3 23-03-2018

Hola Casimiro, exacto, de un HTML que guardo en un memo por ejemplo.

Código PHP:


			
<html>

<head><title> </head></title>

<body>



<p>

Lalalala

<img src="http://www.loquesea.com/imagen1.jpg">

<img src="http://www.loquesea.com/imagen2.jpg">

<img src="http://www.loquesea.com/imagen3.jpg">

</p>



</body>



</html>

De ahi necesito recoger:
http://www.loquesea.com/imagen1.jpg
http://www.loquesea.com/imagen2.jpg
http://www.loquesea.com/imagen3.jpg

[escafandra] · #4 23-03-2018

Código PHP:


			
AnsiString ExtractURLImages(AnsiString Text)
{
  AnsiString Result;
  CHAR *T = Text.c_str();

  CHAR* R = strstr(T, ".jpg");
  while(R){
     R[4] = 0;
     T = strrchr(T, '\"');
     if(T) Result += T+1;
     Result += "\n";
     T = R+5;
     R = strstr(T, ".jpg");
  }
  return Result;
}

Ejemplo de uso:

Código PHP:


			
Memo->Text = ExtractURLImages(HTML_Text);

Saludos.

lago · #5 24-03-2018

Muchas gracias Escafandra, en página más complejas falla pero me da por donde arrancar!

[escafandra] · #6 24-03-2018

Cita:

Empezado por lago

Muchas gracias Escafandra, en página más complejas falla pero me da por donde arrancar!

El código asume que las URLs buscadas están entre paréntesis, y se refieren a imágenes jpg.
Puede añadirse la búsqueda de otros formatos de imagen y que el comienzo de la cadena buscada sea por "http://www."

Saludos.

mamcx · #7 24-03-2018

Cita:

Empezado por lago

Muchas gracias Escafandra, en página más complejas falla pero me da por donde arrancar!

HTML no es para parsear con regex ni manualmente:

https://stackoverflow.com/questions/...lanation-in-la

a menos que tengas MUY especificado que es lo que quieres.

---

Si de todas maneras es solo detectar las URLS necesitas hacer un regex mas complejo o el parseo manual es mucho mas trabajado.

Ñuño Martínez · #8 26-03-2018

Como te han dicho, analizar código HTML es complejo, y más si quieres cumplir con la norma de forma estricta y manejar correctamente código HTML mal construido. Es más, para hacerlo bien tendrás que construir un parser completo.

De todas formas, puedes simplificar un poco la cosa. Te lo pongo en pseudo-código:

Código:

  BUCLE
    SI se encuentra "<img " en HTML
       Desde esa posición, buscar 'src="', si no se encuentra ERROR
       Extraer el texto desde esa posición hasta las siguientes comillas
       quitar de HTML todo lo que preceda al texto extraido
    SINO
      Salir del BUCLE
    FIN SI
  REPETIR

Sigue sin manejar bien código mal formado (por ejemplo, si se encuentra un <img /> sin "src") pero en los casos bien construidos debería funcionar.

ecfisa · #9 26-03-2018

Hola.

Cita:

Empezado por lago

...
Lo que necesito es extraer las rutas de las imágenes <img src="http://SITIO/IMAGEN.JPG"> de un fichero HTML que descargo.
...

Otra opción para extraer las rutas bajo la condición que las cadenas comiencen en "<img src=" y terminen en "jpg">:

Código PHP:


			
void getUrls(TStrings *source, TStrings *target)
{
  const char* INI = "<img src=\"";
  const char* FIN = "jpg\">";

  target->Clear();
  TStrings *ori = new TStringList;
  try
  {
    ori->Text = source->Text;
    for ( int i = 0; i < ori->Count; i++ )
    {
      AnsiString aux = ori->Strings[i];
      int p = aux.Pos(INI);
      if ( p )
      {
        p += strlen(INI) - 1;
        aux = aux.SubString(p+1, aux.Length());
        aux = aux.SubString(1, aux.Pos(FIN) + 2);
        target->Add(aux);
      }
    }
  }
  __finally
  {
    delete(ori);
  }
}

Ej. uso:

Código PHP:


			
void __fastcall TForm1::Button1Click(TObject *Sender)
{
  getUrls(Memo1->Lines, Memo2->Lines); 
}

Resultado de la prueba:

Saludos

lago · #10 27-03-2018

Si que es cierto lo que decís, es peliagudo parsear una codificación que aún teniendo un standar es flexible como para que cada uno lo haga como le da la gana. En este caso me metí en este jardín por que solo tengo que parsear la salida html de dos páginas muy concretas.

Ecfisa muchas gracias por tu código, junto con el de escafandra me han venido genial!

Muchas gracias a todos por vuestras respuestas

Un saludo!!

Jorge.

Temas Similares
Tema	Autor	Foro	Respuestas	Último mensaje
Parsear contenido HTML	lsanchez	Delphi para la web	3	12-08-2015 15:56:32
Parsear datos de un Memo	ZayDun	Varios	5	11-10-2013 00:24:30
Parsear texto con TString	avechuche	Varios	9	04-07-2013 09:57:24
Como "parsear" un fichero HTML con Delphi	cartmanrules	Varios	3	28-09-2007 07:59:42
parsear xml + clase DOMParser	gustavoh	JAVA	0	27-07-2006 15:39:25