![]() |
Parsear HTML
Hola, llevo un buen rato buscando la mejor manera de parsear contenido de un fichero HTML.
Lo que necesito es extraer las rutas de las imágenes <img src="http://SITIO/IMAGEN.JPG"> de un fichero HTML que descargo. En PHP o Perl creo recordar que era bastante sencillo con las expresiones regulares pero en C.... me muero... Se os ocurre algo? Gracias y un saludo! |
¿Extraer http://SITIO/IMAGEN.JPG ?
|
Hola Casimiro, exacto, de un HTML que guardo en un memo por ejemplo.
Código PHP:
http://www.loquesea.com/imagen1.jpg http://www.loquesea.com/imagen2.jpg http://www.loquesea.com/imagen3.jpg |
Código PHP:
Código PHP:
Saludos. |
Muchas gracias Escafandra, en página más complejas falla pero me da por donde arrancar!
|
Cita:
Puede añadirse la búsqueda de otros formatos de imagen y que el comienzo de la cadena buscada sea por "http://www." Saludos. |
Cita:
https://stackoverflow.com/questions/...lanation-in-la a menos que tengas MUY especificado que es lo que quieres. --- Si de todas maneras es solo detectar las URLS necesitas hacer un regex mas complejo o el parseo manual es mucho mas trabajado. |
Como te han dicho, analizar código HTML es complejo, y más si quieres cumplir con la norma de forma estricta y manejar correctamente código HTML mal construido. Es más, para hacerlo bien tendrás que construir un parser completo.
De todas formas, puedes simplificar un poco la cosa. Te lo pongo en pseudo-código: Código:
BUCLE |
Hola.
Cita:
Código PHP:
Código PHP:
![]() Saludos :) |
Si que es cierto lo que decís, es peliagudo parsear una codificación que aún teniendo un standar es flexible como para que cada uno lo haga como le da la gana. En este caso me metí en este jardín por que solo tengo que parsear la salida html de dos páginas muy concretas.
Ecfisa muchas gracias por tu código, junto con el de escafandra me han venido genial! Muchas gracias a todos por vuestras respuestas Un saludo!! Jorge. |
La franja horaria es GMT +2. Ahora son las 22:07:38. |
Powered by vBulletin® Version 3.6.8
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Traducción al castellano por el equipo de moderadores del Club Delphi