FTP | CCD | Buscar | Trucos | Trabajo | Foros |
#1
|
|||
|
|||
Parsear HTML
Hola, llevo un buen rato buscando la mejor manera de parsear contenido de un fichero HTML.
Lo que necesito es extraer las rutas de las imágenes <img src="http://SITIO/IMAGEN.JPG"> de un fichero HTML que descargo. En PHP o Perl creo recordar que era bastante sencillo con las expresiones regulares pero en C.... me muero... Se os ocurre algo? Gracias y un saludo! |
#2
|
||||
|
||||
¿Extraer http://SITIO/IMAGEN.JPG ?
__________________
La otra guía de estilo | Búsquedas avanzadas | Etiquetas para código | Colabora mediante Paypal |
#3
|
|||
|
|||
Hola Casimiro, exacto, de un HTML que guardo en un memo por ejemplo.
Código PHP:
http://www.loquesea.com/imagen1.jpg http://www.loquesea.com/imagen2.jpg http://www.loquesea.com/imagen3.jpg |
#4
|
||||
|
||||
Código PHP:
Código PHP:
Saludos. |
#5
|
|||
|
|||
Muchas gracias Escafandra, en página más complejas falla pero me da por donde arrancar!
|
#6
|
||||
|
||||
Cita:
Puede añadirse la búsqueda de otros formatos de imagen y que el comienzo de la cadena buscada sea por "http://www." Saludos. |
#7
|
||||
|
||||
Cita:
https://stackoverflow.com/questions/...lanation-in-la a menos que tengas MUY especificado que es lo que quieres. --- Si de todas maneras es solo detectar las URLS necesitas hacer un regex mas complejo o el parseo manual es mucho mas trabajado.
__________________
El malabarista. |
#8
|
||||
|
||||
Como te han dicho, analizar código HTML es complejo, y más si quieres cumplir con la norma de forma estricta y manejar correctamente código HTML mal construido. Es más, para hacerlo bien tendrás que construir un parser completo.
De todas formas, puedes simplificar un poco la cosa. Te lo pongo en pseudo-código: Código:
BUCLE SI se encuentra "<img " en HTML Desde esa posición, buscar 'src="', si no se encuentra ERROR Extraer el texto desde esa posición hasta las siguientes comillas quitar de HTML todo lo que preceda al texto extraido SINO Salir del BUCLE FIN SI REPETIR |
#9
|
||||
|
||||
Hola.
Cita:
Código PHP:
Código PHP:
Saludos
__________________
Daniel Didriksen Guía de estilo - Uso de las etiquetas - La otra guía de estilo .... |
#10
|
|||
|
|||
Si que es cierto lo que decís, es peliagudo parsear una codificación que aún teniendo un standar es flexible como para que cada uno lo haga como le da la gana. En este caso me metí en este jardín por que solo tengo que parsear la salida html de dos páginas muy concretas.
Ecfisa muchas gracias por tu código, junto con el de escafandra me han venido genial! Muchas gracias a todos por vuestras respuestas Un saludo!! Jorge. |
|
|
Temas Similares | ||||
Tema | Autor | Foro | Respuestas | Último mensaje |
Parsear contenido HTML | lsanchez | Delphi para la web | 3 | 12-08-2015 16:56:32 |
Parsear datos de un Memo | ZayDun | Varios | 5 | 11-10-2013 01:24:30 |
Parsear texto con TString | avechuche | Varios | 9 | 04-07-2013 10:57:24 |
Como "parsear" un fichero HTML con Delphi | cartmanrules | Varios | 3 | 28-09-2007 08:59:42 |
parsear xml + clase DOMParser | gustavoh | JAVA | 0 | 27-07-2006 16:39:25 |
|