FTP | CCD | Buscar | Trucos | Trabajo | Foros |
|
Registrarse | FAQ | Miembros | Calendario | Guía de estilo | Temas de Hoy |
|
Herramientas | Buscar en Tema | Desplegado |
#1
|
|||
|
|||
Parsear contenido HTML
Buen día con todos,
Tengo una duda de hace algunos días, he rebuscado por el foro como ponerle fin a esto sin resultado. Aquí voy, Tengo hecho un programita el cual consulta una pagina web a partir de la inserción unos parametros de consulta y un captcha mediante POST, ingresado esto me arroja una información en tabla. Hasta aquí todo bien, pues la almaceno en una variable. Mi problema incia al querer "discernir o procesar" esta información, necesito capturar los nombres de las columnas y el contenido de las filas, mas no traerme el código de la web. Tengo entendido que el método de solución a esto sería parsear, pero no lo eh comprendido bien, pues estos buscan etiquetas o nombres del campo, pero en mi caso la info que obtengo no se da de esa manera. Quisiera me puedan ayudar, subo mi código y la web que me traigo como resultado. Gracias de antemano por su tiempo, saludos.
Código HTML capturado Código PHP:
Última edición por dec fecha: 27-07-2015 a las 21:00:02. Razón: Dar un poco de formato al código para que no exceda el ancho de la página |
#2
|
||||
|
||||
Si es XHTML, HTML4 ó HTML5 podrías intentar procesarlo como un XML. Hay varias bibliotecas por ahí que lo hacen, aunque los dos últimos puede que no lo pillara bien. Otras versiones de HTML son más complicadas.
Lo único que he encontrado es este tutorial de procesamiento XML para Lazarus. Con suerte puede que te sirva. |
#3
|
||||
|
||||
No, no.
Usar XML para parsear HTML es UN ERROR. HTML es una bestia animal muy distinta. Se requiere un parser especifico para html. El termino general es "Web Scrapping" Hice un tutorial basico en python: http://code.runnable.com/UryhiPR1U0B...-and-wikipedia Osea: 1- Necesitas un parseador HTML. A menos que la pagina sea super-estatica y tengas control sobre ella (ie: Mucha seguridad de que no cambiara) no hay vuelta con esto 2- Necesitas usando el parseador, acertar a los tags correctos La otra, y mejor, si tienes acceso o puedes conseguir la colaboracion de los dueños de la pagina, es que hacer un API rest que te de los datos que realmente necesitas
__________________
El malabarista. |
#4
|
|||
|
|||
Exacto, es la razón por la que no use el XML para parsear. No encontré mucha info por no decir nada acerca de hacerlo en HTML para delphi. Sin embargo, me base de unas funciones y procedimientos para quitar todo el código HTML (LO QUE NO NECESITO), sé que no es la forma correcta ni mas adecuada, ya que si la página web de donde extraigo esta data sufre alguna alteración o modificación, me veré forzado también yo a modificar mi fuente, pero no tenía de otra. Compartiría la fuente, pero no se me permite subir adjuntos.
Ahora estoy en otra etapa en la que necesitaría alguna ayudita de ser posible, es con la insercción de los datos a oracle: clubdelphi.com/foros/showthread.php?t=88839 Y con respecto a conseguir ayuda de los creadores de la página, lo dudo, ya que lo que estoy haciendo es llevarme la data saltando su seguridad |
|
|
Temas Similares | ||||
Tema | Autor | Foro | Respuestas | Último mensaje |
Parsear texto con TString | avechuche | Varios | 9 | 04-07-2013 10:57:24 |
Como "parsear" un fichero HTML con Delphi | cartmanrules | Varios | 3 | 28-09-2007 08:59:42 |
Enviar todo el contenido de un <select> html | chinosoft | HTML, Javascript y otros | 1 | 30-06-2007 16:13:45 |
parsear xml + clase DOMParser | gustavoh | JAVA | 0 | 27-07-2006 16:39:25 |
select sobre campo que contiene etiquetas HTML del cual quiero solo el contenido | arantzal | Varios | 0 | 13-07-2006 15:28:12 |
|