Foros Club Delphi - Obtener HTML con ligas completas de paginas hechas con CMS

Foros Club Delphi (https://www.clubdelphi.com/foros/index.php)

- PHP (https://www.clubdelphi.com/foros/forumdisplay.php?f=15)

- - Obtener HTML con ligas completas de paginas hechas con CMS (https://www.clubdelphi.com/foros/showthread.php?t=71206)

sakuragi

07-12-2010 04:01:25

Obtener HTML con ligas completas de paginas hechas con CMS

Hola que tal, eh estado probando hacer un spider bot que obtenga las ligas de la pagina y las guarde.

toodo bien con la libreria curl de php, se obtiene el codigo HTML generado por las paginas, y se busca href= para obtener la liga.
href="http://drupal.org.es/node
pero me eh encontrado con el problema que las paginas hechas en CMS (drupal,jommla wikis,etc).

las ligas hacia su mismo sitio salen como rutas locales las cuales las da asi:

Código:

<li class="leaf"><a href="/planeta">Planeta DH</a></li>

<li class="leaf"><a href="/manuales">Manuales</a></li>

<li class="leaf"><a href="/foros">Foros</a></li>

<li class="leaf"><a href="/servicios" title="">Servicios</a></li>

<li class="leaf"><a href="/faq">FAQ</a></li>

<li class="leaf"><a href="/drupal">Sobre Drupal</a></li>

a esas ligas les faltaria http://drupal.org.es, alguien sabe como obtener el HTML con la ruta completa?

saludos gracias

Ñuño Martínez

07-12-2010 12:00:10

Esas no son rutas locales sino absolutas. Si el primer carácter es la barra inclinada "/", basta con añadirle el dominio. Así que el primero sería "http://drupal.org.es/planeta", el segundo "http://drupal.org.es/manuales", etc.

roman

07-12-2010 16:43:10

Cita:

Empezado por Ñuño Martínez (Mensaje 384222)

Esas no son rutas locales sino absolutas.

Je, je. Yo diría que son locales absolutas ;)

// Saludos

Julián

07-12-2010 17:44:14

Pues yo diría que son relativas al nombre de dominio y absolutas al directorio raiz del servidor. :D :D :D

Ñuño Martínez

07-12-2010 18:45:42

Jo, qué tikismikis...

sakuragi

07-12-2010 22:29:50

gracias por sus opiniones.

la duda es como sacar del html el domino que pertenecen esa rutas, si en el html puede haber muchas ligas completas con las cuales se puede comparar D:

:rolleyes:

Ñuño Martínez

09-12-2010 11:40:38

Cita:

Empezado por sakuragi (Mensaje 384315)

gracias por sus opiniones.

la duda es como sacar del html el domino que pertenecen esa rutas, si en el html puede haber muchas ligas completas con las cuales se puede comparar D:

:rolleyes:

El dominio no se puede sacar de ahí, evidentemente, si no de la propia URL del archivo que descargas, o quizá de la cabecera HTTP.

sakuragi

09-12-2010 22:23:47

si en eso handaba pensado..

gracias por el dato

La franja horaria es GMT +2. Ahora son las 00:23:07.