Ver Mensaje Individual
  #1  
Antiguo 07-12-2010
Avatar de sakuragi
sakuragi sakuragi is offline
Miembro
 
Registrado: feb 2004
Ubicación: root
Posts: 1.435
Reputación: 22
sakuragi Va por buen camino
Question Obtener HTML con ligas completas de paginas hechas con CMS

Hola que tal, eh estado probando hacer un spider bot que obtenga las ligas de la pagina y las guarde.

toodo bien con la libreria curl de php, se obtiene el codigo HTML generado por las paginas, y se busca href= para obtener la liga.
href="http://drupal.org.es/node
pero me eh encontrado con el problema que las paginas hechas en CMS (drupal,jommla wikis,etc).

las ligas hacia su mismo sitio salen como rutas locales las cuales las da asi:

Código:
<li class="leaf"><a href="/planeta">Planeta DH</a></li>
<li class="leaf"><a href="/manuales">Manuales</a></li>
<li class="leaf"><a href="/foros">Foros</a></li>
<li class="leaf"><a href="/servicios" title="">Servicios</a></li>
<li class="leaf"><a href="/faq">FAQ</a></li>
<li class="leaf"><a href="/drupal">Sobre Drupal</a></li>
a esas ligas les faltaria http://drupal.org.es, alguien sabe como obtener el HTML con la ruta completa?

saludos gracias
__________________
OpenSuse OpenOffice.org icomputo
Responder Con Cita