![]() |
Obtener HTML con ligas completas de paginas hechas con CMS
Hola que tal, eh estado probando hacer un spider bot que obtenga las ligas de la pagina y las guarde.
toodo bien con la libreria curl de php, se obtiene el codigo HTML generado por las paginas, y se busca href= para obtener la liga. href="http://drupal.org.es/node pero me eh encontrado con el problema que las paginas hechas en CMS (drupal,jommla wikis,etc). las ligas hacia su mismo sitio salen como rutas locales las cuales las da asi: Código:
<li class="leaf"><a href="/planeta">Planeta DH</a></li> saludos gracias |
Esas no son rutas locales sino absolutas. Si el primer carácter es la barra inclinada "/", basta con añadirle el dominio. Así que el primero sería "http://drupal.org.es/planeta", el segundo "http://drupal.org.es/manuales", etc.
|
Cita:
// Saludos |
Pues yo diría que son relativas al nombre de dominio y absolutas al directorio raiz del servidor. :D :D :D
|
Jo, qué tikismikis...
|
gracias por sus opiniones.
la duda es como sacar del html el domino que pertenecen esa rutas, si en el html puede haber muchas ligas completas con las cuales se puede comparar D: :rolleyes: |
Cita:
|
si en eso handaba pensado..
gracias por el dato |
La franja horaria es GMT +2. Ahora son las 12:29:04. |
Powered by vBulletin® Version 3.6.8
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Traducción al castellano por el equipo de moderadores del Club Delphi