sakuragi
07-12-2010, 04:01:25
Hola que tal, eh estado probando hacer un spider bot que obtenga las ligas de la pagina y las guarde.
toodo bien con la libreria curl de php, se obtiene el codigo HTML generado por las paginas, y se busca href= para obtener la liga.
href="http://drupal.org.es/node (http://clubdelphi.com/foros/view-source:http://drupal.org.es/node/feed)
pero me eh encontrado con el problema que las paginas hechas en CMS (drupal,jommla wikis,etc).
las ligas hacia su mismo sitio salen como rutas locales las cuales las da asi:
<li class="leaf"><a href="/planeta (http://clubdelphi.com/foros/view-source:http://drupal.org.es/planeta)">Planeta DH</a></li>
<li class="leaf"><a href="/manuales (http://clubdelphi.com/foros/view-source:http://drupal.org.es/manuales)">Manuales</a></li>
<li class="leaf"><a href="/foros (http://clubdelphi.com/foros/view-source:http://drupal.org.es/foros)">Foros</a></li>
<li class="leaf"><a href="/servicios (http://clubdelphi.com/foros/view-source:http://drupal.org.es/servicios)" title="">Servicios</a></li>
<li class="leaf"><a href="/faq (http://clubdelphi.com/foros/view-source:http://drupal.org.es/faq)">FAQ</a></li>
<li class="leaf"><a href="/drupal (http://clubdelphi.com/foros/view-source:http://drupal.org.es/drupal)">Sobre Drupal</a></li>
a esas ligas les faltaria http://drupal.org.es (http://clubdelphi.com/foros/view-source:http://drupal.org.es/node/feed), alguien sabe como obtener el HTML con la ruta completa?
saludos gracias
toodo bien con la libreria curl de php, se obtiene el codigo HTML generado por las paginas, y se busca href= para obtener la liga.
href="http://drupal.org.es/node (http://clubdelphi.com/foros/view-source:http://drupal.org.es/node/feed)
pero me eh encontrado con el problema que las paginas hechas en CMS (drupal,jommla wikis,etc).
las ligas hacia su mismo sitio salen como rutas locales las cuales las da asi:
<li class="leaf"><a href="/planeta (http://clubdelphi.com/foros/view-source:http://drupal.org.es/planeta)">Planeta DH</a></li>
<li class="leaf"><a href="/manuales (http://clubdelphi.com/foros/view-source:http://drupal.org.es/manuales)">Manuales</a></li>
<li class="leaf"><a href="/foros (http://clubdelphi.com/foros/view-source:http://drupal.org.es/foros)">Foros</a></li>
<li class="leaf"><a href="/servicios (http://clubdelphi.com/foros/view-source:http://drupal.org.es/servicios)" title="">Servicios</a></li>
<li class="leaf"><a href="/faq (http://clubdelphi.com/foros/view-source:http://drupal.org.es/faq)">FAQ</a></li>
<li class="leaf"><a href="/drupal (http://clubdelphi.com/foros/view-source:http://drupal.org.es/drupal)">Sobre Drupal</a></li>
a esas ligas les faltaria http://drupal.org.es (http://clubdelphi.com/foros/view-source:http://drupal.org.es/node/feed), alguien sabe como obtener el HTML con la ruta completa?
saludos gracias