Ver Mensaje Individual
  #7  
Antiguo 08-11-2006
Avatar de mamcx
mamcx mamcx is offline
Moderador
 
Registrado: sep 2004
Ubicación: Medellín - Colombia
Posts: 3.911
Reputación: 25
mamcx Tiene un aura espectacularmamcx Tiene un aura espectacularmamcx Tiene un aura espectacular
El temor #1 es que automatizar un sitio puede destrozarlo en pocos segundos, si se hace bajo la filosofia normal (hacer el programa lo *mas* rapido posible).

Lo que estas haciendo es un webcrawler / screen scraping. No hay nada extraño alli, pero es importante que conozcas las buenas costumbres que deben seguir quienes hacemos de esto:

http://www.searchtools.com/robots/robot-checklist.html

He hecho unos cuantos programas de estos (o usado) y mientras mantengas las normas de cortesia y mantengas los gastos de recuersos a un nivel aceptable, todo bien.

Por ejemplo, para un trabajo reciente monte mi crawler en un servidor VPS y lo deje corriendo por dias. DIAS. El codigo pudo barrer con el sitio en unos 70 minutos pero la verdad? Es innecesario.

Por otro lado, si esta seriamente pensando en hacer un crawler generico date varias bofetadas en la cara y mirate todas las peliculas de terror que puedas haber si escarmentas Es un asunto muy serio y, mejor dicho, muy complicado (pero no necesariamente muy demorado, algo complicado se puede resolver rapido).... empezando por el hecho que la mayoria de los sitios se hacen con desconocimiento de los estandares a todo nivel (html, http, dns, y sentido comun) y que la mayoria de los sitios presumen que seran vistos por un humano y no por una maquina, lo que conlleva a varias "sorpresas" que reversan los conceptos que uno suponen aplicarian a este tipo de software.

Entre otros, seria muy buena idea mezclar un crawler con un saneador html y otra serie de programas de ayuda...

Este libro me parecio excelente:

http://www.amazon.com/Mining-Web-Hyp.../dp/1558607544

Y seria bueno que leyeras bastante antes de entrarle serio.
__________________
El malabarista.

Última edición por mamcx fecha: 08-11-2006 a las 05:29:06.
Responder Con Cita