programar una especie de spider
Amigos, medio tarde pero que tengan Feliz Año.
------------------------
Tengo una página web y quiero que esté actualizada con noticias de un solo tema en particular (o dos a lo más). Para esto suelo recorrer Muchas páginas de noticias, periodicos online, páginas gubernamentales, etc.
En el 90% de los casos navego una infinidad de veces por las mismas páginas sin encontrar información que me sirva o con información que ya tengo y que todavía no fue actualizada, por lo que el tiempo bien utilizado es casi nulo.
Se me estaba ocurriendo si no es posible hacer (o bajar alguno freeware) una especie de spider, bot o como se llame, si es que eso existe, que recorra periódicamente una lista de URLs (no más de 100) que yo le de, verifique su última actualización y obtenga trozos de texto según algún algoritmo determinado por mí (algo sencillo como por ejemplo 200 caracteres a partir de "algo"). De esta forma podría saber si vale la pena entrar a leer eso o mejor buscar en otro lado y no perder el tiempo.
De esta forma facilitaría la tarea automatizando algo que es inútilmente hecho en forma manual.
|