El título del libro es ya es de por si 100% explícito "Webbots, spiders and screen crapers".
Por lo que todo lo que puedas aportar será bienvenido.
En mi caso comentaré, que el tema de usar parseadores de texto, no siempre me funciona. ¿Que te parece usar DOMelement para ello? Permite cargar un trozo de código HTML en una objeto de esa clase y luego tratarlo y demás.
El único problema es la poca documentación que he encontrado al respecto, pero tanto trabajar con DOM en javascript, hace que me resulte mas cómodo
Supongo que cuantos mas métodos mejor.