Creo que el Maestro Al se refiere a que uses "analizar (etc.)" en vez de "parsear". Yo no quería decir nada, porque luego me sacáis lo de la letra "x" y...
Respecto a extraer la información, hay que tener en cuenta que los documentos
SGML tienen unas normas que facilitan el poder trocearlo para luego analizarlo. Y si partimos de
XML, que es más estricto y gerárquico, pues la cosa es incluso más fácil. El último HTML es
casi XML, mientras que los anteriores son SGML.
El problema que veo es que la mayor parte de los documentos que hay en la WWW no están bien formateados, porque o no cumplen con el HTML que le corresponde (y a veces ni siquiera con SGML), o no usan correctamente las etiquetas (por ejemplo, usar <table /> como complemente cosmético, o usar <ul /> en vez de <dl />, etc.). Y con HTML5 (que incluye <nav />, <sumary />, <article /> y demás) no creo que lo hagan mucho mejor...