Ver Mensaje Individual
  #4  
Antiguo 20-12-2019
Javierus Javierus is offline
Miembro
 
Registrado: jun 2017
Posts: 88
Reputación: 7
Javierus Va por buen camino
Es universal, porque puede representar cualquier documento "impreso". Y estandarizado porque lo está.
Pero no está orientado a la distribución de información sino de documentos fieles al impreso, por lo que dos textos como por ejemplo "factura Nº" y a su lado "123456", que están evidentemente relacionados semánticamente, en el formato no tienen por qué estar relacionados: solo es importante que al visualizarlo se muestren como está previsto.

Hay herramientas que te extraen el texto con cierta similitud estructural a cómo aparece en pantalla, es decir, si dos cosas se muestran consecutivas, pues en el texto son consecutivas. Pero no siempre: depende de cómo se haya creado el PDF; quizás el texto a la derecha esté unos píxeles más arriba o abajo, y esto resulte en que la conversión a texto lo deje en líneas diferentes.

Igual que una página HTML puede presentar una información, pero internamente tener una estructura semánticamente muy distinta del aspecto que se muestre en pantalla, que dependerá también de CSS, etc etc

Incluso XML, que no tiene absolutamente nada que ver con los otros, porque es un sistema de información estructurada, necesita de herramientas (librerías) adecuadas para manejarlo eficientemente. Aunque te las hagas tú.

/fin del rollo
Responder Con Cita