![]() |
Sacar datos de un pdf
Buenas amigos,
Tenía tiempo que no entraba al foro porque, por motivos personales, no he tocado la programación :(. Vuelvo un poco a la carga a ver si es posible hacer lo siguiente: Necesito saber si es posible sacar los datos de un archivo pdf que no ha sido escaneado. Si lo abro puedo copiar, pero necesitaba ver si, al abrirlo de alguna forma con lazarus, sacar los datos sin tener que recurrir a seleccionar texto. Igual no se puede, pero me resultaría muy útil. Saludos y gracias |
Depende, poder se puede, pero si quieres automatizarlo tendrás que buscar una referencia en texto del mismo, por ejemplo, si en el pdf pone algo así como: "Reunidos de una parte D. xxxxxxxxxx ......"
Y quieres extraer el nombre después de "D.", podrás automatizarlo leyendo el pdf y buscando la cadena: "Reunidos de una parte D." y copiando el texto que venga después. Si es algo "aleatorio" y sin referencias fijas para buscar, difícil lo veo. |
Recuerdo haber mirado esto hace tiempo, y hay algunas herramientas gratuítas que te permiten, por ejemplo, extraer el texto de un PDF.
Si esto te sirve puedes llamar a alguna de estas herramientas (de consola algunas) y una vez obtenido el texto, parsear los datos que necesites. |
Hola,
Yo utilizo una DLL para extraer el contenido de los PDF, en concreto PDFtext.dll que es totalmente funcional en su versión shareware, solamente sale una ventana tipo popUp cada vez que se extrae el texto, por lo demas es bastante fácil de utilizar, sin dependencias a ADOBE o cualquier otro programa externo. La web de descarga es http://www.is-soft.de/pdfanalyzer/mdownloads.html y el uso es tan simple como:
Espero sea de utilidad Un saludo |
Gracias amigos.
Si, los pdf provienen de archivos xml tal cual están. No tengo los xml por eso me interesaba "algo" que pudiera leerlos y de ahi extraer los textos que necesito. Como tienen la estructura xml ya tengo las referencias a buscar. Voy a probar la dll que me pone bucanero a ver que sale.:). muchas gracias de nuevo |
Hola de nuevo,
Estoy intentando implementar el codigo de bucanero, pero me da error en la llamada.
Cita:
|
Hola Anubis
Tu código lo he probado y a mi me funciona correctamente, Imagino que si te da error podrá ser por la versión de la DLL, en mi caso estoy usando la 4.0.0, creo que en la web ya es posterior. Voy a intentar hacer pruebas con la versión de la web y comento |
La ultima versión de la DLL es la misma que estoy utilizando yo, las pruebas las hice con la versión de 32 bits y con este PDF de ejemplo, el cual conseguí leer sin problemas:
http://www.ite.educacion.es/formacio...pdf/html11.pdf la única diferencia respecto de tu código y el mio es que yo solo declaro las funciones en la parte de la INTERFACE, fuera del FORM
|
Así a primera vista, diría que las inicializaciones de target y ptitel son de un tipo incorrecto.
|
Hola, adicional a lo que ya te dijeron, también podrías utilizar la herramienta pdftotext https://www.xpdfreader.com/dl/xpdf-tools-win-4.00.zip del buen xpdf, lo puedes invocar por línea de comandos desde código y te genera un archivo con el texto del documento pdf.
Cita:
|
Hola,
El programa me da error al ejecutar. Creo saber que pasa, quiza tu estás usando delphi en vez de lazarus, puede ser?. Respecto a xpdf todavia no lo pruebo, a ver si hay versión para lazarus. |
La franja horaria es GMT +2. Ahora son las 23:48:39. |
Powered by vBulletin® Version 3.6.8
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Traducción al castellano por el equipo de moderadores del Club Delphi