![]() |
![]() |
![]() |
![]() |
![]() |
FTP | ![]() |
![]() |
CCD | ![]() |
![]() |
Buscar | ![]() |
![]() |
Trucos | ![]() |
![]() |
Trabajo | ![]() |
![]() |
Foros | ![]() |
|
Registrarse | FAQ | Miembros | Calendario | Guía de estilo | Temas de Hoy |
![]() |
|
Herramientas | Buscar en Tema | Desplegado |
#1
|
||||
|
||||
Sacar datos de un pdf
Buenas amigos,
Tenía tiempo que no entraba al foro porque, por motivos personales, no he tocado la programación ![]() Vuelvo un poco a la carga a ver si es posible hacer lo siguiente: Necesito saber si es posible sacar los datos de un archivo pdf que no ha sido escaneado. Si lo abro puedo copiar, pero necesitaba ver si, al abrirlo de alguna forma con lazarus, sacar los datos sin tener que recurrir a seleccionar texto. Igual no se puede, pero me resultaría muy útil. Saludos y gracias |
#2
|
||||
|
||||
Depende, poder se puede, pero si quieres automatizarlo tendrás que buscar una referencia en texto del mismo, por ejemplo, si en el pdf pone algo así como: "Reunidos de una parte D. xxxxxxxxxx ......"
Y quieres extraer el nombre después de "D.", podrás automatizarlo leyendo el pdf y buscando la cadena: "Reunidos de una parte D." y copiando el texto que venga después. Si es algo "aleatorio" y sin referencias fijas para buscar, difícil lo veo.
__________________
La otra guía de estilo | Búsquedas avanzadas | Etiquetas para código | Colabora mediante Paypal |
#3
|
||||
|
||||
Recuerdo haber mirado esto hace tiempo, y hay algunas herramientas gratuítas que te permiten, por ejemplo, extraer el texto de un PDF.
Si esto te sirve puedes llamar a alguna de estas herramientas (de consola algunas) y una vez obtenido el texto, parsear los datos que necesites.
__________________
Germán Estévez => Web/Blog Guía de estilo, Guía alternativa Utiliza TAG's en tus mensajes. Contactar con el Clubdelphi ![]() P.D: Más tiempo dedicado a la pregunta=Mejores respuestas. |
#4
|
|||
|
|||
Hola,
Yo utilizo una DLL para extraer el contenido de los PDF, en concreto PDFtext.dll que es totalmente funcional en su versión shareware, solamente sale una ventana tipo popUp cada vez que se extrae el texto, por lo demas es bastante fácil de utilizar, sin dependencias a ADOBE o cualquier otro programa externo. La web de descarga es http://www.is-soft.de/pdfanalyzer/mdownloads.html y el uso es tan simple como:
Espero sea de utilidad Un saludo |
#5
|
||||
|
||||
Gracias amigos.
Si, los pdf provienen de archivos xml tal cual están. No tengo los xml por eso me interesaba "algo" que pudiera leerlos y de ahi extraer los textos que necesito. Como tienen la estructura xml ya tengo las referencias a buscar. Voy a probar la dll que me pone bucanero a ver que sale. ![]() muchas gracias de nuevo |
#6
|
||||
|
||||
Hola de nuevo,
Estoy intentando implementar el codigo de bucanero, pero me da error en la llamada.
Cita:
|
#7
|
|||
|
|||
Hola Anubis
Tu código lo he probado y a mi me funciona correctamente, Imagino que si te da error podrá ser por la versión de la DLL, en mi caso estoy usando la 4.0.0, creo que en la web ya es posterior. Voy a intentar hacer pruebas con la versión de la web y comento |
#8
|
|||
|
|||
La ultima versión de la DLL es la misma que estoy utilizando yo, las pruebas las hice con la versión de 32 bits y con este PDF de ejemplo, el cual conseguí leer sin problemas:
http://www.ite.educacion.es/formacio...pdf/html11.pdf la única diferencia respecto de tu código y el mio es que yo solo declaro las funciones en la parte de la INTERFACE, fuera del FORM
|
#9
|
||||
|
||||
Así a primera vista, diría que las inicializaciones de target y ptitel son de un tipo incorrecto.
__________________
Germán Estévez => Web/Blog Guía de estilo, Guía alternativa Utiliza TAG's en tus mensajes. Contactar con el Clubdelphi ![]() P.D: Más tiempo dedicado a la pregunta=Mejores respuestas. |
#10
|
|||
|
|||
Hola, adicional a lo que ya te dijeron, también podrías utilizar la herramienta pdftotext https://www.xpdfreader.com/dl/xpdf-tools-win-4.00.zip del buen xpdf, lo puedes invocar por línea de comandos desde código y te genera un archivo con el texto del documento pdf.
Cita:
__________________
Un saludito. |
#11
|
||||
|
||||
Hola,
El programa me da error al ejecutar. Creo saber que pasa, quiza tu estás usando delphi en vez de lazarus, puede ser?. Respecto a xpdf todavia no lo pruebo, a ver si hay versión para lazarus. |
![]() |
|
|
![]() |
||||
Tema | Autor | Foro | Respuestas | Último mensaje |
Sacar datos numericos | jon_g461 | MS SQL Server | 3 | 18-11-2008 17:01:40 |
sacar los datos inversos de una tabla | richy08 | C++ Builder | 0 | 17-07-2007 21:38:33 |
como sacar datos de una query | todook | SQL | 3 | 06-12-2006 17:53:47 |
Como sacar datos de un DBgrid? | Durbed | Conexión con bases de datos | 2 | 01-09-2004 08:29:06 |
de donde sacar Base de datos de provincias poblaciones y CP? | Halfo | Varios | 1 | 23-07-2004 15:49:15 |
![]() |
|