PDA

Ver la Versión Completa : Sacar datos de un pdf


anubis
23-11-2017, 05:05:12
Buenas amigos,

Tenía tiempo que no entraba al foro porque, por motivos personales, no he tocado la programación :(.
Vuelvo un poco a la carga a ver si es posible hacer lo siguiente:

Necesito saber si es posible sacar los datos de un archivo pdf que no ha sido escaneado. Si lo abro puedo copiar, pero necesitaba ver si, al abrirlo de alguna forma con lazarus, sacar los datos sin tener que recurrir a seleccionar texto.

Igual no se puede, pero me resultaría muy útil.

Saludos y gracias

Casimiro Notevi
23-11-2017, 09:57:33
Depende, poder se puede, pero si quieres automatizarlo tendrás que buscar una referencia en texto del mismo, por ejemplo, si en el pdf pone algo así como: "Reunidos de una parte D. xxxxxxxxxx ......"
Y quieres extraer el nombre después de "D.", podrás automatizarlo leyendo el pdf y buscando la cadena: "Reunidos de una parte D." y copiando el texto que venga después.
Si es algo "aleatorio" y sin referencias fijas para buscar, difícil lo veo.

Neftali [Germán.Estévez]
23-11-2017, 10:15:18
Recuerdo haber mirado esto hace tiempo, y hay algunas herramientas gratuítas que te permiten, por ejemplo, extraer el texto de un PDF.
Si esto te sirve puedes llamar a alguna de estas herramientas (de consola algunas) y una vez obtenido el texto, parsear los datos que necesites.

bucanero
23-11-2017, 12:34:14
Hola,

Yo utilizo una DLL para extraer el contenido de los PDF, en concreto PDFtext.dll que es totalmente funcional en su versión shareware, solamente sale una ventana tipo popUp cada vez que se extrae el texto, por lo demas es bastante fácil de utilizar, sin dependencias a ADOBE o cualquier otro programa externo.

La web de descarga es http://www.is-soft.de/pdfanalyzer/mdownloads.html
y el uso es tan simple como:


function GetPDFPageCount(const FileName:PWideChar):LongInt; stdcall; external 'PDFtext.dll';
function GetPDFText(const FileName: PWideChar;
opt: LongInt=3;
hw: LongInt=0;
fast: LongInt=0;
target: PWideChar=0;
lspaces: LongInt=1;
ptitel: PWideChar=0;
pos: LongInt=0;
page: LongInt=0;
clock: LongInt=0;
blank: LongInt=0;
ende: LongInt=0;
wlist: LongInt=0): pWidechar; stdcall; external 'PDFtext.dll';

...

texto:=GetPdfText(PWideChar(FileName));



Espero sea de utilidad
Un saludo

anubis
23-11-2017, 14:50:48
Gracias amigos.
Si, los pdf provienen de archivos xml tal cual están. No tengo los xml por eso me interesaba "algo" que pudiera leerlos y de ahi extraer los textos que necesito.
Como tienen la estructura xml ya tengo las referencias a buscar.

Voy a probar la dll que me pone bucanero a ver que sale.:).

muchas gracias de nuevo

anubis
23-11-2017, 15:50:05
Hola de nuevo,

Estoy intentando implementar el codigo de bucanero, pero me da error en la llamada.


unit Unit1;

{$mode objfpc}{$H+}

interface

uses
Classes, SysUtils, FileUtil, Forms, Controls, Graphics, Dialogs, StdCtrls;

type

{ TForm1 }

TForm1 = class(TForm)
Button1: TButton;
OpenDialog1: TOpenDialog;
procedure Button1Click(Sender: TObject);

private
{ private declarations }
public

{ public declarations }

function GetPDFPageCount(const FileName:PWideChar):LongInt; stdcall;
function GetPDFText(const FileName: PWideChar;
opt: LongInt=3;
hw: LongInt=0;
fast: LongInt=0;
target: PWideChar=0;
lspaces: LongInt=1;
ptitel: PWideChar=0;
pos: LongInt=0;
page: LongInt=0;
clock: LongInt=0;
blank: LongInt=0;
ende: LongInt=0;
wlist: LongInt=0): pWidechar; stdcall;
end;

var
Form1: TForm1;

implementation

{$R *.lfm}

{ TForm1 }

procedure TForm1.Button1Click(Sender: TObject);
var
filename:string;
texto:string;
begin
if opendialog1.Execute then
begin
filename:=opendialog1.FileName;
texto:=GetPdfText(PWideChar(FileName));

end;
end;
function GetPDFPageCount(const FileName:PWideChar):LongInt; stdcall; external 'PDFtext.dll';
function GetPDFText(const FileName: PWideChar;
opt: LongInt=3;
hw: LongInt=0;
fast: LongInt=0;
target: PWideChar=0;
lspaces: LongInt=1;
ptitel: PWideChar=0;
pos: LongInt=0;
page: LongInt=0;
clock: LongInt=0;
blank: LongInt=0;
ende: LongInt=0;
wlist: LongInt=0): pWidechar; stdcall; external 'PDFtext.dll';
end.


unit1.pas(58,44) Error: Incompatible types: got "ShortInt" expected "PWideChar"

También busqué en el ejemplo de la propia dll pero lo maneja un poco diferente.

bucanero
23-11-2017, 18:41:46
Hola Anubis

Tu código lo he probado y a mi me funciona correctamente, Imagino que si te da error podrá ser por la versión de la DLL, en mi caso estoy usando la 4.0.0, creo que en la web ya es posterior.

Voy a intentar hacer pruebas con la versión de la web y comento

bucanero
23-11-2017, 18:55:41
La ultima versión de la DLL es la misma que estoy utilizando yo, las pruebas las hice con la versión de 32 bits y con este PDF de ejemplo, el cual conseguí leer sin problemas:

http://www.ite.educacion.es/formacion/materiales/107/cd/html/pdf/html11.pdf

la única diferencia respecto de tu código y el mio es que yo solo declaro las funciones en la parte de la INTERFACE, fuera del FORM


type
TForm1
...
end;

function GetPDFPageCount(const FileName:PWideChar):LongInt; stdcall; external 'PDFtext.dll';
function GetPDFText(const FileName: PWideChar;
opt: LongInt=3;
hw: LongInt=0;
fast: LongInt=0;
target: PWideChar=0;
lspaces: LongInt=1;
ptitel: PWideChar=0;
pos: LongInt=0;
page: LongInt=0;
clock: LongInt=0;
blank: LongInt=0;
ende: LongInt=0;
wlist: LongInt=0): pWidechar; stdcall; external 'PDFtext.dll';

var
Form1: TForm1;

implementation

{$R *.dfm}

procedure TForm1.Button1Click(Sender: TObject);
var
filename: string;
texto: string;
begin
if opendialog1.Execute then begin
filename := opendialog1.FileName;
texto := GetPdfText(PWideChar(filename));
Memo1.Lines.Add(texto);
end;
end;

end.

Neftali [Germán.Estévez]
24-11-2017, 08:19:52
Así a primera vista, diría que las inicializaciones de target y ptitel son de un tipo incorrecto.

jorge82
24-11-2017, 18:22:21
Hola, adicional a lo que ya te dijeron, también podrías utilizar la herramienta pdftotext https://www.xpdfreader.com/dl/xpdf-tools-win-4.00.zip del buen xpdf, lo puedes invocar por línea de comandos desde código y te genera un archivo con el texto del documento pdf.


pdftotext(1) General Commands Manual pdftotext(1)



NAME
pdftotext - Portable Document Format (PDF) to text converter (version
4.00)

SYNOPSIS
pdftotext [options] [PDF-file [text-file]]

anubis
26-11-2017, 08:01:24
Hola,
El programa me da error al ejecutar.
Creo saber que pasa, quiza tu estás usando delphi en vez de lazarus, puede ser?.

Respecto a xpdf todavia no lo pruebo, a ver si hay versión para lazarus.