Foros Club Delphi - Sacar datos de un pdf

Foros Club Delphi (https://www.clubdelphi.com/foros/index.php)

- Lazarus, FreePascal, Kylix, etc. (https://www.clubdelphi.com/foros/forumdisplay.php?f=14)

- - Sacar datos de un pdf (https://www.clubdelphi.com/foros/showthread.php?t=92544)

Sacar datos de un pdf

Buenas amigos,

Tenía tiempo que no entraba al foro porque, por motivos personales, no he tocado la programación :(.
Vuelvo un poco a la carga a ver si es posible hacer lo siguiente:

Necesito saber si es posible sacar los datos de un archivo pdf que no ha sido escaneado. Si lo abro puedo copiar, pero necesitaba ver si, al abrirlo de alguna forma con lazarus, sacar los datos sin tener que recurrir a seleccionar texto.

Igual no se puede, pero me resultaría muy útil.

Saludos y gracias

Depende, poder se puede, pero si quieres automatizarlo tendrás que buscar una referencia en texto del mismo, por ejemplo, si en el pdf pone algo así como: "Reunidos de una parte D. xxxxxxxxxx ......"
Y quieres extraer el nombre después de "D.", podrás automatizarlo leyendo el pdf y buscando la cadena: "Reunidos de una parte D." y copiando el texto que venga después.
Si es algo "aleatorio" y sin referencias fijas para buscar, difícil lo veo.

Recuerdo haber mirado esto hace tiempo, y hay algunas herramientas gratuítas que te permiten, por ejemplo, extraer el texto de un PDF.
Si esto te sirve puedes llamar a alguna de estas herramientas (de consola algunas) y una vez obtenido el texto, parsear los datos que necesites.

Hola,

Yo utilizo una DLL para extraer el contenido de los PDF, en concreto PDFtext.dll que es totalmente funcional en su versión shareware, solamente sale una ventana tipo popUp cada vez que se extrae el texto, por lo demas es bastante fácil de utilizar, sin dependencias a ADOBE o cualquier otro programa externo.

La web de descarga es http://www.is-soft.de/pdfanalyzer/mdownloads.html
y el uso es tan simple como:

Código Delphi [-] function GetPDFPageCount(const FileName:PWideChar):LongInt;  stdcall; external 'PDFtext.dll';
 function GetPDFText(const FileName: PWideChar;
    opt: LongInt=3;
    hw: LongInt=0;
    fast: LongInt=0;
    target: PWideChar=0;
    lspaces: LongInt=1;
    ptitel: PWideChar=0;
    pos:  LongInt=0;
    page: LongInt=0;
    clock: LongInt=0;
    blank: LongInt=0;
    ende: LongInt=0;
    wlist: LongInt=0): pWidechar; stdcall; external 'PDFtext.dll';

...

  texto:=GetPdfText(PWideChar(FileName));

Espero sea de utilidad
Un saludo

Gracias amigos.
Si, los pdf provienen de archivos xml tal cual están. No tengo los xml por eso me interesaba "algo" que pudiera leerlos y de ahi extraer los textos que necesito.
Como tienen la estructura xml ya tengo las referencias a buscar.

Voy a probar la dll que me pone bucanero a ver que sale.:).

muchas gracias de nuevo

Hola de nuevo,

Estoy intentando implementar el codigo de bucanero, pero me da error en la llamada.

Código Delphi [-]unit Unit1;

{$mode objfpc}{$H+}

interface

uses
  Classes, SysUtils, FileUtil, Forms, Controls, Graphics, Dialogs, StdCtrls;

type

  { TForm1 }

  TForm1 = class(TForm)
    Button1: TButton;
    OpenDialog1: TOpenDialog;
    procedure Button1Click(Sender: TObject);

  private
    { private declarations }
  public

    { public declarations }

      function GetPDFPageCount(const FileName:PWideChar):LongInt;  stdcall;
 function GetPDFText(const FileName: PWideChar;
    opt: LongInt=3;
    hw: LongInt=0;
    fast: LongInt=0;
    target: PWideChar=0;
    lspaces: LongInt=1;
    ptitel: PWideChar=0;
    pos:  LongInt=0;
    page: LongInt=0;
    clock: LongInt=0;
    blank: LongInt=0;
    ende: LongInt=0;
    wlist: LongInt=0): pWidechar; stdcall;
  end;

var
  Form1: TForm1;

implementation

{$R *.lfm}

{ TForm1 }

procedure TForm1.Button1Click(Sender: TObject);
var
  filename:string;
  texto:string;
begin
 if opendialog1.Execute then
 begin
   filename:=opendialog1.FileName;
     texto:=GetPdfText(PWideChar(FileName));

 end;
end;
 function GetPDFPageCount(const FileName:PWideChar):LongInt;  stdcall; external 'PDFtext.dll';
 function GetPDFText(const FileName: PWideChar;
    opt: LongInt=3;
    hw: LongInt=0;
    fast: LongInt=0;
    target: PWideChar=0;
    lspaces: LongInt=1;
    ptitel: PWideChar=0;
    pos:  LongInt=0;
    page: LongInt=0;
    clock: LongInt=0;
    blank: LongInt=0;
    ende: LongInt=0;
    wlist: LongInt=0): pWidechar; stdcall; external 'PDFtext.dll';
end.

Cita:

unit1.pas(58,44) Error: Incompatible types: got "ShortInt" expected "PWideChar"

También busqué en el ejemplo de la propia dll pero lo maneja un poco diferente.

Hola Anubis

Tu código lo he probado y a mi me funciona correctamente, Imagino que si te da error podrá ser por la versión de la DLL, en mi caso estoy usando la 4.0.0, creo que en la web ya es posterior.

Voy a intentar hacer pruebas con la versión de la web y comento

La ultima versión de la DLL es la misma que estoy utilizando yo, las pruebas las hice con la versión de 32 bits y con este PDF de ejemplo, el cual conseguí leer sin problemas:

http://www.ite.educacion.es/formacio...pdf/html11.pdf

la única diferencia respecto de tu código y el mio es que yo solo declaro las funciones en la parte de la INTERFACE, fuera del FORM

Código Delphi [-]type
  TForm1  
    ...
  end;

  function GetPDFPageCount(const FileName:PWideChar):LongInt;  stdcall; external 'PDFtext.dll';
  function GetPDFText(const FileName: PWideChar;
    opt: LongInt=3;
    hw: LongInt=0;
    fast: LongInt=0;
    target: PWideChar=0;
    lspaces: LongInt=1;
    ptitel: PWideChar=0;
    pos:  LongInt=0;
    page: LongInt=0;
    clock: LongInt=0;
    blank: LongInt=0;
    ende: LongInt=0;
    wlist: LongInt=0): pWidechar; stdcall; external 'PDFtext.dll';

var
  Form1: TForm1;

implementation

{$R *.dfm}

procedure TForm1.Button1Click(Sender: TObject);
var
  filename: string;
  texto: string;
begin
  if opendialog1.Execute then begin
    filename := opendialog1.FileName;
    texto := GetPdfText(PWideChar(filename));
    Memo1.Lines.Add(texto);
  end;
end;

end.

Así a primera vista, diría que las inicializaciones de target y ptitel son de un tipo incorrecto.

Hola, adicional a lo que ya te dijeron, también podrías utilizar la herramienta pdftotext https://www.xpdfreader.com/dl/xpdf-tools-win-4.00.zip del buen xpdf, lo puedes invocar por línea de comandos desde código y te genera un archivo con el texto del documento pdf.

Cita:

pdftotext(1) General Commands Manual pdftotext(1)

NAME
pdftotext - Portable Document Format (PDF) to text converter (version
4.00)

SYNOPSIS
pdftotext [options] [PDF-file [text-file]]

Hola,
El programa me da error al ejecutar.
Creo saber que pasa, quiza tu estás usando delphi en vez de lazarus, puede ser?.

Respecto a xpdf todavia no lo pruebo, a ver si hay versión para lazarus.