Crear Script lectura de pdf

Dudas y comentarios relacionadas con paquetes o programas específicos (obtención, uso, actualizaciones, versiones, problemas de instalación, etc.)

Moderadores: doc, Deckon

Responder
dpinyol
Forista Nuevo
Forista Nuevo
Mensajes: 2
Registrado: Jue Nov 05, 2015 2:22 pm

Crear Script lectura de pdf

Mensaje por dpinyol » Jue Nov 05, 2015 2:27 pm

Hola,
ando buscando algo de ayuda para hacer un pequeños script.
tengo una estructura de directorios tal que asi: PDF\entrada\li ... lin
es decir, dentro de entrada hay varias carpetas e incluso subcarpetas que contiene ficheros .pdf.

Quiero hacer un script que para cada fichero que encuentre , le pase
un ocr y lo mueva a una nueva carpeta, manteniendo la esstructura de origen: (PDF\salida\li...ln)

como ocr voy a utilizar pdfocr, y su sintaxis basicamente es pdfocr -i inputFILE -o outputFILE.

¿Como podria automatizar este proceso para todos los pdfs del directorio?

Desde ya muchas gracias
Avatar de Usuario
doc
Forista Ancestral
Forista Ancestral
Mensajes: 3274
Registrado: Mié Ago 11, 2010 10:32 am
Ubicación: Oviedo-es_ES
Contactar:

Re: Crear Script lectura de pdf

Mensaje por doc » Jue Nov 05, 2015 3:22 pm

es encomiable lo de querer hacer pequeños scripts pero, en mi opinión personal, el OCR en Linux está muy poco desarrollado y, como tampoco creo que lo hagas todos los días, yo te sugeriría que, para esto que dices, en vez de complicarte la vida, lo hagas uno a uno, manualmente... que tya de por si tienen 'bastante tela'

Por otro lado, yo no se si 'pdfocr' es un programa desarrollado para Windows (al menos yo no lo tengo en los repositorios de Debian, ni aparece nada en su web) y, desde luego, parece poco potente. De usar un programa para Windows, yo te sugeriría Abbyy FineReader, que al menos la versión de hace 3 o 4 años funcionaba perfectamente (incluso sus versiones 'portables') a través de Wine... si eres partidario de este invento.
dpinyol
Forista Nuevo
Forista Nuevo
Mensajes: 2
Registrado: Jue Nov 05, 2015 2:22 pm

Re: Crear Script lectura de pdf

Mensaje por dpinyol » Vie Nov 06, 2015 10:09 am

Hola doc,
gracias por tu aportación: no te falta razón.
el problema es que si es una carga de trabajo elevada, ya que el circuito con los escaneos es algo más largo:
Escaneo - OCR - Split - Renombrar cada pdf generado.

El pdfocr es bastante casposo, pero me vale para pasarle despues los ficheros generados a una aplicación en windows que los renombra, detectando un patrón de texto dentro del PDF.

Gracias
Responder
  • Similar Topics
    Respuestas
    Vistas
    Último mensaje