howto: convertir documentos docx a texto simple

Foro para discutir sobre la documentación en linux (libros, ebooks, documentos, editoriales, autores, etc), así como temas publicados en el sitio.
Responder
Avatar de Usuario
eocasio
Forista Nuevo
Forista Nuevo
Mensajes: 33
Registrado: Jue Jun 23, 2005 7:00 am
Ubicación: Puerto Rico
Contactar:

howto: convertir documentos docx a texto simple

Mensaje por eocasio » Sab Jul 05, 2008 9:43 pm

Estoy recibiendo con mucha frecuencia documentos en el formato docx de MS Office 2007, un formato que aún OpenOffice no acepta sin ayuda de extensiones.

Un día recibí un docx cuyo contenido tenía que publicarse urgentemente en el web. Fue entonces que decidí hacer algo al respecto:

Código: Seleccionar todo

$ unzip carta-graduacion-d.docx
$ cd word/
$ cat document.xml | sed -e 's/<\/w\:p>/\n/g' | sed -e 's/<[^>]*>//g' | iconv -f utf8 -t iso88591


Sin imágenes, sin decoraciones, sin tablas, sin formatos especiales. Sólo texto simple y legible.

Más detalles:
http://www.oss.cayey.upr.edu/blogs/tecn ... 7-a-texto/
Edwood Ocasio
blog: http://blogs.cognosource.com/tecno4all
La libertad es de aquel que posee su propio código
Avatar de Usuario
joserafael
Forista Mayor
Forista Mayor
Mensajes: 986
Registrado: Mié Mar 17, 2004 8:00 am
Ubicación: Caracas - Venezuela
Contactar:

Mensaje por joserafael » Dom Jul 06, 2008 4:03 am

¿No es mejor actualizarse a la nueva versión de Open Office?
Usuario Linux #397558
http://www.joserafael.com.ve
Avatar de Usuario
eocasio
Forista Nuevo
Forista Nuevo
Mensajes: 33
Registrado: Jue Jun 23, 2005 7:00 am
Ubicación: Puerto Rico
Contactar:

re howto: convertir documentos docx a texto simple

Mensaje por eocasio » Dom Jul 06, 2008 5:49 am

joserafael escribió:¿No es mejor actualizarse a la nueva versión de Open Office?


La salida oficial de OpenOffice 3.0 es en septiembre de 2008. Creo que ya tendrá apoyo a los nuevos formatos de MS Office 2007, según lei en esta discusión:

http://www.openoffice.org/issues/show_bug.cgi?id=60586

Ya los "builds" recientes tienen versiones preliminares de los filtros para MS Office 2007, pero nunca los he probado. Es raro que me anime a usar productos en estado beta y menos tan críticos para mí como OpenOffice.

Aprovecho para añadir esta página de OpenOffice.org como referencia adicional para este tema:

http://wiki.services.openoffice.org/wik ... 7_files%3F
Edwood Ocasio
blog: http://blogs.cognosource.com/tecno4all
La libertad es de aquel que posee su propio código
guarismo

Re: re howto: convertir documentos docx a texto simple

Mensaje por guarismo » Dom Jul 06, 2008 6:33 am

Amigo eocasio, muy bueno tu aporte. Lo leí con interés. Sin embargo, no creo que joserafael con su ¿No es mejor actualizarse a la nueva versión de Open Office? te estuviese animando a usar los productos en estado beta de OpenOffice. Es una pregunta que tu contestastes dejando entrever que no sería conveniente porque está todavía en un estado crítico. Tendrías razón si hubiese señalado ¿Por qué no te actualizas a la nueva versión de Open Office?

Saludos
Avatar de Usuario
ExEKieLiTo
Forista Legendario
Forista Legendario
Mensajes: 2107
Registrado: Vie Dic 07, 2007 8:00 am
Ubicación: /dev/Argentina/buenos aires

Re: howto: convertir documentos docx a texto simple

Mensaje por ExEKieLiTo » Dom Jul 06, 2008 4:31 pm

muy buen aporte :) se tendra en cuenta !!! gracias por todo !!

saludos.
Amd 3600 x2 Dual Core - 2 gb Ram - Nvidia Gforce 7300 GS - Sata2 250 GB
--
Corriendo Slackware 12
Avatar de Usuario
toche
Forista Distinguido
Forista Distinguido
Mensajes: 1075
Registrado: Jue Jul 20, 2006 7:00 am
Ubicación: Bogotá, Colombia
Contactar:

Mensaje por toche » Dom Jul 06, 2008 5:21 pm

eocasio gracias al link que pusiste de referencia adicional encontré lo que alguna vez había leído pero no había probado, el complemento para que openoffice abra documentos con extensión docx, lo acabo de instalar y probar y funcionó (por lo menos para textos simples).

Es que es la primera vez que me mandan un archivo con esa extensión, pero bueno estar preparado, interesante tu método, bastante práctico.
Gentoo 10.1 amd64 + LXDE
AMD Phenom II x4 945 3.0Ghz // 4Gb DDR3 (1333)
ATI Radeon HD4650 1Gb
GNU/Media
Responder
  • Similar Topics
    Respuestas
    Vistas
    Último mensaje