Estoy recibiendo con mucha frecuencia documentos en el formato
docx de MS Office 2007, un formato que aún OpenOffice no acepta sin ayuda de extensiones.
Un día recibí un
docx cuyo contenido tenía que publicarse urgentemente en el web. Fue entonces que decidí hacer algo al respecto:
Código:
$ unzip carta-graduacion-d.docx
$ cd word/
$ cat document.xml | sed -e 's/<\/w\:p>/\n/g' | sed -e 's/<[^>]*>//g' | iconv -f utf8 -t iso88591
Sin imágenes, sin decoraciones, sin tablas, sin formatos especiales. Sólo texto simple y legible.
Más detalles:
http://www.oss.cayey.upr.edu/blogs/tecn ... 7-a-texto/