dscargar web completa en formato PDF

Dudas y comentarios relacionadas con paquetes o programas específicos (obtención, uso, actualizaciones, versiones, problemas de instalación, etc.)

Moderadores: doc, Deckon

Responder
Avatar de Usuario
doc
Forista Ancestral
Forista Ancestral
Mensajes: 3522
Registrado: Mié Ago 11, 2010 10:32 am
Ubicación: Oviedo-es_ES
Contactar:

dscargar web completa en formato PDF

Mensaje por doc »

en mis tiempos de windowsero, usaba el Adobe Acrobat (el 'full', no el Reader) en una función muy interesante que te permitía descargar webs completas (es decir, abarcando varios 'niveles' (que tu decidías) de la estructura en 'arbol' de la web, y conservando los enlaces. Así podía bajar webs de cursillos, y cosas de estas, y las tenía, completas, en un PDF, pudiendo desplazarte por las lecciones, ejercicios, etc, porque como decía, se conservaban los enlaces.

Estoy intentando conseguir alguna aplicación que haga algo así en Linux (Debian).

Ya se que existen web para convertirte un enlace http en PDF, y extensiones del Firefox, etc, pero el problema es que solo me convierten el primer nivel, el que veo. Centrando mi objetivo, lo que quiero, en estos momentos, es pasar a PDF mi blog 'comoserdebianitaynomorirenelintento' completo, de manera de tenerlo en ese formato.

También se que lo puedo tener en formato html (de hecho ya lo tengo así, con un archivo 'nombre.html' y una carpeta 'nombre_files') pero estoy encabezonado en hacerlo en PDF, como lo hacía hace años (con el Adobe Acrobat 5.5, no digo más...), así que...

¿alguna idea de cómo hacerlo desde Debian?

Avatar de Usuario
johpunk
Forista Ancestral
Forista Ancestral
Mensajes: 4530
Registrado: Mié Ago 09, 2006 7:00 am
Ubicación: Táchira - Venezuela

Re: dscargar web completa en formato PDF

Mensaje por johpunk »

está un poco dificil eso que quieres, yo por lo menos no conozco ninguna aplicación que haga eso que pides, intenta con wkhtmltopdf aca te dicen como usarlo
Linux User #432922 ~ Linux Machine #390497
Gentoo 13.0 | ~amd64 | i3 improved | Github | dotfiles | Identi.ca | Twitter
irc.freenode.net | /join #gnu/linuxOS

Avatar de Usuario
cuentos
Forista Distinguido
Forista Distinguido
Mensajes: 1088
Registrado: Mar May 03, 2011 7:09 am

Re: dscargar web completa en formato PDF

Mensaje por cuentos »

buenas Doc, posiblemente esto te sirva, con wget, puedes descargar toda una pagina web,
http://www.linuxtotal.com.mx/index.php? ... _admon_017
Cuando mi maestro me reprendió, me dijo: Alejandro Magno a los 20 años conquistaba el mundo, Yo le conteste "si pero tenia de maestro a Aristóteles".
Twitter: @mcuentos

Avatar de Usuario
neurus
Forista Legendario
Forista Legendario
Mensajes: 1830
Registrado: Dom Oct 10, 2004 7:00 am

Re: dscargar web completa en formato PDF

Mensaje por neurus »

Para eso existe htmldoc. La única dependencia es libchm-bin, así que:

Código: Seleccionar todo

sudo apt-get install libchm-bin htmldoc
El problema que podría presentar, es que a veces no consigue trabajar muy bien con las páginas web de manera directa. En esos casos conviene descargar los archivos html mediante wget (a esta algura, doy por supuesto que sabes usarlo, al menos a un nivel básico), y luego convertir esos archivos mediante htmldoc.

Sólo un detalle: cuando se tienen muchos archivos html, el programa -que es gráfico- no permite dar click derecho ni tiene un menú "seleccionar todo", pero pueden seleccionarse muchos archivos a la vez mediante Shift+Down (o Up).

Asimismo, puedes elegir guardar el resultado en un directorio, o en un archivo. Es decir: puedes tener un directorio con 100 archivos pdf, o un archivo pdf con cien páginas, seǵun decidas.

Saludos.

Avatar de Usuario
doc
Forista Ancestral
Forista Ancestral
Mensajes: 3522
Registrado: Mié Ago 11, 2010 10:32 am
Ubicación: Oviedo-es_ES
Contactar:

Re: dscargar web completa en formato PDF

Mensaje por doc »

gracias, cuentos, pero creo que no es eso (o al menos esto he entendido, en una primera lectura). Lo que intento es descargar una web completa (o, al menos, 2-3 niveles de enlaces), PERO CONVERTIDA EN FORMATO PDF.
Por lo que he leido, un comando como
wget http://ejemplo.com/*.pdf
me descarga los archivos de esa web que estén en formato PDF (que, en mi caso no hay ninguno. Al menos esto es lo que me da si hago
wget http://comoserdebianitaynomorirenelinte ... m.es/*.pdf

(también he probado añadir, por si funcionaba,
--convert-links --pdf-extension
pero no va.)

Editado -- hace menos de un minuto --

perdón, Neuros, no había leido tu post. Vale, estoy probando, de momento ya me he descargado, en HTML, codo mi blog (y lo tengo en una carpeta). Ahora investigará sobre htmldoc.
(dices que 'el programa -que es gráfico-.... pero será que NO es gráfico ¿no?. Ah, vale, ya he visto cómo es.

Editado -- hace menos de un minuto --

Bueno, en un primer intento, selecciono unos cuantos *.html d e los que había bajado, lo voy 'encajando' para crear PDF, pero me queda fatal de formato. Tengo que investigas, es que ahora tengo que salir un par de horitas.

Ya comentaré esta noche

Editado -- hace menos de un minuto --

bueno, he estado echando un vistazo al tema, la verdad es que he tenido poco tiempo, y 'mi gozo en un pozo': primero, con el htmldoc tengo un problema de fuentes, me sale algo así como esto:
Imagen
y además, como tengo un pequeño WinXP virtual, le he instalado un viejo Adobe Acrobat Pro que tenía por ahí y, efectivamente, el tema de dsacrgar una web en formato PDF es muy fácil...
Imagen
pero por la estructura del blog, con marcos, o lo que sea, me queda 'muy descuadrada'. Vamos, que se ve infinitamente mejor si la descargo como HTML.

Así que momento lo voy a dejar aquí, aunque voy a investigar el tema de la herramienta 'htmldoc', que le he visto cosas interesantes, aunque es una pena que no permita (o no lo he visto) configurar mejor las fuentes para que no me salga como he enseñado.

Venga, gracias por todo, hoy he aprendido una cosa más... y me queda tratar de 'perfeccionarme'

Avatar de Usuario
neurus
Forista Legendario
Forista Legendario
Mensajes: 1830
Registrado: Dom Oct 10, 2004 7:00 am

Re: dscargar web completa en formato PDF

Mensaje por neurus »

Eso es por la codificación de caracteres, que en Linux casi siempre es utf-8, y en ese programa, latin1.

Solución: recode latin1 archivo.html

Avatar de Usuario
doc
Forista Ancestral
Forista Ancestral
Mensajes: 3522
Registrado: Mié Ago 11, 2010 10:32 am
Ubicación: Oviedo-es_ES
Contactar:

Re: dscargar web completa en formato PDF

Mensaje por doc »

gracias, neurus.

Bueno, he instalado 'recode' e intentado hacerlo... y no consigo nada. No se si es que lo estaré haciendo mal. Yo hago, por ejemplo, lo siguiente

Código: Seleccionar todo

doc@debian:~/comoserdebianitaynomorirenelintento.blogspot.com.es$ dir
2012  2012_10_01_archive.html  favicon.ico
2012_03_01_archive.html  2012_11_01_archive.html  index.html

doc@debian:~/comoserdebianitaynomorirenelintento.blogspot.com.es$ recode latin1 2012_03_01_archive.html
doc@debian:~/comoserdebianitaynomorirenelintento.blogspot.com.es$
pero nada, hago después el htmldoc sobre este archivo 'presuntamente' recodificado... y sigue igual.

Avatar de Usuario
neurus
Forista Legendario
Forista Legendario
Mensajes: 1830
Registrado: Dom Oct 10, 2004 7:00 am

Re: dscargar web completa en formato PDF

Mensaje por neurus »

En la cabecera de los blogs, puede leerse:

Código: Seleccionar todo

<meta content='text/html; charset=UTF-8' http-equiv='Content-Type'/>
¿Tendrá algo que ver? No es ironía. Realmente no sé si htmldoc lee las cabeceras e interpreta la codificación.

No es para que lo hagas a mano, uno por uno. Pero prueba cambiarle a uno el UTF-8 por latin1 o iso8859-1. O borrar esa línea directamente. Si funciona, habrá que hacer un script para cambiar eso recursivamente.

De todos modos, a mi también me llama la atención que no haya una vía más directa para hacer esto.

linuxerolibre
Forista Nuevo
Forista Nuevo
Mensajes: 8
Registrado: Sab Ene 19, 2013 8:28 pm

Re: dscargar web completa en formato PDF

Mensaje por linuxerolibre »

Hola!

no se si esto te sirva, pero de todas maneras no esta de mas ensayar.

EN WEB
http://www.techadictos.com/descargar-pa ... eb-en-pdf/

Programa

httrack
es una completa herramienta para bajar paginas webs completa a tu computador.

apt-get install httrack

si quieres compilarlo
http://www.httrack.com/page/2/en/index.html

webkit2pdf
herramientas para exportar paginas web a formato pdf

espero haberte ayudado

Avatar de Usuario
doc
Forista Ancestral
Forista Ancestral
Mensajes: 3522
Registrado: Mié Ago 11, 2010 10:32 am
Ubicación: Oviedo-es_ES
Contactar:

Re: dscargar web completa en formato PDF

Mensaje por doc »

te lo agradezco. Acabo de verlo, ya he instalado las dos aplicaciones, mañana las veré a fondo, porque hoy (para mi) ya es muy tarde y estoy acabando otras cosillas en otro ordenador.

En un primer vistazo 'httrack' me ha funcionado (tengo que ver eso de las distintas opciones 1, 2, 3...) pero webkit2pdf me tiene un poco despintado, con eso (en su GUI) de añadir URL/s, que no lo veo claro. Tdendré que buscar algún tutorial.

Venga, gracias.

Editado -- hace menos de un minuto --

bueno, he hecho un pequeño intento y ya me ha salido algo con webkit2pdf. Lo que pasa es que lo he hecho añadiendo el enlace http://... y claro, solo me ha transformado las páginas que veo, no toda la web (es decir, no funcionan las enlaces)

Tengo que ver (pero ya, mañana), cómo puedo cargar los archivos html que me ha creado httrack en mi disco duro, porque ahí si que los veo todos.

Editado -- hace menos de un minuto --

bueno, ya lo he visto. Pera hala, que tya son cerca de las de la madrugada... así que me prometo que ya, lo dejo para mañana)

Responder
  • Temas similares
    Respuestas
    Vistas
    Último mensaje