Introducción
Hace unos días actualicé el script para descargar imágenes de cualquier página web desde el terminal. Cuando estaba trabajando con él, se me ocurrió que lo mismo se podría hacer para descargar cualquier otro tipo de archivo. Si entramos en una página con una docena de referencias de normativa o reglamentación en formato pdf, resulta anodino tener que ir haciendo clic sobre cada una de ellas para poder descargar los archivos. Con este script, indicas el formato de los archivos que quieres descargar y el te los descargará todos.El script
Evidentemente he resuelto todos los errores que se producían con el script de imágenes, tanto en lo referente a los problemas con que el código html esté en mayúsculas o minúsculas, como los problemas con las comillas simples y dobles.He añadido las siguientes características:
- Cada archivo se descarga una única vez, aunque existan varias referencias en el sitio web
- Renombra archivos con el mismo nombre, codificándolos numéricamente para evitar sobreescribirlos
- Utiliza el mismo método para la descarga de archivos, lanzando varios hilos de forma simultánea, como también hace imagedownloader2 y Picapy
Descargar e instalar
Puedes descargar el script desde el área de descargas o desde aquí mismo:Una vez descargado lo descomprimes desde el terminal:
1 | tar -xvzf filedownloader2. tar .gz |
1 2 | chmod +x filedownloader2 sudo cp filedownloader2 /usr/bin/ |
Funcionamiento
Para descargar archivos de una página, tienes que indicar el tipo de archivos que quieres descargar y la página de donde quieres descargarlos (claro):1 | filedownloader2 ext url |
1 | filedownloader2 pdf http: //www .codigotecnico.org /web/recursos/documentos |
Fuente:http://www.atareao.es/ubuntu/conociendo-ubuntu/descargar-archivos-de-un-sitio-web-desde-el-terminal/ |
No hay comentarios:
Publicar un comentario