Come scaricare pagine Web e file utilizzando wget

L'utilità wget scarica pagine Web, file e immagini dal Web utilizzando la riga di comando di Linux. È possibile utilizzare un singolo comando wget per scaricare da un sito o impostare un file di input per scaricare più file su più siti. Secondo la pagina di manuale, wget può essere utilizzato anche quando l'utente si è disconnesso dal sistema. Per fare ciò, usa il comando nohup.


Caratteristiche del comando wget

Puoi scaricare interi siti web usando wget, e convertire i collegamenti in modo che puntino a fonti locali in modo da poter visualizzare un sito Web offline. L'utilità wget ritenta anche un download quando la connessione si interrompe e riprende da dove era stata interrotta, se possibile, quando la connessione ritorna.

Altre caratteristiche di wget sono le seguenti:

  • Scarica i file utilizzando HTTP, HTTPS e FTP.
  • Riprendi i download.
  • Converti i collegamenti assoluti nelle pagine Web scaricate in URL relativi in ​​modo che i siti Web possano essere visualizzati offline.
  • Supporta proxy e cookie HTTP.
  • Supporta connessioni HTTP persistenti.
  • Può essere eseguito in background anche quando non sei connesso.
  • Funziona su Linux e Windows.

Come scaricare un sito Web utilizzando wget

Per questa guida, imparerai come scaricare questo blog Linux:

wget www.ever

Prima di iniziare, creare una cartella sulla macchina utilizzando il comando mkdir, quindi spostarsi nella cartella utilizzando il comando cd.

Per esempio:

mkdir dailylinuxuser
cd dailylinuxuser
wget www.ever

Il risultato è un singolo file index.html che contiene il contenuto estratto da Google. Le immagini e i fogli di stile si trovano su Google.

Per scaricare il sito completo e tutte le pagine utilizzare il seguente comando:

wget -r www.ever

Questo scarica le pagine in modo ricorsivo fino a un massimo di 5 livelli di profondità. Cinque livelli di profondità potrebbero non essere sufficienti per ottenere tutto dal sito. Usa il -l passare per impostare il numero di livelli a cui si desidera accedere, come segue:

wget -r -l10 www.ever

Se vuoi la ricorsione infinita, usa quanto segue:

wget -r -l inf www.ever

Puoi anche sostituire il file inf con i 0, che significa la stessa cosa.

C'è un altro problema. Potresti ottenere tutte le pagine localmente, ma i link nelle pagine puntano alla posizione originale. Non è possibile fare clic localmente tra i collegamenti nelle pagine.

Per aggirare questo problema, usa il -k passare per convertire i collegamenti nelle pagine in modo che puntino all'equivalente scaricato localmente, come segue:

wget -r -k www.ever

Se vuoi ottenere un mirror completo di un sito web, usa il seguente interruttore, che elimina la necessità di usare il -r, -k e -l interruttori.

wget -m www.ever

Se hai un sito web, puoi fare un backup completo usando questo semplice comando.


Esegui wget come comando in background

Puoi far eseguire wget come comando in background lasciandoti in grado di andare avanti con il tuo lavoro nella finestra del terminale durante il download dei file. Usa il seguente comando:

wget -b www.ever

Puoi combinare gli interruttori. Per eseguire il comando wget in background durante il mirroring del sito, utilizzare il seguente comando:

wget -b -m www.ever

Puoi semplificarlo ulteriormente, come segue:

wget -bm www.ever

Registrazione

Se esegui il comando wget in background, non vedi nessuno dei normali messaggi che invia allo schermo. Per inviare questi messaggi a un file di registro in modo da poter controllare lo stato di avanzamento in qualsiasi momento, utilizzare il comando tail.

Per inviare le informazioni dal comando wget a un file di registro, utilizzare il seguente comando:

wget -o / path / to / mylogfile www.ever

Il contrario è di non richiedere alcuna registrazione e nessun output sullo schermo. Per omettere tutto l'output, utilizzare il seguente comando:

wget -q www.ever


Scarica da più siti

È possibile impostare un file di input da scaricare da molti siti diversi. Apri un file utilizzando il tuo editor preferito o il comando cat ed elenca i siti o i link da cui scaricare su ogni riga del file. Salva il file, quindi esegui il seguente comando wget:

wget -i /

Oltre a eseguire il backup del tuo sito web o trovare qualcosa da scaricare da leggere offline, è improbabile che tu voglia scaricare un intero sito web. È più probabile che scarichi un singolo URL con immagini o scarichi file come file zip, file ISO o file di immagine.

Con questo in mente, non è necessario digitare quanto segue nel file di input poiché richiede tempo:

  • http://www.myfileserver.com/file1.zip
  • http://www.myfileserver.com/file2.zip
  • http://www.myfileserver.com/file3.zip

Se sai che l'URL di base è lo stesso, specifica quanto segue nel file di input:

  • file1.zip
  • file2.zip
  • file3.zip

È quindi possibile fornire l'URL di base come parte del comando wget, come segue:

wget -B http://www.myfileserver.com -i /

Riprova Opzioni

Se imposti una coda di file da scaricare in un file di input e lasci il computer in esecuzione per scaricare i file, il file di input potrebbe bloccarsi mentre sei assente e riprovare a scaricare il contenuto. È possibile specificare il numero di tentativi utilizzando la seguente opzione:

wget -t 10 -i /

Utilizzare il comando precedente insieme a -T passare per specificare un timeout in secondi, come segue:

wget -t 10 -T 10 -i /

Il comando precedente riproverà 10 volte e si connetterà per 10 secondi per ogni collegamento nel file.

È anche scomodo scaricare il 75% di un file da 4 gigabyte su una connessione a banda larga lenta solo per interrompere la connessione. Per utilizzare wget per riprovare dal punto in cui è stato interrotto il download, utilizzare il seguente comando:

wget -c www.myfileser

Se martelli un server, all'host potrebbe non piacere e potrebbe bloccare o uccidere le tue richieste. È possibile specificare un periodo di attesa per specificare quanto tempo attendere tra ogni recupero, come segue:

wget -w 60 -i /

Il comando precedente attende 60 secondi tra ogni download. Ciò è utile se scarichi molti file da un'unica fonte.

Alcuni host web potrebbero rilevare la frequenza e bloccarti. Puoi rendere casuale il periodo di attesa per far sembrare che non stai utilizzando un programma, come segue:

wget --random-wait -i /

Proteggi i limiti di download

Molti provider di servizi Internet applicano limiti di download per l'utilizzo della banda larga, in particolare per coloro che vivono fuori città. Potresti voler aggiungere una quota in modo da non superare il limite di download. Puoi farlo nel modo seguente:

wget -q 100m -i /

Lo -q comando non funzionerà con un singolo file. Se scarichi un file di 2 gigabyte, utilizzando -q 1000m non interrompe il download del file.

La quota viene applicata solo durante il download ricorsivo da un sito o quando si utilizza un file di input.

Supera la sicurezza

Alcuni siti richiedono il login per accedere al contenuto che desideri scaricare. Utilizzare le seguenti opzioni per specificare il nome utente e la password.

wget --user = yourusername --password

In un sistema multiutente, quando qualcuno esegue il file ps possono vedere il tuo nome utente e la tua password.

Altre opzioni di download

Per impostazione predefinita, il -r switch scarica ricorsivamente il contenuto e crea directory man mano che procede. Per scaricare tutti i file in una singola cartella, utilizzare la seguente opzione:

L'opposto di questo è forzare la creazione di directory che può essere ottenuta utilizzando il seguente comando:

Come scaricare determinati tipi di file

Se vuoi scaricare in modo ricorsivo da un sito, ma vuoi solo scaricare un tipo di file specifico come un MP3 o un'immagine come un PNG, usa la seguente sintassi:

wget -A &

Il contrario è ignorare determinati file. Forse non vuoi scaricare eseguibili. In questo caso, utilizza la seguente sintassi:

wget -R &

Cliget

C'è un componente aggiuntivo per Firefox chiamato cliget. Per aggiungerlo a Firefox:

  1. Visita https://addons.mozilla.org/en-US/firefox/addon/cliget/ e fai clic su aggiungi a Firefox pulsante.

  2. Clicca il install quando appare, quindi riavvia Firefox.

  3. Per utilizzare cliget, visita una pagina o un file che desideri scaricare e fai clic con il pulsante destro del mouse. Viene visualizzato un menu di scelta rapida chiamato cliget e sono disponibili opzioni per copia a wget ed copia per arricciare.

  4. Clicca il copia su wget opzione, apri una finestra di terminale, quindi fai clic con il pulsante destro del mouse e scegli incolla. Il comando wget appropriato viene incollato nella finestra.

Questo ti evita di dover digitare il comando da solo.

sommario

Il comando wget ha una serie di opzioni e opzioni. Per leggere la pagina di manuale di wget, digita quanto segue in una finestra di terminale:

man wget

#goog-gt-tt {display:none !important;}.goog-te-banner-frame {display:none !important;}.goog-te-menu-value:hover {text-decoration:none !important;}body {top:0 !important;}#gtranslate_element {display:none!important;}

var gt_not_translated_list = ["wget www.ever","wget -r www.ever","wget -r -l10 www.ever","wget -r -l inf www.ever","wget -r -k www.ever","wget -m www.ever","wget -b www.ever","wget -b -m www.ever","wget -bm www.ever","wget -q www.ever","wget -i /","file1.zip","file2.zip","file3.zip","wget -B http://www.myfileserver.com -i /","wget -t 10 -i /","wget -t 10 -T 10 -i /","wget -c www.myfileser","wget -w 60 -i /","wget --random-wait -i /","wget -q 100m -i /","Cliget","man wget"];
document.cookie = "googtrans=/auto/it; domain=.balogs.xyz";
document.cookie = "googtrans=/auto/it";
function GTranslateElementInit() {new google.translate.TranslateElement({pageLanguage: 'auto',layout: google.translate.TranslateElement.InlineLayout.SIMPLE,autoDisplay: false,multilanguagePage: true}, 'gtranslate_element');}


Pagine utili:

Informazioni sul formato .do

Lascia un commento