Deep Web (o "deep web") è il termine generale per la parte non indicizzata del World Wide Web. Il termine è stato coniato nel 2001 dall'informatico Michael K. Bergmann.
I motori di ricerca classici - come Google - non possono trovare queste pagine senza indicizzazione. Sono invisibili o nascosti. Ecco perché il termine web invisibile o web nascosto è spesso usato come alternativa. Le pagine indicizzate, d'altra parte, possono essere trovate e accessibili tramite i motori di ricerca nel Web visibile. Gli esperti ritengono che il Deep Web sia molte volte più grande del Web visibile. Secondo uno studio, il Web nascosto era fino a 550 volte più grande del Web visibile già nel 2001. Si può supporre che questo valore sia aumentato ancora di più oggi.
Il Deep Web può essere diviso in queste categorie
Il Deep Web funziona fondamentalmente come un termine generico per varie sotto-aree. Il Web invisibile può essere diviso in un totale di quattro categorie:
- Web opaco: profondità di crawling e frequenza di crawl come criteri essenziali: Questa è la parte del Deep Web che non può essere indicizzata (a causa di alcune restrizioni), anche se è tecnicamente registrata correttamente dai motori di ricerca. Tuttavia, i siti web sono di solito catturati per crawl solo fino al sesto livello di directory. Pertanto, i siti web - che non potrebbero ancora essere raggiunti dal crawler - finiscono nel Web opaco con una bassa profondità di crawling. Un altro criterio è l'attualità dei siti web, cioè la frequenza di crawl. Inoltre, i tipi di file e media che non sono completamente compresi dallo spider possono essere trovati nel Web Opaco, così come le pagine di spam e i siti web senza riferimenti di link o collegamenti ipertestuali.
- Web privato: Accessibile solo a certi utenti: le pagine web che non sono incluse nell'indice a causa di una restrizione di accesso appaiono nel Web privato. Per accedere a queste pagine, sono richieste password o indirizzi IP specifici. A questo scopo, un meta-tag aggiuntivo è memorizzato nel testo sorgente. Il Web privato include, per esempio, pagine intranet che possono essere accessibili solo attraverso certe reti di computer. Anche i documenti delle biblioteche o delle università sono qui rappresentati in gran numero.
- Rete privata: Il contenuto di alta qualità non è un criterio di decisione in questo caso: Il termine web proprietario si riferisce a siti che offrono contenuti a pagamento, richiedono l'accordo di alcune condizioni utente o richiedono la registrazione. Anche se c'è un contenuto utile dietro questi siti web, gli spider non possono accedere a questo contenuto tramite il crawling.
- Rete veramente invisibile: Indicizzazione non possibile per motivi tecnici: In questa categoria deep web si possono trovare siti web che non possono essere riconosciuti e indicizzati per motivi puramente tecnici. Principalmente, si tratta di formati di file che non possono essere visualizzati dal browser. Questi includono formati di file specifici del software, script e formati non standard come Flash.
.