Web crawler

Un web crawler è un bot che si muove attraverso le pagine web e ne indicizza il contenuto in modo che gli utenti possano trovarlo nelle ricerche successive. I bot più importanti sono gestiti dai principali motori di ricerca. Google ha più bot di scansione web; altri includono il bot di Yahoo e il bot della società tecnologica cinese Baidu. Un web crawler viaggia principalmente nelle pagine web utilizzando collegamenti esterni e interni. I web crawler vengono anche chiamati spider.

Se il proprietario di un dominio Web desidera che il proprio sito venga trovato nelle ricerche, deve consentire la scansione del Web. I motori di ricerca presenteranno solo le pagine web che hanno scoperto tramite la scansione. Quando un web crawler si sposta attraverso una pagina, indicizza o registra tutte le informazioni pertinenti sulla pagina (spesso qualsiasi informazione sulla pagina) in modo che possa richiamare quelle pagine quando un utente effettua una query del motore di ricerca. Non tutta Internet è indicizzata; i ricercatori non sono sicuri di quanto. Ma solo le pagine web pubbliche sono accessibili dai web crawler; le pagine private non possono. Un sito web può anche aggiungere l'estensione robots.txt all'HTML per le pagine che non dovrebbero essere sottoposte a scansione da un bot o utilizzare tag "noindex" nell'HTML stesso.


Web crawler e SEO

I web crawler trovano contenuti per i motori di ricerca; ciò che raccolgono da una pagina web influisce sul posizionamento dell'ottimizzazione per i motori di ricerca di quella pagina. Se una pagina ha molte parole chiave e link pertinenti quando viene indicizzata, verrà visualizzata in modo più evidente su un motore di ricerca. Avere parole chiave in luoghi importanti, come intestazioni e metadati, offre anche una migliore visibilità SEO a una pagina web. I web crawler non solo prestano attenzione al testo normale su una pagina web, ma studiano anche i metadati e il modo in cui gli utenti rispondono a una pagina, quindi è importante che un sito web scelga metadati accurati da visualizzare in modo più accurato in un motore di ricerca - e avere contenuti che rispondano a query di ricerca pertinenti.

I bot crawler sono stati utilizzati anche per scopi dannosi, come la diffusione di contenuti falsi o la raccolta di informazioni sugli utenti, e sono stati utilizzati anche per valutare e influenzare l'opinione.


Pagine utili:

Informazioni sul formato .raw

Lascia un commento