Come migliorare la crawl depth di un blog
Cosa troverai in questo articolo. Googlebot dedica un certo numero di risorse alla scansione di un sito web. Il numero di URL scansionabili è influenzato, tra le altre cose, dalla storicità e autorevolezza del sito stesso, mentre a livello di singolo URL è la sua distanza in clic dalla root, ovvero la crawl depth, a determinare la facilità con cui Google può scansionare quel contenuto. Per ridurre la crawl depth e ottimizzare il budget di scansione, bisogna soprattutto intervenire sull’architettura e gerarchia delle informazioni, sull’interlinking e sulla velocità del sito web.
Indice
Quanto tempo dedica Google all’analisi di ciò che pubblichiamo sui siti web? Cosa ne deriva in termini di visibilità sui motori di ricerca? In questo articolo parliamo di crawl budget e crawl depth con particolare attenzione ai problemi tipici dei blog e dei siti di informazione, dandovi qualche indicazione per la risoluzione dei problemi più comuni.
Crawl depth: cos’è e come analizzarla
Google mette a disposizione di ogni sito web un insieme di risorse dedicate alla sua scansione: in altre parole, esiste un numero specifico di URL che gli spider del motore di ricerca possono e vogliono scansionare in un determinato lasso di tempo. Questo valore si chiama crawl budget. Maggiore è la quantità di URL presenti su un sito e più sarà laborioso questo processo; analogamente, una gerarchia delle informazioni molto complessa sottoporrà Googlebot a un maggiore sforzo, specialmente se questa gerarchia non risulta logicamente e chiaramente articolata e dunque le pagine rimangono “sepolte” in profondità nella struttura del sito web, diventando difficili (o impossibili, una volta esaurito il budget di scansione, che è influenzato anche dall’autorevolezza e storicità del dominio) da raggiungere.
Di conseguenza, è necessario analizzare i percorsi del proprio sito web nello stesso modo in cui lo farebbe l’algoritmo di Google e capire come ridurre la cosiddetta crawl depth, cioè la distanza di una data pagina dalla root del dominio. Esistono vari strumenti con i quali operare questo tipo di analisi, ma in prima battuta, per capire se sul vostro sito esistono problemi di scansionabilità, potete semplicemente esaminare il rapporto tra il totale delle sue pagine e il numero di URL scansionate, quest’ultimo determinabile attraverso il rapporto “Statistiche di scansione” all’interno delle impostazioni di Google Search Console. Dividendo il totale degli URL per il numero medio di pagine scansionate giornalmente sarà possibile capire se esistano problemi di crawling sul sito.

Quali sono i problemi di scansionabilità tipici di un blog?
La caratteristica principale di un blog è senza dubbio la presenza di un nutrito numero di contenuti. Con il proseguire del tempo, i contenuti nuovi spingono indietro quelli più vecchi, che non sono più raggiungibili dal feed principale del blog ma solo seguendo altri percorsi: le categorie, i tag tematici oppure gli archivi organizzati per data. Le pagine che non sono chiaramente collegate all’homepage – cosa naturale per un contenuto non più in evidenza nella pagina iniziale del sito web – sono più difficili da identificare per il motore di ricerca.
Un problema aggiuntivo e molto comune per il blog è la presenza di pagine dal contenuto simile che competono fra loro per ottenere l’attenzione del crawler anziché “collaborare” verso lo stesso obiettivo: si tratta di un problema molto diffuso sui blog perché su questi tipi di siti si tende spesso a improntare la propria strategia editoriale alla quantità invece che alla quantità e le dinamiche di lavoro non consentono sempre di fermarsi a ragionare sui piani editoriali passati e individuare contenuti che potrebbero essere aggiornati, accorpati e così via per creare pagine di maggiore valore e al contempo ottimizzare la scansionabilità del sito.
Idealmente, Googlebot dovrebbe riuscire a navigare tutto il sito saltando da un URL all’altro seguendo i link presenti in pagina; diversamente deve ricorrere ad altri strumenti, come la sitemap. La questione, dunque, è come riuscire ad agevolare, sia per Googlebot sia per gli utenti, il processo con cui raggiungere tutti i contenuti del sito, anche quelli più vecchi.

Strategie per migliorare la crawl depth di un blog
Abbiamo già suggerito alcuni dei modi più efficaci per migliorare la crawl depth di un blog o sito analogo. La prima strategia riguarda la gerarchia dei contenuti, che dovrebbero essere collocati all’interno del sito seguendo una struttura chiara e logica. Questo significa fare uso di categorie, sottocategorie e tag per suddividere i contenuti secondo il principio del siloing, stando sempre attenti a evitare sinonimie e duplicazioni di contenitori. In aggiunta, una mappa XML del sito può fornire ai motori di ricerca una panoramica chiara delle pagine del blog facilitandone la scansione.
Un altro strumento indispensabile è rappresentato dai link contestuali negli articoli, che aiutano a collegare pagine correlate all’interno del blog secondo il principio di pertinenza e con lo scopo di fornire valore aggiunto agli utenti. Anche il menù di navigazione principale deve obbedire agli stessi criteri, includendo collegamenti diretti alle pagine principali e alle categorie chiave, evitando la sovrabbondanza di informazioni.
Per risparmiare crawl budget e ottenere che Googlebot scansioni un numero maggiore di pagine, curate anche la velocità del sito, riducendo le dimensioni delle immagini senza comprometterne la qualità, abilitando la memorizzazione in cache e scegliendo un servizio di hosting affidabile e veloce. Monitorate poi con costanza gli errori 404: risolvere tempestivamente link rotti e pagine mancanti è un modo efficace per evitare che Googlebot finisca su binari morti disperdendo il proprio budget di scansione. Per impedire agli spider di attraversare percorsi che non ritenete rilevanti per il vostro progetto SEO, invece, ricorrete al file robots.txt per indicare quali parti del sito escludere dall’indicizzazione.
Va da sé che i contenuti devono essere sempre ottimizzati per le parole chiave pertinenti. Ricordiamo inoltre che i contenuti devono essere aggiornati con regolarità per mantenere il blog attivo e interessante in modo da essere premiato dai motori di ricerca. Anche mostrare un numero elevato di post sulla home del blog è una tattica efficace.
Coming soon:
La prossima settimana, sul blog di Seed, parleremo dei più comuni problemi di visibilità degli e-commerce e di come risolverli. Tornate a leggerci!