Come scoprire e gestire il contenuto duplicato
Cosa troverai in questo articolo. Il problema del contenuto duplicato si verifica quando blocchi di testo identici o molto simili appaiono su più URL all’interno o tra domini diversi. Non sempre è frutto di azioni malevole, ma anzi può scaturire da disattenzioni commesse in fase di progettazione tecnica o da una scarsa consapevolezza delle conseguenze in termini di posizionamento organico che il contenuto duplicato può generare; fra le cause principali c’è infatti la presenza di URL parametrici non canonicalizzati, l’uso di versioni HTTP/HTTPS o con/senza ‘www’ entrambe accessibili da utenti e motori di ricerca, ma anche l’uso di descrizioni di prodotto non originali, ad esempio perché viene utilizzata quella fornita direttamente dai produttori. Tutto questo può compromettere in maniera importante la visibilità SEO e deve dunque essere affrontato con strumenti come Google Search Console, Copyscape e Screaming Frog oltre che con l’implementazione di tag canonical e i redirect 301 e l’uso di robots.txt e noindex.
Problemi di visibilità sui motori di ricerca? Potreste avere contenuti duplicati sul sito di cui non siete al corrente: in questo articolo vi aiutiamo a capire tutte le cause più comuni di contenuto duplicato, come individuarlo e come intervenire per rendere più solida la posizione organica del vostro sito in SERP.
Che cos’è il contenuto duplicato?
Quando parliamo di contenuto duplicato intendiamo un contenuto che compare in maniera pressoché identica su due o più diverse pagine web appartenenti allo stesso sito oppure a due siti diversi. Come si produce contenuto duplicato? Ecco alcuni esempi molto comuni di duplicazioni che possono avvenire all’interno dello stesso sito:
- URL con parametri diversi che portano allo stesso contenuto, come nel caso dei prodotti o delle categorie di un e-commerce raggiungibili attraverso l’applicazione di filtri diversi;
- Versioni HTTPS e HTTP dello stesso sito entrambe accessibili e indicizzate dai motori di ricerca;
- Versioni con e senza ‘www’ dell’URL della stessa pagina, entrambe accessibili e indicizzabili;
- Versioni con combinazioni diverse di lettere maiuscole e minuscole: per Google, infatti, tutti gli URL sono case-sensitive;
- Versioni con e senza slash finale, qualora ognuna sia accessibile da utenti e motore di ricerca;
- Pagine tag molto simili;
- Pagine di stampa;
- URL dedicati per gli allegati immagine: creati in automatico da alcuni CMS, si riconoscono dal fatto che contengono solamente l’immagine e un copy riciclato per tutte le pagine dello stesso tipo;
- Pagine localizzate per varianti regionali di lingua poco diverse fra loro (ad es. inglese americano e inglese britannico) e sulle quali non sia stato impostato correttamente il tag hreflang;
- Pagine generate dal motore di ricerca interno del sito con parametri molto simili fra loro;
- URL mobile-friendly (ad es.:com/pagina e m.sito.com/pagina);
- Pagine di paginazione, comuni sui blog e su e-commerce con molti prodotti;
- Pagine con varianti molto simili di prodotti, ad esempio un prodotto disponibile in diversi colori a ognuno dei quali corrisponda una pagina diversa (il cui contenuto, com’è naturale, varierà di pochissimo).
Per quanto riguarda le duplicazioni di contenuto cross-site, le cause possono essere diverse e imputabili anche a pratiche scorrette di posizionamento. Vediamo alcuni dei casi principali:
- Articoli ripubblicati su diversi blog o siti di notizie: questo può accadere quando un sito partecipa a programmi di syndication, attraverso i quali cioè gli articoli vengono condivisi su più piattaforme per raggiungere un pubblico più ampio. Anche il guest blogging e la distribuzione di comunicati stampa a più testate online contemporaneamente, che li pubblicano così come sono senza modificarli, può causare questo problema. Inoltre, può avvenire che un sito pubblichi contenuti su più domini nella speranza di migliorare la propria visibilità sui motori di ricerca, pratica tuttavia controproducente;
- Prodotti con descrizioni identiche su siti di e-commerce diversi: ciò si verifica molto spesso perché le descrizioni standard dei prodotti fornite dal produttore vengono utilizzate dai rivenditori senza modifiche, principalmente per velocizzare il data entry che spesso è peraltro automatizzato quando il loro catalogo è molto ampio;
- Contenuti duplicati tramite scraping: a differenza delle due precedenti situazioni, in questo caso parliamo di una pratica volutamente scorretta (Black Hat SEO) con la quale un sito web copia e pubblica il contenuto di un altro sito senza autorizzazione. L’obiettivo di chi attua queste pratiche è quello di migliorare artificialmente il proprio ranking sui motori di ricerca senza creare contenuti originali, attirare rapidamente volumi di traffico elevati e tendenzialmente guadagni pubblicitari ingannando gli utenti e i motori di ricerca. Esistono poi aggregatori di contenuti che mettono insieme contenuti su un determinato argomento provenienti da diverse fonti tramite scraping; sebbene alcuni di loro siano in possesso di regolare autorizzazione, ve ne sono moltissimi che operano in un regime di completa illegalità.
Perché il contenuto duplicato danneggia la SEO?
Sebbene molto contenuto duplicato non celi, in molti casi, un intento deliberatamente maligno (come quello di sottrarre contenuti originali ad altri siti o manipolare il posizionamento organico), il risultato di questa pratica, anche se involontaria, non cambia. Nella prospettiva di Google, infatti, il contenuto duplicato è sempre negativo e questo perché genera diverse problematiche:
- URL non ottimizzati in SERP: se la stessa pagina è raggiungibile attraverso URL diversi, Google potrebbe arbitrariamente decidere di selezionarne uno non ‘friendly’ (ad esempio molto lungo, parametrico o contenente caratteri speciali) da mostrare in SERP. Poiché è dimostrato che gli utenti sono meno inclini a cliccare su questo tipo di link e Google tende a non proporre risultati che vadano contro la soddisfazione dell’utente, il rischio è quello di abbassare inutilmente il CTR dei propri contenuti o scomparire del tutto dalla SERP;
- Diluizione dei backlink: qualora il contenuto duplicato sia all’interno del vostro sito, ciò significa che più di una pagina potrà costituire la destinazione di uno stesso backlink. La ricaduta per la SEO è che la spinta in termini di posizionamento data dal link esterno verrà divisa e, di conseguenza, diluita su più pagine; l’algoritmo di Google potrebbe faticare a capire a quale delle due pagine dare priorità in SERP e farne scomparire una dalla SERP o, paradossalmente, non mostrare né l’una né l’altra;
- Spreco del crawl budget: abbiamo parlato in questo articolo del crawl budget. Qui ci limitiamo ad aggiungere, ai fini della specifica tematica che stiamo trattando, che duplicare i contenuti significa anche duplicare i percorsi che gli spider del motore di ricerca devono periodicamente attraversare per verificare aggiornamenti e modifiche di pagina da mostrare in SERP; ciò comporta inevitabili rallentamenti nella (re)indicizzazione dei contenuti e uno spreco di energie per scansionare contenuti su cui il crawler potrebbe legittimamente soprassedere dedicandosi a pagine più rilevanti.
Bisogna poi considerare che in alcuni dei casi descritti nel paragrafo precedente, ad esempio quando si diffonde un comunicato stampa o si pubblica un contenuto in forma identica su diversi blog nella legittima speranza di aumentare la propria visibilità, esiste sempre il rischio che il contenuto pubblicato altrove ottenga maggiore copertura rispetto al proprio, vanificando le proprie migliori strategie SEO.
Ad ogni modo, specifichiamo che la duplicazione di contenuti non comporta penalizzazioni dirette da parte di Google. Solo nei rari casi in cui Google percepisca che il contenuto duplicato sia stato creato con lo specifico intento di manipolare il posizionamento organico e ingannare gli utenti, allora vengono operati aggiustamenti nell’indicizzazione e nel ranking del/dei sito/i coinvolto/i. Il loro posizionamento verrà conseguentemente impattato in maniera negativa e potrebbero, addirittura, essere rimossi completamente dall’indice di Google.
Le pratiche che corrispondono a questo intento manipolatorio sono quelle già descritte precedentemente: lo scraping, compreso quello che va sotto l’etichetta di contenuto ‘affiliato’ e attinge a piattaforme come Amazon senza fornire alcun valore aggiunto agli utenti, e la creazione intenzionale di pagine, sottodomini o domini con grandi quantità di contenuti duplicati.
Come individuare il contenuto duplicato e liberarsene
Vi risulterà ormai lampante quanto sia importante individuare il contenuto duplicato ai fini del mantenimento dell’integrità e del miglioramento del posizionamento organico del vostro sito. Ma come si fa a individuare il contenuto duplicato su un sito web?
Il primo e più immediato strumento è Google Search Console, che all’interno del rapporto sull’Indicizzazione dei domini presenta tra le altre cose anche un elenco di pagine non indicizzate a causa di problemi di duplicazione. Andando poi a esplorare il rapporto sulle Performance e analizzando la situazione relativa alle keyword più cruciali per il vostro business online, potrete poi capire se più di un URL concorra al posizionamento di quella parola chiave e se vi sia un problema di duplicazione di contenuti che porti a una cannibalizzazione dei contenuti.
Strumenti come Screaming Frog, Ahrefs e SEMRush sono poi in grado di produrre report dettagliati e puntuali su tutti i contenuti duplicati presenti sul vostro sito analizzando, fra le altre cose, i loro title tag e meta description. Alcuni CMS, come WordPress, integrano una parte di queste funzionalità all’interno dei plugin per l’ottimizzazione dei contenuti, che aiutano anche a monitorare i contenuti duplicati. Potete poi ricorrere all’operatore site: per verificare manualmente, sul motore di ricerca, se una specifica espressione appaia in altre pagine del vostro sito.
Ma veniamo adesso a come eliminare il contenuto duplicato sul vostro sito. In molti casi si tratta di semplici accortezze tecniche derivanti da errori compiuti in fase di progettazione. Infatti, la presenza di contenuti duplicati può essere spesso risolta attraverso un puntuale utilizzo dei tag canonical, il cui scopo è quello di indicare a Googlebot la versione principale del contenuto quando ci sono pagine simili. Per implementarli in maniera ottimale è necessario utilizzare al loro interno solo percorsi assoluti e senza parametri, ad es.:
- sì: <link rel=“canonical” href=“https://sito.com/pagina/” />
- no: <link rel=“canonical” href=“/pagina/” />))
Un altro consiglio importante è quello di non duplicarli (sic!) e abbinarli solo a pagine che restituiscano un codice HTTP 200 e non siano bloccate da robots.txt o in noindex.
Oltre ai tag canonical, talvolta difficili da mantenere su siti molto grandi, esistono anche altri metodi di canonicalizzazione, ognuno con i suoi vantaggi e svantaggi, come l’utilizzo degli header HTTP, delle sitemap e dei redirect 301, descritti nel dettaglio nelle linee guida di Google. È importante però che una volta scelto un metodo ci si attenga a quello, evitando di specificare la versione canonica di un URL utilizzando tecniche differenti.
Attraverso la canonicalizzazione è possibile arginare problemi di duplicazione generati da situazioni comuni su molti siti web, come ad esempio l’uso di filtri di navigazione, la presenza di un motore di ricerca interno, la presenza di pagine-stampa e mobile e così via. In altre situazioni, saranno necessari interventi più individualizzati, ad esempio:
- Utilizzare i redirect per assicurarsi che una stessa pagina sia accessibile da una e una sola location (ad esempio URL con e senza www, con HTTPS o HTTP, con diversa combinazione di lettere maiuscole e minuscole, con o senza slash finale);
- Non usare i tag o assegnare loro un attributo ‘noindex’ quando non offrono nessun vantaggio aggiuntivo alla SEO del vostro sito, ad esempio se le pagine tag non contengono prodotti o ne contengono pochissimi: questo può avvenire molto spesso sugli e-commerce con grandi ricambi di prodotti e può essere difficile da tenere sotto controllo, motivo per cui molti CMS offrono la possibilità di applicare un noindex automatico a tutti quei tag/categorie che non raggiungano un numero minimo di prodotti;
- Disabilitare la creazione di pagine per gli allegati immagine sui CMS che dispongono di questa funzionalità;
- Disattivare la paginazione dei commenti o applicare loro un noindex dopo aver implementato correttamente i tag rel=”next” e rel=”prev” per segnalare a Google l’ordine di paginazione; il noindex dovrebbe essere utilizzato anche in tutti quei casi in cui Google abbia già indicizzato pagine che non desideriamo vedere presenti nell’indice del motore di ricerca, come le aree di staging o private (che dovrebbero invece essere accessibili solo con un’autenticazione HTTP, sistemi di whitelisting degli IP o un accesso VPN);
- Utilizzare il tag hreflang per mostrare al motore di ricerca la rete di relazioni esistenti fra le varianti di lingua delle stesse pagine;
- Ricorrere al robots.txt per segnalare a Google interi percorsi da non analizzare: questa strategia potrebbe essere utile per escludere alla fonte, dai risultati di ricerca, tutto quanto venga generato dal motore di ricerca interno del sito, tipicamente risultante in URL parametrici;
- Creare testi e metadati unici per ogni pagina evitando di utilizzare contenuti ‘boilerplate’, ossia presi tali e quali da altri siti, da comunicati stampa o dal materiale fornito dal produttore.
Naturalmente, quando si tratta di inserire link verso pagine del vostro sito dovreste sempre cercare di indirizzare gli utenti (e Google) verso le pagine canoniche e non verso quelle duplicate per evitare tutti i problemi descritti prima, non per ultimo lo spreco di crawl budget.
Riassumendo: le domande più comuni sul contenuto duplicato
Concludiamo questo approfondimento con una serie di FAQ sul contenuto duplicato. Se non trovate risposta alla vostra domanda, scriveteci: saremo felici di chiarire tutti i vostri dubbi e arricchire ulteriormente questo contenuto grazie alle vostre segnalazioni.
Cos'è il contenuto duplicato?
Il contenuto duplicato si riferisce a blocchi sostanziali di contenuto all’interno o tra domini che coincidono completamente o sono molto simili. Questo può influire negativamente sul ranking del sito nei motori di ricerca.
Perché i contenuti duplicati sono un problema per la SEO?
I motori di ricerca, come Google, possono avere difficoltà a determinare quale versione del contenuto mostrare nei risultati di ricerca. Questo può portare a una diminuzione del ranking per tutte le versioni e una perdita di traffico organico.
Come identificare i contenuti duplicati su un sito?
Strumenti come Screaming Frog o il rapporto Indexing in Google Search Console permettono di identificare contenuti duplicati all’interno di uno stesso sito web. Altri strumenti, come Copyscape, consentono di rilevare problematiche di scraping (copia di contenuti da altri siti).
Quali sono le cause più comuni dei contenuti duplicati?
Le cause più comuni includono URL parametrici, versioni HTTP e HTTPS, versioni con e senza “www”, pagine di stampa, pagine di categoria con filtri applicati e pagine di paginazione non canonicalizzati.
Come risolvere il problema dei contenuti duplicati?
I metodi accettati da Google includono l’uso di tag canonical, i redirect 301, l’inserimento di noindex in pagina o di blocchi nel robots.txt. Inoltre, bisogna assicurarsi ogni pagina abbia contenuti unici (sia per quanto riguarda il testo in pagina sia quello dei metadati).
Cosa sono i tag canonical e come funzionano?
Un tag canonical è un elemento HTML che aiuta i motori di ricerca a capire quale versione di una pagina sia quella principale, evitando così problemi di contenuti duplicati. Dovrebbe essere presente in ogni pagina del sito e può essere generato automaticamente con appositi plugin sui più comuni CMS.
Come posso utilizzare i file robots.txt per gestire i contenuti duplicati?
Puoi configurare il file robots.txt per impedire ai motori di ricerca di indicizzare interi percorsi di pagine con contenuti duplicati, come gli URL parametrici generati dal motore di ricerca interno.
Cos’è il whitelisting degli IP?
Si tratta di una pratica di sicurezza informatica che consente solo a indirizzi IP specificamente approvati di accedere a una rete o a un sistema. Questo metodo limita l’accesso a utenti o dispositivi autorizzati, migliorando la protezione contro accessi non autorizzati e impedendo l’indicizzazione di contenuti che non devono divenire di dominio pubblico.
Cos'è l'hreflang e come si implementa per impedire la duplicazione di contenuti?
Hreflang è un attributo HTML utilizzato per indicare ai motori di ricerca la lingua e/o paese target di una pagina web. Questo aiuta a prevenire la duplicazione dei contenuti fornendo versioni corrette della stessa pagina per utenti di diverse regioni linguistiche o geografiche. L’attributo hreflang va inserito nel tag <link> all’interno dell’header di ogni pagina HTML di un sito web.
Come difendersi da chi copia i contenuti?
Innanzitutto, contattate direttamente il webmaster del sito chiedendo la rimozione del contenuto duplicato. Se non funziona, è possibile inviare una richiesta di rimozione DMCA (Digital Millennium Copyright Act) ai motori di ricerca e ai provider di hosting del sito che ha copiato i vostri contenuti.
Che ruolo giocano le descrizioni dei prodotti nei contenuti duplicati per i siti di e-commerce?
Le descrizioni dei prodotti fornite dai produttori possono essere identiche su più siti di e-commerce, creando contenuti duplicati. È importante scrivere descrizioni uniche per ogni prodotto per migliorare la SEO.
Che rapporto c’è fra duplicazione dei contenuti e cannibalizzazioni in SERP?
La duplicazione crea concorrenza interna tra le pagine per le stesse parole chiave, confondendo i motori di ricerca su quale pagina mostrare e diluendo il potenziale di posizionamento complessivo (cannibalizzazione).
Google penalizza i contenuti duplicati?
Google non applica una penalità specifica per i contenuti duplicati, ma il ranking delle pagine duplicate può essere ridotto e il traffico organico potrebbe diminuire se i motori di ricerca non riescono a determinare quale versione del contenuto mostrare nei risultati di ricerca.
Coming soon:
Il blog di Seed torna fra due settimane con un approfondimento dedicato ai contenuti duplicati, come individuarli e gestirli. Tornate a leggerci!