Ogni pagina che viene caricata in un browser web ha un codice di risposta incluso nelle intestazioni HTTP, che può essere visibile o meno sulla pagina web stessa.
Ci sono molti codici di risposta diversi che un server dà per comunicare lo stato di caricamento della pagina; uno dei codici più noti è il codice di risposta 404.
In genere, qualsiasi codice tra 400 e 499 indica che la pagina non è stata caricata. Il codice 404-response è l’unico che porta un significato specifico – che la pagina è effettivamente andata e probabilmente non tornerà presto.
- Cos’è un errore 404 soft?
- Potenzialmente mal identificata come Soft 404
- Errore di collegamento
- Una pagina che non esiste più
- Google Search Console
- Google Analytics
- Sito: Operator Search Command
- Altri strumenti di ricerca backlink
- Come risolvere gli errori Soft 404
- Google tratta gli errori 404 &Errori Soft 404 allo stesso modo
Cos’è un errore 404 soft?
Un errore 404 soft non è un codice di risposta ufficiale inviato a un browser web. È solo un’etichetta che Google aggiunge a una pagina all’interno del suo indice.
Quando Google esegue la scansione delle pagine, alloca le risorse con attenzione assicurandosi che non si perda tempo a scansionare pagine mancanti che non devono essere indicizzate.
Tuttavia, ci sono alcuni server che sono mal configurati e la loro pagina mancante carica un codice 200 quando dovrebbe visualizzare un codice di risposta 404. Se l’intestazione HTTP invisibile visualizza un codice 200 anche se la pagina web afferma chiaramente che la pagina non è stata trovata, la pagina potrebbe essere indicizzata, il che è uno spreco di risorse per Google.
Per combattere questo problema, Google nota le caratteristiche delle pagine 404 e cerca di discernere se la pagina 404 è davvero una pagina 404. In altre parole, Google ha imparato che se sembra una 404, ha l’odore di una 404 e si comporta come una 404, allora è probabilmente una vera pagina 404.
Potenzialmente mal identificata come Soft 404
Ci sono anche casi in cui la pagina non è effettivamente mancante, ma certe caratteristiche hanno fatto sì che Google la categorizzasse come una pagina mancante.
Alcune di queste caratteristiche includono una piccola quantità o mancanza di contenuto sulla pagina e l’avere troppe pagine simili sul sito.
Queste caratteristiche sono anche simili ai fattori che l’algoritmo Panda affronta. L’aggiornamento Panda considera i contenuti sottili e duplicati come fattori negativi di ranking.
Quindi, risolvere questi problemi aiuterà ad evitare sia i soft 404 che i problemi Panda.
404 errori hanno due cause principali:
- Un errore nel link, indirizzando gli utenti ad una pagina che non esiste.
- Un link che va a una pagina che esisteva e che improvvisamente è scomparsa.
Errore di collegamento
Se la causa del 404 è un errore di collegamento, devi solo sistemare i link.
La parte difficile di questo compito è trovare tutti i link rotti su un sito.
Può essere più difficile per siti grandi e complessi che hanno migliaia o milioni di pagine. In casi come questo, gli strumenti di crawling sono utili. Puoi provare ad usare software come Xenu, DeepCrawl, Screaming Frog o Botify.
Una pagina che non esiste più
Quando una pagina non esiste più, hai due opzioni:
- Ripristina la pagina se è stata rimossa accidentalmente.
- 301 reindirizzarla alla pagina correlata più vicina se è stata rimossa di proposito.
Prima di tutto, devi individuare tutti gli errori di collegamento sul sito. Come per trovare tutti gli errori di collegamento per un sito web su larga scala, è possibile utilizzare strumenti di crawling. Tuttavia, gli strumenti di crawling potrebbero non trovare le pagine orfane, che sono pagine che non sono collegate da nessuna parte all’interno dei link di navigazione o da nessuna delle pagine.
Le pagine orfane possono esistere se facevano parte del sito, poi dopo una riprogettazione del sito, il link che va a questa vecchia pagina è scomparso, ma i link esterni da altri siti potrebbero ancora collegarsi ad esse. Per controllare due volte se questo tipo di pagine esiste sul tuo sito, puoi usare una varietà di strumenti.
Google Search Console
La console di ricerca riporterà le pagine 404 quando il crawler di Google passa attraverso tutte le pagine che può trovare. Questo può includere link da altri siti che vanno a una pagina che esisteva sul tuo sito web.
Google Analytics
Non troverai un rapporto sulle pagine mancanti in Google Analytics per default. Tuttavia, è possibile tracciarle in diversi modi.
Per esempio, è possibile creare un rapporto personalizzato e segmentare le pagine che hanno un titolo che menziona Errore 404 – Pagina non trovata.
Un altro modo per trovare le pagine orfane in Google Analytics è quello di creare raggruppamenti di contenuti personalizzati e assegnare tutte le pagine 404 a un gruppo di contenuti.
Sito: Operator Search Command
Cercando su Google “site:example.com” verranno elencate tutte le pagine di example.com che sono indicizzate da Google. È quindi possibile controllare individualmente se le pagine vengono caricate o se danno 404.
Per fare questo su scala, mi piace usare WebCEO, che ha una funzione per eseguire il sito: operatore non solo su Google, ma anche su Bing, Yahoo, Yandex, Naver, Baidu, e Seznam.
Siccome tutti i motori di ricerca vi daranno solo un sottoinsieme, eseguirlo su più motori di ricerca può aiutare a dare un elenco più ampio di pagine del vostro sito. Questo elenco può essere esportato ed eseguito su strumenti per un controllo di massa 404. Io lo faccio semplicemente aggiungendo tutti gli URL come link all’interno di un file HTML e caricandolo su Xenu per controllare in massa gli errori 404.
Altri strumenti di ricerca backlink
Anche gli strumenti di ricerca backlink come Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, LinkResearchTools, e CognitiveSEO possono aiutare.
La maggior parte di questi strumenti esporta una lista di backlink che collegano al tuo dominio. Da lì, è possibile controllare tutte le pagine che sono collegate e cercare gli errori 404.
Come risolvere gli errori Soft 404
Gli strumenti di crawling non rileveranno un soft 404 perché non è veramente un errore 404. Ma è possibile utilizzare gli strumenti di crawling per rilevare qualcos’altro. Ecco alcune cose da trovare:
- Contenuto sottile: Alcuni strumenti di crawling non solo segnalano le pagine che hanno un contenuto sottile, ma mostrano anche un conteggio totale di parole. Da lì, è possibile ordinare gli URL in base al numero di parole del contenuto. Inizia con le pagine che hanno il minor numero di parole e valuta se la pagina ha un contenuto sottile.
- Contenuto duplicato: Alcuni strumenti di crawling sono abbastanza sofisticati da discernere quale percentuale della pagina è un contenuto modello. Se il contenuto principale è quasi lo stesso di molte altre pagine, dovreste esaminare queste pagine e determinare perché il contenuto duplicato esiste sul vostro sito.
Oltre agli strumenti di crawling, potete anche usare Google Search Console e controllare sotto gli errori di crawl per trovare le pagine che sono elencate sotto soft 404.
Scansionare un intero sito per trovare i problemi che causano i soft 404 permette di individuare e correggere i problemi prima ancora che Google li rilevi.
Dopo aver individuato questi problemi soft 404, sarà necessario correggerli.
La maggior parte delle volte, le soluzioni sembrano essere di buon senso. Questo può includere cose semplici come espandere le pagine con contenuti sottili o sostituire i contenuti duplicati con altri nuovi e unici.
Durante questo processo, ecco alcune cose da considerare:
- Consolidare le pagine: A volte i contenuti sottili sono causati dall’essere troppo specifici con l’argomento della pagina, il che può lasciare poco da dire. Fondere diverse pagine sottili in una sola pagina può essere più appropriato se gli argomenti sono correlati. Non solo questo risolve i problemi di contenuto sottile, ma può anche risolvere i problemi di contenuto duplicato. Per esempio, un sito di e-commerce che vende scarpe in diversi colori e misure può avere un URL diverso per ogni misura e combinazione di colori. Questo lascia un gran numero di pagine con contenuti sottili e relativamente identici. L’approccio più efficace è quello di mettere tutto su una pagina ed enumerare le opzioni disponibili.
- Trovare i problemi tecnici che causano contenuti duplicati: Usando anche il più semplice strumento di web crawling come Xenu (che non guarda il contenuto ma solo gli URL, i codici di risposta e i tag del titolo), è ancora possibile trovare problemi di contenuto duplicato guardando gli URL. Questo include cose come gli URL www vs non-www, http e https, con index.html e senza, con parametri di tracciamento e senza, ecc. Un buon riassunto di questi comuni problemi di contenuto duplicato trovati nei modelli di URL può essere trovato nella diapositiva 6 di questa presentazione.
Google tratta gli errori 404 &Errori Soft 404 allo stesso modo
Un soft 404 non è un vero errore 404, ma Google deindicizzerà queste pagine se non vengono risolti rapidamente. È meglio scansionare il tuo sito regolarmente per vedere se si verificano errori 404 o soft 404. Gli strumenti di crawling dovrebbero essere una componente importante del vostro arsenale SEO.
Image Credits
Immagine in evidenza: Paulo Bobita