Chaque page qui se charge dans un navigateur web a un code de réponse inclus dans les en-têtes HTTP, qui peut ou non être visible sur la page web elle-même.
Il existe de nombreux codes de réponse différents qu’un serveur donne pour communiquer l’état de chargement de la page ; l’un des codes les plus connus est le code de réponse 404.
Généralement, tout code compris entre 400 et 499 indique que la page ne s’est pas chargée. Le code 404-response est le seul qui porte une signification spécifique – que la page est effectivement partie et ne reviendra probablement pas de sitôt.
- Qu’est-ce qu’une erreur 404 soft ?
- Potentiellement mal identifiée comme Soft 404
- Erreur de lien
- Une page qui n’existe plus
- Google Search Console
- Google Analytics
- Site : Commande de recherche de l’opérateur
- Autres outils de recherche de backlinks
- Comment réparer les erreurs 404 molles
- Google traite les erreurs 404 &Les erreurs 404 molles de la même manière
Qu’est-ce qu’une erreur 404 soft ?
Une erreur 404 soft n’est pas un code de réponse officiel envoyé à un navigateur web. C’est juste une étiquette que Google ajoute à une page dans son index.
Lorsque Google explore les pages, il alloue les ressources avec soin en s’assurant qu’aucun temps n’est perdu en explorant des pages manquantes qui n’ont pas besoin d’être indexées.
Cependant, il existe des serveurs qui sont mal configurés et leur page manquante charge un code 200 alors qu’elle devrait afficher un code de réponse 404. Si l’en-tête HTTP invisible affiche un code 200 même si la page Web indique clairement que la page est introuvable, la page risque d’être indexée, ce qui constitue un gaspillage de ressources pour Google.
Pour lutter contre ce problème, Google note les caractéristiques des pages 404 et tente de discerner si la page 404 en est vraiment une. En d’autres termes, Google a appris que si elle ressemble à une 404, sent comme une 404 et agit comme une 404, alors c’est probablement une véritable page 404.
Potentiellement mal identifiée comme Soft 404
Il y a aussi des cas où la page n’est pas réellement manquante, mais certaines caractéristiques ont déclenché Google pour la catégoriser comme une page manquante.
Certaines de ces caractéristiques comprennent une faible quantité ou un manque de contenu sur la page et le fait d’avoir trop de pages similaires sur le site.
Ces caractéristiques sont également similaires aux facteurs auxquels l’algorithme Panda s’attaque. La mise à jour Panda considère le contenu mince et dupliqué comme des facteurs de classement négatifs.
Par conséquent, la correction de ces problèmes aidera à éviter à la fois les 404 mous et les problèmes Panda.
Les erreurs 404 ont deux causes principales :
- Une erreur dans le lien, dirigeant les utilisateurs vers une page qui n’existe pas.
- Un lien allant vers une page qui existait et qui a soudainement disparu.
Erreur de lien
Si la cause du 404 est une erreur de lien, il suffit de réparer les liens.
La partie difficile de cette tâche est de trouver tous les liens brisés sur un site.
Cela peut être plus difficile pour les grands sites complexes qui ont des milliers ou des millions de pages. Dans de tels cas, les outils d’exploration sont très utiles. Vous pouvez essayer d’utiliser des logiciels tels que Xenu, DeepCrawl, Screaming Frog ou Botify.
Une page qui n’existe plus
Lorsqu’une page n’existe plus, vous avez deux options :
- Restaurer la page si elle a été supprimée accidentellement.
- 301 la rediriger vers la page connexe la plus proche si elle a été supprimée exprès.
D’abord, vous devez localiser toutes les erreurs de liaison sur le site. Comme pour trouver toutes les erreurs de liaison pour un site Web à grande échelle, vous pouvez utiliser des outils de crawling. Cependant, les outils d’exploration peuvent ne pas trouver les pages orphelines, qui sont des pages qui ne sont pas liées de n’importe où dans les liens de navigation ou de n’importe quelle page.
Les pages orphelines peuvent exister si elles faisaient partie du site Web, puis après une refonte du site Web, le lien allant à cette ancienne page a disparu, mais des liens externes d’autres sites Web peuvent encore y renvoyer. Pour vérifier à nouveau si ce type de pages existe sur votre site, vous pouvez utiliser divers outils.
Google Search Console
La console de recherche signalera les pages 404 lorsque le robot d’exploration de Google passera en revue toutes les pages qu’il peut trouver. Cela peut inclure des liens d’autres sites allant vers une page qui existait sur votre site Web.
Google Analytics
Vous ne trouverez pas de rapport de pages manquantes dans Google Analytics par défaut. Cependant, vous pouvez les suivre de plusieurs façons.
Par exemple, vous pouvez créer un rapport personnalisé et segmenter les pages qui ont un titre de page mentionnant Error 404 – Page Not Found.
Une autre façon de trouver les pages orphelines dans Google Analytics est de créer des groupes de contenu personnalisés et d’affecter toutes les pages 404 à un groupe de contenu.
Site : Commande de recherche de l’opérateur
Une recherche sur Google pour « site:exemple.com » listera toutes les pages d’exemple.com qui sont indexées par Google. Vous pouvez ensuite vérifier individuellement si les pages se chargent ou si elles donnent 404s.
Pour faire cela à l’échelle, j’aime utiliser WebCEO, qui a une fonctionnalité pour exécuter le site : operator non seulement sur Google, mais aussi sur Bing, Yahoo, Yandex, Naver, Baidu, et Seznam.
Puisque tous les moteurs de recherche ne vous donneront qu’un sous-ensemble, l’exécuter sur plusieurs moteurs de recherche peut aider à donner une plus grande liste de pages de votre site. Cette liste peut être exportée et exécutée sur des outils pour une vérification 404 de masse. Je le fais simplement en ajoutant toutes les URLs comme liens dans un fichier HTML et en le chargeant sur Xenu pour vérifier massivement les erreurs 404.
Autres outils de recherche de backlinks
Des outils de recherche de backlinks comme Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, LinkResearchTools et CognitiveSEO peuvent également aider.
La plupart de ces outils exporteront une liste de backlinks liés à votre domaine. À partir de là, vous pouvez vérifier toutes les pages qui sont liées et rechercher des erreurs 404.
Comment réparer les erreurs 404 molles
Les outils de crawling ne détecteront pas une erreur 404 molle car ce n’est pas vraiment une erreur 404. Mais vous pouvez utiliser les outils de crawling pour détecter autre chose. Voici quelques éléments à trouver :
- Contenu mince : Certains outils d’exploration signalent non seulement les pages qui ont un contenu mince, mais affichent également un nombre total de mots. À partir de là, vous pouvez trier les URL en fonction du nombre de mots de votre contenu. Commencez par les pages qui ont le moins de mots et évaluez si la page a un contenu mince.
- Contenu dupliqué : Certains outils de crawling sont assez sophistiqués pour discerner quel pourcentage de la page est un contenu modèle. Si le contenu principal est presque le même que celui de nombreuses autres pages, vous devriez examiner ces pages et déterminer pourquoi le contenu dupliqué existe sur votre site.
En dehors des outils d’exploration, vous pouvez également utiliser Google Search Console et vérifier sous les erreurs d’exploration pour trouver les pages qui sont répertoriées sous les soft 404s.
Crawler un site entier pour trouver les problèmes qui causent les soft 404s vous permet de localiser et de corriger les problèmes avant même que Google ne les détecte.
Après avoir détecté ces problèmes de soft 404, vous devrez les corriger.
La plupart du temps, les solutions semblent relever du bon sens. Il peut s’agir de choses simples comme l’expansion des pages avec un contenu mince ou le remplacement du contenu dupliqué par de nouveaux et uniques.
Tout au long de ce processus, voici quelques éléments à considérer :
- Consolider les pages : Parfois, le contenu mince est causé par le fait d’être trop spécifique avec le sujet de la page, ce qui peut vous laisser avec peu à dire. La fusion de plusieurs pages minces en une seule page peut être plus appropriée si les sujets sont liés. Cela permet non seulement de résoudre les problèmes de contenu léger, mais aussi les problèmes de contenu dupliqué. Par exemple, un site de commerce électronique qui vend des chaussures de différentes couleurs et tailles peut avoir une URL différente pour chaque combinaison de taille et de couleur. Cela laisse un grand nombre de pages avec un contenu mince et relativement identique. L’approche la plus efficace consiste plutôt à mettre tout cela sur une seule page et à énumérer les options disponibles.
- Détecter les problèmes techniques à l’origine du contenu dupliqué : En utilisant même l’outil d’exploration du Web le plus simple comme Xenu (qui ne regarde pas le contenu mais seulement les URL, les codes de réponse et les balises de titre), vous pouvez toujours trouver des problèmes de contenu dupliqué en regardant les URL. Cela inclut des éléments tels que les URL www et non www, http et https, avec index.html et sans, avec paramètres de suivi et sans, etc. Un bon résumé de ces problèmes courants de contenu dupliqué trouvés dans les modèles d’URL se trouve sur la diapositive 6 de cette présentation.
Google traite les erreurs 404 &Les erreurs 404 molles de la même manière
Une erreur 404 molle n’est pas une véritable erreur 404, mais Google désindexera ces pages si elles ne sont pas réparées rapidement. Il est préférable de crawler votre site régulièrement pour voir si des erreurs 404 ou soft 404 se produisent. Les outils d’exploration devraient être un élément majeur de votre arsenal de référencement.
Crédits images
Image vedette : Paulo Bobita