Elke pagina die in een webbrowser wordt geladen, heeft een responscode in de HTTP-headers, die al dan niet zichtbaar is op de webpagina zelf.
Er zijn veel verschillende responscodes die een server geeft om de laadstatus van de pagina door te geven; een van de bekendste codes is de 404-responscode.
In het algemeen geeft elke code tussen 400 en 499 aan dat de pagina niet is geladen. De 404-responscode is de enige die een specifieke betekenis heeft – dat de pagina daadwerkelijk weg is en waarschijnlijk niet snel meer terugkomt.
- Wat is een zachte 404-fout?
- Potentieel verkeerd geïdentificeerd als zachte 404
- Linking Error
- Een pagina die niet meer bestaat
- Google Search Console
- Google Analytics
- Site: Operator Search Command
- Andere Backlink Research Tools
- Hoe zachte 404-fouten te verhelpen
- Google behandelt 404-fouten & Soft 404-fouten op dezelfde manier
Wat is een zachte 404-fout?
Een zachte 404-fout is geen officiële responscode die naar een webbrowser wordt verzonden. Het is gewoon een label dat Google toevoegt aan een pagina binnen hun index.
Als Google pagina’s crawlt, wijst het zorgvuldig middelen toe om ervoor te zorgen dat er geen tijd wordt verspild door ontbrekende pagina’s te crawlen die niet hoeven te worden geïndexeerd.
Echter, er zijn sommige servers die slecht geconfigureerd zijn en hun ontbrekende pagina laadt een 200 code terwijl het een 404-antwoordcode zou moeten weergeven. Als de onzichtbare HTTP-header een 200-code weergeeft, zelfs als op de webpagina duidelijk staat dat de pagina niet is gevonden, kan de pagina worden geïndexeerd, wat een verspilling van middelen is voor Google.
Om dit probleem te bestrijden, noteert Google de kenmerken van 404-pagina’s en probeert te onderscheiden of de 404-pagina echt een 404-pagina is. Met andere woorden, Google heeft geleerd dat als het eruitziet als een 404, ruikt als een 404 en zich gedraagt als een 404, het waarschijnlijk een echte 404-pagina is.
Potentieel verkeerd geïdentificeerd als zachte 404
Er zijn ook gevallen waarin de pagina niet daadwerkelijk ontbreekt, maar bepaalde kenmerken Google ertoe hebben aangezet deze te categoriseren als een ontbrekende pagina.
Enkele van deze kenmerken zijn een kleine hoeveelheid of gebrek aan inhoud op de pagina en het hebben van te veel soortgelijke pagina’s op de site.
Deze kenmerken zijn ook vergelijkbaar met de factoren die het Panda-algoritme aanpakt. De Panda-update beschouwt dunne en dubbele inhoud als negatieve rankingfactoren.
Het verhelpen van deze problemen zal daarom helpen zowel soft 404’s als Panda-problemen te voorkomen.
404-fouten hebben twee hoofdoorzaken:
- Een fout in de link, waardoor gebruikers naar een pagina worden geleid die niet bestaat.
- Een link die naar een pagina gaat die vroeger bestond en plotseling is verdwenen.
Linking Error
Als de oorzaak van de 404 een linking error is, hoeft u alleen maar de links te repareren.
Het moeilijke deel van deze taak is het vinden van alle gebroken links op een site.
Het kan een grotere uitdaging zijn voor grote, complexe sites die duizenden of miljoenen pagina’s hebben. In gevallen als deze, crawling tools van pas komen. U kunt proberen met behulp van software zoals Xenu, DeepCrawl, Screaming Frog, of Botify.
Een pagina die niet meer bestaat
Wanneer een pagina niet meer bestaat, heb je twee opties:
- Herstel de pagina als deze per ongeluk is verwijderd.
- 301 de pagina omleiden naar de dichtstbijzijnde gerelateerde pagina als deze met opzet is verwijderd.
Eerst moet u alle fouten in de links op de site opsporen. Vergelijkbaar met het vinden van alle fouten in het koppelen voor een grootschalige website, kunt u gebruik maken van crawling tools. Crawlingtools vinden echter mogelijk geen verweesde pagina’s, dat zijn pagina’s die nergens binnen de navigatielinks of vanaf een van de pagina’s zijn gelinkt.
Verweesde pagina’s kunnen bestaan als ze vroeger deel uitmaakten van de website en vervolgens na een website-redesign de link naar deze oude pagina is verdwenen, maar externe links van andere websites kunnen nog steeds naar hen linken. Om dubbel te controleren of dit soort pagina’s op uw site bestaat, kunt u verschillende hulpmiddelen gebruiken.
Google Search Console
Search console rapporteert 404-pagina’s als de crawler van Google alle pagina’s doorloopt die hij kan vinden. Dit kan links van andere sites omvatten die naar een pagina gaan die vroeger op uw website bestond.
Google Analytics
U zult standaard geen rapport over ontbrekende pagina’s in Google Analytics vinden. U kunt ze echter op een aantal manieren volgen.
Zo kunt u een aangepast rapport maken en pagina’s eruit segmenteren die een paginatitel hebben met de vermelding Error 404 – Page Not Found.
Een andere manier om verweesde pagina’s in Google Analytics te vinden, is door aangepaste inhoudsgroepen te maken en alle 404-pagina’s aan een inhoudsgroep toe te wijzen.
Site: Operator Search Command
Als u in Google zoekt naar “site:example.com”, krijgt u een lijst met alle pagina’s van example.com die door Google zijn geïndexeerd. Je kunt dan individueel controleren of de pagina’s laden of dat ze 404’s geven.
Om dit op schaal te doen, gebruik ik WebCEO, die een functie heeft om de site: operator niet alleen op Google te draaien, maar ook op Bing, Yahoo, Yandex, Naver, Baidu, en Seznam.
Omdat alle zoekmachines je slechts een subset geven, kan het draaien op meerdere zoekmachines je helpen een grotere lijst van pagina’s van je site te krijgen. Deze lijst kan worden geëxporteerd en uitgevoerd op tools voor een massale 404 controle. Ik doe dit eenvoudig door alle URL’s als links in een HTML-bestand toe te voegen en het in Xenu te laden om massaal te controleren op 404-fouten.
Andere Backlink Research Tools
Backlink research tools zoals Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, LinkResearchTools, en CognitiveSEO kunnen ook helpen.
De meeste van deze tools zullen een lijst exporteren van backlinks die naar uw domein linken. Van daaruit kunt u alle pagina’s controleren waarnaar wordt gelinkt en zoeken naar 404-fouten.
Hoe zachte 404-fouten te verhelpen
Crawlingtools zullen een zachte 404 niet detecteren omdat het niet echt een 404-fout is. Maar u kunt crawlingtools wel gebruiken om iets anders op te sporen. Hier zijn een paar dingen om te vinden:
- Dunne inhoud: Sommige crawlingtools rapporteren niet alleen pagina’s met dunne inhoud, maar tonen ook een totaal aantal woorden. Van daaruit kun je URL’s sorteren op basis van het aantal woorden van je content. Begin met pagina’s met het minste aantal woorden en beoordeel of de pagina dunne inhoud heeft.
- Duplicate Content: Sommige crawling-tools zijn geavanceerd genoeg om te onderscheiden welk percentage van de pagina sjablooninhoud is. Als de hoofdinhoud bijna hetzelfde is als veel andere pagina’s, moet u deze pagina’s bekijken en bepalen waarom er dubbele inhoud op uw site bestaat.
Naast de crawlingtools kunt u ook Google Search Console gebruiken en onder crawlfouten controleren om pagina’s te vinden die onder soft 404’s worden vermeld.
Het crawlen van een hele site om problemen te vinden die soft 404’s veroorzaken, stelt u in staat om problemen op te sporen en te corrigeren voordat Google ze zelfs detecteert.
Nadat u deze soft 404-problemen hebt gedetecteerd, moet u ze corrigeren.
In de meeste gevallen lijken de oplossingen gezond verstand te zijn. Dit kan eenvoudige dingen zoals het uitbreiden van pagina’s met dunne inhoud of het vervangen van dubbele inhoud met nieuwe en unieke ones.
Door middel van dit proces, hier zijn een paar dingen te overwegen:
- Consolideer pagina’s: Soms wordt dunne inhoud veroorzaakt door te specifiek te zijn met het onderwerp van de pagina, waardoor je weinig te zeggen hebt. Het samenvoegen van verschillende dunne pagina’s in één pagina kan meer geschikt zijn als de onderwerpen verwant zijn. Dit lost niet alleen problemen met dunne inhoud op, maar het kan ook problemen met dubbele inhoud oplossen. Een e-commercesite die schoenen in verschillende kleuren en maten verkoopt, kan bijvoorbeeld voor elke maat en kleurencombinatie een andere URL hebben. Hierdoor blijft een groot aantal pagina’s over met inhoud die dun en relatief identiek is. Een effectievere aanpak is om dit allemaal op één pagina te zetten en de beschikbare opties op te sommen.
- Zoek technische problemen die dubbele inhoud veroorzaken: Met behulp van zelfs de eenvoudigste web crawling tool zoals Xenu (die niet kijkt naar de inhoud, maar alleen naar URL’s, respons codes, en title tags), kunt u nog steeds duplicate content problemen vinden door te kijken naar URL’s. Dit omvat zaken als www vs non-www URL’s, http en https, met index.html en zonder, met tracking parameters en zonder, etc. Een goede samenvatting van deze veel voorkomende duplicate content-kwesties in URL-patronen vindt u op dia 6 van deze presentatie.
Google behandelt 404-fouten & Soft 404-fouten op dezelfde manier
Een soft 404 is geen echte 404-fout, maar Google zal deze pagina’s wel deindexeren als ze niet snel worden hersteld. Het is het beste om uw site regelmatig te crawlen om te zien of er 404- of soft 404-fouten optreden. Crawlingtools zouden een belangrijk onderdeel van uw SEO-arsenaal moeten zijn.
Image Credits
Featured Image: Paulo Bobita