Alle sider, der indlæses i en webbrowser, har en svarkode i HTTP-headeren, som måske eller måske ikke er synlig på selve websiden.
Der er mange forskellige svarkoder, som en server giver for at kommunikere sidens indlæsningsstatus; en af de mest kendte koder er 404-svarkoden.
Generelt set angiver en kode mellem 400 og 499, at siden ikke blev indlæst. 404-respons-koden er den eneste kode, der har en specifik betydning – at siden faktisk er væk og sandsynligvis ikke kommer tilbage foreløbig.
Hvad er en blød 404-fejl?
En blød 404-fejl er ikke en officiel svarkode, der sendes til en webbrowser. Det er blot en etiket, som Google tilføjer til en side i deres indeks.
Når Google crawler sider, fordeler de ressourcerne omhyggeligt, så de sikrer, at der ikke går tid til spilde ved at crawle manglende sider, som ikke skal indekseres.
Der er dog nogle servere, der er dårligt konfigureret, og deres manglende side indlæser en 200-kode, når den burde vise en 404-svarskode. Hvis den usynlige HTTP-header viser en 200-kode, selv om websiden tydeligt angiver, at siden ikke er fundet, kan siden blive indekseret, hvilket er spild af ressourcer for Google.
For at bekæmpe dette problem noterer Google karakteristika for 404-sider og forsøger at skelne, om 404-siden virkelig er en 404-side. Med andre ord har Google lært, at hvis den ligner en 404-side, lugter som en 404-side og opfører sig som en 404-side, er det sandsynligvis en ægte 404-side.
Potentielt fejlidentificeret som en blød 404
Der er også tilfælde, hvor siden faktisk ikke mangler, men hvor visse karakteristika har fået Google til at kategorisere den som en manglende side.
Nogle af disse karakteristika omfatter en lille mængde eller mangel på indhold på siden, og at der er for mange lignende sider på webstedet.
Disse karakteristika ligner også de faktorer, som Panda-algoritmen tager fat på. Panda-opdateringen betragter tyndt og duplikeret indhold som negative rankingfaktorer.
Derfor kan man ved at løse disse problemer undgå både bløde 404’er og Panda-problemer.
404-fejl har to hovedårsager:
- En fejl i linket, der leder brugerne til en side, der ikke eksisterer.
- Et link, der fører til en side, som tidligere eksisterede, og som pludselig er forsvundet.
Linkfejl
Hvis årsagen til 404 er en linkfejl, skal du blot rette linkene.
Den vanskelige del af denne opgave er at finde alle de ødelagte links på et websted.
Det kan være en større udfordring for store, komplekse websteder, der har tusindvis eller millioner af sider. I tilfælde som dette er crawling-værktøjer meget nyttige. Du kan prøve at bruge software som Xenu, DeepCrawl, Screaming Frog eller Botify.
En side, der ikke længere eksisterer
Når en side ikke længere eksisterer, har du to muligheder:
- Getabler siden igen, hvis den blev fjernet ved et uheld.
- 301 omdirigere den til den nærmeste relaterede side, hvis den blev fjernet med vilje.
Først skal du lokalisere alle linkfejl på webstedet. I lighed med at finde alle fejl i linking for et stort websted kan du bruge crawling-værktøjer. Crawling-værktøjer finder dog muligvis ikke forældreløse sider, som er sider, der ikke er linket fra noget sted i navigationslinks eller fra nogen af siderne.
Forældreløse sider kan eksistere, hvis de tidligere var en del af webstedet, men efter en omlægning af webstedet forsvandt linket, der går til denne gamle side, men eksterne links fra andre websteder linker måske stadig til dem. For at dobbelttjekke, om denne type sider findes på dit websted, kan du bruge en række forskellige værktøjer.
Google Search Console
Søgningskonsollen rapporterer 404-sider, når Googles crawler gennemgår alle de sider, den kan finde. Dette kan omfatte links fra andre websteder, der går til en side, som tidligere fandtes på dit websted.
Google Analytics
Du finder som standard ikke en rapport om manglende sider i Google Analytics. Du kan dog spore dem på en række måder.
For det første kan du oprette en brugerdefineret rapport og segmentere de sider, der har en sidetitel, der nævner Error 404 – Page Not Found.
En anden måde at finde forældreløse sider i Google Analytics er ved at oprette brugerdefinerede indholdsgrupperinger og tildele alle 404-sider til en indholdsgruppe.
Site: Operator Search Command
Søger du på Google efter “site:example.com”, får du en liste over alle sider på example.com, der indekseres af Google. Du kan derefter individuelt kontrollere, om siderne indlæses, eller om de giver 404’er.
For at gøre dette i stor skala kan jeg godt lide at bruge WebCEO, som har en funktion til at køre site: operator ikke kun på Google, men også på Bing, Yahoo, Yandex, Naver, Baidu og Seznam.
Da alle søgemaskinerne kun vil give dig en delmængde, kan det at køre den på flere søgemaskiner hjælpe med at give en større liste over siderne på dit websted. Denne liste kan eksporteres og køres på værktøjer til en masse 404-kontrol. Jeg gør simpelthen dette ved at tilføje alle URL’er som links i en HTML-fil og indlæse den på Xenu for massivt at kontrollere for 404-fejl.
Andre backlink research-værktøjer
Backlink research-værktøjer som Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, LinkResearchTools og CognitiveSEO kan også hjælpe.
De fleste af disse værktøjer vil eksportere en liste over backlinks, der linker til dit domæne. Derfra kan du kontrollere alle de sider, der linkes til, og kigge efter 404-fejl.
Sådan løser du bløde 404-fejl
Crawlingværktøjer registrerer ikke en blød 404, fordi det ikke rigtig er en 404-fejl. Men du kan bruge crawling-værktøjer til at opdage noget andet. Her er et par ting, du kan finde:
- Tyndt indhold: Nogle crawlingværktøjer rapporterer ikke kun sider, der har tyndt indhold, men viser også et samlet antal ord. Derfra kan du sortere URL’er ud fra dit indholds antal ord. Start med de sider, der har det mindste antal ord, og vurder, om siden har tyndt indhold.
- Duplicate Content: Nogle crawling-værktøjer er sofistikerede nok til at skelne, hvor stor en procentdel af siden der er skabelonindhold. Hvis hovedindholdet er næsten det samme som mange andre sider, bør du undersøge disse sider og afgøre, hvorfor der findes duplicate content på dit websted.
Udover crawling-værktøjerne kan du også bruge Google Search Console og tjekke under crawlfejl for at finde sider, der er opført under soft 404’er.
Gennem at crawle et helt websted for at finde problemer, der forårsager soft 404’er, kan du finde og rette problemerne, før Google overhovedet opdager dem.
Når du har opdaget disse soft 404-problemer, skal du rette dem.
De fleste gange synes løsningerne at være sund fornuft. Det kan omfatte enkle ting som at udvide sider med tyndt indhold eller erstatte duplikatindhold med nyt og unikt indhold.
Igennem hele denne proces er her et par ting, du skal overveje:
- Konsolidér sider: Nogle gange skyldes tyndt indhold, at man er for specifik med sidens emne, hvilket kan gøre, at man ikke har meget at sige. Det kan være mere hensigtsmæssigt at slå flere tynde sider sammen til én side, hvis emnerne er relaterede. Dette løser ikke kun problemer med tyndt indhold, men kan også løse problemer med duplicate content. Et e-handelswebsted, der sælger sko i forskellige farver og størrelser, kan f.eks. have en anden URL-adresse for hver størrelse og farvekombination. Dette efterlader et stort antal sider med indhold, der er tyndt og relativt identisk. Den mere effektive tilgang er at placere det hele på én side i stedet og opregne de tilgængelige muligheder.
- Find tekniske problemer, der forårsager duplikatindhold: Ved hjælp af selv det enkleste webcrawlingværktøj som Xenu (som ikke ser på indhold, men kun på URL’er, svarkoder og titletags) kan du stadig finde problemer med duplikatindhold ved at se på URL’er. Dette omfatter ting som www- og ikke-www-URL’er, http og https, med index.html og uden, med trackingparametre og uden osv. En god oversigt over disse almindelige duplicate content-problemer, der findes i URL-mønstre, kan findes på slide 6 i denne præsentation.
Google behandler 404-fejl & Soft 404-fejl på samme måde
En soft 404 er ikke en rigtig 404-fejl, men Google deindexerer disse sider, hvis de ikke bliver rettet hurtigt. Det er bedst at crawle dit websted regelmæssigt for at se, om der forekommer 404- eller soft 404-fejl. Crawling-værktøjer bør være en vigtig del af dit SEO-arsenal.
Image Credits
Featured Image: Paulo Bobita