Každá stránka, která se načítá ve webovém prohlížeči, má v hlavičkách HTTP kód odpovědi, který může, ale nemusí být viditelný na samotné webové stránce.
Existuje mnoho různých kódů odpovědi, kterými server sděluje stav načtení stránky; jedním z nejznámějších kódů je kód odpovědi 404.
Všeobecně jakýkoli kód v rozsahu 400 až 499 znamená, že se stránka nenačetla. Kód 404-response je jediný, který nese konkrétní význam – že stránka je skutečně pryč a pravděpodobně se v nejbližší době nevrátí.
- Co je to měkká chyba 404?
- Potenciálně chybně identifikovaná jako měkká 404
- Chybné odkazování
- Stránka, která již neexistuje
- Konzola vyhledávání Google
- Google Analytics
- Site: Vyhledávací příkaz operátora
- Další nástroje pro výzkum zpětných odkazů
- Jak opravit měkké chyby 404
- Google zachází s chybami 404 & Měkké chyby 404 stejně
Co je to měkká chyba 404?
Měkká chyba 404 není oficiální kód odpovědi odeslaný webovému prohlížeči. Je to pouze označení, které Google přidává stránce v rámci svého indexu.
Při procházení stránek Google pečlivě rozděluje zdroje a zajišťuje, aby nedocházelo ke ztrátě času procházením chybějících stránek, které není třeba indexovat.
Existují však servery, které jsou špatně nakonfigurovány a jejich chybějící stránka načte kód 200, i když by měla zobrazit kód odpovědi 404. Pokud neviditelná hlavička HTTP zobrazí kód 200, i když je na webové stránce jasně uvedeno, že stránka nebyla nalezena, může být stránka indexována, což je pro Google plýtvání zdroji.
Pro boj s tímto problémem si Google všímá charakteristik stránek 404 a pokouší se rozeznat, zda se skutečně jedná o 404 stránku. Jinými slovy, Google se naučil, že pokud stránka vypadá jako 404, zapáchá jako 404 a chová se jako 404, pak se pravděpodobně jedná o skutečnou stránku 404.
Potenciálně chybně identifikovaná jako měkká 404
Existují také případy, kdy stránka ve skutečnosti nechybí, ale určité charakteristiky přiměly Google, aby ji klasifikoval jako chybějící stránku.
Mezi tyto charakteristiky patří malé množství nebo nedostatek obsahu na stránce a příliš mnoho podobných stránek na webu.
Tyto charakteristiky jsou také podobné faktorům, které řeší algoritmus Panda. Aktualizace Panda považuje tenký a duplicitní obsah za negativní faktory hodnocení.
Oprava těchto problémů proto pomůže vyhnout se jak měkkým 404, tak problémům s Pandou.
Chyby 404 mají dvě hlavní příčiny:
- Chybný odkaz, který uživatele odkazuje na neexistující stránku.
- Odkaz směřující na stránku, která dříve existovala a náhle zmizela.
Chybné odkazování
Pokud je příčinou chyby 404 chybné odkazování, stačí odkazy opravit.
Obtížnou částí tohoto úkolu je najít všechny nefunkční odkazy na webu.
Může to být náročnější u velkých, komplexních webů, které mají tisíce nebo miliony stránek. V takových případech se hodí nástroje pro procházení. Můžete zkusit použít software, jako je Xenu, DeepCrawl, Screaming Frog nebo Botify.
Stránka, která již neexistuje
Když stránka již neexistuje, máte dvě možnosti:
- Obnovit stránku, pokud byla omylem odstraněna.
- 301 přesměrovat ji na nejbližší související stránku, pokud byla odstraněna záměrně.
Nejprve musíte na webu vyhledat všechny chyby v propojení. Podobně jako při hledání všech chyb v odkazování u rozsáhlých webových stránek můžete použít nástroje pro procházení. Nástroje pro procházení však nemusí najít osiřelé stránky, což jsou stránky, na které není odkazováno z žádného místa v rámci navigačních odkazů ani z žádné ze stránek.
Osiřelé stránky mohou existovat, pokud byly dříve součástí webu, pak po změně designu webu odkaz vedoucí na tuto starou stránku zmizel, ale stále na ně mohou odkazovat externí odkazy z jiných webů. Chcete-li dvakrát zkontrolovat, zda tyto typy stránek na vašem webu existují, můžete použít různé nástroje.
Konzola vyhledávání Google
Konzola vyhledávání nahlásí stránky 404, protože vyhledávač Google prochází všechny stránky, které může najít. To může zahrnovat odkazy z jiných webů, které vedou na stránku, která na vašem webu existovala.
Google Analytics
Ve výchozím nastavení v Google Analytics nenajdete hlášení o chybějících stránkách. Můžete je však sledovat několika způsoby.
Například můžete vytvořit vlastní sestavu a segmentovat stránky, které mají v názvu uvedeno Error 404 – Page Not Found.
Dalším způsobem, jak najít osiřelé stránky v rámci služby Google Analytics, je vytvořit vlastní skupiny obsahu a přiřadit všechny stránky s chybou 404 do skupiny obsahu.
Site: Vyhledávací příkaz operátora
Vyhledání „site:example.com“ ve službě Google zobrazí všechny stránky example.com, které jsou indexovány společností Google. Můžete pak jednotlivě zkontrolovat, zda se stránky načítají, nebo zda dávají 404.
K tomu, abyste to udělali ve velkém měřítku, rád používám WebCEO, který má funkci pro spuštění příkazu site: operator nejen na Googlu, ale také na Bingu, Yahoo, Yandexu, Naveru, Baidu a Seznamu.
Protože všechny vyhledávače vám poskytnou pouze podmnožinu, spuštění na více vyhledávačích může pomoci získat větší seznam stránek vašeho webu. Tento seznam lze exportovat a spustit v nástrojích pro hromadnou kontrolu 404. Já to jednoduše dělám tak, že přidám všechny adresy URL jako odkazy do souboru HTML a načtu ho do Xenu pro hromadnou kontrolu chyb 404.
Další nástroje pro výzkum zpětných odkazů
Pomoci mohou také nástroje pro výzkum zpětných odkazů jako Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, LinkResearchTools a CognitiveSEO.
Většina těchto nástrojů vyexportuje seznam zpětných odkazů odkazujících na vaši doménu. Odtud můžete zkontrolovat všechny stránky, na které odkazují, a vyhledat chyby 404.
Jak opravit měkké chyby 404
Prohledávací nástroje nezjistí měkkou chybu 404, protože se ve skutečnosti o chybu 404 nejedná. Pomocí nástrojů pro procházení však můžete odhalit něco jiného. Zde je několik věcí, které můžete zjistit:
- Tenký obsah: Některé nástroje pro procházení hlásí nejen stránky s tenkým obsahem, ale zobrazují také celkový počet slov. Odtud můžete adresy URL seřadit podle počtu slov v obsahu. Začněte stránkami, které mají nejméně slov, a vyhodnoťte, zda stránka nemá řídký obsah.
- Duplicitní obsah: Některé nástroje pro procházení jsou dostatečně sofistikované na to, aby rozpoznaly, jaké procento stránky tvoří šablonovitý obsah. Pokud je hlavní obsah téměř stejný jako u mnoha jiných stránek, měli byste se na tyto stránky podívat a zjistit, proč na webu existuje duplicitní obsah.
Kromě nástrojů pro procházení můžete také použít službu Google Search Console a zkontrolovat v části Chyby procházení a najít stránky, které jsou uvedeny pod měkkými 404.
Procházení celého webu za účelem nalezení problémů, které způsobují měkké chyby 404, vám umožní lokalizovat a opravit problémy ještě předtím, než je Google odhalí.
Po odhalení těchto měkkých chyb 404 je třeba je opravit.
Většinou se řešení jeví jako zdravý rozum. Může jít o jednoduché věci, jako je rozšíření stránek s řídkým obsahem nebo nahrazení duplicitního obsahu novým a jedinečným.
Při tomto procesu je třeba zvážit několik věcí:
- Konsolidace stránek: Někdy je řídký obsah způsoben tím, že je téma stránky příliš specifické, a proto vám může zůstat jen málo informací. Sloučení několika tenkých stránek do jedné může být vhodnější, pokud spolu témata souvisejí. Nejenže to vyřeší problémy s tenkým obsahem, ale může to také vyřešit problémy s duplicitním obsahem. Například web elektronického obchodu, který prodává boty v různých barvách a velikostech, může mít pro každou velikost a barevnou kombinaci jinou adresu URL. Zůstává tak velké množství stránek s tenkým a relativně totožným obsahem. Efektivnějším přístupem je místo toho umístit vše na jednu stránku a vyjmenovat dostupné možnosti.
- Zjištění technických problémů, které způsobují duplicitní obsah: I pomocí nejjednoduššího nástroje pro procházení webu, jako je Xenu (který nezkoumá obsah, ale pouze adresy URL, kódy odpovědí a značky title), můžete najít problémy s duplicitním obsahem pomocí adresy URL. To zahrnuje věci jako www vs. newww adresy URL, http a https, s index.html a bez, se sledovacími parametry a bez atd. Dobré shrnutí těchto běžných problémů s duplicitním obsahem nalezených ve vzorech URL naleznete na snímku 6 této prezentace.
Google zachází s chybami 404 & Měkké chyby 404 stejně
Měkká chyba 404 není skutečná chyba 404, ale Google tyto stránky deindexuje, pokud nejsou rychle opraveny. Nejlepší je pravidelně procházet web a zjišťovat, zda se na něm nevyskytují chyby 404 nebo měkké chyby 404. Nástroje pro procházení by měly být hlavní součástí vašeho arzenálu SEO.
Obrázek Credits
Featured Image: Paulo Bobita