Cada página que carrega num navegador web tem um código de resposta incluído nos cabeçalhos HTTP, que pode ou não estar visível na própria página web.
Existem muitos códigos de resposta diferentes que um servidor dá para comunicar o estado de carregamento da página; um dos códigos mais conhecidos é o código de resposta 404.
Geralmente, qualquer código entre 400 a 499 indica que a página não carregou. O código 404-resposta é o único que carrega um significado específico – que a página realmente desapareceu e provavelmente não vai voltar tão cedo.
- O que é um erro Soft 404?
- Potentially Misidentified as Soft 404
- Erro de link
- Uma página que não existe mais
- Google Search Console
- Google Analytics
- Site: Comando de pesquisa do operador
- Outras Ferramentas de Pesquisa de Backlink
- Como corrigir erros Soft 404
- Google Treats 404 Errors & Soft 404 Errors the Same Way
O que é um erro Soft 404?
Um erro Soft 404 não é um código de resposta oficial enviado a um navegador web. É apenas um rótulo que o Google adiciona a uma página dentro do seu índice.
As páginas rastreadas pelo Google, ele aloca recursos cuidadosamente assegurando que nenhum tempo é desperdiçado com o rastreamento de páginas ausentes que não precisam ser indexadas.
No entanto, há alguns servidores que estão mal configurados e sua página em falta carrega um código de 200 quando deve mostrar um código de 404-respostas. Se o cabeçalho HTTP invisível exibir um código de 200, mesmo que a página web diga claramente que a página não foi encontrada, a página pode ser indexada, o que é um desperdício de recursos para o Google.
Para combater esse problema, o Google anota as características de 404 páginas e tenta discernir se a página 404 é realmente uma página 404. Em outras palavras, o Google aprendeu que se parece com uma 404, cheira como uma 404, e age como uma 404, então provavelmente é uma página 404 genuína.
Potentially Misidentified as Soft 404
Existem também casos em que a página não está realmente faltando, mas certas características têm desencadeado o Google a categorizá-la como uma página faltando.
algumas destas características incluem uma pequena quantidade ou falta de conteúdo na página e ter demasiadas páginas semelhantes no site.
Estas características também são semelhantes aos factores que o algoritmo Panda aborda. A actualização Panda considera conteúdo fino e duplicado como factores de classificação negativos.
Por isso, a correcção destes problemas ajudará a evitar tanto os problemas soft 404s como os problemas Panda.
404 erros têm duas causas principais:
- Um erro na ligação, direccionando os utilizadores para uma página que não existe.
- Um link indo para uma página que costumava existir e de repente desapareceu.
Erro de link
Se a causa do 404 é um erro de link, basta corrigir os links.
A parte difícil desta tarefa é encontrar todos os links quebrados em um site.
Pode ser mais desafiador para sites grandes e complexos que têm milhares ou milhões de páginas. Em casos como este, ferramentas de rastreamento vêm a calhar. Você pode tentar usar softwares como Xenu, DeepCrawl, Screaming Frog, ou Botify.
Uma página que não existe mais
Quando uma página não existe mais, você tem duas opções:
- Restaurar a página se ela foi removida acidentalmente.
- 301 redirecioná-la para a página relacionada mais próxima se ela foi removida de propósito.
Primeiro, você tem que localizar todos os erros de link no site. Similar a encontrar todos os erros de ligação para um site em grande escala, você pode usar ferramentas de rastejamento. No entanto, as ferramentas de rastreamento podem não encontrar páginas órfãs, que são páginas que não estão ligadas de qualquer lugar dentro dos links de navegação ou de qualquer uma das páginas.
Páginas órfãs podem existir se costumavam fazer parte do site, então após um redesenho do site, o link indo para esta página antiga desapareceu, mas links externos de outros sites ainda podem estar ligando para eles. Para verificar se este tipo de páginas existem no seu site, você pode usar uma variedade de ferramentas.
Google Search Console
Search console irá relatar 404 páginas enquanto o rastreador do Google percorre todas as páginas que ele pode encontrar. Isto pode incluir links de outros sites que vão para uma página que costumava existir no seu site.
Google Analytics
Você não vai encontrar um relatório de página em falta no Google Analytics por padrão. No entanto, você pode rastreá-los de várias maneiras.
Para um, você pode criar um relatório personalizado e segmentar as páginas que têm um título de página mencionando Erro 404 – Página Não Encontrada.
Outra forma de encontrar páginas órfãs dentro do Google Analytics é criar agrupamentos de conteúdo personalizados e atribuir todas as 404 páginas a um grupo de conteúdo.
Site: Comando de pesquisa do operador
Procurar Google para “site:exemplo.com” listará todas as páginas de exemplo.com que são indexadas pelo Google. Pode então verificar individualmente se as páginas estão a carregar ou se estão a dar 404s.
Para fazer isto à escala, gosto de utilizar o WebCEO, que tem uma funcionalidade para correr o site: operador não só no Google, mas também no Bing, Yahoo, Yandex, Naver, Baidu e Seznam.
Desde que todos os motores de busca só lhe darão um subconjunto, correndo-o em múltiplos motores de busca pode ajudar a dar uma lista maior de páginas do seu site. Esta lista pode ser exportada e executada em ferramentas para uma verificação em massa 404. Eu simplesmente faço isso adicionando todos os URLs como links dentro de um arquivo HTML e carregando-o no Xenu para verificar massivamente por 404 erros.
Outras Ferramentas de Pesquisa de Backlink
Ferramentas de pesquisa de Backlink como Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, LinkResearchTools, e CognitiveSEO também podem ajudar.
A maior parte destas ferramentas irá exportar uma lista de backlinks ligando ao seu domínio. A partir daí, você pode verificar todas as páginas que estão sendo linkadas e procurar por 404 erros.
Como corrigir erros Soft 404
Ferramentas de rastreamento não detectarão um soft 404 porque não é realmente um erro 404. Mas você pode usar ferramentas de rastejamento para detectar outra coisa. Aqui estão algumas coisas para encontrar:
- Conteúdo fino: Algumas ferramentas de rastreamento não só relatam páginas com conteúdo fino, mas também mostram uma contagem total de palavras. A partir daí, você pode ordenar URLs com base no número de palavras do seu conteúdo. Comece com páginas que tenham a menor quantidade de palavras e avalie se a página tem conteúdo fino.
- Conteúdo Duplicado: Algumas ferramentas de rastreamento são sofisticadas o suficiente para discernir qual porcentagem da página é o conteúdo do modelo. Se o conteúdo principal for quase o mesmo de muitas outras páginas, você deve procurar nessas páginas e determinar por que existe conteúdo duplicado no seu site.
Além das ferramentas de rastreamento, você também pode usar o Console de Pesquisa do Google e verificar em erros de rastreamento para encontrar páginas que estão listadas no soft 404s.
Rastejar um site inteiro para encontrar problemas que causam soft 404s permite localizar e corrigir problemas antes mesmo que o Google os detecte.
Após detectar esses problemas soft 404s, você precisará corrigi-los.
A maior parte do tempo, as soluções parecem ser de senso comum. Isto pode incluir coisas simples como expandir páginas com conteúdo fino ou substituir conteúdo duplicado por páginas novas e exclusivas.
Atrás deste processo, aqui estão algumas coisas a considerar:
- Consolidar Páginas: Às vezes o conteúdo fino é causado por ser muito específico com o tópico da página, o que pode deixá-lo com pouco a dizer. A fusão de várias páginas finas em uma página pode ser mais apropriada se os tópicos estiverem relacionados. Isto não só resolve problemas de conteúdo fino, mas também pode corrigir problemas de conteúdo duplicado. Por exemplo, um site de comércio eletrônico que vende sapatos que vêm em diferentes cores e tamanhos pode ter uma URL diferente para cada tamanho e combinação de cores. Isso deixa um grande número de páginas com conteúdo que é fino e relativamente idêntico. A abordagem mais eficaz é colocar tudo isso em uma página e enumerar as opções disponíveis.
- Find Technical Issues That Cause Duplicate Content (Encontre Problemas Técnicos que Causam Conteúdo Duplicado): Usando mesmo a mais simples ferramenta de rastreamento da web como Xenu (que não olha para o conteúdo, mas apenas URLs, códigos de resposta e tags de título), você ainda pode encontrar problemas de conteúdo duplicado ao olhar para URLs. Isto inclui coisas como www vs URLs não-www, http e https, com index.html e sem, com parâmetros de rastreamento e sem, etc. Um bom resumo desses problemas comuns de conteúdo duplicado encontrados nos padrões de URLs pode ser encontrado no slide 6 desta apresentação.
Google Treats 404 Errors & Soft 404 Errors the Same Way
A soft 404 não é um erro 404 real, mas o Google irá desindexar essas páginas se elas não forem corrigidas rapidamente. É melhor rastejar o seu site regularmente para ver se ocorrem erros do 404 ou do soft 404. Ferramentas de rastreamento devem ser um componente importante do seu arsenal SEO.
Image Credits
Featured Image: Paulo Bobita