Cada página que se carga en un navegador web tiene un código de respuesta incluido en las cabeceras HTTP, que puede o no ser visible en la propia página web.
Hay muchos códigos de respuesta diferentes que un servidor da para comunicar el estado de carga de la página; uno de los códigos más conocidos es el código de respuesta 404.
Generalmente, cualquier código entre 400 y 499 indica que la página no se ha cargado. El código de respuesta 404 es el único que tiene un significado específico: que la página ha desaparecido y que probablemente no volverá a aparecer en breve.
- ¿Qué es un error 404 suave?
- Potencialmente mal identificada como un suave 404
- Error de enlace
- Una página que ya no existe
- Google Search Console
- Google Analytics
- Sitio: Comando de búsqueda del operador
- Otras herramientas de investigación de backlinks
- Cómo solucionar errores 404 suaves
- Google trata los errores 404 & Errores 404 suaves de la misma manera
¿Qué es un error 404 suave?
Un error 404 suave no es un código de respuesta oficial que se envía a un navegador web. Es sólo una etiqueta que Google añade a una página dentro de su índice.
Cuando Google rastrea las páginas, asigna los recursos cuidadosamente para asegurarse de que no se pierde tiempo rastreando páginas que no necesitan ser indexadas.
Sin embargo, hay algunos servidores que están mal configurados y su página perdida carga un código 200 cuando debería mostrar un código de respuesta 404. Si la cabecera HTTP invisible muestra un código 200 aunque la página web indique claramente que la página no se encuentra, la página podría indexarse, lo que supone un desperdicio de recursos para Google.
Para combatir este problema, Google observa las características de las páginas 404 e intenta discernir si la página 404 es realmente una página 404. En otras palabras, Google aprendió que si parece un 404, huele como un 404 y actúa como un 404, entonces es probable que sea una página 404 genuina.
Potencialmente mal identificada como un suave 404
También hay casos en los que la página no está realmente desaparecida, pero ciertas características han hecho que Google la categorice como una página desaparecida.
Algunas de estas características incluyen una pequeña cantidad o falta de contenido en la página y tener demasiadas páginas similares en el sitio.
Estas características también son similares a los factores que aborda el algoritmo Panda. La actualización de Panda considera el contenido delgado y duplicado como factores de clasificación negativos.
Por lo tanto, solucionar estos problemas ayudará a evitar tanto los 404 suaves como los problemas de Panda.
Los errores 404 tienen dos causas principales:
- Un error en el enlace, que dirige a los usuarios a una página que no existe.
- Un enlace que va a una página que solía existir y que de repente ha desaparecido.
Error de enlace
Si la causa del 404 es un error de enlace, sólo hay que arreglar los enlaces.
La parte difícil de esta tarea es encontrar todos los enlaces rotos en un sitio.
Puede ser más desafiante para sitios grandes y complejos que tienen miles o millones de páginas. En casos como éste, las herramientas de rastreo son muy útiles. Puede probar a utilizar software como Xenu, DeepCrawl, Screaming Frog o Botify.
Una página que ya no existe
Cuando una página ya no existe, tiene dos opciones:
- Restaurar la página si fue eliminada accidentalmente.
- 301 redirigirla a la página relacionada más cercana si fue eliminada a propósito.
Primero, hay que localizar todos los errores de enlace en el sitio. Al igual que para encontrar todos los errores de vinculación para un sitio web a gran escala, puede utilizar herramientas de rastreo. Sin embargo, es posible que las herramientas de rastreo no encuentren las páginas huérfanas, que son páginas que no están enlazadas desde ningún lugar dentro de los enlaces de navegación ni desde ninguna de las páginas.
Las páginas huérfanas pueden existir si solían formar parte del sitio web, y luego, después de un rediseño del sitio web, el enlace que iba a esta antigua página desapareció, pero los enlaces externos de otros sitios web podrían seguir enlazándolos. Para comprobar si este tipo de páginas existen en su sitio, puede utilizar diversas herramientas.
Google Search Console
La consola de búsqueda informará de las páginas 404 a medida que el rastreador de Google recorra todas las páginas que pueda encontrar. Esto puede incluir enlaces de otros sitios que van a una página que solía existir en su sitio web.
Google Analytics
No encontrará un informe de páginas perdidas en Google Analytics por defecto. Sin embargo, puede realizar un seguimiento de varias maneras.
Por un lado, puede crear un informe personalizado y segmentar las páginas que tengan un título de página que mencione Error 404 – Página no encontrada.
Otra forma de encontrar páginas huérfanas dentro de Google Analytics es crear agrupaciones de contenido personalizadas y asignar todas las páginas 404 a un grupo de contenido.
Sitio: Comando de búsqueda del operador
Al buscar en Google «site:example.com» se listarán todas las páginas de example.com indexadas por Google. A continuación, puede comprobar individualmente si las páginas se están cargando o si están dando 404s.
Para hacer esto a escala, me gusta usar WebCEO, que tiene una característica para ejecutar el sitio: operador no sólo en Google, sino también en Bing, Yahoo, Yandex, Naver, Baidu, y Seznam.
Dado que todos los motores de búsqueda sólo le dará un subconjunto, ejecutándolo en múltiples motores de búsqueda puede ayudar a dar una lista más grande de las páginas de su sitio. Esta lista puede ser exportada y ejecutada en herramientas para una comprobación masiva de 404. Yo simplemente hago esto añadiendo todas las URLs como enlaces dentro de un archivo HTML y cargándolo en Xenu para comprobar masivamente los errores 404.
Otras herramientas de investigación de backlinks
Las herramientas de investigación de backlinks como Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, LinkResearchTools y CognitiveSEO también pueden ayudar.
La mayoría de estas herramientas exportarán una lista de backlinks que enlazan a su dominio. A partir de ahí, puede comprobar todas las páginas a las que se enlaza y buscar errores 404.
Cómo solucionar errores 404 suaves
Las herramientas de rastreo no detectarán un 404 suave porque no es realmente un error 404. Pero puede utilizar las herramientas de rastreo para detectar algo más. Aquí hay algunas cosas que se pueden encontrar:
- Contenido delgado: Algunas herramientas de rastreo no sólo informan de las páginas que tienen poco contenido, sino que también muestran un recuento total de palabras. A partir de ahí, puede clasificar las URL en función del número de palabras de su contenido. Comience con las páginas que tienen la menor cantidad de palabras y evalúe si la página tiene contenido delgado.
- Contenido duplicado: Algunas herramientas de rastreo son lo suficientemente sofisticadas como para discernir qué porcentaje de la página es contenido de plantilla. Si el contenido principal es casi el mismo que el de muchas otras páginas, debería investigar estas páginas y determinar por qué existe contenido duplicado en su sitio.
Además de las herramientas de rastreo, también puede utilizar Google Search Console y comprobar en los errores de rastreo las páginas que aparecen en los soft 404.
El rastreo de todo un sitio para encontrar los problemas que causan los soft 404 le permite localizar y corregir los problemas incluso antes de que Google los detecte.
Después de detectar estos problemas de soft 404, tendrá que corregirlos.
La mayoría de las veces, las soluciones parecen ser de sentido común. Esto puede incluir cosas simples como ampliar las páginas con contenido delgado o reemplazar el contenido duplicado con nuevas y únicas.
A lo largo de este proceso, aquí hay algunas cosas a considerar:
- Consolidar páginas: A veces el contenido delgado es causado por ser demasiado específico con el tema de la página, lo que puede dejarle con poco que decir. Fusionar varias páginas con poco contenido en una sola puede ser más apropiado si los temas están relacionados. Esto no sólo resuelve los problemas de thin content, sino que también puede solucionar los problemas de contenido duplicado. Por ejemplo, un sitio de comercio electrónico que vende zapatos que vienen en diferentes colores y tamaños puede tener una URL diferente para cada combinación de tamaño y color. Esto deja un gran número de páginas con contenido escaso y relativamente idéntico. El enfoque más eficaz es poner todo esto en una sola página y enumerar las opciones disponibles.
- Encuentre los problemas técnicos que causan el contenido duplicado: Usando incluso la herramienta de rastreo web más simple como Xenu (que no mira el contenido sino sólo las URLs, los códigos de respuesta y las etiquetas de título), aún puede encontrar problemas de contenido duplicado mirando las URLs. Esto incluye cosas como URLs www vs no www, http y https, con index.html y sin, con parámetros de seguimiento y sin, etc. En la diapositiva 6 de esta presentación se puede encontrar un buen resumen de estos problemas comunes de contenido duplicado encontrados en los patrones de URL.
Google trata los errores 404 & Errores 404 suaves de la misma manera
Un 404 suave no es un verdadero error 404, pero Google desindexará esas páginas si no se arreglan rápidamente. Es mejor rastrear su sitio regularmente para ver si se producen errores 404 o soft 404. Las herramientas de rastreo deben ser un componente importante de su arsenal SEO.
Créditos de la imagen
Imagen destacada: Paulo Bobita