Błędy 404 i miękkie 404: What’s the Difference & How to Fix Both

Każda strona, która ładuje się w przeglądarce internetowej, ma kod odpowiedzi zawarty w nagłówkach HTTP, który może, ale nie musi być widoczny na samej stronie internetowej.

Istnieje wiele różnych kodów odpowiedzi podawanych przez serwer w celu przekazania informacji o stanie załadowania strony; jednym z najbardziej znanych kodów jest kod odpowiedzi 404.

Ogólnie, każdy kod w zakresie od 400 do 499 wskazuje, że strona nie załadowała się. Kod 404-odpowiedzi jest jedynym, który niesie ze sobą konkretne znaczenie – że strona faktycznie zniknęła i prawdopodobnie nie wróci w najbliższym czasie.

Co to jest miękki błąd 404?

Miękki błąd 404 nie jest oficjalnym kodem odpowiedzi wysyłanym do przeglądarki internetowej. Jest to po prostu etykieta, którą Google dodaje do strony w swoim indeksie.

Jak Google indeksuje strony, przydziela zasoby ostrożnie, zapewniając, że nie marnuje czasu na indeksowanie brakujących stron, które nie muszą być indeksowane.

Reklama
Continue Reading Below

Jednakże istnieją pewne serwery, które są źle skonfigurowane i ich brakująca strona ładuje kod 200, gdy powinna wyświetlać kod 404-odpowiedź. Jeśli niewidzialny nagłówek HTTP wyświetla kod 200, nawet jeśli strona wyraźnie stwierdza, że strona nie została znaleziona, strona może zostać zaindeksowana, co jest stratą zasobów dla Google.

Aby zwalczyć ten problem, Google zauważa cechy stron 404 i próbuje rozróżnić, czy strona 404 naprawdę jest stroną 404. Innymi słowy, Google nauczyło się, że jeśli wygląda jak 404, pachnie jak 404 i zachowuje się jak 404, to prawdopodobnie jest to prawdziwa strona 404.

Potencjalnie błędnie zidentyfikowana jako miękka 404

Są też przypadki, w których strona nie jest w rzeczywistości brakująca, ale pewne cechy spowodowały, że Google skategoryzowało ją jako brakującą stronę.

Niektóre z tych cech obejmują niewielką ilość lub brak treści na stronie i posiadanie zbyt wielu podobnych stron w witrynie.

Te cechy są również podobne do czynników, które algorytm Panda zajmuje. Aktualizacja Panda uważa cienką i zduplikowaną treść za negatywne czynniki rankingowe.

Advertisement
Continue Reading Below

W związku z tym, naprawienie tych problemów pomoże uniknąć zarówno miękkich 404 jak i problemów Pandy.

Błędy 404 mają dwie główne przyczyny:

  • Błąd w linku, kierujący użytkowników do strony, która nie istnieje.
  • Łącze prowadzące do strony, która kiedyś istniała i nagle zniknęła.

Błąd łączenia

Jeśli przyczyną 404 jest błąd łączenia, musisz po prostu naprawić łącza.

Trudną częścią tego zadania jest znalezienie wszystkich zepsutych łączy w witrynie.

Może to być trudniejsze w przypadku dużych, złożonych witryn, które mają tysiące lub miliony stron. W przypadkach takich jak ten, crawling narzędzia przychodzą w porę. Możesz spróbować użyć oprogramowania takiego jak Xenu, DeepCrawl, Screaming Frog, lub Botify.

Strona, która już nie istnieje

Gdy strona już nie istnieje, masz dwie opcje:

  • Przywróć stronę, jeśli została przypadkowo usunięta.
  • 301 przekieruj ją na najbliższą powiązaną stronę, jeśli została usunięta celowo.

Po pierwsze, musisz zlokalizować wszystkie błędy w linkowaniu w witrynie. Podobnie do znalezienia wszystkich błędów w linkowaniu dla dużej skali witryny, można użyć narzędzi indeksowania. Jednak crawling narzędzia mogą nie znaleźć osierocone strony, które są strony, które nie są połączone z dowolnego miejsca w ramach linków nawigacyjnych lub z dowolnej strony.

Orphaned strony mogą istnieć, jeśli kiedyś były częścią witryny, a następnie po przeprojektowaniu witryny, link przechodzący do tej starej strony zniknął, ale zewnętrzne linki z innych stron internetowych może nadal być link do nich. Aby dwukrotnie sprawdzić, czy tego rodzaju strony istnieją w Twojej witrynie, możesz użyć różnych narzędzi.

Google Search Console

Konsola wyszukiwania zgłosi strony 404, ponieważ crawler Google przechodzi przez wszystkie strony, które może znaleźć. Może to obejmować linki z innych witryn przechodzące do strony, która kiedyś istniała w Twojej witrynie.

Google Analytics

Domyślnie nie znajdziesz raportu brakujących stron w Google Analytics. Możesz jednak śledzić je na kilka sposobów.

Advertisement
Continue Reading Below

Na przykład możesz utworzyć niestandardowy raport i wyodrębnić strony, które mają tytuł strony z dopiskiem Error 404 – Page Not Found.

Innym sposobem na znalezienie osieroconych stron w Google Analytics jest utworzenie niestandardowych grup zawartości i przypisanie wszystkich stron 404 do grupy zawartości.

Site: Operator Search Command

Szukanie w Google dla „site:example.com” spowoduje wyświetlenie listy wszystkich stron example.com, które są indeksowane przez Google. Możesz wtedy indywidualnie sprawdzić, czy strony się ładują lub czy dają 404s.

Aby zrobić to na skalę, lubię używać WebCEO, który ma funkcję uruchomienia site: operator nie tylko w Google, ale także w Bing, Yahoo, Yandex, Naver, Baidu i Seznam.

Ponieważ wszystkie wyszukiwarki dadzą ci tylko podzbiór, uruchomienie go w wielu wyszukiwarkach może pomóc w uzyskaniu większej listy stron twojej witryny. Lista ta może zostać wyeksportowana i uruchomiona na narzędziach do masowego sprawdzania 404. Ja po prostu robię to dodając wszystkie adresy URL jako linki w pliku HTML i ładując go na Xenu, aby masowo sprawdzić błędy 404.

Reklama
Continue Reading Below

Inne narzędzia do badania backlinków

Narzędzia do badania backlinków takie jak Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, LinkResearchTools oraz CognitiveSEO również mogą pomóc.

Większość z tych narzędzi wyeksportuje listę backlinków łączących się z twoją domeną. Stamtąd można sprawdzić wszystkie strony, do których prowadzą linki i poszukać błędów 404.

Jak naprawić miękkie błędy 404

Narzędzia indeksujące nie wykryją miękkiego błędu 404, ponieważ tak naprawdę nie jest to błąd 404. Ale można użyć narzędzi indeksujących do wykrycia czegoś innego. Oto kilka rzeczy do znalezienia:

  • Thin Content: Niektóre narzędzia do indeksowania nie tylko zgłaszają strony, które mają cienką treść, ale także pokazują całkowitą liczbę słów. Stamtąd można sortować adresy URL w oparciu o liczbę słów w treści. Zacznij od stron, które mają najmniej słów i ocenić, czy strona ma cienką treść.
  • Duplicate Content: Niektóre narzędzia do indeksowania są na tyle zaawansowane, że potrafią określić, jaki procent strony stanowi treść szablonowa. Jeśli główna treść jest prawie taka sama jak na wielu innych stronach, należy przyjrzeć się tym stronom i ustalić, dlaczego duplikat treści istnieje w witrynie.

Oprócz narzędzi indeksowania, można również użyć Google Search Console i sprawdzić pod błędy indeksowania, aby znaleźć strony, które są wymienione w miękkich 404s.

Crawlowanie całej witryny w celu znalezienia problemów, które powodują miękkie 404s pozwala zlokalizować i poprawić problemy, zanim Google nawet je wykryje.

Advertisement
Continue Reading Below

Po wykryciu tych miękkich 404 problemów, trzeba będzie je poprawić.

Większość czasu, rozwiązania wydają się być zdroworozsądkowe. Może to obejmować proste rzeczy, takie jak rozszerzenie stron z cienką treścią lub zastąpienie zduplikowanych treści z nowych i unikalnych.

Przez cały ten proces, oto kilka rzeczy do rozważenia:

  • Konsolidacja stron: Czasami cienka treść jest spowodowana przez zbyt szczegółowe z tematem strony, która może zostawić cię z mało do powiedzenia. Połączenie kilku cienkich stron w jedną stronę może być bardziej odpowiednie, jeśli ich tematy są powiązane. To nie tylko rozwiązuje problemy z cienką treścią, ale może również naprawić problemy z duplikatem treści. Na przykład, strona e-commerce sprzedająca buty, które są w różnych kolorach i rozmiarach może mieć inny adres URL dla każdego rozmiaru i kombinacji kolorów. To pozostawia dużą liczbę stron z treści, które są cienkie i stosunkowo identyczne. Bardziej efektywnym podejściem jest umieszczenie tego wszystkiego na jednej stronie zamiast tego i wyliczenie dostępnych opcji.
  • Znajdź problemy techniczne, które powodują duplikaty treści: Używając nawet najprostszego narzędzia do indeksowania stron internetowych, takiego jak Xenu (które nie patrzy na treść, a jedynie na adresy URL, kody odpowiedzi i znaczniki tytułu), nadal można znaleźć problemy z duplikatami treści, patrząc na adresy URL. Obejmuje to takie rzeczy jak www vs nie-www adresów URL, http i https, z index.html i bez, z parametrami śledzenia i bez, itp. Dobre podsumowanie tych wspólnych problemów duplikatów treści znalezionych w adresach URL można znaleźć na slajdzie 6 tej prezentacji.

Google traktuje 404 Errors & Soft 404 Errors the Same Way

A soft 404 nie jest prawdziwy błąd 404, ale Google będzie deindex te strony, jeśli nie są one naprawione szybko. Najlepiej jest indeksować swoją witrynę regularnie, aby zobaczyć, czy 404 lub miękkie 404 błędy występują. Narzędzia do indeksowania powinny być głównym składnikiem twojego arsenału SEO.

Image Credits

Featured Image: Paulo Bobita

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.