Web ブラウザで読み込むすべてのページには、HTTP ヘッダーに含まれる応答コードがあり、Web ページ自体には表示されない場合があります。
サーバーがページの読み込み状況を伝えるために与える応答コードには多くの種類があります。 404 レスポンス コードは、特定の意味を持つ唯一のコードで、ページが実際に存在せず、おそらくすぐには戻ってこないことを示します。
Google はページをクロールする際、インデックスに登録する必要のないページをクロールして時間を無駄にしないよう、慎重にリソースを配分しています。
しかしながら、サーバーの設定が悪く、404-応答コードを表示すべきなのに 200 コードを読み込んでしまうページが存在します。 Web ページがページが見つからないことを明確に述べていても、見えない HTTP ヘッダーが 200 コードを表示すると、ページがインデックスされる可能性があり、これは Google にとって資源の無駄です。
この問題に対処するため、Google は 404 ページの特徴に注目し、404 ページが本当に 404 ページであるかを見分けようと試みました。 言い換えると、Google は、404 のように見え、404 のように感じ、404 のように動作するなら、それはおそらく本物の 404 ページであることを学びました。
これらの特性には、ページ上のコンテンツが少ない、または欠けている、サイト上に類似のページが多すぎる、などがあります。 パンダ アップデートは、薄いコンテンツや重複コンテンツをネガティブなランキング要因として考慮します。
したがって、これらの問題を修正すれば、ソフト404とパンダ問題の両方を回避できます。
- 404 エラーには主に 2 つの原因があります:リンクにエラーがあり、存在しないページにユーザーが誘導されていること。
- 以前は存在していたのに、突然消えてしまったページへのリンク。
リンク エラー
404 の原因がリンク エラーである場合、リンクを修正するだけです。
この作業で難しいのは、サイト上の壊れたリンクをすべて見つけることです。
ページ数が数百万に及ぶ大規模で複雑なサイトではより困難となる場合があります。 このような場合、クローリング ツールが役に立ちます。 Xenu、DeepCrawl、Screaming Frog、または Botify などのソフトウェアを使ってみてください。
A Page That No Longer Exists
ページが存在しない場合、2 つの選択肢があります:
- 誤って削除した場合はページを元に戻す。
- 301 ページが意図的に削除された場合、最も近い関連ページにリダイレクトする。
最初に、サイト上のすべてのリンク エラーを特定する必要があります。 大規模な Web サイトのリンク エラーをすべて見つけるのと同様に、クローリング ツールを使用することができます。 しかし、クローリング ツールは、ナビゲーショナル リンクの中やどのページからもリンクされていないページである孤児ページを見つけられないことがあります。
孤児ページは、以前はウェブサイトの一部だったものが、ウェブサイトの再設計後にこの古いページへのリンクが消えた場合に存在しますが、他のウェブサイトからの外部リンクがまだリンクされている可能性があります。 あなたのサイトにこれらの種類のページが存在するかどうかをダブルチェックするには、さまざまなtools.
Google Search Console
サーチコンソールは、Googleのクローラが見つけることができるすべてのページを通過すると404ページを報告することができます。 これは、あなたのウェブサイトに存在していたページに行く他のサイトからのリンクを含むことができます。
Google Analytics
あなたは、デフォルトでGoogle Analyticsの行方不明のページレポートを見つけることはありません。 しかし、いくつかの方法で追跡することができます。
たとえば、カスタム レポートを作成して、ページ タイトルに Error 404 – Page Not Found が含まれているページをセグメント化することが可能です。
Google Analytics で孤立したページを見つけるもう 1 つの方法は、カスタム コンテンツ グループを作成し、すべての 404 ページをコンテンツ グループに割り当てることです。 Operator Search Command
Googleで「site:example.com」と検索すると、Googleにインデックスされているexample.comのすべてのページがリストアップされます。 WebCEO は、Google だけでなく、Bing、Yahoo、Yandex、Naver、Baidu、および Seznam でも site: operator を実行する機能を備えています。 このリストは、エクスポートして、大量の404チェックを行うためのツールで実行することができます。 私は、HTMLファイルにすべてのURLをリンクとして追加し、Xenuに読み込ませることで、404エラーを大量にチェックすることができます。
Other Backlink Research Tools
バックリンク リサーチ ツールの Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, LinkResearchTools, and CognitiveSEO も役立ちます。
ほとんどのツールはあなたのドメインへのリンクのバックリンク リストにエクスポートしてくれます。 そこから、リンクされているすべてのページをチェックして、404 エラーを探すことができます。
How to Fix Soft 404 Errors
Crawling tools will not detect the soft 404 because it isn’t really a 404 error. しかし、クローリング ツールを使用して、別のものを検出することはできます。 以下はその例です。
- Thin Content(薄いコンテンツ)。 一部のクローリングツールは、内容の薄いページを報告するだけでなく、総語数も表示します。 そこから、コンテンツの単語数に基づいてURLを並べ替えることができます。 単語数が最も少ないページから始めて、そのページが薄いコンテンツかどうかを評価します。
- 重複コンテンツ。 クローリングツールの中には、ページの何パーセントがテンプレートコンテンツであるかを見分けることができる高度なものもある。 メインコンテンツが他の多くのページとほぼ同じであれば、これらのページを調べ、サイトに重複コンテンツが存在する理由を判断する必要があります。
クローリングツール以外にも、Google Search Consoleを使ってクロールエラーで確認し、ソフト404にリストされているページを見つけることも可能です。
サイト全体をクロールしてソフト 404 の原因となる問題を見つけることで、Google が検出する前に問題を特定し修正できます。
これらのソフト 404 問題を検出したら、それらを修正する必要があります。 これには、内容の薄いページを拡張したり、重複するコンテンツを新しくユニークなものに置き換えたりといった簡単なことが含まれます。
- ページを統合する。 ページのトピックを具体的にしすぎたために内容が薄くなり、言いたいことがほとんど言えなくなることがあります。 トピックが関連している場合は、いくつかの薄いページを1つのページに統合することがより適切な場合があります。 薄いコンテンツの問題を解決するだけでなく、重複するコンテンツの問題も解決できます。 たとえば、さまざまな色とサイズの靴を販売するeコマースサイトでは、サイズと色の組み合わせごとに異なるURLを持っている場合があります。 これでは、内容が薄く、比較的同一のコンテンツを持つページが大量に残ってしまいます。 より効果的なアプローチは、代わりにこれをすべて 1 つのページにまとめ、利用可能なオプションを列挙することです。
- 重複コンテンツの原因となる技術的な問題を見つける。 Xenu のような最も単純な Web クロール ツール (コンテンツではなく、URL、レスポンス コード、およびタイトル タグのみを参照する) を使用しても、URL を調べることによって重複コンテンツの問題を見つけることができます。 これには、wwwとnon-wwwのURL、httpとhttps、index.html付きとなし、トラッキングパラメータ付きとなし、などが含まれます。 このような、URLのパターンで見つかる一般的な重複コンテンツの問題の良い要約は、このプレゼンテーションのスライド6で見ることができます。
Google Treats 404 Errors & Soft 404 Errors the Same Way
A soft 404 is not real 404 error, but Google will deindex those pages if they are not fixed quickly.The soft 404 is not real. 定期的にサイトをクロールして、404 エラーまたはソフト 404 エラーが発生しているかどうかを確認するのが最善です。 クローリングツールはSEO対策の主要な要素であるべきです。
画像引用
注目の画像。 パウロ・ボビタ