googleやyahooなどで検索すると、いくつもの検索結果が表示されます。検索結果はユーザーが欲している情報により近いものを上位に表示するようになっています。実はgoogleもyahooもgoogleの検索エンジンを使っています。yahooは、googleの検索エンジンから得た情報に、yahoo独自のフィルターをかけて検索結果として表示しています。
では、googleはどのように情報を得ているのでしょうか。情報を集めるロボットが世界中のwebサイトを回って情報を集めます。ロボットをクローラ(googlebot)と言い、その行為をクロールと言います。クローラはリンクを辿って、一日に何度もページを訪れます。
多くのページに訪れるためにはURLエラーはない方が良いでしょう。クローラが訪れる頻度をチェックすることも大事です。
URLエラーで「見つかりませんでした」という404エラーが表示されるということは、googleがアクセスしようとしたページが存在しない時です。その原因は以下です。
404エラーはgoogleの検索結果の掲載順位には影響ありません。しかし何が原因かがわかっていた方が良いと思います。以下のことをチェックしてみてください。
これはリンクの後ろに「%20%E2%80%8E」が付くというエラーで、 リンクは問題ないように見えますが、リンクの後ろに空白が入っているとエラーになります。
クロールの統計情報には90日間のクローラーの働きがグラフでわかります。
「良好な」クロール数というものは存在しませんが、グラフは比較的平坦で、サイトの拡大に応じて上昇するべきです。
robots.txtは検索されたくないページを記載し、検索エンジンのデータベースに登録されないようにするファイルです。「robots.txtテスター」で確認できます。 |
robots.txtをで、Googleのウェブクローラーをブロックしていないかを確認できます。
重要なページを新しく作成して公開した、または重要なページを更新して公開した場合、そのページをすぐに Google に通知する必要があります。
Search Console
Googleにクロールをリクエストする方法は2つの方法があります。URL検査ツールで「[インデックス登録をリクエスト」を送る方法と、複数のURLの場合は「サイトマップ」を送信します。
サイトマップは検索エンジンにサイトの構成を伝えるファイルです。クロール対象から漏れることを防いでくれます。
XML sitemapのURL の例 「sitemap.xml」
googleで処理されるまでに時間がかかることがあります。
インデックス カバレッジ レポートで、登録されているページや問題のあるページを確認することができます。
サイトがgoogleがどのように認識されているかを確認できます。