クローラー Googlebot

クローラーとは?「Googlebot」にクローリングさせたい場合とさせたくない場合の対処法

「クローラー」を理解するには、まず「検索エンジン」の仕組みを知っておかなければなりません。

検索結果

上図のように、検索エンジンが検索結果として「様々なWebページ」を表示する際、内部的には、下記のような流れになっています。

  1. ユーザーが「SEO(例)」というキーワードで検索します
  2. 検索キーワードを受け取った「検索エンジン」は、検索エンジン側で保持しているデータベースを参照しにいって、「検索キーワード」に紐づくWebページ群を取得します
  3. 取得したWebページ群を、検索結果として表示します

以上が、内部的な流れになります。

上記で「検索エンジン側で保持しているデータベース」と記載しましたが、このデータベースに「世界じゅうのありとあらゆるWebページの情報」が格納されています。

「クローラー」の話しに戻りますが、クローラーの役目は、このデータベースに「存在していないWebサイトの情報」を格納したり、Webサイトの内容が更新されていたら、その更新内容をデータベースに反映させていくのが、役目になります。

「クローラー」じたいは、プログラムになっていて、Webサイト(ページ)間のリンクを辿っていき、辿りついたページ情報を自動的に取得していきます。
そして、取得したページ情報を「データベース」に格納していくのです。

呼び名は様々で、「ボット」「ロボット」「スパイダー」とも呼ばれています。

今回の記事では、Googleのクローラーである「Googlebot」についての解説と、「Googlebot」にクローリングさせたい場合とさせたくない場合の対処法について。

また、クローリング頻度を確認する手順についても解説していきます。

以下、目次になります。

  • Googleのクローラー「Googlebot」について
  • 「Googlebot」にクローリングさせたい場合
  • 「Googlebot」にクローリングさせたくない場合
  • 「Googlebot」のクローリング頻度を確認する手順

Googleのクローラー「Googlebot」について

クローラー Googlebot

検索エンジンで最も一般的な「Google」のクローラーは「Googlebot」と呼ばれています。

仕組みや役割は、上述している内容と全く一緒で、Googleでは、大規模なコンピュータ群を使用して、Web上の数十億のページを取得(クローリング)しています。

また、Google独自のアルゴリズムによって、下記が決定されます。

  • クローリングするサイト
  • クローリングの頻度
  • 各サイトから取得するページ数

SEO的にいえば、クローリングの頻度が多い方が、Webサイトや各ページの更新情報をGoogle側に連携する回数が増えるので、それだけ有利になります。

全くクローリングされない場合は、SEO以前の問題で、そもそもGoogleの検索結果として表示される対象に入っていない(インデックスされていない)ということになります。

なので、次章では、「Googlebot」にクローリングさせたい場合の対策を解説していきます。

「Googlebot」にクローリングさせたい場合

クローリングさせる方法

上述している通り、クローリング頻度が多い方が、Webサイトや各ページの更新情報をGoogle側に連携する回数が増えるので、それだけSEO的に有利になります。

そこで下記に、より「Googlebot」にクローリングさせる対策を4つにまとめました。

  • 【サイトの更新頻度を高くする】:Googleは、更新頻度が高いWebサイトには頻繁にクロールする傾向があるようです。

    Googleは、どれ位の頻度でWebサイトが更新されているのかをチェックしていて、1週間に1回しか更新されていないものより、毎日更新しているものを優先します。

    ただ、注意しないといけないのが、いくら更新頻度が高くても「低品質なコンテンツ」のものは、インデックスされないので、注意してください。

  • 【XMLサイトマップの作成と、Googleへの連携】

    「xmlサイトマップ」とは・・・Webサイトやブログ内にあるページを、いち早く検索エンジン(google等)に登録するためのものです。

    この「サイトマップ」を利用することで、検索エンジンにページの存在を知らせ、クローラーの巡回を促すことができます。
    サイトマップの作成手順と、Googleへの連携手順についてはこちら→【サイトマップとは?Google xml sitemapsプラグインでWordpressブログのサイトマップを作成してみる】

  • 【「Fetch as Google」を利用して、Googleへのクローリング要求をする】:「Fetch as Google」とは、「Googleウェブマスターツール」の機能で、Googleに速やかなクローリングを要求することができます(通常は1日以内にクロールされます)

    クロール要求機能 fetch as google

    「Fetch as Google」の利用手順に関しては、こちらで解説しています→「Fetch as Google」で、Googleにインデックスのお願いをする手順をまとめてみた

  • 【外部リンク・内部リンクを増やす】:上述しているとおり、クローラーはWebサイトの「リンク」を辿ってやってくるので、外部サイトからのリンクや内部リンクが増えれば増えるほど、クローラーがやってくる頻度は増えていきます

以上が、「Googlebot」にクローリングさせる対策になります。

次は、逆に「Googlebot」にクローリングさせたくない場合の対策について解説していきます。

「Googlebot」にクローリングさせたくない場合

クローリングさせない方法

まず、「Googlebot」にクローリングさせたくない場合とは、どういった理由からなのか、、、

大きく2つに分けてみました(下記)

  • 限られた人にしか、公開したくないサイト(ページ)だから
  • なにかしらの理由で、同じコンテンツが複数ある場合に、「検索エンジン」に複数コンテンツ扱いされたくないから(同じコンテンツが複数あって、検索エンジンから「コピーコンテンツ」と判断されたら、どれか一つが検索結果に表示される事になります。なので、メインのページをちゃんと検索結果に表示させたい場合などが当てはまります)

以上、2つが主な理由でしょう。

では、本題の「Googlebot」にクローリングさせないようにする対策ですが、以下二点になります。

  • 【METAタグを設定する】

    「METAタグ」とは、HTMLファイルに表記できるタグの一つで、Webページに関する情報を定義することができます。

    Webページの情報とは、下記のような項目が挙げられます。

    ・ページ内容の要約(説明文):例・・・”このページは「SEO」について記載されたページです”
    ・ページ内容の要約(キーワード):例・・・”SEO”
    ・ページの著者:例・・・”佐藤太郎”
    ・ページの著作権者:例・・・”佐藤太郎”

    など、まだまだ様々な項目がありますが、このようにWebページに関する情報を定義できるのが「METAタグ」になります。

    この「META」タグですが、検索エンジンのクローラーにクローリングさせないように設定することもできます。

    設定手順に関してはこちらで解説しています→【<meta name=”robots” content=”noindex”> で、クローラーを拒否してみた】

  • 【robots.txtを設定する】

    「robots.txt」は、「自分のサイトのファイルとディレクトリ」へのクローリングを制御するために使われます。

    例えば、「SEO」というディレクトリにあるファイルには、クローリングさせないとか、「seo.html」というファイルにはクローリングさせない。といった設定ができます。

    「robots.txt」の設定手順に関してはこちらで解説しています→【robots.txtとは?「robots.txt」の書き方をまとめてみた】

以上が、「Googlebot」にクローリングさせないようにする対策になります。

「Googlebot」のクローリング頻度を確認する手順

当章では、自分のサイトに「Googlebot」が1日にどのくらいクローリングしてきているのかを確認する手順を解説していきます。

確認するには、「Googleウェブマスターツール」を利用します(事前に、Googleウェブマスターツールに確認したいサイトを登録しておく必要があります。登録手順に関してはこちら→【Google対策に必須!ウェブマスターツール(WebMasterTool)へのサイト登録と基本的な使い方】

では、順に手順を解説していきます。

まず、「Googleウェブマスターツール」を開いて、確認したいサイトを選択します(下図参考)

クローリング 頻度チェック

次に、左のメニュー「クロール」から「クロールの統計情報」をクリックしてください(下図参考)

Googlebot クローリング頻度チェック1

すると、下図のように「1日あたりのクロールされたページ数」が、90日間分グラフ表示されています。
こちらで、自分のサイトがどのくらいクローリングされているかを確認することができます。

Googlebot クローリング 頻度チェック2

以上です。

まとめ

今回の記事では、クローラーについての解説と、「Googlebot」にクローリングさせたい場合とさせたくない場合の対処法について。また、クローリング頻度を確認する手順についても解説してきました。

上述している通り、クロールの頻度は「SEO」と相関関係があります。
クロールされる頻度が多いほど、SEO的に検索エンジンからの評価が高くなります。

以下に、その証拠となる内容が載っていますので、参考までに確認しておく事をオススメいたします。

クローラーの巡回頻度とSEOとの相関関係

また、クローラーが1回の訪問時にクローリングできる回数(クロール限度数)は、サイトによって決められています(サイトのオーソリティが高ければ、クロール限度数は増える)

なのでSEO的に、以下に示すページはクローリングさせないように設定しておきましょう。

  • 検索エンジンにインデックスさせなくても良いページ
  • 広告のリンク先ページ(さらに、広告ページに対するリンクには「rel=”nofollow”」をつけておくべき)
  • ユーザー(訪問者)にとって、価値のないページ
コメントを残す

メールアドレスが公開されることはありません。