SEO

2020.10.20

クローラーって?検索エンジンにインデックスされる仕組みや巡回頻度を上げる方法を解説

クローラーって?検索エンジンにインデックスされる仕組みや巡回頻度を上げる方法を解説

Webサイトを制作、公開しても検索結果に表示されないと検索エンジン経由の集客はできません。検索エンジンがWebサイトの情報を取得するために使用しているのがクローラーです。クローラーがサイトの情報をどのように取得しているのか、基本的なところから解説します。

▼目次

検索エンジンのクローラーとは?

検索エンジンのクローラーとは?

クローラーとは、インターネット上に公開されているありとあらゆる情報を取得している「巡回プログラム」のことをいいます。Webサイトそのものや各ページ、画像などさまざまな情報を自動的に収集し、データベース化しているものです。

サイトやページを公開しただけでは検索結果に表示されないため、サイトを新たに立ち上げたり更新したりしたときはページやコンテンツをクローラに認識してもらう必要があります。SEO対策を効率的に実践するためにも、クローラーや検索エンジンの仕組みについて理解していきましょう。

そもそも検索エンジンってどんな仕組みなの?

そもそも検索エンジンってどんな仕組みなの?

SEOのテクニックを実践する前に、検索エンジンの仕組みをしっかり押さえることが重要です。

1、クローラーがWebサイトの情報を集める

クローラーは、世界中にあるサーバーと通信しながらコンテンツ情報を取得しています。クローラーとサーバーは、HTTP/HTTPSプロトコルによって通信しています。昨今ではセキュリティを強化したHTTPSが導入されていますが、HTTPとHTTPSの中核はほとんど同じです。HTTP/HTTPSで取得できるコンテンツは、すべてクローラーの情報収集の対象となります。

2、取得したWebサイトのコンテンツを解析し保存する

検索エンジンは、クローラーが取得したWebサイトのコンテンツを解析し、データベースに保存します。コンテンツのキーワードやテーマなどの分析を行い、その結果はファイルごとデータベースに保存されます。コンテンツの解析結果がデータベースに保存されることを「インデックス」と呼びます。

3、ユーザからの検索クエリに適した検索結果を返す

ユーザーが検索バーに打ち込んだキーワードに対し、検索エンジンはデータベースに保存してある全コンテンツの解析結果を表示します。これが、検索結果画面です。検索キーワードは、別名「検索クエリ」とも呼ばれます。検索エンジンは、検索クエリごとにユーザーの意図を読み取り、その都度検索結果ページを作って表示しているのです。

クローラーはどんなファイルの情報を取得するの?

クローラーが情報を取得できるファイルは次の通りです。

  • HTML
  • CSS
  • JavaScript
  • 画像(GIF、JPEG、PNG、WebPなど)
  • 動画(MP4、WebMなど)
  • ドキュメントファイル(Word、Excel、PowerPointなど)
  • PDF

HTMLで作られたものに限らず、画像や動画、文書やPDFファイルなどもクローリングされています。CSSやJava Scriptはなどのプログラミン言語は、Webコンテンツを評価するためにクローリングされます。クローラーは、HTTP/HTTPSで取得できるありとあらゆる情報を認識できるのです。

クローラーにはどんな種類がある?

クローラーにはたくさんの種類がありますが、代表的なものを以下にまとめましたのでご参考ください。

Googlebot:Google検索

世界シェアNo.1であるGoogleのクローラーは「Googlebot」です。日々、何十億という数のページを巡回しています。Googleのクローラーは一種類ではなく、PC用・スマホ用・画像やCSS用などと複数の種類のクローラーによって細かく情報収集が行われているのです。

Bingbot:Bing検索

検索エンジンBingのクローラーロボット「Bingbot」も主要クローラーのひとつです。BingbotもGooglebot同様、複数のクローラーが巡回しています。

Baiduspider:Baidu検索

中国の検索エンジン「百度」のクローラー「Baiduspider」も有名です。日本でも海外でも検索エンジンの主力はGoogleですが、中国ではBaidu検索の利用が半数以上の割合を占めています。

クローラーがWebサイトを巡回する仕組み

クローラーがWebサイトを巡回する仕組み

クローラーが実際にWebサイトをどのように巡回しているのか、その仕組みについても詳しく知っておきましょう。

1、Webサイトに張られた外部リンクを辿ってクローラーがやってくる

クローラーは、Web上のリンクを辿って巡回しています。Webサイトにはいくつものページが連なっていますが、そのすべてのリンクを自動でクローリングしていきます。なお、クローリングできるのは一般公開されているWebページのみで、ログインが必要なクローズドページは巡回しません。

2、巡回を依頼されたURLにクローラーがやってくる

新規に立ち上げたWebサイトは、リンクがサーバー上に存在していません。そこで、新しいサイトのURLをクローラーに知らせ、巡回を依頼する必要があります。Googleの場合は、Google search console(グーグルサーチコンソール)に設けられている検査ツールを使って、クローラーの巡回依頼をすることが可能です。

3、サイトマップに記載されたURLをクローラーが巡回する

XMLサイトマップは、サイト上のURLを一覧で記述したファイルです。ファイルをサーバーのトップディレクトリに入れておくことで機能し、サイト上のリンクを効率よくクローラーに巡回してもらえるようになります。一方HTMLサイトマップは、ユーザーがサイトを使いやすくするためのもので、両者は目的が異なることを覚えておきましょう。

クローラーの巡回頻度は?巡回頻度を上げる方法は?

クローラーは、認識したすべてのURLに対して同じ頻度で巡回をするわけではありません。クローラーは一度でページのすべての情報を取得することができないため、何度も繰り返し巡回してもらう必要もあります。クローラーの巡回頻度を上げるためには、以下のような策があります。

1、インデックス登録をリクエストする

Google search consoleを使って、インデックス登録をリクエストする方法があります。1ページずつ手動で申請する方法ですが、ページ数の少ない小規模なサイトであればこの方法だけで十分対策できるでしょう。

2、クロールするページを減らす

ECサイトのように、細かく枝分かれした大量のリンク先がある場合にはクロールするページ数を減らすことも重要になります。ECサイトは、同じ商品でも色やサイズごとでページが分かれているファセットナビゲーションの仕組みが使われています。

これらすべてのページをクローラーが巡回してしまうと「重複コンテンツ」や「内容の薄いコンテンツ」がたくさんあると見なされ、サイトが低評価になってしまうおそれがあるのです。それを防ぐためには、絞り込み検索用のURLに「robots.txt」のファイルを使ってクローラーが巡回しないようにすることが必要です。

3、定期的にリンク切れをチェックし、無くす

意外と見落としがちなのは、サイト内のリンク切れURLです。リンク切れはサイトの評価を落とす原因にもなります。定期的にGoogle search consoleを使ってリンク切れページがないか確認し、必要なリンクだけを残すよう整理しましょう。

4、重複ページを無くし、リンクを正規化する

同じ内容のページに対し、別々のURLが複数存在することを「重複ページ」といいます。重複ページがある場合も、クローラーが無駄な巡回をすることになるため改善が必要です。重複ページもGoogle search consoleから確認することができますのでチェックしてみてください。重複ページのURLをひとつに絞る「リンクの正規化」を行って対処しましょう。

5、サーバーの応答速度を速くする

サーバーの応答速度が速ければ、その分クローラーの巡回頻度も高くなります。まずは、自サイトのページ表示速度を「PageSpeed Insights」という速度計測ツールを使って計ってみましょう。応答速度が遅い場合、画像や動画を圧縮したり、不要なリンクを削除したりと、改善しやすいポイントから手を打ってみてください。

クローラーがWebサイトを巡回してくれているのかの確認方法

クローラーがWebサイトを巡回してくれているのかの確認方法

クローラーが実際にサイトを巡回しているのかどうか確認するには、2つの方法があります。

site:検索で確認する

site:検索で確認する

検索エンジンに「site: 調べたいページのURL」と打ち込み、検索結果にページが表示されるか確認してみましょう。検索結果にページがが表示されたら、クローラーが正常に巡回していることになります。

Google Search Consoleで確認する

Google search consoleを使った、インデックスの確認手順は次のとおりです。

1.Google search consoleにログイン
2.上部の検索バーに、調べたいページのURLを貼り付け
3.「URLはGoogleに登録されています」と表示されるか確認する

クローラーが巡回していないようであれば、インデックスをリクエストして依頼を出しましょう。

クローラーにWebサイトの巡回を申請する方法

クローラーにはさまざまな種類がありますが、基本的にはGooglebotのクローラーに申請を出すだけでOKです。

1、GoogleサーチコンソールでURLを登録する

1.Google search consoleにログイン
2.サイト上部の検索窓に、申請したいページのURLを貼り付け
3.検索結果に「URLがGoogleに登録されていません」の表示を確認
4.表示のすぐ右下にある「インデックス登録をリクエスト」のボタンをクリック

巡回の申請が完了すると「インデックス登録をリクエスト済」の表示が出ます。

2、検索結果に表示されるキャッシュから更新日を確認する

Webサイトを更新したときには、更新した内容がデータベース上でも更新されているか確認しましょう。その場合、Webサイトのキャッシュの日付を確認してください。

1.自サイトのページが掲載されている検索結果を開く
2.一覧に掲載されたURL右側の▼マークをクリック
3.キャッシュをクリック
4.キャッシュ情報を確認する

キャッシュ情報には、クローラーが当該ページを最後にクローリングした日付が記載されています。その日付が、ページを更新した日よりも前の日付になっている場合は、インデックス登録をリクエストする必要があります。

クローラーを拒否し、ページをインデックスさせない方法は?

クローラーを拒否し、ページをインデックスさせない方法は?

クローラーの巡回や、インデックスの必要がないページにはrobots metaタグ、もしくはrobots.txtファイルを使用して拒否することが可能です。テスト公開しているページや管理画面へのログインページなどはインデックスの必要がないので、クローラーに無駄足を踏ませない施策をとりましょう。

まとめ

クローラーや検索エンジンの仕組みについて詳しくお伝えしました。Webサイトを立ち上げたり、ページの投稿や更新をしたりしても、そのまま公開するだけでは検索エンジンにヒットせず集客につながりません。Google search consoleやXMLサイトマップなどを使い、インデックスの確認や申請をすることが重要になります。検索エンジンからの流入が増えてきたらコンテンツマーケティングを進め、効率の良い集客を目指していきましょう。

関連リンク:売れるECサイト制作ならIT導入補助金にも対応可能なニュートラルワークスへ
関連リンク:見込み客を獲得できるBtoBのサイト制作ならニュートラルワークス!
関連リンク:コーポレートサイト制作をコンセプト作りからお手伝いできます
関連リンク:選ばれる採用サイトの制作ならニュートラルワークスへ
関連リンク:効果の出る、効率的なリスティング広告運用をニュートラルワークスがお手伝いします

著者紹介

三木 五月

三木 五月

代表取締役社長

神奈川県の湘南でWeb制作会社を経営しています。湘南をシリコンバレーみたいにしたく、社員一丸で突っ走っています! 座右の銘は「好きこそものの上手なれ」