SEO

最終更新日: 2022.07.15

クローラーとは?検索エンジンにインデックスされる仕組みや巡回頻度を上げる方法を解説

クローラーとは?検索エンジンにインデックスされる仕組みや巡回頻度を上げる方法を解説

Webサイトを制作、公開しても検索結果に表示されないと検索エンジン経由の集客はできません。検索エンジンがWebサイトの情報を取得するために使用しているのがクローラーです。クローラーがサイトの情報をどのように取得しているのか、基本的なところから解説します。

目次

検索エンジンのクローラーとは?

検索エンジンのクローラーとは?

クローラーとは、インターネット上に公開されているありとあらゆる情報を取得している「巡回プログラム」のことをいいます。Webサイトそのものや各ページ、画像などさまざまな情報を自動的に収集し、データベース化しているものです。

サイトやページを公開しただけでは検索結果に表示されないため、サイトを新たに立ち上げたり更新したりしたときはページやコンテンツをクローラに認識してもらう必要があります。SEO対策を効率的に実践するためにも、クローラーや検索エンジンの仕組みについて理解していきましょう。

そもそも検索エンジンってどんな仕組みなの?

そもそも検索エンジンってどんな仕組みなの?

SEOのテクニックを実践する前に、検索エンジンの仕組みをしっかり押さえることが重要です。

1、クローラーがWebサイトの情報を集める

クローラーは、世界中にあるサーバーと通信しながらコンテンツ情報を取得しています。クローラーとサーバーは、HTTP/HTTPSプロトコルによって通信しています。昨今ではセキュリティを強化したHTTPSが導入されていますが、HTTPとHTTPSの中核はほとんど同じです。HTTP/HTTPSで取得できるコンテンツは、すべてクローラーの情報収集の対象となります。

2、取得したWebサイトのコンテンツを解析し保存する

検索エンジンは、クローラーが取得したWebサイトのコンテンツを解析し、データベースに保存します。コンテンツのキーワードやテーマなどの分析を行い、その結果はファイルごとデータベースに保存されます。コンテンツの解析結果がデータベースに保存されることを「インデックス」と呼びます。

3、ユーザからの検索クエリに適した検索結果を返す

ユーザーが検索バーに打ち込んだキーワードに対し、検索エンジンはデータベースに保存してある全コンテンツの解析結果を表示します。これが、検索結果画面です。検索キーワードは、別名「検索クエリ」とも呼ばれます。検索エンジンは、検索クエリごとにユーザーの意図を読み取り、その都度検索結果ページを作って表示しているのです。

クローラーはどんなファイルの情報を取得するの?

クローラーが情報を取得できるファイルは次の通りです。

  • HTML
  • CSS
  • JavaScript
  • 画像(GIF、JPEG、PNG、WebPなど)
  • 動画(MP4、WebMなど)
  • ドキュメントファイル(Word、Excel、PowerPointなど)
  • PDF

HTMLで作られたものに限らず、画像や動画、文書やPDFファイルなどもクローリングされています。CSSやJava Scriptはなどのプログラミン言語は、Webコンテンツを評価するためにクローリングされます。クローラーは、HTTP/HTTPSで取得できるありとあらゆる情報を認識できるのです。

クローラーにはどんな種類がある?

クローラーにはたくさんの種類がありますが、代表的なものを以下にまとめましたのでご参考ください。

Googlebot:Google検索

世界シェアNo.1であるGoogleのクローラーは「Googlebot」です。日々、何十億という数のページを巡回しています。Googleのクローラーは一種類ではなく、PC用・スマホ用・画像やCSS用などと複数の種類のクローラーによって細かく情報収集が行われているのです。

Bingbot:Bing検索

検索エンジンBingのクローラーロボット「Bingbot」も主要クローラーのひとつです。BingbotもGooglebot同様、複数のクローラーが巡回しています。

Baiduspider:Baidu検索

中国の検索エンジン「百度」のクローラー「Baiduspider」も有名です。日本でも海外でも検索エンジンの主力はGoogleですが、中国ではBaidu検索の利用が半数以上の割合を占めています。

クローラーがWebサイトを巡回する仕組み

クローラーがWebサイトを巡回する仕組み

クローラーが実際にWebサイトをどのように巡回しているのか、その仕組みについても詳しく知っておきましょう。

1、Webサイトに張られた外部リンクを辿ってクローラーがやってくる

クローラーは、Web上のリンクを辿って巡回しています。Webサイトにはいくつものページが連なっていますが、そのすべてのリンクを自動でクローリングしていきます。なお、クローリングできるのは一般公開されているWebページのみで、ログインが必要なクローズドページは巡回しません。

2、巡回を依頼されたURLにクローラーがやってくる

新規に立ち上げたWebサイトは、リンクがサーバー上に存在していません。そこで、新しいサイトのURLをクローラーに知らせ、巡回を依頼する必要があります。Googleの場合は、Google search console(グーグルサーチコンソール)に設けられている検査ツールを使って、クローラーの巡回依頼をすることが可能です。
Googleサーチコンソールとは?使い方と登録方法や設定を解説 Googleサーチコンソールとは?使い方と登録方法や設定を解説 Webサイトの集客状況を分析する際にGoogleアナリティクスと同じくらい役立つのがGoogleサーチコンソールです。サーチコンソールへの登録方法やGoogleアナリティクスとの連携方法について、わかりやすく解説します。

3、サイトマップに記載されたURLをクローラーが巡回する

XMLサイトマップは、サイト上のURLを一覧で記述したファイルです。ファイルをサーバーのトップディレクトリに入れておくことで機能し、サイト上のリンクを効率よくクローラーに巡回してもらえるようになります。一方HTMLサイトマップは、ユーザーがサイトを使いやすくするためのもので、両者は目的が異なることを覚えておきましょう。
サイトマップとは?SEO対策のXMLサイトマップ(sitemap xml)の作り方 サイトマップとは?SEO対策のXMLサイトマップ(sitemap xml)の作り方 Webサイト運営者なら誰でも知っているサイトマップですが、何のために必要なのでしょうか?また、XMLサイトマップとHTMLサイトマップのどちらかがあればいいのでしょうか?サイトマップについて基本的なところから解説します。

クローラーの巡回頻度は?巡回頻度を上げる方法は?

クローラーは、認識したすべてのURLに対して同じ頻度で巡回をするわけではありません。クローラーは一度でページのすべての情報を取得することができないため、何度も繰り返し巡回してもらう必要もあります。クローラーの巡回頻度を上げるためには、以下のような策があります。

1、インデックス登録をリクエストする

Google search consoleを使って、インデックス登録をリクエストする方法があります。1ページずつ手動で申請する方法ですが、ページ数の少ない小規模なサイトであればこの方法だけで十分対策できるでしょう。

2、クロールするページを減らす

ECサイトのように、細かく枝分かれした大量のリンク先がある場合にはクロールするページ数を減らすことも重要になります。ECサイトは、同じ商品でも色やサイズごとでページが分かれているファセットナビゲーションの仕組みが使われています。

これらすべてのページをクローラーが巡回してしまうと「重複コンテンツ」や「内容の薄いコンテンツ」がたくさんあると見なされ、サイトが低評価になってしまうおそれがあるのです。それを防ぐためには、絞り込み検索用のURLに「robots.txt」のファイルを使ってクローラーが巡回しないようにすることが必要です。

3、定期的にリンク切れをチェックし、無くす

意外と見落としがちなのは、サイト内のリンク切れURLです。リンク切れはサイトの評価を落とす原因にもなります。定期的にGoogle search consoleを使ってリンク切れページがないか確認し、必要なリンクだけを残すよう整理しましょう。

4、重複ページを無くし、リンクを正規化する

同じ内容のページに対し、別々のURLが複数存在することを「重複ページ」といいます。重複ページがある場合も、クローラーが無駄な巡回をすることになるため改善が必要です。重複ページもGoogle search consoleから確認することができますのでチェックしてみてください。重複ページのURLをひとつに絞る「リンクの正規化」を行って対処しましょう。
canonicalタグとは?URL正規化やcanonicalタグの正しい記述方法を解説 canonicalタグとは?URL正規化やcanonicalタグの正しい記述方法を解説 少しSEOに詳しい人ならcanonicalタグについて聞いたことがあるでしょう。では、どんな時に設定すべきかを正確に説明できるでしょうか?理解しているようでイマイチわからないcanonical属性について解説します。

5、サーバーの応答速度を速くする

サーバーの応答速度が速ければ、その分クローラーの巡回頻度も高くなります。まずは、自サイトのページ表示速度を「PageSpeed Insights」という速度計測ツールを使って計ってみましょう。応答速度が遅い場合、画像や動画を圧縮したり、不要なリンクを削除したりと、改善しやすいポイントから手を打ってみてください。
ページスピードインサイト(Google PageSpeed Insights)の使い方!見方や改善方法を解説 ページスピードインサイト(Google PageSpeed Insights)の使い方!見方や改善方法を解説

クローラーがWebサイトを巡回してくれているのかの確認方法

クローラーがWebサイトを巡回してくれているのかの確認方法

クローラーが実際にサイトを巡回しているのかどうか確認するには、2つの方法があります。

site:検索で確認する

site:検索で確認する

検索エンジンに「site: 調べたいページのURL」と打ち込み、検索結果にページが表示されるか確認してみましょう。検索結果にページがが表示されたら、クローラーが正常に巡回していることになります。

Google Search Consoleで確認する

Google search consoleを使った、インデックスの確認手順は次のとおりです。

1.Google search consoleにログイン
2.上部の検索バーに、調べたいページのURLを貼り付け
3.「URLはGoogleに登録されています」と表示されるか確認する

クローラーが巡回していないようであれば、インデックスをリクエストして依頼を出しましょう。
Googleサーチコンソールとは?使い方と登録方法や設定を解説 Googleサーチコンソールとは?使い方と登録方法や設定を解説 Webサイトの集客状況を分析する際にGoogleアナリティクスと同じくらい役立つのがGoogleサーチコンソールです。サーチコンソールへの登録方法やGoogleアナリティクスとの連携方法について、わかりやすく解説します。

クローラーにWebサイトの巡回を申請する方法

クローラーにはさまざまな種類がありますが、基本的にはGooglebotのクローラーに申請を出すだけでOKです。

1、GoogleサーチコンソールでURLを登録する

1.Google search consoleにログイン
2.サイト上部の検索窓に、申請したいページのURLを貼り付け
3.検索結果に「URLがGoogleに登録されていません」の表示を確認
4.表示のすぐ右下にある「インデックス登録をリクエスト」のボタンをクリック

巡回の申請が完了すると「インデックス登録をリクエスト済」の表示が出ます。

2、検索結果に表示されるキャッシュから更新日を確認する

Webサイトを更新したときには、更新した内容がデータベース上でも更新されているか確認しましょう。その場合、Webサイトのキャッシュの日付を確認してください。

1.自サイトのページが掲載されている検索結果を開く
2.一覧に掲載されたURL右側の▼マークをクリック
3.キャッシュをクリック
4.キャッシュ情報を確認する

キャッシュ情報には、クローラーが当該ページを最後にクローリングした日付が記載されています。その日付が、ページを更新した日よりも前の日付になっている場合は、インデックス登録をリクエストする必要があります。

クローラーを拒否し、ページをインデックスさせない方法は?

クローラーを拒否し、ページをインデックスさせない方法は?

クローラーの巡回や、インデックスの必要がないページにはrobots metaタグ、もしくはrobots.txtファイルを使用して拒否することが可能です。テスト公開しているページや管理画面へのログインページなどはインデックスの必要がないので、クローラーに無駄足を踏ませない施策をとりましょう。

まとめ

クローラーや検索エンジンの仕組みについて詳しくお伝えしました。Webサイトを立ち上げたり、ページの投稿や更新をしたりしても、そのまま公開するだけでは検索エンジンにヒットせず集客につながりません。Google search consoleやXMLサイトマップなどを使い、インデックスの確認や申請をすることが重要になります。検索エンジンからの流入が増えてきたらコンテンツマーケティングを進め、効率の良い集客を目指していきましょう。

ほとんどの企業様はWebサイトに構築する時間と専門知識がありません。ニュートラルワークスは、トレンドを抑えたデザインで徹底的に「成果」にこだわったサイトを構築いたします。そのため、あなたは競合と差をつけることができ、それが更なる顧客獲得・売上増加に繋がります。Zoomなどのオンライン相談(無料)をやっておりますので、まずはこちらのお問い合わせページよりお気軽にお問い合わせください。ご連絡心よりお待ちしております。

監修者紹介

石田 哲也

石田 哲也

取締役CMO

Twitter:@te2319 |
株式会社ニュートラルワークス 取締役CMO。1984年生まれ。高校卒業後にISD株式会社を起業。その後、株式会社オプトでWebマーケティングを学び、株式会社メタップスなど複数のベンチャー企業にて事業立ち上げを経験。前職はワンダープラネット株式会社でゲームプロデューサーとしてスマホゲームアプリの制作に従事。2018年に地元の神奈川へ戻り、ニュートラルワークスに入社。SEO/Web広告運用/サイト分析・改善など、Webサイトの運用改善~ゲームアプリ制作や数十万フォロワーのSNSアカウントの運用経験などWebビジネス全般を守備範囲とする。

■経歴
2003年 ISD株式会社/起業
2009年 株式会社オプト/SEMコンサルタント
2011年 株式会社メタップス/シニアディレクター
2013年 ライブエイド株式会社/執行役
2016年 ワンダープラネット株式会社/プロデューサー・BizDev
2018年 株式会社ニュートラルワークス/取締役CMO

■得意領域
Webサイト改善
SEO対策
コンテンツマーケティング
リスティング広告

■保有資格
Google アナリティクス認定資格(GAIQ)
Google 広告検索認定資格
Google 広告ディスプレイ認定資格
Google 広告モバイル認定資格