Webサイトを制作、公開しても検索結果に表示されないと検索エンジン経由の集客はできません。検索エンジンがWebサイトの情報を取得するために使用しているのがクローラーです。クローラーがサイトの情報をどのように取得しているのか、基本的なところから解説します。
目次
クローラーとは、インターネット上に公開されているありとあらゆる情報を取得している「巡回プログラム」のことをいいます。Webサイトそのものや各ページ、画像などさまざまな情報を自動的に収集し、データベース化しているものです。
サイトやページを公開しただけでは検索結果に表示されないため、サイトを新たに立ち上げたり更新したりしたときはページやコンテンツをクローラに認識してもらう必要があります。SEO対策を効率的に実践するためにも、クローラーや検索エンジンの仕組みについて理解していきましょう。
SEOのテクニックを実践する前に、検索エンジンの仕組みをしっかり押さえることが重要です。
クローラーは、世界中にあるサーバーと通信しながらコンテンツ情報を取得しています。クローラーとサーバーは、HTTP/HTTPSプロトコルによって通信しています。昨今ではセキュリティを強化したHTTPSが導入されていますが、HTTPとHTTPSの中核はほとんど同じです。HTTP/HTTPSで取得できるコンテンツは、すべてクローラーの情報収集の対象となります。
検索エンジンは、クローラーが取得したWebサイトのコンテンツを解析し、データベースに保存します。コンテンツのキーワードやテーマなどの分析を行い、その結果はファイルごとデータベースに保存されます。コンテンツの解析結果がデータベースに保存されることを「インデックス」と呼びます。
ユーザーが検索バーに打ち込んだキーワードに対し、検索エンジンはデータベースに保存してある全コンテンツの解析結果を表示します。これが、検索結果画面です。検索キーワードは、別名「検索クエリ」とも呼ばれます。検索エンジンは、検索クエリごとにユーザーの意図を読み取り、その都度検索結果ページを作って表示しているのです。
クローラーが情報を取得できるファイルは次の通りです。
HTMLで作られたものに限らず、画像や動画、文書やPDFファイルなどもクローリングされています。CSSやJava Scriptはなどのプログラミン言語は、Webコンテンツを評価するためにクローリングされます。クローラーは、HTTP/HTTPSで取得できるありとあらゆる情報を認識できるのです。
クローラーにはたくさんの種類がありますが、代表的なものを以下にまとめましたのでご参考ください。
世界シェアNo.1であるGoogleのクローラーは「Googlebot」です。日々、何十億という数のページを巡回しています。Googleのクローラーは一種類ではなく、PC用・スマホ用・画像やCSS用などと複数の種類のクローラーによって細かく情報収集が行われているのです。
検索エンジンBingのクローラーロボット「Bingbot」も主要クローラーのひとつです。BingbotもGooglebot同様、複数のクローラーが巡回しています。
中国の検索エンジン「百度」のクローラー「Baiduspider」も有名です。日本でも海外でも検索エンジンの主力はGoogleですが、中国ではBaidu検索の利用が半数以上の割合を占めています。
クローラーが実際にWebサイトをどのように巡回しているのか、その仕組みについても詳しく知っておきましょう。
クローラーは、Web上のリンクを辿って巡回しています。Webサイトにはいくつものページが連なっていますが、そのすべてのリンクを自動でクローリングしていきます。なお、クローリングできるのは一般公開されているWebページのみで、ログインが必要なクローズドページは巡回しません。
新規に立ち上げたWebサイトは、リンクがサーバー上に存在していません。そこで、新しいサイトのURLをクローラーに知らせ、巡回を依頼する必要があります。Googleの場合は、Google search console(グーグルサーチコンソール)に設けられている検査ツールを使って、クローラーの巡回依頼をすることが可能です。
Googleサーチコンソールとは?使い方と登録方法や設定を解説
Webサイトの集客状況を分析する際にGoogleアナリティクスと同じくらい役立つのがGoogleサーチコンソールです。サーチコンソールへの登録方法やGoogleアナリティクスとの連携方法について、わかりやすく解説します。
XMLサイトマップは、サイト上のURLを一覧で記述したファイルです。ファイルをサーバーのトップディレクトリに入れておくことで機能し、サイト上のリンクを効率よくクローラーに巡回してもらえるようになります。一方HTMLサイトマップは、ユーザーがサイトを使いやすくするためのもので、両者は目的が異なることを覚えておきましょう。
サイトマップとは?SEO対策のXMLサイトマップ(sitemap xml)の作り方
Webサイト運営者なら誰でも知っているサイトマップですが、何のために必要なのでしょうか?また、XMLサイトマップとHTMLサイトマップのどちらかがあればいいのでしょうか?サイトマップについて基本的なところから解説します。
クローラーは、認識したすべてのURLに対して同じ頻度で巡回をするわけではありません。クローラーは一度でページのすべての情報を取得することができないため、何度も繰り返し巡回してもらう必要もあります。クローラーの巡回頻度を上げるためには、以下のような策があります。
Google search consoleを使って、インデックス登録をリクエストする方法があります。1ページずつ手動で申請する方法ですが、ページ数の少ない小規模なサイトであればこの方法だけで十分対策できるでしょう。
ECサイトのように、細かく枝分かれした大量のリンク先がある場合にはクロールするページ数を減らすことも重要になります。ECサイトは、同じ商品でも色やサイズごとでページが分かれているファセットナビゲーションの仕組みが使われています。
これらすべてのページをクローラーが巡回してしまうと「重複コンテンツ」や「内容の薄いコンテンツ」がたくさんあると見なされ、サイトが低評価になってしまうおそれがあるのです。それを防ぐためには、絞り込み検索用のURLに「robots.txt」のファイルを使ってクローラーが巡回しないようにすることが必要です。
意外と見落としがちなのは、サイト内のリンク切れURLです。リンク切れはサイトの評価を落とす原因にもなります。定期的にGoogle search consoleを使ってリンク切れページがないか確認し、必要なリンクだけを残すよう整理しましょう。
同じ内容のページに対し、別々のURLが複数存在することを「重複ページ」といいます。重複ページがある場合も、クローラーが無駄な巡回をすることになるため改善が必要です。重複ページもGoogle search consoleから確認することができますのでチェックしてみてください。重複ページのURLをひとつに絞る「リンクの正規化」を行って対処しましょう。
canonicalタグとは?URL正規化やcanonicalタグの正しい記述方法を解説
少しSEOに詳しい人ならcanonicalタグについて聞いたことがあるでしょう。では、どんな時に設定すべきかを正確に説明できるでしょうか?理解しているようでイマイチわからないcanonical属性について解説します。
サーバーの応答速度が速ければ、その分クローラーの巡回頻度も高くなります。まずは、自サイトのページ表示速度を「PageSpeed Insights」という速度計測ツールを使って計ってみましょう。応答速度が遅い場合、画像や動画を圧縮したり、不要なリンクを削除したりと、改善しやすいポイントから手を打ってみてください。
ページスピードインサイト(Google PageSpeed Insights)の使い方!見方や改善方法を解説
クローラーが実際にサイトを巡回しているのかどうか確認するには、2つの方法があります。
検索エンジンに「site: 調べたいページのURL」と打ち込み、検索結果にページが表示されるか確認してみましょう。検索結果にページがが表示されたら、クローラーが正常に巡回していることになります。
Google search consoleを使った、インデックスの確認手順は次のとおりです。
1.Google search consoleにログイン
2.上部の検索バーに、調べたいページのURLを貼り付け
3.「URLはGoogleに登録されています」と表示されるか確認する
クローラーが巡回していないようであれば、インデックスをリクエストして依頼を出しましょう。
Googleサーチコンソールとは?使い方と登録方法や設定を解説
Webサイトの集客状況を分析する際にGoogleアナリティクスと同じくらい役立つのがGoogleサーチコンソールです。サーチコンソールへの登録方法やGoogleアナリティクスとの連携方法について、わかりやすく解説します。
クローラーにはさまざまな種類がありますが、基本的にはGooglebotのクローラーに申請を出すだけでOKです。
1.Google search consoleにログイン
2.サイト上部の検索窓に、申請したいページのURLを貼り付け
3.検索結果に「URLがGoogleに登録されていません」の表示を確認
4.表示のすぐ右下にある「インデックス登録をリクエスト」のボタンをクリック
巡回の申請が完了すると「インデックス登録をリクエスト済」の表示が出ます。
Webサイトを更新したときには、更新した内容がデータベース上でも更新されているか確認しましょう。その場合、Webサイトのキャッシュの日付を確認してください。
1.自サイトのページが掲載されている検索結果を開く
2.一覧に掲載されたURL右側の▼マークをクリック
3.キャッシュをクリック
4.キャッシュ情報を確認する
キャッシュ情報には、クローラーが当該ページを最後にクローリングした日付が記載されています。その日付が、ページを更新した日よりも前の日付になっている場合は、インデックス登録をリクエストする必要があります。
クローラーの巡回や、インデックスの必要がないページにはrobots metaタグ、もしくはrobots.txtファイルを使用して拒否することが可能です。テスト公開しているページや管理画面へのログインページなどはインデックスの必要がないので、クローラーに無駄足を踏ませない施策をとりましょう。
クローラーや検索エンジンの仕組みについて詳しくお伝えしました。Webサイトを立ち上げたり、ページの投稿や更新をしたりしても、そのまま公開するだけでは検索エンジンにヒットせず集客につながりません。Google search consoleやXMLサイトマップなどを使い、インデックスの確認や申請をすることが重要になります。検索エンジンからの流入が増えてきたらコンテンツマーケティングを進め、効率の良い集客を目指していきましょう。
ほとんどの企業様はWebサイトに構築する時間と専門知識がありません。ニュートラルワークスは、トレンドを抑えたデザインで徹底的に「成果」にこだわったサイトを構築いたします。そのため、あなたは競合と差をつけることができ、それが更なる顧客獲得・売上増加に繋がります。Zoomなどのオンライン相談(無料)をやっておりますので、まずはこちらのお問い合わせページよりお気軽にお問い合わせください。ご連絡心よりお待ちしております。