Error, group does not exist! Check your syntax! (ID: 3)
ホームページを作成しても、
Googleがそのページを拾い(クロール)検索結果に表示してくれなければ意味がありません。
robots.txtはこのクローリングを最適化し、
重要なページをしっかりと検索結果に表示してもらうために使います。
また、検索結果に表示したくないページを指定することも出来ます。
1 基本的な書き方
User-agent: * Disallow: Allow: Sitemap:
User-agent:* 全てのクローラーを受け入れることを示しています。
全て受け入れておいて問題ありません。
Disallow: ブロックしたいページを指定します。
Allow: クロールさせたいページを指定します。
Sitemap: クローラー用のサイトマップの場所を指定します。
1.1 Disallow:の書き方
1.2 Allow:の書き方
Disallow: /mypage/ Allow: /mypage/main/
Allowは指定しなければ、クローラーは勝手に拾っていくのであまり使いません。
ディレクトリ全体をDisallowでクロール拒否しつつ、
その中の一部のファイルだけはクロールさせたい、
という組み合わせの場合に使います。
Disallowで/mypage/を拒否しているものの、
その後のAllowで/mypage/main/のクロールを指定しています。
AllowはDisallowよりも強い指示のため、この場合はAllowが優先されます。
1.3 User-agent:の書き方
User-agentは
基本的にすべて受け入れる「*」を指定しておけば問題ありませんが、
ここではどんな指定ができるのかを見ておきましょう。
1.4 Sitemapの位置
sitemap.xmlの場所を
robots.txtに記載することをGoogleは推奨しています。
2 robots.txtはどこに設置すれば良いか
robots.txtは、robots.txtという名前で保存を行い、
テキストファイルとして自分のドメインのルートにアップロードします
(robots.txt ファイルのURLは/robots.txtとなります)。
3 ケーススタディ
/mypage/以外をクロールさせる
User-agent: * Disallow: /mypage/
/mypage/以外をクロールさせたいが、/mypage/の一部だけはクロールさせたい
User-agent: * Disallow: /mypage/ Allow: /mypage/sample/
User-agent別に矛盾した記述をした場合
User-agent: * Disallow: / User-agent: googlebot Disallow: /mypage/
前者では
「全クローラーに全ページをクロールさせない」という指示を出していますが、
後者では
「googlebotに/mypage以外をクロールさせる」という指示を出しています。
このような場合は、後者に指定したものを優先します。
よって、「googlebotは/mypage以外をクロールする」ことになります。
4 robots.txtテスター
robots.txtの管理・更新を簡単に行えるように、
Google Search Console内で使えるのが「robots.txtテスター」です。
4.1 robots.txtテスターの使い方
robots.txtテスターの画面はこのようになっています。
赤枠: robots.txtを確認・送信することが出来ます。
青枠: robots.txtでブロック(Disallow)したURLが
正しくブロックされているか確認することが出来ます。
赤枠に何も記載がない場合は、robots.txtが設置されていません。
4.2 URLのテスト
指定したURLのクローリング可否状況を確認することが出来ます。
試しに、Disallow指定をしている「/mypage/」を入れてみます。
指定したとおりにブロックされていると、このように表示されます。
User-agent毎に切り替えて確認することも可能です。
また、Disallowだけでなく、Allow指定したものも確認できます。
間違ってブロックしてしまうと、
一切インデックスされないということが起こってしまいます。
Error, group does not exist! Check your syntax! (ID: 4)
以上