robots.txtの書き方

Error, group does not exist! Check your syntax! (ID: 3)



ホームページを作成しても、
Googleがそのページを拾い(クロール)検索結果に表示してくれなければ意味がありません。
robots.txtはこのクローリングを最適化し、
重要なページをしっかりと検索結果に表示してもらうために使います。
また、検索結果に表示したくないページを指定することも出来ます。


1 基本的な書き方

User-agent: *
Disallow:
Allow:
Sitemap:

User-agent:*  全てのクローラーを受け入れることを示しています。
全て受け入れておいて問題ありません。
Disallow:  ブロックしたいページを指定します。
Allow:     クロールさせたいページを指定します。
Sitemap:   クローラー用のサイトマップの場所を指定します。

1.1 Disallow:の書き方

01_robots.txt


1.2 Allow:の書き方

Disallow: /mypage/
Allow: /mypage/main/

Allowは指定しなければ、クローラーは勝手に拾っていくのであまり使いません。
ディレクトリ全体をDisallowでクロール拒否しつつ、
その中の一部のファイルだけはクロールさせたい、
という組み合わせの場合に使います。
Disallowで/mypage/を拒否しているものの、
その後のAllowで/mypage/main/のクロールを指定しています。
AllowDisallowよりも強い指示のため、この場合はAllowが優先されます。


1.3 User-agent:の書き方

User-agent
基本的にすべて受け入れる「*」を指定しておけば問題ありませんが、
ここではどんな指定ができるのかを見ておきましょう。
02_robots.txt


1.4 Sitemapの位置

sitemap.xmlの場所を
robots.txtに記載することをGoogleは推奨しています。

2 robots.txtはどこに設置すれば良いか

robots.txtは、robots.txtという名前で保存を行い、
テキストファイルとして自分のドメインのルートにアップロードします
robots.txt ファイルのURLは/robots.txtとなります)。


3 ケーススタディ

/mypage/以外をクロールさせる

User-agent: *
Disallow: /mypage/

 
/mypage/以外をクロールさせたいが、/mypage/の一部だけはクロールさせたい

User-agent: *
Disallow: /mypage/
Allow: /mypage/sample/

 
User-agent別に矛盾した記述をした場合

User-agent: *
Disallow: /
User-agent: googlebot
Disallow: /mypage/

前者では
「全クローラーに全ページをクロールさせない」という指示を出していますが、
後者では
「googlebotに/mypage以外をクロールさせる」という指示を出しています。
このような場合は、後者に指定したものを優先します。
よって、「googlebotは/mypage以外をクロールする」ことになります。


4 robots.txtテスター

robots.txtの管理・更新を簡単に行えるように、
Google Search Console内で使えるのが「robots.txtテスター」です。

4.1 robots.txtテスターの使い方

robots.txtテスターの画面はこのようになっています。
03_robots.txt
赤枠robots.txtを確認・送信することが出来ます。
青枠robots.txtでブロック(Disallow)したURLが
正しくブロックされているか確認することが出来ます。
赤枠に何も記載がない場合は、robots.txtが設置されていません。


4.2 URLのテスト

指定したURLのクローリング可否状況を確認することが出来ます。
04_robots.txt
試しに、Disallow指定をしている「/mypage/」を入れてみます。
指定したとおりにブロックされていると、このように表示されます。
05_robots.txt
User-agent毎に切り替えて確認することも可能です。
また、Disallowだけでなく、Allow指定したものも確認できます。
間違ってブロックしてしまうと、
一切インデックスされないということが起こってしまいます。



Error, group does not exist! Check your syntax! (ID: 4)
以上