自主学習ノート【第31回】robots.txt
今回はrobots.txtについてです。
これまで学んだcanonicalや、noindexと似てて、ややこしく感じてます笑
しっかり区別して理解して、上手く使いこなせるようになりたいです。
以下の4つについてまとめます。
・robots.txtとは
・robots.txtで指定するべきページ
・robots.txtの作成方法
・robots.txtの注意点
1.robots.txtとは
robots.txtとは、
「サイト内の指定したページに対して、検索エンジンがクロールを行わないように命令できる」
機能です。
場合によっては大きなSEO改善効果に繋がることもあります。
しかし、指定するページを間違うと、大きな事故につながることもあります。
2.robots.txtで指定するべきページ
robots.txtで指定するべきページは大まかに以下2つです。
①検索エンジンのユーザーにとって価値のないページ
②広告リンク先のページ
①検索エンジンのユーザーにとって価値のないページ
よく「自動生成ページ=価値のないページ」と捉える事が多いですが、自動生成ページだけではありません。
また、自動生成ページと重複コンテンツは一見似てますが、厳密には異なり、行うべき対策も異なります。
自動生成ページ→robots.txtでクロールをブロック
重複コンテンツ→canonical
が推奨されています。
②広告リンク先のページ
これは広告ASPやプレスリリース配信会社が行うべきものであり、ほとんどのサイト運営者ご行うことはないです。
しかし、1つ知っておくべき事があります。
Google Adsense広告や広告ASPが発行するリンクは、以下のように自動的にrobots.txtでクロールをブロックしているリダイレクトページが挟まれるものになっています。
もし、このような仕組みになっていない広告ASPを使うと、ペナルティを受ける可能性があります。
アフィリエイト広告の掲載や出稿をする人は注意が必要です。
3.robots.txtの作成方法
省略します。
詳しくはバズ部の記事を読み込んで下さい。
4.robots.txtの注意点
・ユーザーはrobots.txtで設定したページにアクセス出来る。
あくまでクロールを制御してるだけなので、ユーザーのアクセスは可能です。
・アドレスバーにURLを入力すれば、robots.txtの内容が見られる。
・インデックス済サイトはrobots.txtで指定しても検索結果に残り続ける。
もし、確実に検索結果から消したい場合は、noindexタグを使います。
また、noindex と robots.txt は重複させてはいけません。
・robots.txtを無視するクローラーも存在する。
・robots.txtの記述内容が反映されるまでにタイムラグがある。
すぐに効果が現れる訳ではない。