自主学習ノート【第31回】robots.txt

2021年9月20日 09:33

今回はrobots.txtについてです。
これまで学んだcanonicalや、noindexと似てて、ややこしく感じてます笑
しっかり区別して理解して、上手く使いこなせるようになりたいです。

以下の4つについてまとめます。

・robots.txtとは
・robots.txtで指定するべきページ
・robots.txtの作成方法
・robots.txtの注意点

1.robots.txtとは

robots.txtとは、
「サイト内の指定したページに対して、検索エンジンがクロールを行わないように命令できる」
機能です。

場合によっては大きなSEO改善効果に繋がることもあります。
しかし、指定するページを間違うと、大きな事故につながることもあります。

robots.txtで指定するべきページは大まかに以下２つです。

①検索エンジンのユーザーにとって価値のないページ
②広告リンク先のページ

①検索エンジンのユーザーにとって価値のないページ

よく「自動生成ページ=価値のないページ」と捉える事が多いですが、自動生成ページだけではありません。

また、自動生成ページと重複コンテンツは一見似てますが、厳密には異なり、行うべき対策も異なります。

自動生成ページ→robots.txtでクロールをブロック
重複コンテンツ→canonical

が推奨されています。

②広告リンク先のページ

これは広告ASPやプレスリリース配信会社が行うべきものであり、ほとんどのサイト運営者ご行うことはないです。
しかし、１つ知っておくべき事があります。

Google Adsense広告や広告ASPが発行するリンクは、以下のように自動的にrobots.txtでクロールをブロックしているリダイレクトページが挟まれるものになっています。

もし、このような仕組みになっていない広告ASPを使うと、ペナルティを受ける可能性があります。

アフィリエイト広告の掲載や出稿をする人は注意が必要です。

省略します。
詳しくはバズ部の記事を読み込んで下さい。

・ユーザーはrobots.txtで設定したページにアクセス出来る。

あくまでクロールを制御してるだけなので、ユーザーのアクセスは可能です。

・アドレスバーにURLを入力すれば、robots.txtの内容が見られる。

・インデックス済サイトはrobots.txtで指定しても検索結果に残り続ける。

もし、確実に検索結果から消したい場合は、noindexタグを使います。
また、noindex と　robots.txt は重複させてはいけません。

・robots.txtを無視するクローラーも存在する。

・robots.txtの記述内容が反映されるまでにタイムラグがある。

すぐに効果が現れる訳ではない。

#最近の学び

189,452件