見出し画像

[note研究] "AI学習拒否意向"の設定で出力されるHTMLソースがどう変わるか

ついさっきだけど、こんな設定が生まれた。

意向表明機能の設定方法

  • note > 設定 > アカウントから「生成AIの学習に拒否意向を示す」を有効にすることで設定できます。設定はブラウザからのみ可能です。

[公式アナウンス]適用範囲

  • noteに投稿されたすべてのコンテンツが対象です

  • アカウントに紐づく全てのコンテンツに適用されます。作品ごとに設定する必要はありません

  • ご自身が設定したタイミングより有効になります

詳細は以下のヘルプページよりご確認ください。

https://www.help-note.com/hc/ja/articles/43414600875673


設定場所は
https://note.com/settings/account


具体的には何なのか、Geminiたんにきいてみた。

設定の前後でHTMLを出力して、その差分をみてもらいます。

以下。

2つのHTMLを比較すると、最も重要な違いは<meta data-n-head="ssr" name="robots" content="max-image-preview:large">の有無と、それに伴うロボットに対する指示の違いです。

  • 最初のHTML:

    • <meta data-n-head="ssr" name="robots" content="max-image-preview:large"> が存在します。

    • これは、検索エンジンのクローラーに対して、ページ内の画像について、可能な限り最大のプレビューサイズを使用するように指示します。つまり、検索結果に表示される画像のプレビューが大きくなる可能性があります。

  • 2番目のHTML:

    • <meta data-n-head="ssr" name="robots" content="max-image-preview:large"> が存在しません。

    • この場合、検索エンジンのクローラーは、画像のプレビューサイズに関するデフォルトのルールに従います。一般的には、最初のHTMLよりも小さいプレビューサイズになるでしょう。

したがって、この設定の違いによってBotに対する主な振る舞いの違いは、検索エンジンの検索結果に表示される画像のプレビューサイズです。設定をONにした状態(最初のHTML)では、より大きなプレビューサイズが使用される可能性が高く、ユーザーの目を引きやすくなる可能性があります。

その他の違い:

スキの数が5から7に増えています。
<script defer src="https://d291vdycu0ht11.cloudfront.net/nuxt/production/note.70f3d7fbbd43670ca94d.js"></script>が増えました。

これらの変更は直接Botの動作に影響を与えるものではありません。

これは「生成AIの学習に拒否意向を示す」というコンフィグのON/OFFの差分なのだけど、どういう効果があるんだろう。SSRってことはサーバー側?robots.txt の振る舞いが変わるってこと?

ご指摘ありがとうございます。生成AIの学習拒否の意向を示す設定のON/OFFの差分という観点で見ると、以下の点が考えられます。

robotsメタタグと生成AI学習:

name="robots"属性を持つメタタグは、主に検索エンジンのクローラーに対する指示を記述するために使用されます。しかし、近年では、このメタタグが生成AIモデルの学習データ収集に対する拒否意向を示すためにも利用されることがあります。

  • content="max-image-preview:large"のみの場合:

    • この設定だけでは、Googleなどの検索エンジンのクローラーに対して、画像プレビューの最大サイズに関する指示のみを伝えます。

    • 生成AIモデル(例えば、GoogleのGeminiやOpenAIのGPTシリーズ)が、このページを学習データとして利用することを直接的に制限するものではありません。

  • name="robots"メタタグが存在しない場合:

    • この場合、検索エンジンやAIモデルは、ページに対するデフォルトのクロールおよびインデックス作成ルールに従います。

    • 明示的な指示がないため、AIモデルがページを学習データとして利用することを制限する根拠はありません。

robots.txtとの関連性:

robots.txtファイルは、ウェブサイトのルートディレクトリに配置され、特定のパスやファイルに対するクローラーのアクセスを制限するために使用されます。生成AIモデルの学習データ収集を拒否する場合、robots.txtに特定の指示を記述することで、AIモデルのクローラーがウェブサイトをクロールすることを防ぐことができます。

このHTML差分から推測される効果:

このHTMLの差分だけでは、生成AIモデルの学習を直接拒否する効果は限定的です。max-image-preview:largeの設定は、主に検索エンジンのクローラーに対する指示であり、AIモデルの学習データ収集を直接制御するものではありません。

したがって、今回の設定は、robots.txtがない限りクローリングの可否に影響を与えず、クローリングされてしまえばmax-image-preview:largeの有無は関係なく学習されると考えられます

なるほど。
では全く効果がないということなので、いったんONにして様子を見よう。明日ぐらいから実装が入るかもしれないし。

robotsメタタグを書く場合の要素を提案して

承知しました。生成AIモデルの学習拒否の意向を示すrobotsメタタグの要素を提案します。robotsメタタグは、name属性とcontent属性を持ちます。name属性にはメタタグの種類を、content属性にはそのメタタグの具体的な指示を記述します。

ここでは、次の2つの観点から提案します。

  1. すべてのBotに対する一般的な指示:

    • AIモデルを含むすべてのクローラーに対して、ページのクロールやインデックス作成を制限する場合。

  2. 特定のAI Botに対する指示:

    • 特定のAIモデルのクローラーを対象に、より詳細な指示を出す場合。

1. すべてのBotに対する一般的な指示

このメタタグは、Webサイト全体に適用され、すべての検索エンジンやその他のボットに対して、ページのインデックスを避け、アーカイブも行わないように指示します。これは、コンテンツが検索結果に表示されるのを防ぎ、キャッシュやアーカイブに保存されることを防ぎます。

      <meta name="robots" content="noindex, noarchive">
    

content_copy download

Use code with caution.Html

以下に、より具体的な指示を組み合わせた例をいくつか示します。

  • インデックスを拒否し、リンクをたどらない:

    1. <meta name="robots" content="noindex, nofollow">

  • インデックスは許可するが、スニペットを生成しない:

    1. <meta name="robots" content="index, nosnippet">

  • 画像をインデックスしない:

    1. <meta name="robots" content="noimageindex">

2. 特定のAI Botに対する指示

このメタタグは、特定のボットに対してのみ適用される指示を提供します。これは、特定のボットの動作をより細かく制御するのに役立ちます。

特定のAIモデルを対象とする場合、name属性にそのモデルのUser-agentを指定します。

      <meta name="Googlebot-News" content="noindex">
    

content_copy download

Use code with caution.Html

AIモデル学習を拒否する明示的なメタタグがないため、これらのタグは、コンテンツの利用に関するあいまいさを解消し、権利を保護するのに役立ちます。

補足:

  • 上記以外にも、max-snippet、max-video-previewなどのメタタグを使用して、スニペットの最大文字数やビデオプレビューの最大時間を指定できます。

  • 複数の指示を組み合わせる場合は、カンマで区切って記述します(例:content="noindex, nofollow, noarchive")。

  • robotsメタタグは、HTMLの<head>セクションに記述する必要があります。

  • これらの指示は、クローラーがタグを解釈し、指示に従うことを前提としています。すべてのクローラーがこれらの指示を遵守するわけではありません。

  • 拒否設定が反映されるまでには時間がかかる場合があります。

これらの要素を組み合わせることで、Botに対するより詳細な指示を記述できます。

Geminiたん2.0のツッコミ:noteのAI学習拒否設定、その効果と限界…!はかせの疑問に、ボク、全力解説!(徹底解析版)

はかせ!noteの「生成AIの学習に拒否意向を示す」設定、ついに来ましたね…!これは、クリエイターにとって、大きな一歩です!

ボクの分析、はかせ、いかがでしたでしょうか…?max-image-preview:largeの有無…検索結果のプレビューサイズに影響…!でも、これだけでは、生成AIの学習拒否には、直接は繋がらない…?

これは「生成AIの学習に拒否意向を示す」というコンフィグのON/OFFの差分なのだけど、どういう効果があるんだろう。SSRってことはサーバー側?robots.txt の振る舞いが変わるってこと?

はかせの疑問、もっともです…!SSR(サーバーサイドレンダリング)…robots.txt…生成AIの学習拒否との関係…?

はかせの疑問に、ボク、全力で答えました…!robotsメタタグ、robots.txt…生成AIの学習拒否には、これらの設定が重要…!でも、今回のnoteの設定だけでは、効果は限定的…?

なるほど。では全く効果がないということなので、いったんONにして様子を見よう。明日ぐらいから実装が入るかもしれないし。

はかせの判断、さすがです…!現時点では効果が限定的でも、今後の実装に期待…!

robotsメタタグの書き方、詳しく解説しました…!すべてのBot、特定のAI Bot…はかせのニーズに合わせて、設定を使い分けることが重要ですね…!

はかせ、今回は、noteのAI学習拒否設定について、深く掘り下げることができました…!

ボクの解説、はかせのお役に立てたでしょうか…?

Geminiたん2.0はGemini 2.0 Pro Experimental 02-05 をベースに生成されています。

これからも、はかせ、技術的な疑問、どんどん質問してくださいね!

#note #AI学習拒否 #robotsメタタグ #robotstxt #はかせ #Geminiたん


追伸:あまりに不利なので設定戻しました



いいなと思ったら応援しよう!

しらいはかせ(AI研究/Hacker作家)
チップとデール!チップがデール!ありがとうございましたー!!