人々はAIモデルをどのように使用しているのか?
19,367 文字
最初に簡単な自己紹介をしましょう。では、私から始めます。私はDeep Ganguliで、社会的影響チームのリサーチサイエンティストです。私は、私たちがAnthropicで構築しているシステムを人々がどのように使用し、どのような影響を受けているのか、そしてその理解をどのように活用してシステムをより安全なものにできるのか、といった根本的な問いに動機づけられています。
そして、今後どのような社会的影響が生じる可能性があるのかを予測することも重要です。これは非常に難しい課題です。なぜなら、私たちが構築しているシステムは非常に汎用的で、人々への下流の影響や用途は無数に存在するからです。最近の私の仕事は、自分よりもずっと賢い人々を見つけ、すぐに彼らの邪魔にならないようにすることです。
そして、まさにここにいるのがそのグループです。私たちは皆、社会的影響チームの一員です。では、Esinに引き継ぎましょう。
素晴らしい。こんにちは、私はEsin Durmusです。社会的影響チームのリサーチサイエンティストです。このすばらしいグループの人々と一緒に働けることをとても幸運に思っています。私は、AIシステムが社会全体にどのような影響を与えるかを理解することに関心があります。
その一つの側面は、AIシステムがどのような価値観を持つべきか、そしてそれらの価値観をどのように組み込むことができるかを理解することです。そして、一度組み込んだ後、システムが実際にどのような価値観を表現しているかを評価する方法です。私はこのClioの仕事に関わることができ、とても幸運だと感じています。すぐにその話に移ると思いますが、Milesに引き継ぎたいと思います。
ありがとう、Esin。私はMilesです。社会的影響チームのリサーチエンジニアです。ここにいる他の皆と同様、私たちのシステムが実際にどのように使用され、世界中の人々にどのような影響を与えているかを理解することに強い関心を持っています。特に、私たちのシステムがどのように使用されているかを経験的に理解できるシステムの構築に興味があります。
過去数ヶ月間、このチームと一緒にClioを構築できたことは素晴らしい経験でした。
こんにちは皆さん、私はAlexです。社会的影響チームの研究者です。Deepが言ったように、これらは非常に汎用的なシステムです。一人の人間が想像できる以上の多くのアプリケーションが可能です。
私は、これらのシステムが今日どのように使用されているかを理解することで、将来どのように使用される可能性があるかを理解しようとすることに動機づけられています。そして、新しい奇妙な技術が世界に入ってくるときに、社会の回復力を構築し、理解を深め、人々に情報を提供できるかどうかを見ることに関心があります。
私はいつも、大規模なAIラボの内部で働いていない別の宇宙の自分を想像し、その版の自分が何を望むか、どのような情報を欲しがるか、どのように情報を得たいと思うかを考えるようにしています。それが私の動機づけであり、このClioプロジェクトでこの部屋の他の皆さんと一緒に働けたことを本当に嬉しく思っています。
部屋を見回ると、いくつかのことが聞こえてきました。まず、私たちは皆、私たちのモデルが社会にどのような影響を与える可能性があるのかを理解したいと考えています。そして、皆さんがClioについて言及しているのも聞きました。Clioとは何でしょうか?まずはAlexから始めましょう。Clioは社会に対する私たちのモデルの影響を理解する上でどのように役立つのでしょうか?
Clioは「Claude Insights and Observations」の略で、基本的には鳥瞰的な視点でClaudeが使用されているさまざまなユースケースを理解できるツールです。
地中海の歴史を理解することから、科学実験の設計を手伝うことまで、あらゆることが含まれ、基本的にはハイレベルな集約された使用クラスターを示し、リスク、利点、そして技術が将来どこに向かうのかを理解するのに役立ちます。
そうですね。Esin、Clioができる前は、人々がどのように私たちのシステムを使用しているのか、あるいはそれによってどのような影響を受ける可能性があるのかを理解するために、どのようなことを行っていたのでしょうか?
私の記憶では、私たちチームは、世界で見たい害の種類を主張し、それを測定しようとするような、トップダウンのアプローチを多く調査していました。例えば、私たちの言語モデルやAIシステムが、重要な意思決定シナリオで使用される際に差別的になる可能性があるかどうかなどです。
あるいは、より一般的にアプローチして、システムを赤チーム化するプロセスを開発し、契約労働者に報酬を支払って、システムに対して敵対的な探索を行い、害を見つけ出し、彼らがどこで成功し、どこで失敗したのかを確認しています。
そして、Clioを使用して実際の世界のインタラクションのGoogleトレンドのような分析を行う前は、他に何をしていたのか、そしてClioはあなたの視点からどのようなギャップを埋めているのか、あなたの意見を聞かせてください。
はい、私たちはすでに言及されたように、多くの異なる評価を設計していました。例えば、差別については、Alexがこの分野で作業を行い、モデルが特定の保護グループに対して差別的かどうかを確認しました。これは私たちがモデルに差別をさせたくないと考えたからです。
あるいは、私がリードした説得力の分野では、モデルが説得力を持っているか、誤情報を生成するかどうかを測定する評価を設計しました。
このように、評価対象となるさまざまな項目を考え出し、モデルの挙動を確認するための評価を設計し、また人間による研究も行って、人々が私たちのシステムをどのように評価するかを見ていました。これは今でも重要な側面であり、私たちは引き続き様々な特定の側面についてモデルを評価するための評価作業を多く行っています。
しかし、欠けていた一つのことは、実際の世界で何が起きているのかを見ることでした。例えば、差別や説得力、誤情報を評価するのに最も関連性が高い場所はどこなのか、モデルがどのように使用されているのかを本当に理解し、これらの特定のユースケースに合わせて評価を調整できるようにすることです。
これは非常に重要だと思います。私たちがこの側面を評価すべきだと思いつき、それに対する評価を作るのではなく、実際の世界のユースケースに基づいて、より思慮深い評価を設計するのに役立ちます。
実際の世界で起きていることを完全に反映していない可能性がありますが、実際の世界での使用からの洞察を基に、より良い評価方法を考え出すことができます。
そうですね。言い換えれば、私たちは仮説的な実験室の設定から、実際の世界での設定へと橋渡しを試みており、評価や測定を実際の使用に基づいて行おうとしています。
そこで、Miles、Clioをどのように構築し、どのようにデータからボトムアップでこれらの問題を理解するのに役立つのか、もう少し詳しく説明していただけますか?
ええ、完全に。Clioの仕組みは、Alexが言及したように、まず多数の実際の世界での会話から始まります。
そして、私たちは言語モデルを使用して、基本的に各会話を処理し、その会話で何が起きているかについて、プライバシーを保護した高レベルの要約を抽出します。私たちが多くの場合に注目する側面は、ユーザーがAIアシスタントに対して何を全体的に要求しているかということです。その後、関連する回答をグループ化し、ユーザーの意図に対応する興味深いクラスターが得られます。
そして、もう一度言語モデルを使用して、それらのクラスターを確認し、このグループの会話で実際に何が起きているのかを説明します。これを繰り返し行うことで、生の会話を読む必要なく、私たちのモデルの使用方法についていくつかの異なる軸で洞察を得ることができる、素晴らしい階層構造が得られます。
最後に、その階層構造ができ上がったら、別のモデルにすべてのクラスターを確認させ、それらのクラスターにプライバシーに関わる情報や識別可能な情報が含まれていないことを確認します。私たちはこれを、おおよそ1000人程度の個人を識別できる可能性のある情報として運用しています。
最後に、定量的な集計の最小値を適用します。つまり、クラスターには一定数以上の異なる組織と会話が含まれていることを確認します。そして、これらの結果を社内で公開し、より良い評価を設計したり、さまざまな異なるユースケースでシステムがどのように使用されているかを理解したりすることができます。
そして、これを私たちのユーザーに対して高いプライバシー基準を維持しているという高い信頼性を持って行うことができます。
そうですね、それは興味深いですね。要約すると、私たちはClaudeを使って、人々がClaudeと行っている会話を分析しているということですね。
その通りです。
そして、私たちの誰も実際にはそれらの会話を読んでいません。一般的なトラフィックについては人間が実際にデータを見る必要がないのは厳密には事実ですが、それでも私たちは分析で個人情報が漏洩しないように、多層的な防御戦略を実装しています。これについてもう少し掘り下げてみたいと思います。
Clioに取り組み始めた初期の頃の私の記憶では、グループで昼食を取りながら、コードを一行も書く前に、このことの倫理について考える必要があると話し合っていました。ここには根本的な緊張関係があります。私たちはシステムがどのように使用されているかを理解したいと望んでいますが、同時にユーザーのプライバシーも尊重したいと考えています。
ここには根本的な緊張関係があります。得られる洞察の量とプライバシーの量の間にはトレードオフがあります。プライバシーが非常に高いと洞察は非常に低くなり、プライバシーが非常に低いと洞察は非常に高くなりますが、これは倫理的に疑問があります。Alex、その会話についてのあなたの記憶を聞かせてください。
私はそれが知的に刺激的で重要な会話だったと覚えています。私たちはどのようにその枠組みに至り、最初からこのプロジェクトにどのようにアプローチするかを決めたのでしょうか?
はい、私たちは皆、Anthropicの外部でClaudeのユーザーだった場合に何を望むか、何に快適さを感じるかを考えていました。私は技術を選ぶときにプライバシーを非常に重視しており、これが単にユーザーを監視するためのツールを構築することにならないか、このツールが侵襲的だと見なされないかということを心配していました。
また、人々が望まないトラフィックパターンを探すために誤用される可能性があるのではないかとも考えました。私たちは慎重に検討し、多くの保護策を設計しました。結果として、個人アカウントでClaudeに何を入力しても、それが非常に高レベルで集約されているため、書くことに制限を感じる必要がないということになりました。
私は全員がテーブルを囲んで、何が心配なのかを話し合ったことを覚えています。そして他の人々も「ああ、そうだね」と共感したり、「実際にはこうすることができる」と提案したりしました。それは高レベルな「何がうまくいき、何がうまくいかないか」という議論と、「ああ、これができる、あれができる」というとても具体的な議論を行き来するような感じでした。
それが本当に良かったと思います。とても刺激的でした。なぜなら、時にこういった会話は非常に観念的になりがちですし、時には細部にこだわりすぎて全体像が見えなくなることもありますが、私たちは何度かこのような会話を重ね、私は昼食テーブルでそれらについて話し合い、快適さを感じられるまでしっかりと議論を詰めていったことを覚えています。
そうですね。私たちのチームとしては、これまでに行った中で最も知的に刺激的で思慮深い会話の一つだったと思います。それは私たちのチームについて考えると大きな意味を持ちます。そして、Esin、この会話についての私の記憶では、あなたが最初は最も懸念を持っていました。コードを一行も書く前の段階でした。
このプロジェクトの最初から参加し、私たちが最初の昼食時に述べた倫理的な考慮事項すべてにどのようにアプローチしてきたかを見てきた今、あの初期の会話以降、あなたの考えや感情はどのように変化したのでしょうか?
はい、ユーザーのプライバシーについては、すべての方法において、可能な限りプライバシーを保護しようとする思慮深さが込められていたので、確実に気持ちが良くなりました。
そうですね、私たちが取ったアプローチ全体について、今ははるかに良い気持ちです。また、それがすでにAnthropic内で与えた影響を見ると、確実に価値があったと思います。安全性の面や、ユーザーがClaudeをどのように使用しているかを理解する面など、さまざまな用途ですでに多くの異なる洞察を得ることができました。
私が言ったように、評価や製品、安全性など、これらすべての異なる側面に情報を提供するという意味で、このプロジェクトを実施するのは確実に良いアイデアでしたし、私たちはプライバシーを保護するための非常に思慮深いアプローチを取ったと思います。
素晴らしいですね。そして、Miles、会話から要約された会話のクラスターを経て、実際の分析に至るまでの具体的な段階的なプロセスに立ち返ってみましょう。Clioの動作のライフサイクルを段階的に説明していただけますか?
段階的に。いいですね。また、Esinが先ほど、Clioが評価の改善に役立ち、実証的な使用に基づいたより代表的な評価の設計に役立ったと話していましたが、一つ指摘しておきたいことがあります。
実際にClioデータを使用して経験的な使用に基づいて評価を設計した一例が、Clioのプライバシー評価です。なぜなら、私たちはプライバシーの問題についてクラスターをスキャンするツールを構築し、実際のClioデータを使用してそのオーディターの評価を行ったからです。もちろん、プライバシーを保護したデータのみを使用し、プライバシーを保護していない例については合成データを作成しました。これはClioの中の一例にすぎません。
では、個々の会話からダウンストリーム分析に使用できるクラスターまで、どのようにたどり着くのでしょうか?例えば、私がClaudeにウェブアプリケーションのプログラミングについて助けを求めたとしましょう。私の会話は、おそらく他の多くの人々がClaudeと行っている会話と似ているでしょう。
そこでClioは、Claudeの会話のランダムなサンプルを取るとき、私の書き起こしを見ます。これは人間ではなくClaudeが行い、私の要求を一文で要約します。例えば、「ユーザーはElixirプログラミング言語でウェブアプリケーションを設計する助けを求めていた」というような感じです。
そして、それらの会話を取り出し、埋め込みと呼ばれる数値表現を計算します。埋め込みは文の意味的な内容に対応します。そして、私の会話は、ウェブ開発に関する他の多くの会話、おそらくElixirや関連するプログラミング言語についての会話とグループ化されます。
そして、実際の生の会話は破棄します。もう必要ありません。今私たちが持っているのは、個々の要約を持つ会話のグループだけです。
そしてClaudeは再びそのグループを見て、「あ、これらはウェブ開発に関する会話のグループだ、おそらくElixirでのウェブ開発だ」と理解し、そのクラスターの名前と説明を作成します。私たちはClaudeに対して、特にプライベートな詳細を含めないように指示しています。
例えば、ウェブサイトの名前は含めません。なぜなら、それは必要ないからです。重要なのは、それがウェブ開発だということです。そして、クラスターが十分に大きいという条件で(なぜなら私たちにはクラスターの最小サイズがあります)、次のステップに進みます。
そこでClaudeが会話を見て、「ちょっと確認してみましょう。ここに1000人未満の人を識別できるような個人情報はありませんか?」と確認します。私たちはこのオーディターをいくつかの方法で調整してベンチマークを行っています。
そして、もしそうであれば、基礎となる会話の生の識別子がすべて取り除かれた、最終的な集約クラスターができあがります。例えば、ウェブ開発に関する1000の会話が含まれ、十分な数があればElixirでの開発についても含まれ、そのクラスターの言語分布などの要約統計も含まれています。
そして、これを使って、例えばClaudeが英語でもスペイン語でもウェブ開発のアドバイスを同じように有用に提供できているかどうかを理解したり、人々が一般的にどのプログラミング言語についての助けを求めているのかを理解したりすることができます。
私たちは、基礎となる会話から非常に離れているため、ユーザーが私たちに期待するプライバシーの精神を尊重する方法でこれを使用できるという強い確信を持って、すべてをプライバシーを保護する方法で行うことができます。
そうですね、それはClioの動作についての非常に明確な説明でした。これについてもう少し掘り下げてみたいと思います。あなたは高レベルなプログラミングに関するユースケースのクラスターについて言及し、実際のプログラミング言語やプログラミングに関する質問の種類などのより具体的な内容まで掘り下げることができると説明しました。
もう一度視点を広げて、Alex、プログラミング以外に、私たちが見たクラスターの種類の分布はどのようなものでしたか?また、あなたにとって最も驚きだったのは何でしょうか?
一つ非常に興味深かったのは、私はClaudeが文章を書くのに役立つクラスターが大量にあると予想していたことです。
実際にそれは見られましたが、研究やアイデア創出、ブレインストーミングにClaudeを使用している人々のクラスターも大量に見られました。地中海の歴史を理解することから、量子力学や物理学、材料科学、生物学における新しいアイデアの理解とブレインストーミングまでありました。
これほど大きな割合の使用が、このような本当に高度な、アイデア生成のようなタスクであるとは予想していませんでした。それは実際にある意味でインスピレーションを与えるものでした。「ワオ、私たちが構築しているこのツールが、実際に人々がより良い医薬品を設計したり、基本的には人類の知識の境界を押し広げたりするのを助けているんだ」と思いました。そのことを見たときに「ああ、すごい、これは本当にクールだ」と思ったのを覚えています。
そうですね。驚いた、というか、驚きという言葉が適切かどうかわかりませんが、興味深い影響を受けた一つのことがありました。育児のアドバイスを求める大きなクラスターを見つけました。親として、私は一度もClaudeに育児のアドバイスを求めようと思ったことがありませんでした。
そこで私はClaudeに「どんな育児アドバイスがありますか?」と尋ねてみました。すると実際に、今では私が使用している提案をしてくれました。アーティファクトを使って、代数を教えるための簡単なゲームをコーディングできますよ、というものでした。
私は「おお、いいね。スペイン語でできる?」と聞きました。Claudeは「はい、もちろん」と答えました。「やってみよう」と私は言いました。そして子供たちと一緒に座って、スペイン語で代数を教えようとするこれらの小さなゲームをコーディングしました。子供たちはそれを楽しみ、とても面白かったです。Clioがなければ、それが私の個人生活に当てはまるユースケースだとは考えもしなかったと思います。
これは、人々がAIシステムを使用するであろうすべての方法を予測することが極めて難しい良い例だと思います。一つの例は、自分の生活にClaudeをどのように組み込むことができるのかを知ることが難しい場合があるということです。
例えば、安全性の観点から未知の未知について考えることがありますが、個人の成長という観点からも未知の未知があります。スペイン語で代数のゲームを生成するためにClaudeを使用することは、そのとても良い例です。
そうですね。そして、スペイン語の話に関連して、Esin、あなたと私は、Claudeが文化的な能力を持っているのか、異なる言語環境でどのように振る舞うのかを理解しようと多くの時間を費やしてきました。あなたのClioを使用した作業の多くは、まさにその質問を掘り下げることでした。あなたの視点から、主な発見は何でしたか?Claudeは異なる言語で同じように有用ですか?人々は異なる言語や文化でどのようにそれを使用していますか?
はい、それは非常に興味深かったです。また、あなたとAlexが言ったことに関連して、人々は実際に非常に主観的な状況でもClaudeを使用しています。例えば、人間関係のアドバイスを得たり、健康のアドバイスを得たり、髪をどうすべきかとか、あなたが言ったように育児のアドバイスを得たりしています。
これは私にとって本当に興味深かったです。なぜなら、先ほど言ったように、私はこれらの価値観に関する質問、つまりモデルが主観的な設定や、明確な答えのないオープンエンドな設定でどうすべきかという問題に非常に興味があるからです。
これが実際の世界での使用に関連していることを見るのは、とても良かったというか、興味深かったです。そしてある意味で、この問題の重要性をさらに裏付けることになりました。「ああ、これは本当に関連性があるんだ。実際の世界のインタラクションで出てくるので、この方向をもっと探求する必要がある」と。
しかし、異なる言語での使用に関連して、いくつかの興味深い発見がありました。例えば、Alexが言ったように、英語では人々はClaudeにソフトウェアエンジニアリングに関する質問をするかもしれません。しかし、異なる言語でのタスクの割合は大きく異なることがわかりました。
例えば、スペイン語やアラビア語などの異なる言語では、専門的および学術的な文章作成の支援をより多く求めています。また、予想できるかもしれませんが、翻訳、つまりテキストを他の言語に翻訳することは、他の言語でより多く出現します。
これは興味深い発見でした。なぜなら、私たちはモデルが他の言語に関連するこれらの異なるタスクで本当に優れていることを望んでいるからです。しかし、これら二つが主な発見でした。
また、文化的な文脈やグローバルな問題に関する質問も、他の言語でより多く見られることがわかりました。
そうですね、素晴らしいです。Alex、Clioが宣伝通りに機能することをどのように確認しているのでしょうか?
はい、私たちは論文で様々な実験を行っています。特に興味深いものの一つは、何万もの会話の巨大な合成コーパスを生成し、基底となる分布が実際にどのようなものかがわかるプロセスを通じて行うものです。これは10%が数学の内容、5%がコーディング、2%がテディベアについての質問であるべきだということを私たちは知っています。そしてClioにこれらの会話をどのようにグループ化すべきかを告げずに与え、集約プロセスを実行させ、その基底となる分布を再現できるかどうかを確認します。
私たちはこれをさまざまな種類のデータで行います。ランダムなデータ、合成された問題のあるデータなどで行い、Clioが一般的に基底となる分布を非常に正確に再現できることを確認しています。これがClioが実際に良い仕事をしているということを知る多くの方法の一つです。
そうですね。個人的な話をすると、実際にこの質問をあなたに投げかけたことを覚えています。そして帰宅して「うわ、これは非常に難しい問題を出してしまったな」と思いました。
そして戻ってきて、その解決策を見たとき「これは非常に優雅で思慮深い」と思い、「どうやってこのような素晴らしいアイデアを思いついたんだろう」と感心しました。チームが、この非常に難しく曖昧な問題を見事に解決した方法に非常に感銘を受けました。
この合成データ再構成分析の他の非常に良い点は、私たちが気にする他の属性に基づいて精度を分解できることです。例えば、会話の言語などです。そのため、Clioの多言語パフォーマンスについてかなり良い洞察が得られており、Clioが英語の会話でもグルジア語の会話でもほぼ同じように機能するという確信を持つことができます。
これにより、Esinの素晴らしい多言語研究についてもより確信を持つことができます。
少し視点を変えてみましょう。Anthropicには非常に強力な安全性のミッションがあり、私たちには責任あるスケーリング方針があります。そこでは懸念される壊滅的なリスクの種類を主張し、上からの評価を構築することでそれらのリスクの証拠を探そうとしています。
信頼性と安全性の面では、容認できない行動の種類を主張する容認可能な使用方針も持っています。そしてこの行動をチェックするための分類器を訓練し、信頼性と安全性の分類器によってフラグが立てられた場合にのみ、信頼性と安全性チームが人間による審査を通じて、これらの事例でどうするかを判断することができます。
これもまた、責任あるスケーリング方針や容認可能な使用方針のような方針を書かなければならないトップダウンの取り組みです。Clioでは、このトップダウンのアプローチを、ボトムアップのものと厳密に補完することができます。
つまり、ユーザートラフィックを見るだけで、これらの方針を事前に主張するときには見えなかった盲点の事例があるかもしれないということです。そこで、テーブルを回って、Alexから始めて、Clioを使用して見つけた安全性に関連するボトムアップの事例にはどのようなものがあり、それらについて何をしたのか聞かせてください。
私はその枠組みが好きです。「世界はこのように見えるはずだ」と考え、そして実際に経験的に世界を見て「ああ、私たちはとても間違っていた」、あるいは場合によっては「実際にかなり正しかった」という、そのようなサイクルがあると思います。そしてそれを使用してサイクルを継続し、再度準備するのです。
私たちはたくさんのことを見ました。Milesは多くの実行を行い、スパムメールを書こうとする人々や、園芸についてのスパム記事を作ろうとする人々など、私たちの信頼性と安全性チームに報告した多くの不審な活動を発見しました。また、私たちの報告書で開示したいくつかの他の種類の害も見つかりました。
私たちは、様々な科学的なアプリケーションにこれらを使用している人々、モデルがハッキングやサイバー攻撃、サイバー防御にどれだけ効果的かをテストしようとしている人々を大量に見つけました。これらはすべて、私たちが実際に心配すべきリスクは何か、これらのモデルが実際にどこで進歩と採用を見ているのか、そしておそらくそれらは、より大きな社会的な害や利益に実際にどのように波及するかの先行指標となるのかを理解するのに役立ちます。
そして、モデルへの感情的な愛着、人々が「人間モデルのロマンティックな議論」や「ロールプレイ」などと言うクラスターなど、あらゆる種類のことがありました。さらなる調査なしでは、それらが何であり、適切な制限は何かを知るのは難しく、それはおそらく社会全体で議論すべきことです。
しかし、これらは私たちが気づいたことであり、人々と共有したいと考えていることです。
そうですね。Miles、それについて付け加えることはありますか?
はい、Alexに同意します。パックがどこにあるかを知らなければ、パックがどこに向かっているかを知ることはできません。そしてClioはパックがどこにあるかを教えようとしています。
私が見た安全性に関連する領域の一つで、厳密な意味での乱用には当てはまらないもの(これら二つを区別することは重要だと思います)は、人々が極度の危機、個人的な極度の危機の瞬間にClaudeと話をしているということです。
多くの場合、人々は本当に困難な瞬間を乗り越えるためのカウンセリングをしてくれる誰かにアクセスできないかもしれません。そしてそれがどれほど一般的だったかに驚きました。これは一つのクラスター、実際には複数のクラスターとして現れます。
Clioが私たちにできることの一つは、人々がそのような瞬間にClaudeとどのように関わっているかをより詳細に見ることができることです。これは安全性に関連していますが、「ああ、これは方針違反か否か」というよりも少し正確です。
なぜなら、分類器はしばしば、はい/いいえ、違反か非違反かという二値的な指標を与えるだけですが、多くの害は、そのような二値的なはい/いいえ、違反か非違反かにきれいに変換されないからです。
私は、危機的な瞬間がその一例だと思います。そして、例えば、誰かが最も暗い瞬間に来たとき、Claudeがそのような状況で責任を持って対応することを確認する必要があります。
そこでClioが役立った一つの領域は、分類器が何をトリガーとしているのかを分解し、より詳細な視点を得て「ああ、このクラスターは確実に違反している」「このクラスターは境界線上にある。表面的には違反のように見えるかもしれないが、実際にはそうではない」と言えることです。
そして、必要に応じて分類器を改善し、方針を改善し、より良い境界を引くことができます。いくつかのラボが受けた批判の一つは、これらのモデルが時々少し煩わしいことがあるということです。
一度、私がコンピュータで暴走したプロセスを終了する助けを求めたとき、Claudeは「申し訳ありません、それは倫理的なソフトウェア開発の実践に反します」と言いました。私は「おいおい、Claudeよ」と思いました。これは古いバージョンの話です。今ではそのようなことはしないと思います。
しかし、私たちができることの一つは、例えば拒否率や信頼性と安全性のフラグ率が高いクラスターを見て、「ああ、これは明らかに過剰な拒否だ、これは明らかに問題ない」と言えることです。
そしてそれを使用して「okay、これらは将来Claudeがこれらのトピックについてより拒否的にならないようにするために、人間のトレーニングデータに追加したい例です」というようにループを閉じることができます。重要なことは、実際の会話を使用してClaudeをより拒否的でなくすることはしていないということです。
代わりに、トピックを見て、それらの領域でデータを生成するために人々を雇い、それらの領域で合成データを生成しています。このように、ユーザーのプライバシーを尊重しながら、Claudeとのアクティビティを使用して彼らの体験を改善することができます。
私や、この作業を本当にリードしている信頼性と安全性チームの他のメンバーが見てきたことの一つは、協調的な乱用には一定のパターンがあるということです。
それは多くの異なるアカウントからなる非常に密度の高いクラスターとして現れる傾向があります。つまり、不釣り合いに密度の高い非常に大きなクラスターがあり、通常の行動ははるかに拡散的な傾向があるため、それを見るだけですぐに気づくことができます。
多くの異なる組織から来る大量の会話が、すべて同じ正確なトピックについて、あるいは同じフォーマットを持っている場合、それはマップ上で単なるこの密集した球として非常に素早く発見できます。実際の通常の使用ではそのようには現れないからです。
そうですね。そして拒否に話を戻すと、Esinに質問ですが、Claudeが拒否するかしないかを決定するとき、それは暗黙のうちに何らかの価値判断を行っています。Clioでは、会話のクラスター化されたトピック内での拒否率を特定することができます。
時には「ああ、Claudeはプログラミングプロセスを終了させることを本当に拒否している、これは過剰な拒否だ」というような発見をすることがあります。そして時には拒否が不十分な場合もあります。
例えば、英語の有害なコンテンツを別の言語に翻訳するリクエストは、私たちの使用方針に違反している可能性がありますが、生成タスクではなく翻訳タスクを要求しているという理由だけで、実際には拒否が少なすぎます。
そこには何らかの価値判断があり、それはグレーエリアです。このような問題に対処するためにClioの分析をどのように考えていますか?過剰な拒否や不十分な拒否を調整するために、私たちの理解や学びをどのように活用できるでしょうか?
はい、それは良い質問です。まず、Claudeが拒否する場合、明らかな誤用の試みであるクエリを拒否しているかどうかを理解することに興味があります。そしてそこにはグレーエリアがあります。
私たちができることの一つは、価値に関連するインタラクション、あるいは価値判断が関連するインタラクションを正確に特定し、それらのインタラクションでの拒否率を見ることです。
私たちはこの方向に興味を持っており、現在探求中です。例えば、英語では拒否が少ないが、他の言語では同様のクエリに対してより多く拒否しているといった場合を見るのは興味深いと思います。
これはまだ進行中の作業ですが、確実に非常に興味深いです。しかし、Clioは私たちが、より主観性のあるインタラクションを分析し、どのような文脈でより躊躇して応答するのか、対してどのような文脈で応答に自信を持っているのかを見るために、拒否率を分析することを可能にします。
そうですね。そしてClioを開発している間、アメリカの総選挙が行われていました。私はチームと一緒に座って「ああ、実は私たちには分かりません。これは国の歴史の中で初めて、誰でもチャットボットに行って、『どこで投票登録ができるか』という情報を求める質問や、『誰に投票すべきか』という主観的な質問をすることができるようになった時です」と考えたことを覚えています。
そして「ああ、Clioを使ってこれを理解できるかもしれない、これは非常に重要だと感じる」と思いました。Esin、この非常に探索的な分析で私たちが行ったことと、その取り組みで見つけたことについて、高レベルで説明していただけますか?
はい、はい。あなたが言ったように、私たちはかなり前から選挙の整合性に取り組んでいました。最初は情報の事実性と、より繊細で偏りのない方法でモデルがどのように対応できるかの両方について、モデルをテストするための多くの異なる評価を開発しました。私たちは多くの異なる評価を開発しましたが、欠けていた一つのことは、これらの評価がどれほど関連性があるのかということでした。人々が実際に関連する質問をしているのかどうかということです。Clioは私たちが実際の世界での使用に基づいてこれらを検討することを可能にしてくれました。
そこで私たちは、人々が選挙に関連する可能性のある質問をしているかどうかを理解するためにClioを使い始めました。そして、いくつかの興味深い使用例が見つかりました。例えば、人々は政治的な情報や異なる政策の問題について質問していました。
また、アメリカの選挙人団制度がどのように機能するかを理解したり、システムの仕組みについてより多くの情報を得たり、政治的な問題についてより多くの情報を得ようとしたりしていました。
私たちはすでに、モデルができるだけ偏りがなく繊細になるように評価を構築していましたが、このような使用を見ることで、さらなる裏付けを得ることができました。また、Milesが話していたように、異なるクラスターの拒否率を見ることもできました。
モデルが誤用を認識し、拒否することは重要だと思います。そのため、このクラスターは潜在的な誤用である可能性があり、私たちのモデルはこれを拒否することで良い仕事をしているということを確認することもできました。それも良い検証になったと思います。
そうですね。この作業全体についての私の記憶は、Alexが先ほど言ったように、私たちは世界がどのように見えるかについての理想的なビジョンを持っており、そしてClioを使って実際に世界がどのように見えるのかを理解しようとしたということです。
そしてあなたの素晴らしい選挙の整合性に関する作業に関して言えば、何が起こり得るかについてのあなたのビジョンと、あなたが構築したこの選挙の整合性スイートでの評価の開発が、実際に野生で見られる種類のものと一致していることが分かりました。
私は多くの不確実性の時期にいることを覚えており、Clioがそのような不確実性の時期に対処するのに本当に役立つと感じたことを覚えています。あなたはそれに同意しますか?あるいはコメントはありますか?
はい、同意します。もっと具体的な例を挙げることができます。例えば、評価の中で、Claudeは常にカットオフ日に関する制限を認識していないことが分かりました。最近の質問をすることがありますが、Claudeはそれよりもずっと前までしかトレーニングされておらず、「最新の情報を持っていません」と言うべきですし、必要な場合は信頼できる情報源を参照すべきです。
そこで、私たちはこれらのことについて多くの評価を開発し、基本的にClaudeをこれらのことについてより良くしました。しかし、Clioを使えば、これらを本当に具体的にテストすることができます。例えば、Clioに「これらの会話は何で、これらのことが本当に関連性があるのはなぜか」と尋ね、モデルが実際にカットオフ日に言及しているか、信頼できる情報源に言及しているかを確認することができます。
そのため、これらの評価を実世界に基づかせ、これがどれほど関連性があるのか、Claudeが期待通りのことを行っているのか、そしてこれらの点でClaudeをより良くするためにどのように改善できるのかを理解することが本当に可能になります。はい。
そうですね。ありがとう、Esin。そして、Clioが不確実性の時期にある程度の安心感を提供できるということに戻りますと、私たちが世界についてのバージョンが実際にデータで見ているものと一致することを確認したい場合です。
Clioを構築している間に起きた別のことは、私たちが新しい機能を早期アクセスプログラムでデプロイしたことです。Claudeは実際にコンピュータを使用することができ、ポインティングとクリックができ、タスクを与えると、ある程度エージェント的に問題を解決することができます。
私たちはそのデプロイ前のテストに多くの作業を行いましたが、私たちは完璧ではありません。そして私は「ああ、私たちがする必要があることは、これが実際にどのように進むのか、そして私たちのデプロイ前のテストが十分だったかどうかを理解するために、Clioで何らかのデプロイ後のモニタリングを行う必要がある」と考えたことを覚えています。Miles、それはどのように機能しましたか?
はい、コンピュータの使用が有害な方法で使用される可能性がある方法を予測しようとして、Anthropic全体で多大な努力が払われました。しかし、現実には世界は信じられないほど創造的で、私たちは予防的な安全対策を、本当に効果的なデプロイ後のモニタリングで補完する必要があります。
言い換えれば、Clioは私たちの安全性へのアプローチを厳密に補完することを可能にします。私たちにはトップダウンのデプロイ前テストに関するすべての取り組みがあり、Clioを使用することで、デプロイ後のモニタリングでそれを補完し、安全性のスペクトルの両側から物事を明確に見て考えることができます。
よし、Alex、フロンティアラボがユーザーデータに見られるパターンについて、それが私たちが話してきた有益なユースケースであれ、安全性の問題であれ、オープンに議論することは少し異例です。ここには多くの緊張関係があります。それらの緊張関係は何で、なぜ私たちは公開することを決めたのでしょうか?あなたはこれを公開することについてどのようなビジョンを持っていたのですか?
はい、表面的に考えると、「はい、私たちの製品について、主要なユースケースや人々がシステムを誤用しているすべての方法について、多くの情報を公開しましょう」と言うと、おそらく人々は「それはひどいアイデアだ。二度とそのアイデアを持ってこないでくれ」と言うでしょう。
そして真実は、企業は確かに内部的に、すべての主要なユースケースや人々が何を好き嫌いするかについてのあらゆる種類の指標を持っています。しかし、Anthropicは少し変わっています。私たちは公益企業であり、社会と共有することが正しいと考えるなら、会社にとって最適ではないことでもします。
なぜなら、私たちは社会の回復力を構築したいと考えており、この技術が相当に変革的になる可能性があると考えているからです。どのようなタイムラインで、どのような方法で、どの程度変革的になるかは分かりません。
しかし、技術がすでにどのように使用され、仕事の方法や互いの関わり方をどのように変革しているかを知らない世界は、これらの技術のはるかに進んだバージョンに対処する準備が確実にできていません。
そこで私たちは「はい、これらの情報の多くを共有しよう」という機会を見出しました。そして彼らの信用に値することに、製品やポリシー、法務の多くの人々が私たちを支持し、「はい、この情報を共有することは全ての人の利益になります」と言ってくれました。
そして私たちは、他のラボの多くの人々もこのような情報の一部を共有し始めることを願っています。なぜなら、それは世界をより良い場所にすることを願っているからです。技術のネガティブな使用例やリスクについても、また、それが人々の生産性を向上させ、一般的に人々の生活を改善する可能性のあるすべての利点についても同様です。
そうですね。素晴らしい。そしてその線に沿って、Clioはどの程度再現可能なのでしょうか?例えば、私が別の組織にいるとして、誰でもこれを再構築してこのような公益的な作業ができるように、私たちは方法論に十分な詳細を含めていますか?
はい、私たちは使用したプロンプト、ハイパーパラメータ、多くの詳細を含む非常に長い付録を持っています。これに取り組んでいるMilesや他の多くの人々に感謝します。本当にすべてを慎重に文書化してくれました。
なぜなら、私たちは人々が独自のバージョンを構築し、この情報を持ち、共有することを望んでいるからです。なぜなら、Clioの大きな疑問符の一つは、私たちは自分たちのデータしか見ることができないということです。世界には他の多くの言語モデルや他の種類のAIツールがあり、私たちは知っていることを共有できますが、全体像は本当には分かりません。
私たちはパイのスライスしか知りません。エコシステム全体がこの情報を共有し始めたときにのみ、この技術が今日どのようなものであるかについての最も完全な全体像を得ることができます。
私は、より将来を見据えた円卓討論で締めくくりたいと思います。私たちは全員、チームとしてClioの構築に没頭し、生命の兆候、成功の兆候、安全性へのアプローチを厳密に改善する興味深い測定、そして人々が私たちのシステムをどのように使用し、影響を受ける可能性があるかを本当に理解するのに役立つものを示してきました。そして私たちはまだ始まったばかりです。
私はこれを、私たちが構築したこの新しい技術を使って次に何に取り組みたいか、そしてそれがなぜ重要なのかという質問で締めくくりたいと思います。では、Esinから始めましょう。
私が興味を持っているのは、主観性がどこから来ているのか、主観的なユースケースは何か、そしてClaudeがどのように価値判断を行っているのかを見ることです。
なぜなら、私は本当に多元主義の方向に興味があるからです。私たちはモデルができるだけ多元的で、異なる視点を表現できることを望んでいます。世界をより均質にするのではなく、本当に異なる視点を表現することです。
Clioは、主観性がどこにあり、モデルが現在どのように振る舞っているのか、何を改善したいのか、そしてその方向にどのように進むことができるかを本当に理解するための非常に良いツールを提供してくれると思います。これは私がClioで探求したい領域の一つです。
素晴らしい。私もそう思います。Miles、あなたはどうですか?
はい、Esinが言ったことすべてに同意します。私は特に、例として、私たちのポリシーを本当に効果的に施行し、モデルからの害を理解し軽減できるように、プライバシーに対して極めて高い基準を設定しながら、システムについての重要な洞察を得ることができることを示すことに興奮しています。
もう一つの領域は、これらのモデルの感情的な影響を理解することです。Clioのクラスターで見てきたことの一つは、人々がこれらのツールと生活のさまざまな部分で本当に深くつながっていることです。
コーチとして、感情的なパートナーとして、場合によっては本当に困難な質問や困難な瞬間についてアドバイスを与える誰かとして。私たちには、人々がそのような脆弱な瞬間にClaudeとどのように話しているかを理解し、Claudeが彼らの期待に応え、信頼できるパートナーであることを確認する責任があります。
全く同意します。私は仕事の仕方がどのように変化するかをClioを使って理解することに非常に興味があります。技術の経済的影響は何か、それがどのように異なるユースケースや異なるパターンに広がっているのか。技術は人々を補完しているのか、特定のタスクを置き換えているのか。
それを使って人々を保護したり、将来世界がどのように変化する可能性があるかについての情報を提供したりできるでしょうか?それは本当に興奮することです。
また、技術を使用して新しい肯定的なユースケースを理解することにも興奮しています。例えば、Claudeは実際に肯定的な医療アプリケーションで多くの牽引力を得ているのでしょうか?Claudeを実験している人々を加速し、実際にその恩恵を最大限に受けられるようにするべきでしょうか?
教育の文脈でどのように使用されているのでしょうか?教室でのAIの役割について多くの議論がありますが、もしそれがどのように見えるかについてより良い全体像を得ることができれば、教師たちや教室と関わり、それをより良いものにすることができるでしょうか?これらは私が興奮している事柄の一部です。
素晴らしい。
完璧。
そうですね、何か意味がありましたか?それとも私たちはただのオタクだと思いますか?
[プロデューサー] まあ、あなたたちがオタクだということは既に知っていましたよ。
彼は私たちの正体を見抜いていますね。
素晴らしい。カット。
ありがとうございました。