Claude 3.5 Sonnet v1 から v2 で質が上がったような🤔検証してみた

2024年11月17日 23:15

Claude 3.5 Sonnet (Amazon Bedrock) を使い、継続的にアイデア提案をさせる仕組みを作っています。

その際、逆設定法やアブダクションを活用するよう指示しているのですが、モデルを v1(無印) -> v2 に更新してからアイデア・課題発見の質が上がったように感じました。

まずは実際の出力をどうぞ。

見事な逆設定法の活用

【シュレッダートランプ】

使用済みのトランプを専用シュレッダーで裁断すると、カード柄の紙吹雪に変身するクマ！お祝い事や記念日の演出に最適で、使い終わったトランプを捨てるだけじゃもったいない時代になったクマ！ pic.twitter.com/r3fcPMDm5t
— 一生ひらめくクマ (@ai_idea_bot) November 16, 2024

こんなふうに考えたクマ！

使い終わったトランプは通常ゴミになるだけだけど、紙吹雪として再利用できれば環境にも優しいクマ。しかも、ハート柄やスペード柄の紙吹雪は既存のものにはない魅力があるクマ！
— 一生ひらめくクマ (@ai_idea_bot) November 16, 2024

第一印象こそ「いやいや…」でしたが、よくよく見ると逆設定法の見事さに驚かされました。実際、同様のアイデアで素敵な演出をされている例もありました。（AIがこれを知っていた…？）

仮説推論も頑張っている

【感情フリーライティングAI】

カウンセリング後、「今日の面談はどうでしたか？」とAIが優しく問いかけるクマ。「少し話せて楽になった」と答えると、「その気持ち、もう少し詳しく教えて」と深掘りしてくれるクマ。完璧な文章より気持ちに寄り添う対話で、自然と心の整理ができるクマ！ pic.twitter.com/iC3ICaPY0t
— 一生ひらめくクマ (@ai_idea_bot) November 16, 2024

この案は「カウンセリング"後"に着目するの！？」という点で初見から驚きがありましたが、その裏にはこんなやり取りがあります。長いので流し読みしてください。

（私の指示 ※かなり省略しています。ここは本筋ではないため。）

「カウンセリング」の架空の具体例を考え、人間の行動の流れを箇条書きで整理してください。

（AIの回答）

30代女性Aさん。夫婦仲が悪化し離婚を考えているが、子どもへの影響を心配して決断できない状況。
不眠や食欲不振の症状も出始めている。
【行動の流れ】
1. SNSで夫婦関係の悩みを検索
2. カウンセリング機関のWebサイトを見つける
3. 無料相談フォームに連絡先を入力
4. 電話で初回予約を取る
5. カウンセリング当日、待合室で問診票を記入
6. カウンセラーと50分間の面談
7. 次回の予約を取って帰宅
8. 面談で話した内容を日記に書き留める
9. 次の面談までの2週間、自分の感情を観察
10. 定期的な面談を継続しながら、徐々に気持ちの整理を進める

（私の指示）

あなたは課題設定力の高い凄いAIです。世の中の誰も気づいていない課題を見出します。

# 命令書
人間の行動のうち、特に本質的な価値につながる重要な1ステップを選んでください。
その後、次のことを考えてください。

- 具体的に人間の行動によってどのような価値が生み出されるか
  - 人間はそこになぜ価値を感じるのか、アブダクションで具体的に仮説立てする
- その価値を妨げる具体的な課題
  - その課題がなぜ発生するか、アブダクションで具体的に仮説立てする

（AIの回答）

【重要な1ステップ】
8. 面談で話した内容を日記に書き留める

【生み出される価値】
- カウンセリングでの気づきを言語化し、自己理解を深められる
- 感情の変化を時系列で振り返ることができ、成長の実感が得られる
- 文字にすることで、混乱した思考が整理される

【価値を感じる理由（仮説）】
人は自分の中の「モヤモヤ」を言語化できたとき、大きな安心感を得る。
これは「説明できないもの」への不安が解消されるため。
また文字として残すことで、自分の心の変化を「証拠」として確認できる安心感がある。

【価値を妨げる課題】
- 書き留める習慣が続かない
- 何を書けばいいのかわからず、表面的な記録で終わってしまう
- 書くことで却って悪い記憶が蘇り、気分が落ち込む

【課題が発生する理由（仮説）】
- 日記を書くという行為に「正しい書き方」を求めすぎてしまう
- 感情を言語化するスキルが未熟で、深い自己理解につながらない
- 否定的な感情と向き合うための心理的安全性が不足している

なんだか思わず頷いてしまいそうな仮説推論をしています。賢い…

【重要な1ステップ】
8. 面談で話した内容を日記に書き留める
（中略）
【価値を妨げる課題】
- 書き留める習慣が続かない
- 何を書けばいいのかわからず、表面的な記録で終わってしまう
- 書くことで却って悪い記憶が蘇り、気分が落ち込む

【課題が発生する理由（仮説）】
- 日記を書くという行為に「正しい書き方」を求めすぎてしまう
- 感情を言語化するスキルが未熟で、深い自己理解につながらない
- 否定的な感情と向き合うための心理的安全性が不足している

課題の仮説推論を抜粋

気のせい？ -> 検証してみる

先に挙げたのは一例ですが、↓の切り替え以前より全体的に質が上がっているように感じました。

このアイデアから Claude 3.5 Sonnet v2
（これまでは Claude 3.5 Sonnet）
— 一生ひらめくクマ (@ai_idea_bot) November 16, 2024

ただ、「新しいほうが優れているだろう」というバイアスによるものかもしれません。気になったので検証してみました。

…非常に長くなったので、結論だけ知りたい方は「まとめ」へどうぞ。

検証の前置き

「妥当性, 多様さ, 独創性, 具体性の観点でスコアリングして定量的に…」などと言いたいところですが、ちょっとした個人開発でそこまでやるのは面倒なのでざくっと定性的に評価します。
逆設定法は優劣を評価しづらいため、仮説推論について確認していきます。
比較するモデルは以下。以降、v1, v2と呼称します。

# Amazon Bedrock
v1: modelId=anthropic.claude-3-5-sonnet-20240620-v1:0
v2: modelId=anthropic.claude-3-5-sonnet-20241022-v2:0

# いずれも Randomness and diversity は default値
temperature: 1, top_p: 0999, top_k: 250

検証1. かんたんなプロンプト編

まずこちらのプロンプトで見ていきます。

# 命令書
カウンセリングにおける重要な課題の1つに
「カウンセリング対象者とカウンセラーとの面談がうまくいかない」というものがあります。

この課題がなぜ発生するか、アブダクションで仮説立てしてください。
仮説は次のフォーマットで5つ考え、端的に出力してください。

# フォーマット
1. {仮説}
2. {仮説}
3. {仮説}
4. {仮説}
5. {仮説}

結果です。それぞれ5回実施しました。

v1

# v1
1. カウンセラーのコミュニケーションスキルが不足している
2. 対象者が心を開くことに抵抗や不安を感じている
3. 環境設定（場所、時間、雰囲気など）が適切でない
4. カウンセラーと対象者の価値観や経験の差が大きすぎる
5. 対象者の問題の本質がカウンセラーの専門領域外である

1. カウンセラーのコミュニケーションスキルが不足している
2. 対象者が心を開くことに抵抗や恐れを感じている
3. カウンセリングの目的や期待が双方で一致していない
4. 環境や時間の制約が適切な面談を妨げている
5. 文化的または個人的な価値観の違いが理解を阻害している

1. カウンセラーの共感力不足
2. 対象者の信頼感の欠如
3. コミュニケーションスタイルの不一致
4. 環境設定の不適切さ
5. 期待値のミスマッチ

1. カウンセラーのコミュニケーションスキルが不足している
2. 対象者が心を開くことに抵抗や恐れを感じている
3. カウンセリングの目的や進め方が対象者に十分に説明されていない
4. カウンセラーと対象者の価値観や文化的背景に大きな違いがある
5. 物理的な環境（部屋の雰囲気、騒音など）が面談に適していない

1. カウンセラーのコミュニケーションスキルが不足している
2. 対象者が心を開くことに抵抗を感じている
3. 環境や雰囲気が対象者にとって快適でない
4. カウンセラーと対象者の価値観や背景が大きく異なる
5. 対象者の期待とカウンセリングの現実にギャップがある

v2

# v2
1. カウンセラーの専門性や経験が対象者の抱える問題と適合していない
2. 対象者が心を開くための信頼関係（ラポール）が十分に構築できていない
3. カウンセリングの目的や進め方について、両者の期待値にズレがある
4. 対象者が他者からの強制や勧めで来談しており、自発的な相談意欲が低い
5. カウンセラーの使用する言語表現や対話スタイルが対象者に合っていない

1. カウンセラーの経験不足により、適切な質問や応答ができていない
2. 対象者が心を開くことへの不安や抵抗感を持っている
3. カウンセラーと対象者の価値観や文化的背景の違いが大きい
4. カウンセリング環境（場所、時間、雰囲気）が対象者にとって快適でない
5. 対象者が自発的ではなく他者に勧められて来談している

1. カウンセラーとクライアントの相性や価値観の不一致により、信頼関係が築けていない
2. クライアントが自身の問題を開示することへの恐れや抵抗感を持っている
3. カウンセラーの専門性や経験が、クライアントの抱える問題に適合していない
4. セッションの目的や期待値がカウンセラーとクライアントの間で共有されていない
5. カウンセラーのコミュニケーションスタイルがクライアントのニーズや心理状態に合っていない

1. カウンセラーの共感力不足により、対象者が心を開けていない
2. 対象者の過去のカウンセリング経験の失敗がトラウマとなり、防衛的になっている
3. カウンセリング環境（部屋の雰囲気、温度、照明等）が対象者にとって快適でない
4. カウンセラーと対象者の価値観やバックグラウンドの違いが大きすぎる
5. 対象者が自発的でなく、他者に勧められて仕方なくカウンセリングを受けている

1. カウンセラーと対象者の価値観や世界観の相違が大きく、共感的理解が困難になっている
2. 対象者が過去のカウンセリング経験や他者との関係性のトラウマにより、信頼関係構築に抵抗がある
3. カウンセラーの専門性や経験が対象者の抱える問題に最適にマッチしていない
4. 面談の物理的環境（時間、場所、空間）が対象者にとって心理的安全性を確保できていない
5. カウンセラーの対応スタイルと対象者の期待するコミュニケーション方法にギャップがある

結論: v2のほうが「より具体的な仮説推論を試みている」傾向

わかりやすい差ですね。

（例）
v1: カウンセラーのコミュニケーションスキルが不足している
v2: カウンセラーの共感力不足により、対象者が心を開けていない

v1: 対象者が心を開くことに抵抗を感じている
v2: 対象者の過去のカウンセリング経験の失敗がトラウマとなり、防衛的になっている

しかし、検証用のプロンプトでは「端的に」と指示していました。これにv1が素直に従っただけかもしれません。

念の為、指示を「端的に」から「具体的に」へ変えたものも見ておきます。

（略）
この課題がなぜ発生するか、アブダクションで仮説立てしてください。
仮説は次のフォーマットで5つ考え、具体的に出力してください。
（略）

v1: 「具体的に」

# v1
1. 
カウンセラーとクライアントの価値観や文化的背景の違いが大きく、
互いの理解が困難になっている。

2. 
クライアントが過去のネガティブな経験から、
カウンセリングや権威的な立場の人に対して不信感や抵抗感を持っている。

3. 
カウンセラーのコミュニケーションスキルや共感能力が不足しており、
クライアントの真のニーズや感情を適切に把握できていない。

4. 
クライアントが自身の問題や感情を言語化することに困難を感じており、
効果的な自己表現ができていない。

5. 
カウンセリングの目的や進め方についての事前の説明が不十分で、
クライアントが面談の意義や自身の役割を十分に理解できていない。

v2: 「具体的に」

# v2
1. 
カウンセラーの傾聴スキルが不足しており、
対象者の発言の背景にある感情や本質的な問題を十分に理解できていないため、
適切な応答やサポートができていない。

2. 
カウンセリング対象者が過去の否定的な経験から、
他者への不信感や心理的防衛機制が強く働いており、
自己開示や信頼関係の構築が困難になっている。

3. 
カウンセラーと対象者の価値観や文化的背景の違いにより、
互いの考え方や行動の解釈にずれが生じ、
共感的理解が十分に得られていない。

4. 
カウンセリングの目的や進め方について、
カウンセラーと対象者の間で明確な合意形成ができておらず、
期待値のミスマッチが生じている。

5. 
カウンセリング環境（時間、場所、頻度など）が対象者のニーズや状況に適合しておらず、
心理的安全性が確保できていないため、
効果的な対話が阻害されている。

引き続き、v2のほうが「より具体的な仮説推論を試みている」傾向が見られました。これを結論とします。

検証2. 複雑なプロンプト編

次に、「会話履歴を含む、それなりに複雑なプロンプト」で見てみます。

（会話履歴: 私の指示 ※かなり省略しています。ここは本筋ではないため。）

「カウンセリング」の架空の具体例を考え、人間の行動の流れを箇条書きで整理してください。

（会話履歴: AIの回答）

30代女性Aさん。夫婦仲が悪化し離婚を考えているが、子どもへの影響を心配して決断できない状況。
不眠や食欲不振の症状も出始めている。
【行動の流れ】
1. SNSで夫婦関係の悩みを検索
2. カウンセリング機関のWebサイトを見つける
3. 無料相談フォームに連絡先を入力
4. 電話で初回予約を取る
5. カウンセリング当日、待合室で問診票を記入
6. カウンセラーと50分間の面談
7. 次回の予約を取って帰宅
8. 面談で話した内容を日記に書き留める
9. 次の面談までの2週間、自分の感情を観察
10. 定期的な面談を継続しながら、徐々に気持ちの整理を進める

（私の指示）
あなたは課題設定力の高い凄いAIです。世の中の誰も気づいていない課題を見出します。

# 命令書
人間の行動のうち、特に本質的な価値につながる重要な1ステップを選んでください。
その後、次のことを考えてください。

- 具体的に人間の行動によってどのような価値が生み出されるか
  - 人間はそこになぜ価値を感じるのか、アブダクションで仮説立てしてください
- その価値を妨げる具体的な課題
  - その課題がなぜ発生するか、アブダクションで仮説立てしてください

# 出力フォーマット
【重要な1ステップ】
{重要な1ステップ}

なぜ重要か: {なぜ重要か}

【生み出される価値と、価値を感じる理由(仮説)】
- {生み出される価値1}
  - 理由(仮説): {理由1}
- {生み出される価値2}
  - 理由(仮説): {理由2}
- {生み出される価値3}
  - 理由(仮説): {理由3}

【価値を妨げる課題と、課題が発生する理由(仮説)】
- {価値を妨げる課題1}
  - 理由(仮説): {理由1}
- {価値を妨げる課題2}
  - 理由(仮説): {理由2}
- {価値を妨げる課題3}
  - 理由(仮説): {理由3}

予想外の結果: v1 ⇔ v2で結果に大きな差異がある

10回中9回程、下記の結果でした。明らかに出力が異なります。

v1: 「6. カウンセラーと50分間の面談」
v2: 「8. 面談で話した内容を日記に書き留める」

もはや単純に比較できないため、1回分の結果のみ参考として掲載します。

# v1
【重要な1ステップ】
6. カウンセラーと50分間の面談
なぜ重要か: 
この面談が、問題解決への第一歩であり、自己理解と変化の機会を提供するため。

【生み出される価値と、価値を感じる理由(仮説)】
- 客観的な視点の獲得
  - 理由(仮説): 自分では気づかない問題の側面を専門家に指摘されることで、新たな気づきを得られるから。
- 感情の整理と言語化
  - 理由(仮説): 混沌とした感情を言葉にすることで、自己の内面を理解し、問題を具体化できるから。
- 安全な環境での自己開示
  - 理由(仮説): 守秘義務のある専門家との対話で、普段は言えない本音を表現できる安心感があるから。

【価値を妨げる課題と、課題が発生する理由(仮説)】
- カウンセラーとの信頼関係構築の難しさ
  - 理由(仮説): 初対面の人に深い悩みを打ち明けることへの抵抗感や不安があるため。
- 50分という時間制限による不完全燃焼
  - 理由(仮説): 複雑な問題を限られた時間で話し切れず、中途半端な状態で終わってしまう可能性があるため。
- 言語化の難しさによるコミュニケーションの壁
  - 理由(仮説): 感情や経験を適切な言葉で表現することが苦手な人にとって、効果的な対話が困難になるため。

# v2
【重要な1ステップ】
8. 面談で話した内容を日記に書き留める
なぜ重要か: 
カウンセリングの本質は「自己理解の深化」にあり、
面談内容の言語化・記録は気づきを定着させる重要な機会となるため

【生み出される価値と、価値を感じる理由(仮説)】
- 感情の整理と明確化
  - 理由(仮説): 言語化することで漠然とした感情が具体的になり、自己理解が進むため
- 気づきの定着
  - 理由(仮説): 記録により面談での発見が記憶に残り、行動変容につながりやすくなるため
- 変化の可視化
  - 理由(仮説): 記録を振り返ることで自身の心理的変化を実感でき、前向きな気持ちになれるため

【価値を妨げる課題と、課題が発生する理由(仮説)】
- 書き留める習慣が続かない
  - 理由(仮説): 精神的に疲れている状態で更なる負担を感じるため
- 書き方がわからない
  - 理由(仮説): 感情を言語化する経験が少なく、適切な表現方法がわからないため
- 記録を見返すのが怖い
  - 理由(仮説): ネガティブな感情を再体験することへの不安があるため

どちらが良いとも言えない違いです。

v2のほうが良く言えば「独創性の高い回答」、悪く言えば「ひねくれた回答」をしているように思います。

そのため、「以下の指示がv2の結果に影響を与えている＝v2のほうが意図を汲み取っている」という仮説を考えましたが、疲れたのでこの辺で終わります。

あなたは課題設定力の高い凄いAIです。世の中の誰も気づいていない課題を見出します。

まとめ

Claude 3.5 Sonnet v2 と v1 では明らかな差異がありました。

仮説推論タスクでは、v2のほうが「より具体的」な傾向があった

（例: カウンセリングにおける課題の仮説推論）
v1: カウンセラーのコミュニケーションスキルが不足している
v2: カウンセラーの共感力不足により、対象者が心を開けていない

v1: 対象者が心を開くことに抵抗を感じている
v2: 対象者の過去のカウンセリング経験の失敗がトラウマとなり、防衛的になっている

より複雑なタスクでは、出力が大きく異なった

（例: カウンセリングにおける重要な1ステップを選ぶ）
〜〜略〜〜
6. カウンセラーと50分間の面談
7. 次回の予約を取って帰宅
8. 面談で話した内容を日記に書き留める
〜〜略〜〜

v1: 「6. カウンセラーと50分間の面談」
v2: 「8. 面談で話した内容を日記に書き留める」

※「v2のほうがプロンプトに忠実」という可能性を考えたが、未検証。

おわりに

Anthropic API, AWS Bedrock, GCP Vertex AI などで Claude 3.5 Sonnet の利用を検討されている方、無印から v2 へのVerUpを検討されている方の参考になれば幸いです。