見出し画像

Claude 3.7 Sonnetノ解説

gMS-α赤いガンダム
カックイイ

機動戦士Gundam GQuuuuuuXで脳を焼かれてる中
サラッとやってきたClaude最新版ってことで
以下の2点が主な内容
①一目でわかる3.5と3.7の比較表
②3.7 Sonnetの改善点

※以下の内容は3.7 Sonnetに直接聞いた情報を基にしていますが
Anthropicが公式に発表したものではないのであくまで参考程度で




①一目でわかる3.5と3.7の比較表



②3.7 Sonnetの改善点

  1. 推論能力の向上

  2. 言語理解の深化

  3. 多言語能力の拡張

  4. 知識の更新:知識カットオフが2023年から2024年10月末に延長

  5. 文脈処理能力の向上:長い会話やドキュメントの文脈維持と一貫性確保

  6. コード生成と分析の強化:プログラミング関連タスクでの精度と効率向上

  7. 指示理解の精度向上:ユーザー意図の正確な把握と指示への忠実な対応

実現技術

  • モデルアーキテクチャの最適化

  • 多様なデータセットでのトレーニング

  • 人間のフィードバックを取り入れた強化学習(RLHF)の発展


強化学習(RLHF)とは?

RLHF(Reinforcement Learning from Human Feedback)は
「強化学習からヒューマンフィードバック」と訳され、
人間のフィードバックを報酬信号として用いる強化学習。

人間の評価を報酬として使うことで、
AIシステムを人間の価値観に沿うよう調整する事


いいなと思ったら応援しよう!