Claude 3.7 Sonnetノ解説

2025年2月25日 10:54

機動戦士Gundam GQuuuuuuXで脳を焼かれてる中
サラッとやってきたClaude最新版ってことで
以下の2点が主な内容
①一目でわかる3.5と3.7の比較表
②3.7 Sonnetの改善点

※以下の内容は3.7 Sonnetに直接聞いた情報を基にしていますが
Anthropicが公式に発表したものではないのであくまで参考程度で

①一目でわかる3.5と3.7の比較表

②3.7 Sonnetの改善点

推論能力の向上
言語理解の深化
多言語能力の拡張
知識の更新：知識カットオフが2023年から2024年10月末に延長
文脈処理能力の向上：長い会話やドキュメントの文脈維持と一貫性確保
コード生成と分析の強化：プログラミング関連タスクでの精度と効率向上
指示理解の精度向上：ユーザー意図の正確な把握と指示への忠実な対応

実現技術

モデルアーキテクチャの最適化
多様なデータセットでのトレーニング
人間のフィードバックを取り入れた強化学習（RLHF）の発展

強化学習（RLHF）とは？

RLHF（Reinforcement Learning from Human Feedback）は
「強化学習からヒューマンフィードバック」と訳され、
人間のフィードバックを報酬信号として用いる強化学習。

人間の評価を報酬として使うことで、
AIシステムを人間の価値観に沿うよう調整する事