ログイン
会員登録
人間のフィードバック
書いてみる
関連タグ
#モデル (16,191)
#データセット (911)
#研究 (40,045)
#LLM (7,300)
#PPO (15)
#RAFT (62)
人気
急上昇
新着
定番
有料のみ
3件
人気の記事一覧
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs
Ikemen Mas Kot
8か月前
1
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment
Ikemen Mas Kot
9か月前
1
Constitutional AI: Harmlessness from AI Feedback
Ikemen Mas Kot
8か月前