ログイン
会員登録
リワードモデル
書いてみる
関連タグ
#DPO (15)
#RLHF (60)
#meta (2,271)
#アノテーション (184)
#アノテーター (4)
#ディープラーニング (6,493)
人気
急上昇
新着
すべての記事
有料の記事
2件
人気の記事一覧
論文解説:「Help Steer to Preference: Complementing Ratings with Preferences」
Kawamura Akihiro
4か月前
1
論文解説:LLMのペアワイズ評価を自動化するLLMの自動精度向上手法(人間アノテーター不要)「Self-Taught Evaluators」
¥100〜
割引あり
a16mixx
6か月前
1