ログイン
会員登録
オンポリシーデータ
書いてみる
関連タグ
#LLM (7,272)
#サブオプティマルデータ (1)
#データセット (911)
#プリファレンスファインチューニング (1)
#モデル (16,168)
#使用 (4,765)
人気
急上昇
新着
定番
有料のみ
1件
人気の記事一覧
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data
Ikemen Mas Kot
9か月前