ログイン
会員登録
DPOアルゴリズム
書いてみる
関連タグ
#RLHF (53)
#トークン (4,205)
#トークンレベルMDP (1)
#ブラッドリーテリー嗜好モデル (1)
#モデル (14,831)
#人間 (74,167)
人気
急上昇
新着
定番
有料のみ
1件
人気の記事一覧
From r to Q∗: Your Language Model is Secretly a Q-Function
Ikemen Mas Kot
7か月前