ログイン
会員登録
PPO
書いてみる
関連タグ
#強化学習 (788)
#AI (337,741)
#LLM (6,998)
#RLHF (55)
#TRPO (2)
#研究 (39,561)
人気
急上昇
新着
定番
有料のみ
11件
人気の記事一覧
OpenAI o1はどう作るのか(詳細編)
はち
4か月前
59
AIで犯罪をシミュレート!? 強化学習がひらく新たな犯罪予測モデルの可能性
マチノレポジトリ
5日前
2
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs
Ikemen Mas Kot
8か月前
1
檜原ステージ前、調整週
Tomo TNK
1年前
1
A2C is a special case of PPO
Ikemen Mas Kot
8か月前
De novo drug design as GPT language modeling: large chemistry models with supervised and reinforcement learning
Ikemen Mas Kot
9か月前
Don't throw away your value model! Generating more preferable text with Value-Guided Monte-Carlo Tree Search decoding
Ikemen Mas Kot
9か月前
Gymで強化学習㊾PPO:実践編
澁谷直樹 @ キカベン
1年前
Gymで強化学習㊽PPO:理論編
澁谷直樹 @ キカベン
1年前
1
Gymで強化学習㊼TRPO:理論編
澁谷直樹 @ キカベン
1年前
1
PPO カーネギーホール公演Send-off Concert
南国日記
8年前