ログイン
会員登録
PPO
書いてみる
関連タグ
#強化学習 (842)
#AI (350,511)
#AI研究 (176)
#LLM (7,822)
#RLHF (59)
#ディープラーニング (6,439)
人気
急上昇
新着
すべての記事
有料の記事
15件
人気の記事一覧
再生
【OpenAI、食われる?】DeepSeek-R1がすごすぎる!✨強化学習+思考プロセス付きの推論力がすごいLLMが登場!OpenAIより90%も安いのに高性能😍料金体系や使い方まで徹底解説💖
葉加瀬あい (AI-Hakase)🎈動画&Note でAI解説🎥https://x.gd/F2Mvl
4週間前
67
OpenAI o1はどう作るのか(詳細編)
はち
5か月前
59
アメリカの医療システム_患者目線
limonata
3週間前
1
AIで犯罪をシミュレート!? 強化学習がひらく新たな犯罪予測モデルの可能性
マチノレポジトリ
1か月前
4
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs
Ikemen Mas Kot
9か月前
1
Gymで強化学習
澁谷直樹 @ キカベン
1か月前
1
Gymで強化学習㊽PPO:理論編
澁谷直樹 @ キカベン
1年前
1
Gymで強化学習㊼TRPO:理論編
澁谷直樹 @ キカベン
1年前
1
檜原ステージ前、調整週
Tomo TNK
1年前
1
言語AIの進化史㉑ChatGPT(人間のフィードバックによる強化学習)
澁谷直樹 @ キカベン
4週間前
A2C is a special case of PPO
Ikemen Mas Kot
9か月前
De novo drug design as GPT language modeling: large chemistry models with supervised and reinforcement learning
Ikemen Mas Kot
10か月前
Don't throw away your value model! Generating more preferable text with Value-Guided Monte-Carlo Tree Search decoding
Ikemen Mas Kot
10か月前
Gymで強化学習㊾PPO:実践編
澁谷直樹 @ キカベン
1年前
PPO カーネギーホール公演Send-off Concert
南国日記
8年前