「#PPO」の人気タグ記事一覧｜note ――つくる、つながる、とどける。

【OpenAI、食われる？】DeepSeek-R1がすごすぎる！✨強化学習＋思考プロセス付きの推論力がすごいLLMが登場！OpenAIより90%も安いのに高性能😍料金体系や使い方まで徹底解説💖

葉加瀬あい (AI-Hakase)🎈動画&Note でAI解説🎥https://x.gd/F2Mvl

4週間前

67

OpenAI o1はどう作るのか（詳細編）

5か月前

59

アメリカの医療システム＿患者目線

3週間前

1

AIで犯罪をシミュレート！？強化学習がひらく新たな犯罪予測モデルの可能性

マチノレポジトリ

1か月前

4

Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs

9か月前

1

Gymで強化学習

澁谷直樹 @ キカベン

1か月前

1

Gymで強化学習㊽PPO:理論編

澁谷直樹 @ キカベン

1年前

1

Gymで強化学習㊼TRPO:理論編

澁谷直樹 @ キカベン

1年前

1

檜原ステージ前、調整週

1年前

1

言語AIの進化史㉑ChatGPT（人間のフィードバックによる強化学習）

澁谷直樹 @ キカベン

4週間前

A2C is a special case of PPO

9か月前

De novo drug design as GPT language modeling: large chemistry models with supervised and reinforcement learning

10か月前

Don't throw away your value model! Generating more preferable text with Value-Guided Monte-Carlo Tree Search decoding

10か月前

Gymで強化学習㊾PPO:実践編

澁谷直樹 @ キカベン

1年前

PPO カーネギーホール公演Send-off Concert

8年前