「#報酬モデル」の人気タグ記事一覧｜note ――つくる、つながる、とどける。

OpenAI o1再現モデルまとめ（2024年12月時点）

2か月前

77

OpenAI o1はどう作るのか（詳細編）

5か月前

59

【4コマ】ChatGPTのファインチューニング　#260

なごみ@まいにち４コマ

4か月前

12

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

10か月前

1

報酬モデルは因果関係ではなく一貫性を識別する

らみ｜AI×心理×ビジネス：エンジニア志望

19時間前

RewardBench: Evaluating Reward Models for Language Modeling

8か月前