人気の記事一覧

OpenAI o1再現モデルまとめ(2024年12月時点)

2か月前

OpenAI o1はどう作るのか(詳細編)

5か月前

【4コマ】ChatGPTのファインチューニング #260

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

10か月前

報酬モデルは因果関係ではなく一貫性を識別する

RewardBench: Evaluating Reward Models for Language Modeling

8か月前