人気の記事一覧

SimPO: Simple Preference Optimization with a Reference-Free Reward

8か月前