ログイン
会員登録
WILDBENCH
書いてみる
関連タグ
#オープンエンド生成 (2)
#タスク (7,532)
#ベンチマーク (445)
#モデル (14,485)
#実世界データ (3)
#言語モデル (281)
人気
急上昇
新着
定番
有料のみ
1件
人気の記事一覧
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
Ikemen Mas Kot
5か月前