ログイン
会員登録
評価ベンチマーク
書いてみる
関連タグ
#モデル (16,168)
#言語モデル (299)
#幻覚 (1,660)
#評価 (22,724)
#IFEval (1)
#LLMs (269)
人気
急上昇
新着
定番
有料のみ
7件
人気の記事一覧
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
Ikemen Mas Kot
7か月前
Scenarios and Approaches for Situated Natural Language Explanations
Ikemen Mas Kot
7か月前
HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models
Ikemen Mas Kot
8か月前
SimPO: Simple Preference Optimization with a Reference-Free Reward
Ikemen Mas Kot
8か月前
Hallucination of Multimodal Large Language Models: A Survey
Ikemen Mas Kot
8か月前
Instruction-Following Evaluation for Large Language Models
Ikemen Mas Kot
9か月前
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
Ikemen Mas Kot
1年前