ログイン
会員登録
評価ベンチマーク
書いてみる
関連タグ
#モデル (17,053)
#言語モデル (303)
#幻覚 (1,665)
#評価 (23,672)
#IFEval (1)
#LLMs (277)
人気
急上昇
新着
すべての記事
有料の記事
8件
人気の記事一覧
AIの記憶力を試す-MultiChallenge:自己一貫性を問う対話の新ベンチマーク
らみ|AI×心理×ビジネス:エンジニア志望
2週間前
2
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
Ikemen Mas Kot
8か月前
Scenarios and Approaches for Situated Natural Language Explanations
Ikemen Mas Kot
8か月前
HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models
Ikemen Mas Kot
8か月前
SimPO: Simple Preference Optimization with a Reference-Free Reward
Ikemen Mas Kot
9か月前
Hallucination of Multimodal Large Language Models: A Survey
Ikemen Mas Kot
9か月前
Instruction-Following Evaluation for Large Language Models
Ikemen Mas Kot
10か月前
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
Ikemen Mas Kot
1年前