「#評価ベンチマーク」の人気タグ記事一覧｜note ――つくる、つながる、とどける。

AIの記憶力を試す-MultiChallenge:自己一貫性を問う対話の新ベンチマーク

らみ｜AI×心理×ビジネス：エンジニア志望

2週間前

2

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

8か月前

Scenarios and Approaches for Situated Natural Language Explanations

8か月前

HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

8か月前

SimPO: Simple Preference Optimization with a Reference-Free Reward

9か月前

Hallucination of Multimodal Large Language Models: A Survey

9か月前

Instruction-Following Evaluation for Large Language Models

10か月前

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

1年前