ログイン
会員登録
ベンチマークデータセット
書いてみる
関連タグ
#タスク (7,279)
#モデル (14,210)
#大規模言語モデル (2,462)
#自然言語処理 (2,361)
#評価 (19,934)
#31373D (1)
人気
急上昇
新着
定番
有料のみ
6件
人気の記事一覧
SVGEditBench: A Benchmark Dataset for Quantitative Assessment of LLM's SVG Editing Capabilities
Ikemen Mas Kot
6か月前
1
SECURE: Benchmarking Generative Large Language Models for Cybersecurity Advisory
Ikemen Mas Kot
4か月前
Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset
Ikemen Mas Kot
5か月前
Building a Large Japanese Web Corpus for Large Language Models
Ikemen Mas Kot
5か月前
MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries
Ikemen Mas Kot
8か月前
K-QA: A Real-World Medical Q&A Benchmark
Ikemen Mas Kot
8か月前