ログイン
会員登録
ベンチマークデータセット
書いてみる
関連タグ
#タスク (8,570)
#モデル (16,091)
#大規模言語モデル (2,792)
#自然言語処理 (2,513)
#評価 (22,657)
#31373D (1)
人気
急上昇
新着
定番
有料のみ
7件
人気の記事一覧
SVGEditBench: A Benchmark Dataset for Quantitative Assessment of LLM's SVG Editing Capabilities
Ikemen Mas Kot
9か月前
1
【論文要約:自動運転関連】ROAD-Waymo: Action Awareness at Scale for Autonomous Driving
george
1か月前
SECURE: Benchmarking Generative Large Language Models for Cybersecurity Advisory
Ikemen Mas Kot
7か月前
Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset
Ikemen Mas Kot
8か月前
Building a Large Japanese Web Corpus for Large Language Models
Ikemen Mas Kot
8か月前
MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries
Ikemen Mas Kot
1年前
K-QA: A Real-World Medical Q&A Benchmark
Ikemen Mas Kot
1年前