人気の記事一覧

【論文瞬読】MMLU-Pro: 大規模言語モデルの真の能力を引き出す革新的なベンチマーク

7か月前

AIの知能指数を測る?! MMLUで明らかになるAIの得意不得意

MMLUデータセットとは何か: LLMの性能測定

GPT-4も苦戦!? 最新LLMベンチマーク「MMLU-Pro」についてまとめ

Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference

8か月前

Google、マルチモーダル生成AIモデル「Gemini」リリース

Air Street Capital社のState Of AI Report 2023を読む(4)

各基盤モデル性能比較(o1, Gemini 2.0 Flash, Claude 3.5 Sonnet, Llama 3.3)

LLMのキャリブレーション:"logprob"の値が高ければ結果を信頼できるのか?

AIは、何に対して祈るのだろう?おかわり ( What does AI pray for ? Second , )