マガジンのカバー画像

Data

55
運営しているクリエイター

2024年4月の記事一覧

llm-jp-evalの中身を見てみる

llm-jp-evalの中身を見てみる

llm-jp-evalが対応している8つのカテゴリ

自然言語推論(Natural Language Inference, NLI)
- Jamp, JaNLI, JNLI, JSeM, JSICK

質問応答(Question Answering, QA)
- JEMHopQA, NIILC

読解力(Reading Comprehension, RC)
- JSQuAD

多肢選択問題(Mul

もっとみる
JAT (Jack of All Trades) の概要

JAT (Jack of All Trades) の概要

以下の記事が面白かったので、簡単にまとめました。

1. JAT (Jack of All Trades)「JAT」 (Jack of All Trades) は、ジェネラリストエージェントの推進を目的とするプロジェクトです。このプロジェクトは、視覚と言語 (vision-and-language) のタスクと意思決定 (decision-making) のタスクの両方を実行できるTransfor

もっとみる

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き



はじめに最近は大規模言語モデルを作っています。

来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では、かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。

スライド、コード、データなどスライドはこちら

コードはこちら(工事中の箇所がちょくちょくあります)

データは、プロ

もっとみる
LLM評価データセット概観

LLM評価データセット概観

研究開発本部 海老原樹

はじめにこのような記事を書くときは、最近では ChatGPT をはじめとした大規模言語モデル(Large Language Model: LLM) の力を大いに借りています。真面目な評価をしなくても、文章力において私はChatGPTに白旗を挙げています。。。
ただ、どのLLMを使うかを決めるときには、LLMの性能を調べる必要があります。特に自分でLLMを開発するときはLL

もっとみる