- 運営しているクリエイター
2024年4月の記事一覧
400GB程度の清掃済み日本語コーパスを作るまでのメモ書き
はじめに最近は大規模言語モデルを作っています。
来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では、かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。
スライド、コード、データなどスライドはこちら
コードはこちら(工事中の箇所がちょくちょくあります)
データは、プロ
LLM評価データセット概観
研究開発本部 海老原樹
はじめにこのような記事を書くときは、最近では ChatGPT をはじめとした大規模言語モデル(Large Language Model: LLM) の力を大いに借りています。真面目な評価をしなくても、文章力において私はChatGPTに白旗を挙げています。。。
ただ、どのLLMを使うかを決めるときには、LLMの性能を調べる必要があります。特に自分でLLMを開発するときはLL