YANS2024にて、「LLMと音声基盤モデルを組み合わせた新しいマルチモーダルLLM」について発表しました
SpiralAIはこの度、YANS2024にて、LLMと音声基盤モデルを組み合わせた新しいマルチモーダルLLMについて発表を実施いたしました。
今回は発表者の小峠陸登より、発表内容についてのレポートをお届けします。
発表者プロフィール:小峠陸登
背景
SpiralAIでは、野々村真氏のAIやオリジナルキャラクターククリさまをはじめとした、音声対話システムの開発に取り組んでいます。
従来の音声対話システムは、音声をテキストに変換してLLMに入力し、その結果を基に応答を生成します。 しかし、このアプローチでは音声の持つ非言語的な情報、例えば声のトーン、抑揚、声色などが失われるという課題があります。
そこで、SpiralAIでは音声入力可能なマルチモーダルLLMによる音声対話に取り組んでいます。 マルチモーダルLLMは、音声情報を直接LLMに入力することで、テキスト情報以外の音声情報も含めたより自然な応答を生成することを可能にする技術です。
このアプローチにより、より人間に近い、自然なコミュニケーションの実現を目指しています。
このようなマルチモーダルLLMの実現のための技術的な課題の1つは学習コストの高さです。 既存の音声認識モデルの学習には数万時間以上のデータが必要であり、LLM全体のファインチューニングのためには大量の計算資源が必要になります。 本研究ではこのような「学習コスト」を抑えて、音声入力可能なマルチモーダルLLMの実現を目的としています。
提案手法
事前学習済みの音声基盤モデルをLLMの音声入力のためのエンコーダとして使用します。
LLMと音声エンコーダーの間に2層のMLPプロジェクターを追加して接続しています。 LLMと音声エンコーダーは学習パラメータを固定した上で、MLPプロジェクターのみ学習することでを大幅に削減しています。
また、事前学習済みの基盤モデルを活用することで、必要な学習データ量も大幅に削減しています。 LoRA(Low-Rank Adaptation)アダプターを追加した評価も行っています。
実験と評価
実験では音声認識を行い、評価指標としてのCER(文字誤り率)とWER(単語誤り率)を用いて、既存手法と比較しました。
提案手法の学習パラメータを19M(MLPプロジェクター: 15M + LoRA: 4M)であり、学習データ量は約1000時間です。
提案手法では、学習パラメータ数、データ量を大幅に削減しながら、最先端の既存手法と同程度の日本語音声認識をマルチモーダルLLMで実現したことを示しました。
発表振り返りと今後の取り組み
ポスターセッションでは、オリジナルキャラクターククリさまの会話データで学習させたマルチモーダルの対話モデルも展示しました。
提案手法の内容や今後の取り組みについて、YANS参加者のみなさまと議論することができました。
今回は音声認識で評価しましたが、現在、感情や会話の「間」を理解可能にするためのデータセット作成・結果の評価などに取り組んでいます。
SpiralAIでは今後も、より人間に近い、自然なコミュニケーションの実現を目指して音声言語処理の研究開発を行なっていきます。
会社概要
社名 SpiralAI株式会社 / SpiralAI Inc.
事業内容 大規模言語モデルをはじめとした生成系AI技術を用いたサービスの開発
役員 代表取締役 CEO 佐々木雄一
所在地 〒101-0041東京都千代田区神田須田町2丁目1番地1 MA SQUARE AKIHABARA 6階
設立 2023年3月1日
会社URL https://go-spiral.ai/
採用ページ https://go-spiral.ai/top/recruit/