![見出し画像](https://assets.st-note.com/production/uploads/images/171413443/rectangle_large_type_2_3c08ce930f331537516aacffdad15cd5.png?width=1200)
J-Moshi を試す
tl;dr
J-Moshi は日本語の Speech to Speech モデルだよ
Kyutai Labs の Moshi をベースに日本語で追加学習したモデルだよ
日本人と雑に会話している感じが体験できるよ
相槌が多く深い話は期待できない印象(パラメータ数を考えると仕方ない)
VRAM 24GB 以上が必要で macOS は非対応だよ
Google Colab の L4 GPU で動作確認したよ(T4 では OOM)
Google Colab で試す時は --gradio-tunnel オプションに気をつけてね
日本語リアルタイム音声対話モデルJ-Moshiを公開しました!@kyutai_labs のMoshiをベースとし、人間のように「話す🗣️」と「聞く🎧」を同時に行います。
— Atsumoto Ohashi (@atsumoto_ohashi) January 24, 2025
日本語で利用可能な初めてのモデルです。
モデルサイズは7Bと軽量なのでぜひお試しください‼️#NLP2025 で発表予定です。https://t.co/t2EKifkO46 pic.twitter.com/EOBSqQER4F
簡単に LLM 要約&手直し。
J-Moshi は、英語の full-duplex 音声対話システム Moshi を基に開発された日本語初のシステムで、対話のオーバーラップや相槌といった同時双方向的な特徴をモデル化
Moshi の技術を応用し、大規模な日本語音声対話データで学習した J-Moshi と、さらに合成音声データで拡張学習した J-Moshi-ext を開発
J-Moshi-ext は、音声合成による拡張データで学習されており、デモ動画ではこのモデルが使用されている
対話継続のデモでは、10 秒のプロンプト音声から、Re-synthesis、dGSLM、J-Moshi、J-Moshi-ext の各モデルが 20 秒の対話音声を生成し、その性能を比較
Re-synthesis は実際の対話音声を Moshi の音声トークナイザで再合成、dGSLM は大規模な日本語音声対話データで学習されたモデル
J-Moshi は Moshi をベースに日本語データで学習、J-Moshi-ext はさらに Multi-stream TTS による合成データで学習
J-Moshi の開発は JST ムーンショット型研究開発事業の支援を受け、雑談・相談対話コーパスは株式会社アイシンとの共同研究で構築
名古屋大学のスーパーコンピュータ「不老」を利用
Moshi の技術詳細や Multi-stream TTS については、公式テクニカルペーパーの Appendix C を参照とのこと
本研究は、日本語における full-duplex 音声対話システムの開発における知見の不足を補うことを目指している
デモページにたくさん例が載っていますが、楽しいですね!いい感じに相槌で会話に乗っかってくる感じが新しい体験です!
J-Moshi を動かしてみる
何はともあれ早速動かしてみましょう。
実行には,24GB以上のVRAMを搭載したLinux GPUマシンが必要です.MacOSには対応していません.
Google Colab のサブスクリプションプランで利用可能な L4 GPU にて動作確認をしています。
最初は Mac で動作確認をしようとしたのですが、moshi server 側の動作に CUDA が必須でした。また、想定はしていたのですが、念の為 Google Colab の T4 で動かないか確認したのですが、7B を超えるモデルですので Out of Memory になりました。ご注意ください。
リポジトリには下記のように案内があります。
pip install moshi
python -m moshi.server --hf-repo nu-dialogue/j-moshi-ext
ただし、Google Colab を含むリモートサーバで動かすためには moshi server の --gradio-tunnel オプションが必要でした。
したがって、下記のコードを Google Colab L4 環境で実行しました。
!pip install moshi gradio
!python -m moshi.server --hf-repo nu-dialogue/j-moshi-ext --gradio-tunnel
初回は 15.4GB のモデルをダウンロードするため少し時間がかかります。
補足
こちら
— あるふ (@alfredplpl) January 24, 2025
!pip install hf-transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
をつけると早くなります。 https://t.co/Mr7OJPSAq6
あるふさんにダウンロード時間の高速化について教えていただきました。感謝。こちらを使うのであれば下記のように記載をしてください。
!pip install moshi gradio hf-transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
!python -m moshi.server --hf-repo nu-dialogue/j-moshi-ext --gradio-tunnel
発行された Gradio Web UI のリンクを開くと Moshi の画面が表示されます。
![](https://assets.st-note.com/img/1737700140-SNqOfWdnaHYsLjKTFXleCv32.png?width=1200)
「Connect」を押しましょう。こちらから何かしら話しかけてみると答えてくれます。めっちゃグイグイ話してくるので、内容はあまりないのですが話していて楽しいです笑
J-Moshi めっちゃおもしろいwww pic.twitter.com/qOPqzuzoZl
— ぬこぬこ (@schroneko) January 24, 2025
素晴らしいモデルの公開に感謝です!以上となります。