
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
突如、GPT-4oを超えるかもしれない「Moshi」が発表されたため、デモ動画の内容を整理しました。
Unveiling of Moshi: the first voice-enabled AI openly accessible to all.
0.はじめに-記事全体像
本記事は、「Perplexity」を利用して整理しています。
また、「Claude 3.5 Sonnet」で本記事の内容をPDFスライド化を、
「Napkin AI」で図表作成をしています。
1. Kyutaiの紹介とMoshiの概要
KyutaiのCEO、Patrickが非営利の研究所であるKyutaiについて紹介。Kyutaiは人工知能の新しい基盤モデルを研究し、全ての人々の利益のために共有することが目的。Kyutaiのミッションは「AIをより良い未来のために活用すること」。
過去6ヶ月間、Kyutaiのチームは「Moshi」と呼ばれるリアルタイムの音声AIの開発に注力。Moshiは、人間とAIのコミュニケーション方法を変革する可能性を持つ実験的なプロトタイプ。
Moshiの主な特徴:
リアルタイムの音声対話が可能:より自然なコミュニケーションを実現。
感情や話し方のスタイルを理解し表現できる:ユーザーの感情や話し方のスタイルに応じた応答が可能。
テキストだけでなく、音声を通じてパラ言語的なコミュニケーションが可能:感情やニュアンスを音声で伝達。
160ミリ秒という理論上の低レイテンシーを実現:リアルタイムの対話を可能に。
オンラインだけでなく、デバイス上でも動作可能:インターネット接続がなくても利用可能。

Patrickは、Moshiがアクセシビリティの向上など、様々な応用可能性を持っていることを強調。例えば、視覚障害者や聴覚障害者のための支援ツールとしての利用が考えられる。
2. Moshiの技術的背景
従来の音声AIとは異なるアプローチで開発。従来の音声AIの制限:
複雑なパイプラインによる3〜5秒のレイテンシー
テキストを介することによる非言語情報の損失
Kyutaiのアプローチ:複雑なパイプラインを単一のディープニューラルネットワークに統合。処理が効率化され、レイテンシーが大幅に削減。
Moshiの開発プロセス:
大規模な言語モデル(ELOM)の訓練:テキストデータを使用。
テキストデータと音声データの混合による共同事前訓練
合成対話データを用いたファインチューニング
一貫した音声を与えるための音声アーティストの録音データの使用

このアプローチにより、Moshiはテキストから音声への知識転移が可能になり、より自然な対話を実現。
3. Moshiの主要な機能
マルチモダリティ:音声の理解と生成、同時にテキスト生成も可能。
マルチストリーム:常に話すことと聞くことの両方が可能。
感情と話し方のスタイルの表現:70以上の異なる感情や話し方のスタイルをサポート。
低レイテンシー:理論上160ミリ秒、実測で200〜240ミリ秒を実現。
オンデバイス実行:標準的なラップトップ上でインターネット接続なしで動作可能。
4. Moshiの圧縮と効率化
使用技術:
モデルの重みと会話履歴の圧縮:量子化などの最先端の圧縮技術を使用。
マルチモーダルモデルの最適化:テキストと音声のモダリティの挙動の違いを考慮。
得られた利点:
モデルサイズを2〜4倍小さくすることが可能
ラップトップ上でインターネット接続なしで実行可能
より長い会話が可能
モデルの実行速度が向上し、全体的なレイテンシーが改善

5. Moshiのデモンストレーション
基本的な対話:自己紹介や一般的な質問への応答。
知識ベースの対話:オープンソースソフトウェアやエベレスト登山に関する質問に回答。
ロールプレイ:宇宙船エンタープライズのクルーとしてのロールプレイを実施。
感情と話し方のスタイルの変更:フランス語なまりでの詩の朗読、海賊としての話し方、ささやき声での物語の語りなどを実演。
オンデバイス実行:インターネット接続を切断した状態でラップトップ上でMoshiを実行し、対話が可能であることを実証。
6. 今後の展開と公開計画
Kyutaiは、Moshiの技術を広く共有し、エコシステム全体で活用されることを目指す。
具体的な計画:
オンラインデモの公開:プレゼンテーション後、Moshiのデモをオンラインで利用可能に。
技術論文の公開:Moshiの詳細な技術情報を含む論文を公開予定。
モデルとコードの共有:訓練や実行、修正のためのコードとともに、モデル自体も共有予定。
これらの取り組みにより、研究者や開発者がMoshiを評価し、適応させ、拡張することが可能に。Kyutaiは、比較的少量のデータでMoshiをファインチューニングし、特定のニーズに合わせて修正できることを強調。
Kyutaiは、Moshiが機械とのコミュニケーション方法を変革し、特に障害を持つ人々のためのアクセシビリティ向上など、多くの応用可能性を持っていると考える。