
フランスの非営利研究ラボ「kyutai」が音声生成AI「moshi」を発表
フランスの非営利研究ラボ「Kyutai」(日本語の「球体」)が開発した初のリアルタイム音声AI「Moshi」(日本語の「もしもし」から命名)のデモ動画が公開されました。動画は以下のリンクから視聴できます。
https://www.youtube.com/watch?v=hm2IJSKcYvo
この動画では、「Kyutai」のCEOであるパトリックが「Moshi」を紹介し、その仕組みと機能について説明しています。「Moshi」は、二人の話者の対話形式で自然なコミュニケーションを行い、質問にリアルタイムで答えることができる音声AIです。まだ開発段階にありますが、実験的なプロトタイプがオンラインで公開されています。
「Moshi」の主な特徴は以下の通りです:
リアルタイム音声AI:「Moshi」はリアルタイムで人間とAIのコミュニケーションを実現します。
マルチモーダル:「Moshi」は音声の聴取、音声の生成、画面へのテキスト表示を行います。
オープンソース:「Kyutai」は、論文やコードを含むすべての技術詳細を公開する予定です。
動画の後半では、「Kyutai」が検討している安全対策について説明しています。例えば、音声クリップが「Moshi」によって生成されたかどうかを判断するために、音声指紋認証が使用されます。
この動画は、私たちが機械とコミュニケーションする方法を変える可能性を秘めたリアルタイム音声AI「Moshi」を紹介しています。まだ開発中ですが、実験的なプロトタイプがオンラインで公開される予定です。
GPT-4oの音声機能は世界に大きな衝撃を与えましたが、「音声→テキスト→回答生成→音声生成」ではなく、音声入力から直接音声出力のモデルが一般化され、On-device AIモデルとしても今後注目されると思います。また、ソースを公開することによってこの分野のAI技術が急激に進化しそうですね。楽しみですが、自分たちも論文とソースコードが公開されたら、早速取り組んでみたいと思います。