見出し画像

フランスの非営利研究ラボ「kyutai」が音声生成AI「moshi」を発表

フランスの非営利研究ラボ「Kyutai」(日本語の「球体」)が開発した初のリアルタイム音声AI「Moshi」(日本語の「もしもし」から命名)のデモ動画が公開されました。動画は以下のリンクから視聴できます。

https://www.youtube.com/watch?v=hm2IJSKcYvo

この動画では、「Kyutai」のCEOであるパトリックが「Moshi」を紹介し、その仕組みと機能について説明しています。「Moshi」は、二人の話者の対話形式で自然なコミュニケーションを行い、質問にリアルタイムで答えることができる音声AIです。まだ開発段階にありますが、実験的なプロトタイプがオンラインで公開されています。

「Moshi」の主な特徴は以下の通りです:

  1. リアルタイム音声AI:「Moshi」はリアルタイムで人間とAIのコミュニケーションを実現します。

  2. マルチモーダル:「Moshi」は音声の聴取、音声の生成、画面へのテキスト表示を行います。

  3. オープンソース:「Kyutai」は、論文やコードを含むすべての技術詳細を公開する予定です。

動画の後半では、「Kyutai」が検討している安全対策について説明しています。例えば、音声クリップが「Moshi」によって生成されたかどうかを判断するために、音声指紋認証が使用されます。

この動画は、私たちが機械とコミュニケーションする方法を変える可能性を秘めたリアルタイム音声AI「Moshi」を紹介しています。まだ開発中ですが、実験的なプロトタイプがオンラインで公開される予定です。

GPT-4oの音声機能は世界に大きな衝撃を与えましたが、「音声→テキスト→回答生成→音声生成」ではなく、音声入力から直接音声出力のモデルが一般化され、On-device AIモデルとしても今後注目されると思います。また、ソースを公開することによってこの分野のAI技術が急激に進化しそうですね。楽しみですが、自分たちも論文とソースコードが公開されたら、早速取り組んでみたいと思います。


この記事が気に入ったらサポートをしてみませんか?