【LLM】ローカルLLMで無料で無限にlive会話する【OpenWebUI】
はじめに
ローカル環境でLLMを利用できる(Ollama)OpenWebUIのコール機能を利用すると、ローカルLLMと自然な会話ができる環境を利用できます。
基本的には、ChatGPTの Advanced Voice Modeや、Gemini LiveのOpen WebUI版です。まだまだ商用サービスの自然でリアルタイム会話と同程度とはいきませんが、ローカルPCを利用する事で、制限なく無限に会話する事ができます。
コール機能で何ができるのか?
Open WebUIは、チャット欄にキーボードで入力する代わりに音声入力が可能ですが、コール機能を利用すると、音声を常時拾うモードに変わって、リアルタイムに近い会話を行う事ができます。
自然な音声入力の指示がやりやすくなります。また、割り込みを許可しておくと、生成中にも中断して新たな指示を与える事が可能になります。
ただしAI側の読み上げが始まるのは、文字生成がすべて終わってからになるため、商用の「リアルタイム」にはまだまだ及びません。
日本語環境の設定
コール機能は以前から存在していたのですが、あまり積極的に利用していませんでした。バグが多い事と日本語環境が絶望的だったからです。
しかし、Open WebUIのアップデートを重ねた事で、かなり安定性と実用性は上がっています。
さらに、STT(Speech to Text:音声認識)とTTS(Text to Speech:合成音声)をhuggingfaceで公開されている日本語対応AIモデルに変更する事で、日本語での会話をローカル環境で快適に利用する事が可能です。
※ 特にデフォルト内蔵のSTT(素のwhisper-fast)での実用的な日本語会話は難しいと思います
下記記事に、「リアルタイム会話」の項目を追記しましたので、ご興味のある方、記事サポート頂ける場合はぜひ一読ください。