見出し画像

【企画】 音声認識による指示をLLMが実行するAI×RTS


はじめに

こんにちは、助六です。
今回はAIを使用したRTS (RealTimeStrategy)のゲーム企画です。
RTSとは双方がリアルタイムに進行する時間に対応しつつ、プランを立てながら敵と戦う戦略型ゲームです。
これは特に音声で操作する楽しさがあるゲームになりそうなので楽しみです!今回は企画段階ですが、簡単な検証を既にしているのでそちらも合わせてご紹介いたします。

ゲームの企画

ざっくりと相手の陣営と自陣営の軍隊で削り合うゲームです。
音声で陣形を指示します。自軍はその陣形の名前に応じて実際に陣形を組みます。この音声認識による文字起こしと名前から陣形を考える部分にAIを使用します。
ゲームのイメージは「Cossacks 3」というゲームです。

Cossacks 3での陣形の準備
Cossacks 3での戦闘


軽く検証した内容

今はまだ音声入力は実装していないので、インプットフィールドで陣形名を指示しています。そこからどのように陣形を組むかをGPT-4oに考えてもらって、その情報から実際に陣形を組むテストしました。
ブログでは画像になりますが、実際の動きの動画はXで投稿しています。

まだ陣形が崩れていたり、あまり指示した陣形名にあった形になっていないのでプロンプトの調整が必要です。
フューショットによる陣形名とその結果の例をいくつかプロンプトに入れて精度を上げようと思います。RAG等を使うと毎回同じような結果になるのでゲーム性として面白くないかもしれないんので、とりあえずはシンプルなLLMの推論だけでやってみようと思います。

①指示する
②動き出す
③陣形が完成する
他にこんな陣形とか
こんなのとか
あとはこんなの
綺麗な結果になるように頑張ります


使用技術

  • Faster Whisper:音声入力で指示を出す際に指示した陣形を文字起こしする際に使用。リアルタイム性が求められるゲームなので速さが重要。もFaster-Whisperは登場から1年以上経っているので、もしかしたらもっと速いモデルがあるかもしれないので調査します。

  • Llama3-Grok:Meta社のOSのLLMで、Grokのチップを使用しているのでとても高速に動くモデルです。こちらもリアルタイム性を求めるゲームですので、文字起こしされた陣形を取るためにどのような陣形にするべきかを推論する際に使用します。

  • GPT-4o:最近OpenAIから出たマルチモーダルな言語モデル。今はAPIで音声入力が対応していません。そこそこ速く動作します。対応した際には「Faster-Whisper + Llama3-Grok」の組み合わせよりも速いかを検証して速ければこちらを採用します。やっぱり2回通信よりも一個のモデルで完結する方が早いのかな。。。?


最後に

ここまで読んでいただきありがとうございます☀️
開発過程や成果物、技術的な発見も発信していきます!
Xで情報発信も始めました。
「AI×ゲーム開発」にご興味ある方はフォローしていただけると嬉しいです!

いいなと思ったら応援しよう!