助六リズム

◉ Unityエンジニア ◉ 音声 / 画像認識を次のUIに

助六リズム

◉ Unityエンジニア ◉ 音声 / 画像認識を次のUIに

最近の記事

【検証】Gemini-1.5-Proの画像認識は卓上の飲食物の残量を認識できるのか

はじめにこんにちは。助六です。 本日は梅田の居酒屋で楽しい食事をしてきたのですが、その時にこういうアプリ作りたいなと思ったものがあったので、そのための検証を行いました! まず、そのシステムとは卓上の飲食物の残量を定期的にカメラから画像認識し、飲食物が無くなっていれば、注文を促すタッチパネル式の注文アプリです。(ちなみに注文を促す際は、ここまでの注文の流れを見て統計的にこれを勧めたら注文しやすいというものにしたい。今回の検証とは別ですが。) 意外と、飲み物や食べ物がないの

    • 【企画】 食べ物の写真で育てる放置型育成ゲーム

      はじめにこんにちは、助六です。 元ゲームの開発会社で働いていて、今はAI系のアプリ開発をしています。 今回はゲームの企画です! まだ企画してあまり開発を進められていないゲームや、デモをして課題を残しているゲームをある中、また作りたいものが出てきてしまったのでとりあえず、先に企画案だけ記事にします。 ちなみに今回のゲームは3Dです! 企画内容ざっくりいうと、放置型の育成ゲームです。 育成する際の餌やりを実際の食べ物の写真を送ることで、 その栄養バランスなどに応じて成長したり

      • 【検証】 StableDiffusion3.0-Turboでアイテム画像生成は何秒かかる?

        はじめにこんにちは、助六です。 今回はマリオカートのアイテム抽選をAIで毎回生成させるという企画で、少し検証をしましたので、その内容についてです! 詳しい企画の内容は以前ブログにしております。 検証内容企画上は現在最速の名高い「StreamDiffusion」を外部呼び出しで使用するのですが、API作る部分がめんどくさいので、何か他のモデルでいいのないかなというところから(もちろん無ければStreamDiffusionを使用します)、 ちょっと速そう名前をしている「SD3

        • 【検証】kotoba-whisper-v1 は清春を文字起こしできるのか

          はじめに助六です。今回も検証系です。 前回は「Whisper-1 large-v2」で、清春様の歌声を正しく文字起こしできるかという対決企画をしました。 結果は清春様が流石の歌声で勝利を収めました。 ↓前回の検証の記事はこちら 今回は、「kotoba-whisper-v1」というモデルで清春様と対決します。 「kotoba-whisper」とは、Whisper large-v3をもとに大量の日本語音声データで学習されたモデルです。この日本語特化モデルなら清春様に勝利を収め

          【企画】 マリオカートのアイテムをその場でAIに生成させる

          はじめにこんにちは、助六です。 元ゲームの開発会社で働いていて、今はAI系のアプリ開発をしています。 今回は既存ゲームの一部分にAIを取り入れる企画です! 皆さまご存知のマリオカート、日本の宝Nintendoが誇る大人気ゲームにAI機能を入れてみようと思います! 企画内容ゲームとして作り込む訳ではなく一機能を作るという企画です。 今回AI機能を入れるのはアイテムの抽選部部分です! 今は決められたアイテムがランダム(ある程度順位に応じて確率が変わるロジックではある)に抽選

          【企画】 マリオカートのアイテムをその場でAIに生成させる

          【検証】Whisper-1 large-v2 は清春を文字起こしできるのか

          はじめに助六です。今回も検証系です。 今回はWhisperの評価軸である精度と速度のうち、精度の検証です。 内容はWhisperの最上位モデルである「Whisper-1 large-v2」で、清春様の歌声を正しく文字起こしできるかという対決企画です! 文字起こしするのはSADSの「忘却の空」の一部です。 検証内容まずは清春様の声を準備する必要があるので、 「忘却の空」をボーカルリムーバーで歌声抽出したのですが、 そもそも、歌声として認識されていない箇所も多く、 この時点で

          【検証】Whisper-1 large-v2 は清春を文字起こしできるのか

          【検証】NGワードチェックもLLMの時代?

          はじめに今回はゲームではないのですが、検証です。 検証内容はNGワードチェックをLLMでできるかというものです。 NGワードチェックとはゲームなどでユーザー名をつける際などに下ネタ的なワードを含めると、「その名前はつけられません。」などとエラーメッセージが表示されるものです。 私も以前、ソシャゲの開発チームにいたので、NGワードチェックは開発したことがありますが、これは単純に考えられる範囲のNGワードのマスターデータが準備されていて、単純にそのデータとの突き合わせで判断して

          【検証】NGワードチェックもLLMの時代?

          【モック完成】 Whisperで名前を言うナンジャモンジャ

          はじめにこんにちは〜! 少し遅くなりました、Whisperで名前を言うナンジャモンジャゲームのモックが完成したので紹介させてもらいます。 おさらいになりますが、「なんじゃもんじゃ」とは実際のボードゲームで、順番に山札をめくっていき、初めて出た絵柄であればそれに名前をつけ、既に出た絵柄であればつけられた名前を正しく先に言えたプレイヤーのポイントになるというものです。ざっくり! 今回はモックということで同機による複数人プレイはできませんが、とりあえず一人で進められる状態のも

          【モック完成】 Whisperで名前を言うナンジャモンジャ

          【企画】 音声認識による指示をLLMが実行するAI×RTS

          はじめにこんにちは、助六です。 今回はAIを使用したRTS (RealTimeStrategy)のゲーム企画です。 RTSとは双方がリアルタイムに進行する時間に対応しつつ、プランを立てながら敵と戦う戦略型ゲームです。 これは特に音声で操作する楽しさがあるゲームになりそうなので楽しみです!今回は企画段階ですが、簡単な検証を既にしているのでそちらも合わせてご紹介いたします。 ゲームの企画ざっくりと相手の陣営と自陣営の軍隊で削り合うゲームです。 音声で陣形を指示します。自軍はそ

          【企画】 音声認識による指示をLLMが実行するAI×RTS

          【企画】 Whisperで名前を言うナンジャモンジャ

          はじめにこんにちは、助六です。 今回は音声認識機能を取り入れたゲームの企画です。 最近ボードゲームカフェに行ったのですが、それがめちゃくちゃ楽しくて、ボードゲームを作りたいと思いました🔥 音声/画像認識ならゲームにできるボードゲーム多そうです! 今回はその中で「ナンジャモンジャ」を開発したいと思います。 「ナンジャモンジャ」は、順番に山札をめくっていき、初めて出た絵柄であればそれに名前をつけ、既に出た絵柄であればつけられた名前を正しく先に言えたプレイヤーのポイントになるとい

          【企画】 Whisperで名前を言うナンジャモンジャ

          【成果物お披露目】 天気予報×AI 国際空港に置きたい

          はじめにこんにちは、AIの機能を入れたゲーム開発をしている助六です。 世界の街の天気を今の状況の絵とともに視覚的に楽しむシステムの企画がある程度実装できたので、どのような見た目になったのかを共有します! 成果物エリア毎に作成された絵を載せておきます! 多いので適当に見てください笑 ヨーロッパとアジアは綺麗でした〜! 実際のシステム内では、10秒おきくらいにループでトランジションを入れて街が切り替わっていきます! 北アメリカエリア ヨーロッパエリア アジアエリア

          【成果物お披露目】 天気予報×AI 国際空港に置きたい

          【企画】 天気予報×AI 国際空港に置きたい

          はじめにこんにちは、助六です! AI×ゲーム開発をやっていく!と意気込んでいたのですが、 おしゃれなシステムも作りたい!という感情も湧いてきて、少し間が差した結果の企画です。なので今回はゲームではないです、、、。 AIも画像生成のみですが、いい感じのもにしたいと思います。 開発したものもブログで発信していきます! 企画内容簡単に言うと、天気予報をもう少し視覚的にかっこよくして映像的に楽しめるものにしたいというものです! 細かくは、世界の国際空港がある街を順番に、天気や気温

          【企画】 天気予報×AI 国際空港に置きたい

          【モック完成】AIが何もかも決める脱出ゲーム

          はじめに助六です。AIが何もかも決める脱出ゲームの企画からモックを作ってみました。どういう感じになったのかという共有と、今後のアップデートするべき部分の洗い出しを行いたいと思います! ゲーム仕様のおさらいAIが脱出するシチュエーションを生成 ユーザーが脱出するためのアイテムとなる物の画像を送信 AIがそのアイテムでそのシチュエーションから脱出できるかを判定 ざっくりとこんな感じ 1. 脱出シチュエーション生成部分 2. 脱出アイテム選択部分 3. 脱出成功判定

          【モック完成】AIが何もかも決める脱出ゲーム

          【企画】 AIが何もかも決める脱出ゲーム

          はじめにこんにちは、助六です! 最近、Unityを使ったゲーム開発にAIの機能を取り入れることを始めました。 音声認識、画像認識をUIに、LLM、画像生成などの生成AI要素も盛り込んだゲーム開発をバンバン発信していこうと思います! 今回は、「AIが何もかも決める脱出ゲーム」の企画についてご紹介します。 ゲームの企画従来の脱出ゲームは、特定のシチュエーションに基づいて進行しますが、私の新しいゲームでは、そのシチュエーションをAIが生成します。 具体的には、LLMが毎回異なる

          【企画】 AIが何もかも決める脱出ゲーム

          Midjourney Region機能紹介

          はじめに今回はMidjourneyから新機能「Region」が出たので早速触ってみました。 使い方を紹介します! 「Region」機能とは、要するにInpainting機能です。 投げ縄で部分選択して、そこにプロンプトを当てて、部分編集ができます。 Midjourneyはクオリティが圧倒的に高いサービスなので、とても嬉しいですが、他の多くの画像生成サービスは既に実装されているので、やっとか〜というのが正直な感想です。 めっちゃ美味しいラーメン屋の頑固親父店主が、今までは

          Midjourney Region機能紹介

          【Stable Diffusion webuiの教科書】LoRAの使い方

          はじめに今回はStable Diffusion WebUIでのLoRAの使い方について解説します。 LoRAとは「Low-Rank Adaptation」の略で、 ファインチューニングよりも手軽に特定のタスクを学習させる手法です。 特定の画像を数十枚学習に使用するだけで、 その画像の特徴を画像生成の結果に反映させることができます。 例えば、LoRAを使わずに「日本人男性」というだけのプロンプトで画像生成を行うと様々な日本人男性の画像が生成されます。 しかし、「ボディービルダ

          【Stable Diffusion webuiの教科書】LoRAの使い方