Hi君

AIを含めたテクノロジーの可能性を検討するHIKE Tech note(仮)です! 検討する中で得られた知見と技術を正しく見定めながら、興味がある方たちと相互に情報共有しつつ、共にR&Dしていきたいです!

Hi君

AIを含めたテクノロジーの可能性を検討するHIKE Tech note(仮)です! 検討する中で得られた知見と技術を正しく見定めながら、興味がある方たちと相互に情報共有しつつ、共にR&Dしていきたいです!

最近の記事

生成画像の類似度を評価する#1

こんにちは!Hi君です。 画像生成AIを触っていると、生成画像の選抜が必要になる時があります。 reference only を使っても、人の望む類似画像が出力されず似ているものだけを選んだり、ピックアップしてLoraに与える事もあると思います。また、寝る前に始めの数枚がうまくいったので、仕掛けて寝て起きたら割とボツが多かったという経験もあるかもしれません。 今回から4回に分けて人に替わって画像類似度を人のように評価するプログラムを検討してみます。 ニーズと概要・ニーズは

    • フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②

      こんにちは!Hi君です。 前回は「参考になるリポトジ・記事」に関してご紹介しましたが、今回は「訓練にかかる時間の見積もり」に関してのまとめです。 訓練に掛かる時間の見積もりについてまず最初に、Cool Japan Diffusionの「RTX3090で300時間学習に時間を要した」という情報を元に、RTX4090を使用した場合どの程度時間がかかるか、という点について目処を立てる際に有用な情報です。 gtx1070 → gtx1080ti → rtx3090ti → rtx4

      • フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ

        こんにちは、Hi君です。 Stable Diffusionに利用するモデルについて、訓練を行う際にどの程度の生成物を出力するにあたり、かかる時間や、どういった計算機リソースを利用する必要があるか、また参考情報が記載されている記事についてまとめてみました。 初めにStable Diffusionの公式モデルは、LAION-5Bデータセットを利用しています。一方、LAION-5Bデータセットは本来研究用のデータセットであるため、商用利用する際は、リスクが大きいことを念頭に入れて

        • Mitsua Diffusion Oneの表現能力・モデル概要まとめ

          こんにちは、Hi君です。 Mitsua Diffusion Oneと呼ばれるパブリックドメイン/CC0および許諾を得た画像のみを用いてゼロから学習したモデルがあります。今回は、そのモデルの描画能力等について調査を行った結果をまとめてみました。 モデルの詳細は次のページを参照して下さい: 結論としては、主に以下の3点から、「即戦力的なモデルではない」ということです。当然のことではありますが、実際使う際は「追加学習が必須」になります。 データセットに偏りがある可能性が高い(写

        • 生成画像の類似度を評価する#1

        • フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②

        • フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ

        • Mitsua Diffusion Oneの表現能力・モデル概要まとめ

          キャラクターの同一性を保つ形での画像生成について

          こんにちは!Hi君です。 以前、「ControlNet v1.1」における表情制御について取り上げました。今回も表情制御をテーマにして、顔に大きなポーズ変化が無い状態での表情制御(感情制御)でのワークフロー例[にこやかな表情 ➔ 悲しげな表情]について、いろいろと試して気づいたことをまとめています。 ■今回の調べ方 ・下の2種類の画像ケースのように、顔ガイダンス情報が同一の画像・モデル設定を使用し、一方でプロンプトは異なるケースで画像生成を工夫。 ・素朴に行うと、瞳の色

          キャラクターの同一性を保つ形での画像生成について

          video2video関連 動画データに対しての画風変換・生成まとめ

          こんにちは、Hi君です。 こちらも少し古い情報にはなりますが、せっかく調べたので記事としてまとめてみました。お付き合いください。 Batch img2imgAUTOMATIC1111/stable-diffusion-webuiの拡張機能の一つであるBatch img2img。こちらは特定のディレクトリ内の画像群を入力し、画像生成を行うことができます。ただ画像群につき1つのpromptやcontrolnet設定・ガイド画像を適用出来ないことが大きな欠点の一つです。 img

          video2video関連 動画データに対しての画風変換・生成まとめ

          ControlNet v1.1を用いた表情制御について

          こんにちは!Hi君です。 AI画像生成において不可欠な技術である「ControlNet」。今回は、その新バージョンである「ControlNet v1.1」について色々と試してみてわかったことをまとめました! ■調べてみてわかったこと ・ControlNet v1.1ではMediaPipeFaceモード、mediapipeを用いた顔認識 + 表情制御用ガイダンス情報を付与しながら画像生成するような拡張機能が追加された。  ▶今までは表情制御用の拡張機能は無く、Cannyエッジ

          ControlNet v1.1を用いた表情制御について

          OpenPoseやControlNetのソフトウェアライセンス関連のまとめ

          こんにちは!Hi君です。 本日はOpenPose及びControlNetのソフトウェアライセンス関連について、まとめてみました。 はじめに OpenPoseという著名なポーズ認識用ツールがあることはご存知かと思いますが、CMUのOpenPoseは非商用ライセンスになります。 (商用の場合は約250万円/年のライセンス料が発生します) 参考1:関連Twitter 参考2:マイケル・ジョーダンのすごさを過去の放送映像からAI解析 一方、Stable Diffusionで多

          OpenPoseやControlNetのソフトウェアライセンス関連のまとめ

          あえて話したい!Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介

          こんにちは、Hi君です。ついに梅雨入りし、なんとなく気が滅入る日が多くなりましたね。 そんな今日は、改めてStable Diffusion周辺の理論や内部実装の解説、またその背景にある数理モデル等を読み解くのに必要な記事の紹介をしていきたいと思います。 Stable Diffusionの背景理論についてSD関連参考論文: 最適化対象のモデルは下記2つの論文に書いてあります。損失関数設計 + パラメタ学習フロー等はこちらの論文という形です。 利用されているモデル(Late

          あえて話したい!Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介

          LLMの実利用をより柔軟に、簡易に行う「LangChain」とは?

          こんにちは!Hi君です。 今回の記事ではLangChainと呼ばれるツールについて解説します。 少し長くなりますが、どうぞお付き合いください。 ※LLMの概要についてはこちらの記事をぜひ参照して下さい。  ▶ChatGPT・Large Language Model(LLM)概要解説【前編】  ▶ChatGPT・Large Language Model(LLM)概要解説【後編】 LangChain■概要 ・LLMの実利用をより柔軟に、簡易に行うためのツール群です。Lang

          LLMの実利用をより柔軟に、簡易に行う「LangChain」とは?

          使い方は人次第?GLIGENとは

          こんにちは、Hi君です。 今回はバウンディングボックスとプロンプトを指定し、指定した領域に対象物を生成するための手法であるGLIGENについてお話ししたいと思います。 GLIGENにはオンラインデモ及びSD拡張パッケージがあります。ただしSD拡張につき、サンプラー設定によっては意図した動作を行えない事もあるようです。一方、Latent Coupleでも指定した領域に指定した対象を画像生成することが出来るので、ツールとしてどちらが優位かはよくわかりませんでした。 個人的には、

          使い方は人次第?GLIGENとは

          Deforumをさわってみた。

          こんにちは、Hi君です。蒸し暑い日が少し多くなりましたね。今にも梅雨がやってきそうな気配を感じ、戦々恐々としています。 今回はアニメーション的な連続的画像生成を行うためのツールキット群であるDeforumについて。SD用の拡張パッケージもあります。 カメラワークを指定して、推移的にtxt2img、img2imgを行う事ができますが、後述するように仕様が少しトリッキーな部分があるので、これ単体で実用的な処理(ラフな中割りなど)を行うのは難しそうな印象です。 Stable D

          Deforumをさわってみた。

          ついに3Dも!3Dシーンを生成するNeRFに関して

          こんにちは!Hi君です。 今回は3Dに関してです。少し長くなりますがお付き合いください。 3Dシーンを生成するLumaAIやNeRFStudioでは、画像セットから再構築された3次元シーン情報について、カメラワークを指定して画像や動画を生成することが出来ます。 こちらのTwitterにもあるように、スムーズな3D映像が簡単に生成できるので、もしかしたらアニメの背景作成補助等にも使えるかもしれません。 では一つ一つのツールについて、調べてみましたのでご紹介します。 NeR

          ついに3Dも!3Dシーンを生成するNeRFに関して

          ChatGPT・Large Language Model(LLM)概要解説【後編】

          こんにちは!Hi君です。 前編では「ChatGPT」について解説しました。後編ではそもそもの技術としてLarge Language Model (LLM) についてまとめてみます。 LLMとは■LLMとは何か ・LLMは、大量のテキストデータを学習して自然言語処理を実現するためのモデル、あるいは技術体系を指します。  ▶ChatGPTはLLMを利用したサービスです。  ▶LLMには深層学習(Deep Neural Network)と呼ばれる種類の数理モデルが用いられていま

          ChatGPT・Large Language Model(LLM)概要解説【後編】

          ChatGPT・Large Language Model(LLM)概要解説【前編】

          こんにちは!Hi君です。 いまさらではありますが、今回はChatGPTと呼ばれる対話サービスと、その背景で使われているLarge Language Model (LLM) と呼ばれる技術について、前編(ChatGPT)・後編(LLM)にわけてそれぞれの概要を自分への備忘録的にまとめてみました。 ChatGPTについて■概要 ・ChatGPT: https://chat.openai.com/ ・無償で使えます。 ・便宜上、ChatGPT上の対話エージェントを以後"AI"、

          ChatGPT・Large Language Model(LLM)概要解説【前編】

          ポーズ・表情制御に関する手法を調べてみていた

          こんにちは!Hi君です! 調べていたのに「古すぎるかな」と投稿を躊躇していたことを公開します。 それは、画像生成におけるポーズや表情制御に関する手法です。 既知という方も、そうでない方も基礎的な情報としてご覧いただけますと幸いです・・・! memo「表情制御」(facial expression control)というワードは、GAN系でface meshから画像生成するような手法においてキーワードとしてよく用いられているという印象です。 YouTube3D POSE &

          ポーズ・表情制御に関する手法を調べてみていた