Yasu Shiina

画像系生成AIを中心に投稿しています(開発環境はUbuntu、RTX A6000)。2017年から企業向けにAIを活用したシステム開発(Watson、GAN等のOSS)をリード、2022年からフリーランスとして企業向けにAIを活用したシステム開発の助言をしています。

Yasu Shiina

画像系生成AIを中心に投稿しています(開発環境はUbuntu、RTX A6000)。2017年から企業向けにAIを活用したシステム開発(Watson、GAN等のOSS)をリード、2022年からフリーランスとして企業向けにAIを活用したシステム開発の助言をしています。

最近の記事

テキスト系AIを活用したシステム開発の9つのポイント

2017年より、AIを活用したシステム開発に関わってきました。そこで、今回は企業内でAIの活用を検討するために必要なポイントを、事例を交えながら解説します。 AIはテキスト系と画像系に分類でき、今回はテキスト系AIの活用になります。 1.ユースケースの検討まずは、ユースケースの検討を行います。アプローチとして、組織の視点、業務の視点、AI機能の視点があります。全てに共通することとして、ユーザー特定が重要になります。また、1案ではなく複数案を検討しましょう。現時点で良くてもフ

    • 【Llama】LoRAのトレーニングをやってみた

      日本語用のLlama 2 モデル(elyza/ELYZA-japanese-Llama-2-7b-instruct)を利用し、LoRA(Low-Rank Adaptation)のトレーニングをしてみました。 今回は、「〜ござる」という喋り方のデータセットを利用し、質問の受け答えに影響を与えたいと思います。 データセット:bbz662bbz/databricks-dolly-15k-ja-gozaru 1.トレーニング1-1. おまじない import osimport

      • 【Stable Diffusion 3.5】Large、Large Turbo、Mediumを比較してみた

        以前の記事でStable Diffusion 3.5(SD3.5)を説明しました。先日、SD3.5 Mediumがリリースされたので、Large、Large Turbo、Mediumを比較してみます。 結論としては、SD3.5 Mediumで十分です。RTX 3060(12GB)でも動作できるのは評価できます。 ただし、32VRAM以上のGPUをお持ちであれば、FLUX.1 devの方が良いと思います。(SD3.5 Largeを選択する理由を感じませんでした) 定量評価で比

        • 【Stable Diffusion 3.5】SD3.5(Stability AI)を使ってみた

          Stability AIから待望のStable Diffusionの新しいモデルの発表がありましたので、早速使ってみました。 ダウンロードはHugging Face経由となります。非商用ラインセンスとなります。FLUX.1-devと同じですね。 画像生成はComfyUIで実行することができます。(ComfyUIの説明は省略) ダウンロード手順まず、Hugging Faceで以下の2ファイルをダウンロードします。  ①sd3.5_large.safetensors  ②SD

          Llama 3.1 nemotron 70b(NVIDIA)を使ってみた

          NVIDIA社が新しいLLMをリリースしました。Meta社のLlama 3.1をファインチューニングしたモデルで、RLHF(Reinforcement Learning from Human Feedback、人間のフィードバックを基にした強化学習)を使ってトレーニングしているとのことです。 使ってみた① 利用方法は2つあります。1つ目は、Hugging Faceからダウンロードし、ローカル環境で実行する方法です。ただし、NVIDIA GPUが40GB 4つ、または80GB

          Llama 3.1 nemotron 70b(NVIDIA)を使ってみた

          【MetaAI】キャラクターに動きをつけるAIを試してみた

          キャラクターに動きをつけることができるサービスAnimated Drawings(MetaAI)を試してみました。無料で利用できます。 生成結果は以下のリンク先にあります。 キャラクター準備 まずは、動かすための画像を作成します。もちろん手書きのキャラクターでも動かすことができますが、今回はFlux.1を使い画像生成したキャラクターを動かします。 プロンプトは、ChatGPTに考えてもらいました。ポイントは、足と手があることと、背景はシンプル(なし)の2点です。 An a

          【MetaAI】キャラクターに動きをつけるAIを試してみた

          【FLUX.1】LoRAのサイズ別トレーニング時間を比較、トレーニング可能な最大サイズ

          以前の記事でFLUX.1を使ったLoRAのトレーニング時間の比較をしました。トレーニングデータは512x512(pixel)での実験だったので、今回はサイズ別でトレーニング時間を比較しました。今回もai-toolkitを使って実験をします。 実験内容 画像サイズが①216x216、②512x512、③768x768、④1024x1024、⑤2048x2048(pixel)を5枚ずつ用意し、トレーニングをします。トレーニング用画像はComfyUI(FLUX.1-dev)で作成

          【FLUX.1】LoRAのサイズ別トレーニング時間を比較、トレーニング可能な最大サイズ

          【FLUX.1】LoRAのトレーニング時間を比較(意外な結果)

          以前の記事でFLUX.1を使ったLoRAのトレーニングを説明しました。今回もai-toolkitを使って実験をします。 実験内容 512x512(pixel)の画像を5枚、10枚、15枚用意し、トレーニングをします。トレーンイグ用画像はComfyUI(FLUX.1-dev)で作成しました。 キャプションは「Add AI captions with Florence-2」の結果をそのまま使用しました。 Advanced optionsはデフォルト通りです。 ・Steps :

          【FLUX.1】LoRAのトレーニング時間を比較(意外な結果)

          【ComfyUI】iPhoneのカメラを使ったリアルタイム画像変換

          前回に続き、ComfyUIを利用し画像生成を行います。今回はリアルタイムでの画像変換についてご紹介します。 利用するComfyUIのカスタムノードは「ComfyUI_toyxyz_test_nodes」になります。残念ながらUbuntuですと、一部機能が使えません。(今回のご紹介する機能は使えます) ComfyUI_toyxyz_test_nodesとは Image To Imageで画像変更をしたい場合、Load Imageのノードを利用し、PCに保存された画像を取り込み

          【ComfyUI】iPhoneのカメラを使ったリアルタイム画像変換

          複雑な画像生成はComfyUIが便利

          前回の記事にてComfyUIを使って画像生成を説明しました。一見使いづらそうですが、ComfyUIの便利な機能を説明します。 SDWebUIとComfyUIの比較 Stable Diffusionで単純な画像生成をする場合、Stable Diffusion WebUI(以後、SDWebUI)が一般的であり、ユーザビリティが高いと言えます。Text To ImageやImage To Imageもタブ切り替えで利用できます。 例えば、赤リンゴの画像を同じ構図の緑リンゴの画像

          複雑な画像生成はComfyUIが便利

          【FLUX.1】LoRAのトレーニングをやってみた

          前回の記事でFLUX.1が高精度の画像生成ができることを説明しました。 Stable Diffusionでもそうですが、画像生成のモデルをカスタマイズしたくなります。モデル全体にカスタマイズをするファインチューニングは技術的にハードルが高いため、容易にはできません。そこで使われる技術としてLoRAがあります。 LoRAとは LoTA(Low-Rank Adaptation)とは、少ない画像をトレーニングをし、その特徴を画像生成に活かすことができる便利な技術です。元のモデル(

          【FLUX.1】LoRAのトレーニングをやってみた

          ComfyUIで画像生成を比較(Stable Diffusion 1.5 vs Flux.1)

          ComfyUIとは Stable Diffusionを起動するUIとして、Automatic1111以外に似たようなUIのForgeや、ComfyUIがあります。 ComfyUIについては(使い始めたばかりのため機能比較のレビューはできませんが)、入力から出力までフローベースで組み立てられるのが特徴です。 ComfyUIの活用事例 テレビ東京「Newsモーニングサテライト」にて、中国のオンラインゲーム会社がキャラクターデザインをAIで制作していました。作成風景からComfy

          ComfyUIで画像生成を比較(Stable Diffusion 1.5 vs Flux.1)

          MidjourneyのWeb版を使ってみた

          Discord上でしか利用できなかったMidjourneyでしたが、Web版がリリースされたので使ってみました。リンクは↓の通りです。 https://www.midjourney.com/imagine 利用方法 ログイン(Discord or Google)をした後、左側の「Create」ボタンを押下します。そして、上部のテキスト入力エリアにプロンプトを入力すると画像生成が始まります。 生成結果 生成結果としては、非常に精度が高い画像が生成されました。 他画像生成サ

          MidjourneyのWeb版を使ってみた

          Segment Anything Model2(SAM2),Meta AIを使ってみた

          先日紹介しましたSAMは、画像認識のモデルでした。 2024年7月29日に発表がありましたSAM2は、動画と画像の両方を認識できるモデルになります。 SAM2のデモサイトのリンクは↓の通りです。 SAMとの違い SAMは画像認識だけだったので、SAM2は動画も認識できるようになりました。 以下の画像の通り、動画で流れている途中で分類したい箇所を選択して再送すると、その後も分類された状態になります。例えば、手(青)、ポット(緑)、コップ(黄)とした場合、ポットから出るコップ

          Segment Anything Model2(SAM2),Meta AIを使ってみた

          Segment Anything Model(SAM),Meta AIを使ってみた

          Segment Anything Model(SAM),Meta AIのリンクは↓の通りです。 画像認識の基礎知識 画像認識は、以下の3つに分けることができます。 分類(Classification) →🐕がいる場合、「犬」「動物」等に分類(単体に有効) 領域検出(Semantic Segmentation) →🐕🐈🐈がいる場合、「犬」「猫」をpixel単位で抽出  (物体の抽出はせずに、Pixcel単位で色分けするイメージ) 物体検出 Object Detect

          Segment Anything Model(SAM),Meta AIを使ってみた

          アートにおける画像生成AIの活用

          toB向けAI活用を生業としていますが、toC向けとしてアーティスト中西 伶さんの作品制作の支援を紹介します。 上海の宝龙艺术中心(Powerlong Art Center)にて、2023年9月9日から9月23日まで、企画展「Chimaera 奇美拉打开的门会通向哪里?(開かれたキメラの扉はどこにつながるのか?)」が開催されました。 発表した作品 中西 伶さんは、デジタルとアナログを掛け合わせる作品が特徴で、代表作として花をモチーフにした「flower of life」シ

          アートにおける画像生成AIの活用