Catapp-Art3D

3Dアート作品や3Dモデルデータも扱っています。最近は専らAIを利用した作品が多いです。 ※ BOOTHにて各種販売も行なっております。 https://lit.link/catappart3d

Catapp-Art3D

3Dアート作品や3Dモデルデータも扱っています。最近は専らAIを利用した作品が多いです。 ※ BOOTHにて各種販売も行なっております。 https://lit.link/catappart3d

メンバーシップに加入する

3Dモデルや写実的なAI画像の実戦テクニックやノウハウをアップしていきます。

  • ベーシックプラン

    ¥1,000 / 月
    初月無料

マガジン

  • Blender + Stable Diffusion

    Catapp-Art3D の Blender + Stable Diffusion 記事をまとめたものです。

  • AI画像生成入門

    Catapp-Art3D の入門者向けの記事をまとめています。

  • ブログ

    Catapp-Art3Dのブログです。

  • AI生成画像作品

    Catapp-Art3D の作品をまとめています。

  • Linux の記事

    Catapp-Art3D の Linux の記事をまとめました。

最近の記事

  • 固定された記事

AI画像生成&修正テクニック

はじめにこの note では、筆者が(写実的な)3DやAI画像作品を製作する時に利用している手法やテクニックを紹介していきます。 AI系ソフトウェアの設定やインストール、最新情報は、ネット上に溢れるようになったので、より作品製作時の実践的な内容や工夫に特化したいと思います。 生成画像や画像加工等のウェブサービスを利用せずに、ローカル環境の(オープン)ソフトウェア を利用します。ローカル環境を利用する事で、理不尽な制限や制約に縛られず作業に集中する事ができます。 ※ と

    • 【3D】Stable Projectorzで3D人物の顔テクスチャを作る【ローカルAI】

      はじめにこの記事では、Stable Projectorzを利用して、頭部3DモデルのテクスチャをAIで生成する方法を紹介します。Stable Projectorzは、すべてローカルで動作する無料のAIソフトウェアです。 ※ 付録の有料欄では、この記事で利用した3D頭部モデルのobjファイルをダウンロードできます。この頭部モデルは、下記3Dモデルの頭部だけのメッシュを取り出したものです。すでに購入頂いた方であれば、頭部メッシュだけをexportしてください。 ただし、通常の

      • AIが得意なこと、苦手なこと

        はじめに多くの方がテーマとして発信されている事柄ですが、筆者のAI利用経験からも考えてみたいと思います。 ChatGPTに聞いてみた質問:AIが得意な事と苦手な事を両方挙げてください。 LLM回答にありがちな「無難でごもっとも感」はありますが、実際は大きく異なると思います。経験的に、ほとんどが逆なのではと考えています。 昔から言われるAIのステレオタイプを記述しただけの回答なのではないでしょうか。つまりハルシネーションです。 これらについて考えてみたいと思います。

        • こんな凄いLLM学習コンテンツ(インタラクティブ3Dアニメーション)を作った人がいたとは驚きです。GPTの具体的な演算の流れが一目瞭然です。 LLM Visualization https://bbycroft.net/llm

        • 固定された記事

        AI画像生成&修正テクニック

        • 【3D】Stable Projectorzで3D人物の顔テクスチャを作る【ローカルAI】

        • AIが得意なこと、苦手なこと

        • こんな凄いLLM学習コンテンツ(インタラクティブ3Dアニメーション)を作った人がいたとは驚きです。GPTの具体的な演算の流れが一目瞭然です。 LLM Visualization https://bbycroft.net/llm

        マガジン

        • ブログ
          114本
        • AI画像生成入門
          60本
        • Blender + Stable Diffusion
          19本
        • AI生成画像作品
          32本
        • Linux の記事
          22本

        メンバー特典記事

          【3D】Stable Projectorzで3D人物の顔テクスチャを作る【ローカルAI】

          はじめにこの記事では、Stable Projectorzを利用して、頭部3DモデルのテクスチャをAIで生成する方法を紹介します。Stable Projectorzは、すべてローカルで動作する無料のAIソフトウェアです。 ※ 付録の有料欄では、この記事で利用した3D頭部モデルのobjファイルをダウンロードできます。この頭部モデルは、下記3Dモデルの頭部だけのメッシュを取り出したものです。すでに購入頂いた方であれば、頭部メッシュだけをexportしてください。 ただし、通常の

          【3D】Stable Projectorzで3D人物の顔テクスチャを作る【ローカルAI】

          ローカルLLMの活用【画像生成編】

          はじめに普及帯ゲーミングPC(VRAM 8〜16GB)を利用してローカルLLM(大規模言語モデル)を実行する場合、利用できるLLMの規模は〜12B、処理できるコンテキストサイズは8K〜32Kトークン(8Kトークンなら日本文8,000強文字)程度です。 汎用的な性能においては、数百billion以上の規模を持つオンラインサービスChatGPTやGeminiに大きく劣りますが、ローカルLLMの特有の利点もあります。 この記事では、筆者が利用している活用術やモデルを紹介したい

          ローカルLLMの活用【画像生成編】

          【AI Upscaler】最近のアップスケーラを試す【うなじの美学】

          はじめに筆者はリアル系画像のモデル・アップスケーラとして次の2つのAIモデルを良く利用しています。 4xNomos8kHAT-L_otf(HATモデル) 4x_NMKD-Superscale-SP_178000_G(ESRGANモデル) 常に新しい手法・アーキテクチャ、学習セットを利用したものがアップデートされているため、比較的最近のものもチェックしてみました。 ※ 記事で紹介したものは、下記データベースより入手できます。 ※ 記事作成に利用したComfyUIのj

          【AI Upscaler】最近のアップスケーラを試す【うなじの美学】

          【Ollama】各種Visionモデルで画像生成比較【VLM】

          はじめにOllamaで簡単に利用できる以下のVLM(Vision Language Model)を利用して入力画像からプロンプトを作成し、プロンプトそれぞれでFlux.1(dev)画像を生成して比較します。 比較するVLM ■ llama3.2-Vision Llama 3.2-Visionは、11Bと90Bのサイズのinstructチューニングされた画像推論生成モデルを含むマルチモーダルLLMです。Meta mllamaアーキテクチャモデルです。 「ollama p

          【Ollama】各種Visionモデルで画像生成比較【VLM】

          【SD3.5】SD3.5とFlux1を交互に生成実験【Flux1】

          はじめにFlux1とSD1.5をimg2imgを利用して交互に生成すると、SD1.5用のLoRAを活用できたり、画質が大きく向上する事を確認できましたが、 似たような相乗効果がSD3.5でも得られるのかどうか実験してみました。 ComfyUIワークフローFlux1→SD3.5→Flux1→UltimateSD Upscale(SD1.5)の流れで作成しました。これといった工夫はなく、プロンプトも固定です。 768x1024解像度から、img2img毎に拡大させていきます

          【SD3.5】SD3.5とFlux1を交互に生成実験【Flux1】

          結局、生成AIの2D形状修正ツールはBlenderが最強だと思う話

          はじめに生成AIが世に出始めた初期から利用していた手法なのですが、AIで生成した2D画像の形状を修正するツールとして、Blender(3Dモデリングソフトウェア)を超えるものがありません。 この記事では、Blenderのメッシュ修正手法を利用して、AIで生成した2D画像を編集する方法を紹介します。 ※ 付録の有料欄に利用したBlenderのファイルを添付しています。記事支援いただける場合はよろしくお願いします。 ワークフロー例としてimg2imgを利用した「アニメ調」→

          結局、生成AIの2D形状修正ツールはBlenderが最強だと思う話

        記事

          ローカルLLMの活用【画像生成編】

          はじめに普及帯ゲーミングPC(VRAM 8〜16GB)を利用してローカルLLM(大規模言語モデル)を実行する場合、利用できるLLMの規模は〜12B、処理できるコンテキストサイズは8K〜32Kトークン(8Kトークンなら日本文8,000強文字)程度です。 汎用的な性能においては、数百billion以上の規模を持つオンラインサービスChatGPTやGeminiに大きく劣りますが、ローカルLLMの特有の利点もあります。 この記事では、筆者が利用している活用術やモデルを紹介したい

          ローカルLLMの活用【画像生成編】

          【ImageFX】ImageFXの画像を高画質化実験【Flux1&SD1.5】

          はじめに日本的な画像生成が得意なImageFXで生成した画像を、下記手法で高画質化したものです。 ※ ただし最初のFlux1のimg2imgプロンプトはLLMのVisionモデル(llava-llama3)任せにしたものになります。つまり、ImageFX→Flux1→SD1.5→Flux1→SD1.5の順でimg2imgを実行しています。プロンプトはImageFX生成にしか入力していません。 結果まとめ現状で日本的な構図を「簡単に」生成できるのはImageFXしかありませ

          【ImageFX】ImageFXの画像を高画質化実験【Flux1&SD1.5】

          【AI Upscaler】最近のアップスケーラを試す【うなじの美学】

          はじめに筆者はリアル系画像のモデル・アップスケーラとして次の2つのAIモデルを良く利用しています。 4xNomos8kHAT-L_otf(HATモデル) 4x_NMKD-Superscale-SP_178000_G(ESRGANモデル) 常に新しい手法・アーキテクチャ、学習セットを利用したものがアップデートされているため、比較的最近のものもチェックしてみました。 ※ 記事で紹介したものは、下記データベースより入手できます。 ※ 記事作成に利用したComfyUIのj

          【AI Upscaler】最近のアップスケーラを試す【うなじの美学】

          「SoftBank World 2024 孫 正義 特別講演 超知性が10年以内に実現する」の感想

          はじめにYouTubeチャンネル「ソフトバンク公式 ビジネスチャンネル」で公開されている動画「SoftBank World 2024 孫 正義 特別講演 超知性が10年以内に実現する」が興味深かったので、感想を書きたいと思います。 感想人間と同等の知能とされるAGI「Artificial General Intelligence」に対して、1万倍ぐらい超える知性をASI「Artificial Super Intelligence」として孫さんが定義したものだそうです。 昨

          「SoftBank World 2024 孫 正義 特別講演 超知性が10年以内に実現する」の感想

          【Ollama】各種Visionモデルで画像生成比較【VLM】

          はじめにOllamaで簡単に利用できる以下のVLM(Vision Language Model)を利用して入力画像からプロンプトを作成し、プロンプトそれぞれでFlux.1(dev)画像を生成して比較します。 比較するVLM ■ llama3.2-Vision Llama 3.2-Visionは、11Bと90Bのサイズのinstructチューニングされた画像推論生成モデルを含むマルチモーダルLLMです。Meta mllamaアーキテクチャモデルです。 「ollama p

          【Ollama】各種Visionモデルで画像生成比較【VLM】

          【Ollama】Llama3.2-visionを試した話【ローカルVLM】

          はじめにOllamaバージョン4.0からLlama3.2-Visionを利用できるようになりました。 VisionモデルとはLLM(Large Language Model)に視覚機能(Vision)をもたせたモデルです。図や写真を利用してLLMチャット等を利用できます。 しかしQwen2-VLと異なり、Llama3.2-Visionは日本語には非対応なので用途は限定的です。 導入Ollamaコマンドでダウンロードします。Ollama公式リポジトリはこちら、 Wind

          【Ollama】Llama3.2-visionを試した話【ローカルVLM】

          【SD3.5】SD3.5とFlux1を交互に生成実験【Flux1】

          はじめにFlux1とSD1.5をimg2imgを利用して交互に生成すると、SD1.5用のLoRAを活用できたり、画質が大きく向上する事を確認できましたが、 似たような相乗効果がSD3.5でも得られるのかどうか実験してみました。 ComfyUIワークフローFlux1→SD3.5→Flux1→UltimateSD Upscale(SD1.5)の流れで作成しました。これといった工夫はなく、プロンプトも固定です。 768x1024解像度から、img2img毎に拡大させていきます

          【SD3.5】SD3.5とFlux1を交互に生成実験【Flux1】

          【Flux.1】みんなのフォトギャラリーに挑戦する③【SD1.5】

          はじめに下記手法で生成したものに、Krita-ai-diffusionで修正したものです。タイトル画像に使えそうなものをピックアップしました。 作品以前の記事です。

          【Flux.1】みんなのフォトギャラリーに挑戦する③【SD1.5】

          【Emacs】Ellamaを使って便利スクリプトを作る話【AIコード生成】

          はじめに※ テキストエディタGNU EmacsにLLM機能(AI機能)を追加するEmacsパッケージellamaのレビュー記事です。例として、jpeg画像のQuality値を取得してwebpに変換するシェルスクリプトをellamaで作成してみます。 今となってはVSCode一色になり、旧世界の化石となってしまったEmacsですが、昔から利用していた人に利点が無いわけではありません。どんなにVSCodeが高機能であっても、コンソールしかない環境では利用できないので、手に馴染ん

          【Emacs】Ellamaを使って便利スクリプトを作る話【AIコード生成】

          【SLM】Gemma2-2B-JPN-ITを使ってみた話【軽量モデル】

          はじめにGoogleのLLM Gemma2の日本語版(2Bモデル)を使ってみました。 Gemma2の日本語チューニングモデルで、非常に軽量な2Bモデルです。4GB程度のGPUメモリ(VRAM)でも十分動作します。 ※ GemmaはGoogle Geminiと同じ技術のオープンモデルとされているものです。 Google公式huggingfaceページはこちら 実際に筆者が試した(alfredplpl氏によって量子化GGUFされた)モデルはこちら、 一般にLLM(Lar

          【SLM】Gemma2-2B-JPN-ITを使ってみた話【軽量モデル】

          結局、生成AIの2D形状修正ツールはBlenderが最強だと思う話

          はじめに生成AIが世に出始めた初期から利用していた手法なのですが、AIで生成した2D画像の形状を修正するツールとして、Blender(3Dモデリングソフトウェア)を超えるものがありません。 この記事では、Blenderのメッシュ修正手法を利用して、AIで生成した2D画像を編集する方法を紹介します。 ※ 付録の有料欄に利用したBlenderのファイルを添付しています。記事支援いただける場合はよろしくお願いします。 ワークフロー例としてimg2imgを利用した「アニメ調」→

          結局、生成AIの2D形状修正ツールはBlenderが最強だと思う話

          【SD3.5】Stable Diffusion 3.5 mediumを使ってみた話【medium】

          はじめにSD3.5のmediumモデルがダウンロード可能になったので、ローカルで使ってみました。※ RTX3060(12GB) Largeモデルは下記事です。 ComfyUIワークフロー今回もこちらの説明通りに導入しました。 しかし、トラブりました。 原因はComfyUIのアップデートが失敗していた事ですが、ComfyUI Manager経由でのアップデートが(何故か)上手く機能していませんでした。 その事に気づかず、全く別のエラー切り分けをしていたので時間を無駄に

          【SD3.5】Stable Diffusion 3.5 mediumを使ってみた話【medium】