kawamou

クリエ〜ティブな技術やカルチャー / R&D Engineer @通信会社 R&D

kawamou

クリエ〜ティブな技術やカルチャー / R&D Engineer @通信会社 R&D

最近の記事

  • 固定された記事

エンジニア視点でまとめる Generative Agents の作り方

今年 4 月「Google 発!25名の AI が暮らす街のシミュレーション!」と話題になり LLM 万能説に勢いを付けた印象のある Generative Agents 論文。論文の内容を超え、デモのキャッチーさやコンセプトの分かりやすさから幅広くマスにリーチした印象がある。 ソフトウェア エンジニアとしては(?)「デモをどうやって作ったのか」が気になる。幸いにして Generative Agents を再現した OSS が GitHub に多数転がっているのでコードリーデ

    • LLM のニューロンを可視化し理解する Gemma Scope のススメ

      LLM(に限らず NN の多く)は便利だが時にブラックボックス過ぎるキライがある。Google が発表した Gemma Scope は Google の LLM「Gemma」の内部ニューロンを可視化し分析することのできるオモシロツールである。 公式が Colab を用意しているため触ってみた備忘録。 LLM の内部を理解する Mechanistic Interpretability(機械論的解釈可能性)Mechanistic Interpretability(機械論的解釈

      • Transformers.js によるブラウザ上で動く「日→英」音声翻訳の実装

        Transformers.js の検証がてらローカルのブラウザで完結する音声翻訳を実装した。下記は実行結果であり、動画上マイク音声が入っていないが「日本語音声入力 → テキスト化 → 翻訳 → 英語音声出力」ができている ↓ Transformers.jsHugging Face 所属の @xenova 筆頭に開発が進む Transformers.js。 Python の Transformers ライブラリと同等の機能を持ち、ブラウザ上で機械学習モデルを実行できる Ja

        • MotionGPT で作ったモーションを任意の 3D モデルに割り当てて動かす

          MotionGPT でモーションを生成し、Blender 上で 3D モデルに適用して動かしてみた。 モーション生成概要 テキストからモーションを生成する技術。 行動を表すテキストを再現するようなモーションが得られる。 様々な手法 Motion Diffusion Model や text-to-motion 等様々な手法があり、Awesome-Video-Diffusion リポジトリに手法がまとまっている。 基本的には拡散モデルを用いている例が多いが中にはモーショ

        • 固定された記事

        エンジニア視点でまとめる Generative Agents の作り方

        • LLM のニューロンを可視化し理解する Gemma Scope のススメ

        • Transformers.js によるブラウザ上で動く「日→英」音声翻訳の実装

        • MotionGPT で作ったモーションを任意の 3D モデルに割り当てて動かす

          LLM 時代のアイデンティティ・クライシスに対する生存戦略

          大規模言語モデル(LLM)の登場で大なり小なりアイデンティティ・クライシスの時代がやってきた。 馬車道だったニューヨークの町並みがたった 10 年で自動車文化に様変わりする写真はあまりに有名だが、歴史を顧みて分かる通り技術は労働を劇的に代替する。 単に順番が回って来ただけなのだろう、技術者や知識労働者、クリエイターの職位を脅かす X デー、審判の日がやってきたのだ。 2019 年アルス・エレクトロニカのテーマが思い浮かぶ。 そもそも何を不安に思うのか?フランケンシュタイン・

          LLM 時代のアイデンティティ・クライシスに対する生存戦略

          Mac で StreamDiffusion やってみる

          昨年末頃 100 fps 超えの超高速 Stable Diffusion(SD)として話題になった StreamDiffusion。 CUDA 前提のため Mac では厳しかろうと思われたが結論から言うと動かせた。 下記が実行結果で少々遅くカクツキあるが(GPU 利用で)3〜4 fps くらいで動く。 Web カメラで読み取った手の動作をリアルタイム変換している。 StreamDiffusion とは従来より SD を高速化させるための研究は数多くある。 StreamDi

          Mac で StreamDiffusion やってみる

          結局 llama.cpp とは何者なのか?

          裏側を知らずとも README 通りにやれば Mac でも LLM 動かせる優れモノだが改めて llama.cpp とは何者なのか。 GGML は C/C++ における PyTorchllama.cpp を理解する上で、まず GGML を知る必要がある。 GGML は llama.cpp 作者ジョージ・ゲルガノフが作った機械学習ライブラリで C/C++ における PyTorch に対応するライブラリと言って良いはず。C/C++ でモデルを組むことができる。llama.cp

          結局 llama.cpp とは何者なのか?

          LLM をリサーチする際に使っているサイトやツール

          最近は LLM アプリケーションを開発するソフトウェアエンジニアとして、モノ作りへの示唆が欲しい意図で技術調査するユースケースが多い。 リサーチは探す / 読む / まとめるの 3 フェーズに分かれると考えており、LLM 研究(や論文)のリサーチをする際、それぞれのフェーズでどのような工夫を行っているかまとめた。 余談だが「リサーチ」全般の地肩を作った書籍とサイトがあるので先に紹介しておく。この 2 つを読むと調査力が格段に上がる(と思う)。 探す探す心構え 大前提と

          LLM をリサーチする際に使っているサイトやツール

          LLM に「人格」を付与する研究やツールを調査した

          LLM に特定の人格やキャラクターを付与する試み(以降「人格再現」と表現)についてリサーチする機会があり色々調べてたら結構まとまってきたのでメモ代わりに放出する。 そもそも人格再現して何が嬉しいの?(1) エンタメ領域への適用 最も分かりやすいところだとゲームやメタバース、デジタルなエンターテイメントへの適用が挙げられる。 ゲームに登場する NPC が独自の人格を持っていれば体験が豊かになるだろうし、AITuber との個性あるコミュニケーションにはワクワクが生まれる。

          LLM に「人格」を付与する研究やツールを調査した

          Unity 内のエージェントに生成 AI で「視覚」を付与する実験

          まずはじめに、実験結果が下記である。 エージェントの視界に映る内容をテキストで説明できている。 仕組みとしては単純で、エージェント頭部に設置したカメラ映像から画像を切り出して BLIP(画像 → テキスト変換可能な生成 AI)に食わせた。 BLIP の出力文は英語かつ拙いことがあるので、ChatGPT によってスマートな日本語に変換した上で画面上に出力している。 Unity 歴半月初心者なので、自身のメモを兼ねて実装方法を振り返る。 なお、Unity エディタのバージョン

          Unity 内のエージェントに生成 AI で「視覚」を付与する実験

          二次元画像の口を音声に合わせてパクパクさせたい

          まず結論から言うと、SadTalker を利用して音声に合わせパクパク(リップシンク)できた。 SadTalker はリップシンクのみならず、顔や表情も音声に連動できる(README の GIF 見ると分かりやすい)。 実際に使ってみた結果がコレ。織田信長がパクパクしとる! パクパク動画の作り方手元に機械学習できる環境なくても問題なし。 リポジトリに実行環境(無料)への導線が 2 つ準備されている。 Hugging Face:機械学習モデルのホスティングサービス Go

          二次元画像の口を音声に合わせてパクパクさせたい