今週の学びとアウトプット

2024年10月4日 01:36

ピザはコンロの魚焼き機で焼く(9/27)

先日、家にオーブントースターがないので、スーパーで売っているピザをコンロの魚焼き機グリルで焼いた。しっかり温められて美味しいことが分かった。知らんかった

PNGからプロンプトを一括して抽出するスクリプトを作成した（10/1)

Automatic1111のWebUI用に作成した
ComfyUIは別途、作成する

sd prompt readerがあるけど？

既にgithubにはSD Prompt Readerがあるが、似たようなものをtkinterで作成しつつ、foocusのlog.htmlのようなlibrary機能や自分が使いそうな機能を別途、追加してローカル処理をしやすくする

本当にローカルで使うのか？

確かにちょっと眺めることをするのには役に立つかもしれないが、自分なりの動機がないと意義は見出しづらい

noteにプロンプトを書くときなど、command lineから確認してコピペは面倒だから使うかもしれない
一方でWebUIを使っている時にはあまり意味がない。ComfyUIでも同様だ
動作確認をするときにもWebUIやComfyUIでプロンプトを確認をする

結果、WebUIを使っている時にPNG INFOを使用すればいいのでは？と思うかもしれないが、今、一括で処理するために下準備をしているので、Google ColabのGPUを使用するのは勿体無いためしない

従って、Prompt Readerはともかく、一括して抽出するスクリプトは意義が自分の中にはあるので行うといったところだ

宣伝

ComfyUIでDirectoryからテキストと画像をoutputするCustomNodeを作成しているので、完成したらgithubに公開する。CustomNodeで自動化はできないので、合わせて自動化したテクニックについては有料化するかもしれない。ただし、かなりヒントはあるので必ずしも買う必要はない。あくまで、自分のやり方なので、ニッチだと思う

PythonのreplaceとJavascriptのreplace、一度だけ置換されるのはどちらだ？(10/1)

正解はJavascriptのreplaceだ。複数言語を使って書くとこういう迷いが発生するから面倒だ

Gemini API デベロッパーコンペティションが終了した(10/1)

コンテストが終了した。自分の今後のために、少しでも引っ掛かるといいのだけどな

Break文をsplitするスクリプトを作成した（10/2)

Automatic1111で作成したプロンプトはBREAK文が含まれているので、ComfyUIで使うときには振り分けないと画像生成のクオリティが落ちると感じた。そこで、advancedとして"Break"が入る度に出力を分けるプログラムを作成することにした

動作自体はしているので、シンプルなプロンプトであれば、今の機能だけでもいいのだけど、そうはいかないようだ

また、Negativeも必要に応じて使い分けると判断して、Negative用のプロンプト（こちらは１個だけ）も出力する用に変更しておいた

ComfyUIのControlNetはAutomatic1111のWebUIに比べて忠実に感じる。ある意味、柔軟性がないとも言える。ということは参照させる画像に従うので、変更したい要素に対しては不向きとも言える

ベターなのは、構造的な部分だけControlし、その他、衣装や髪型などは自由に変更できると一番いいのだが、現状は見たものをそのまま描く用に特化しているかと

ここら辺が課題かもしれない。OpenPoseがそれなのかもしれないが、Open Poseは情報が少ないので、生成への解釈に幅がありすぎるため使いづらい

いっそのこと、プロンプトだけでと思わなくもないが、それは後戻りになるだけだし、多分、それが出来るのはよく学習されたモデルだけかと思うんだよな。何かトリックがあるかと思うんだ

LLMの出力はどうコントロールするか？(10/2)

Stable Diffusionでは、Seed値を変更することでランダムな生成を可能にしている。

最初は出力時にSeedが自動的に変わると思っていたのだが、こいつが同じようなことを喋ることがある

というわけで対策としては、プロンプトがほぼ同じだからでは？という結論に至ったので、プロンプトを毎回、修正するようにして違う単語を出せるようにする

ちょっと、画像生成の方で頭が一杯だが、Gemmaを使ったモデルである程度は作っているので、これに「いくつかの要素」を追加することでリリースできるようにする。groqのapiを使うことで爆速を体験できるようだ。今も無料である程度、使えるのだろうか。APIを使う選択肢を取れるならば、Geminiもありだと思うけど。

後、テストするとPCのメモリは16GBはないと動作が厳しいかという結論に。今は店頭を見えると、8GBのメモリのPCは増えてきたが、16GBのPCの普及は少ないと感じている。未だに4GBのメモリのPCが販売されていることに愕然としている。ChromeBookで4GBでもギリギリだと感じているので、今後は、16GB以上のメモリのPCを標準として欲しいもちろん、10万円未満でね。

いくら物価が上がったとはいえ、4GBのメモリのPCに数万も出したくはないし、8GBのメモリのPCで10万円以上するとか論外だと思っている。メーカーPCの価格なのだろうけど、メモリの増設さえ簡単にできるようになっていれば、メモリを買うという選択肢は生まれるので、必ず空きスロットは用意して欲しい

そうすると、持ち出しPCとしてWindowsを購入してメモリ増設して気軽に持ち出せると思うんだ。OSも購入しているので後はプリインストールなしで販売してもらえれば、PROを勝手にインストールする

現状、クリアできているのは、OSの件を除くとLenovoのOutletくらいか。後は1kg未満であれば、言う事ない

Rubyのタイムラインの件(10/2)

批判者は、自分で拡張機能を作れば良いのでは？コアに組み込むならば、皆が使う前提であると思うのだけど

なんで自分好みの言語を得るために、私の言語を変えようとするのだろうか。他人の物を取り上げなくても、好みに合う既存言語を使うか、いっそ自分で作ればいいじゃんかよ。
— Yukihiro Matz (@yukihiro_matz) October 1, 2024

最初は拡張機能からでいいと思うのだよね

作れないのか
作らないだけなのか

githubも見てきたけど、これ、コアにしたければ、folkできるのではないか

正直、開発者へのリスペクトがないと言える。まあ、自分もないけど、文句を言うのであれば、ある程度、自分なりの解決策を模索した方がいい。それか、どうしても欲しいならば、断られるかもしれないけど金を積むしかない

多分、自分の現在の能力に合わせて、やり方はそれぞれあるかと

何で、欲しかったのかな。

むしろ、欲しい機能を実装できた力は、将来の糧になると思うのだけど・・・。今はChatGPTなど何でもあるから話し相手くらいにはなってくれるよ

ComfyUIの拡張機能の件(10/2)

初の拡張機能だが有効になった。自動化もAPI用のコードを用意して完了した。今週に拡張機能はgithubにリリースする。自動化の部分は有料にする。とはいっても、hintがあるので皆、苦労しないかもしれないが、自分の記録を書き込んでおく

都市の生活はやばい（10/3）

通勤列車が異常ということは度々、発言してきたが、世の中には通勤列車とは無縁の人もいるはずだ

どういった働き方をしていてどれくらい稼げているのかは参考にしたい

後、大金が入ったら、大学や大学院等で勉強したいと思っている。コンテストが通るとそういう学ぶチャンスが出てくるので、通らないかな

ちなみに、openaiのアクティブユーザーは２億5000万人のうち、有料ユーザが100万人ということは、0.4%ということか。これ、数値としては小さいように見えるが、コスト回収が出来ていなさそうだな。だから、調達を繰り返すならば分かるのだが、もう少し気軽にペイできる仕組みになると、使いやすいんだが、個人で数千円というのは高いと感じるのは自分だけか？

いや、日本が安い価値なので、本当はもっと上げないといけないのだろうけど。

例えば、3000円をペイすると、サービス利用の提供を受ける権利が貰えるとする。あくまで、僕の場合だけど、サービスを受けるときに3000円以上の利益を得られる算段が自分に付いていなければ、受けようとは思わない

もちろん、サービスは相手の利益まで生みだす必要はないのだが、支援系サービスというものを導入するときには、コストを回収できるかと考えてしまう

コストを回収出来なければ、その支援サービスは悪くなくても、自分にとっては意味のないサービスになってしまう

サービスを受けて、使用している間も時間というコストが加算されるから、人件費まで考えると相当コストというのは掛かっている

回収できないコストというのは無駄である。支援系は難しい。

これが、消費で終われば、問題ないんだけどね。例えば、ギターを買う人はそれで利益を得るために、コストとして見なしている人は、仕事にしようとする人以外は、あまりいないのではないだろうか。20万も３０万もするギターは個人にとってはコストがやばい。従って、大半の人は消費で終わっているから成立するのではないだろうか

消費した時点でお役御免なのだ。極端な話、所有しただけで完了しているとも言える

そのため、もう少し消費しやすいコンテンツを作っていけるように取り組んでいるのが現状だ

IIJMioのメールの一文が好きだ(10/3)

こんな感じのメールだ

メールの設定「受け取らない」に設定しているけど、〜のサービスを認知されないことによる
相対的な不利益が生じないよう送っているよ

今まで、サービスを契約していて、こういう文面を送ってくる会社はなかった。IIJMioは4年以上は間違いなく使っているんだが、こう言う姿勢を見習いたい。

拡張機能を昨日リリースした(10/4)

自分自身が実用する拡張機能を作成した。興味があれば使ってみるといい。ちなみにライセンスをGPLにしたのは、ComfyUIがGPLだからだな。最初は、MITにしようかと思っていたのだが、基幹プログラムに従う形が良いだろうと結論づけた

意外に、ChatGPTに聞いたり、他の人のチュートリアル、後はGithubのイシューなどに質問して作ることが出来たので、Pythonプログラムを少し使ったことがある人は、気軽に作れると思うよ

まずは、自分がどんなことをしたいかから初めて、拡張機能が見つけられなければ作るといい

これで、僕も次のステップに進める
放置していた、英単語をつぶやくプログラムの開発を再開したい
（もちろん、その間に画像生成は自動化して動かして、マルチタスクだ）

pixivで1枚の画像が再生数を1000件を超えたのは自分の中で大きい。掛けたコストは回収できるとなお良い

今は自由なポーズを自由に操ることが課題だ。これはControlNetをそのまま操流だけでは難しいからだ

おわり！