今週の「学び」と「アウトプット」について
単純作業はアニメを見ながら(ながら作業を)するとモチベーションが保たれる(11/8)
1個1個ダウンロードしている作業があるのだけど、168パターンあるので、結構しんどい。プログラムで自動ダウンロードも考えたが、規則性が見えなかったことと、プログラムを組む時間と手動でダウンロードする時間を比べた時、どっちの方がダウンロードが早いのだろうと考えた時、手動という結論になった
Conditioningの値をいじれないか試行錯誤している(11/8)
例えば、こちら側でconditioningの値をいじることで、不規則に引き算してみたりすれば、規則正しくない人の手書きのような感覚の絵がいじれるのではないか?かなり、実験的だが自分のDepthの構造化への疑問を解決するためには、参考になるかもしれない。分かったらレポートする。Claude先生に、カスタムノードを書いてもらったので試してみる
やはり、調子が悪い(11/8)
睡眠不足か調子が悪い。さて、claude先生には、xml viewerや、json viewerを書いてもらおうかな。今までで不便だったことは出来るだけ、アウトプットしておいて、次に同じ人が迷わないように残しておきたい
xmlもjsonもテキスト量や階層の深さで読む気がなくなるので、構造的に捉えて、欲しい情報にアクセスできるコードを書きやすくなるといい
claude先生には、評価者になってもらい、自分のしていることを第三者目線で指摘してもらうようにして、質を高めたい
noteの記事の書き方を見直す(11/9)
noteではタイトルの付け方のガイドがある
noteのユーザーはダッシュボードから見るといい
僕はオブジェクトだけを述べる傾向があるので、誰に届けたいかが、タイトルに欠如していることに気付いた。本文には、どういうつもりで作ったのかは書いているつもりだが、そもそも、タイトルにも書かないとユーザーからすれば、自分が読む対象のものだろうかが分かる
そのために、誰に届けたいのか?
ギターコードエディターなら、自由にコードを編集して、一覧表を元にしてギターを弾きたい人に向けているので、そのような旨(趣旨)が分かるタイトルが必要なハズだ
ここはいつも疑問に思うのだが、noteは創作の場とある。つまり、打率を稼ぐためには発表し続けてねという理屈はわかる。モチベーションとして創作を楽しむこと。これも分かる
自分のnoteの捉え方が宣伝目的で使用していたところに問題があったのかもしれない。恐らくは優れた創作になっていくうちにフォロワーやらスキなどが芋づる式に増えていくことを狙っているのではないだろうか
だから、プログラムを書くことや絵を描くことと同じで、文字を書き続けろということだと思う
自分のポジティブは相手にも伝わるし、自分のネガティブは相手にとって心地いいものではないかもしれない
楽しい=エンタメ、だから消費するという図式が出来上がるのかもしれない。恐らく、出版というのはその延長にあるのだろう。
つまり、打率の悪い状態で宣伝しても意味がないとも捉えられる。よく、習熟には1000時間の法則なんてものがあるけど、出来の悪い(面白くない)もので勝負してもということだ
ただし、面白くするためにはひたすら、公開(完成として、つまらないと言われる覚悟を持って)し続けなければ辿り着けないのだろう
ちなみに、習熟の1000時間なんてのはプログラミングはとっくに超えているので、ノックを撃ち続ければ売れるというのは、経験上、売れるか売れないとはまた別の話だ
ただ、その創作が面白そうであれば、読もうとは思うだろう。問題はどうやってお金に変えるかだが、そこは自分で考えないといけない
1000時間までは無料で公開して、1001時間目からは有料ならば、面白いと思えば、買うかと言えばそうはならない
ただ、例えば、僕の場合の話だけど、30Pの漫画があったとして、15Pまで無料で公開されていて、面白く続きが気になるほど引きこまれていれば、残りのページに対してお金を払った記憶はある。でも、100円くらいだったから、支払えたのだと思う(そう考えると、ここはノックの本数も少なからず影響しているのだろう)
価値を決めるのはユーザーであるが、その塩梅は難しい
また、創作者というのは、会社勤めでもなければ、資金繰りが難しく、売上が立っていなければ、消費者として消費することも難しいとは理解し始めている
ComfyUIのConditoningの値を変更して画像生成する(11/9)
Claude先生にConditioningの値の抽出する方法を確認したら、以下のような値が取得できた。tensorの値だ。この値をいじればseed値を固定したときに、生成内容に変化が表れるか確認してみた
Debugging Time: 2024-11-08 16:22:05.742984
Condition Type: <class 'list'>
Condition Content:
Condition Element 0:
Sub-element 0:
Shape: torch.Size([1, 539, 2048])
Data: tensor([[[-0.2441, 0.0214, 0.6327, ..., -0.2293, -0.1235, -0.1985],
[-0.0087, 0.1206, ...
Sub-element 1:
Data: {'pooled_output': tensor([[ 0.1550, -0.0100, -0.0293, ..., -0.1207, -0.0556, -0.2771]])}
加算(減算)
乗算(除算)
加算に関しては、0.01程度、乗算は1.1程度、確かに若干、生成結果が少し変化することは確認できた
逆に、大きく値を変更すれば破綻する
しかしながら、全体の値を変更する場合は期待していた変化は得られなかった
また、ControlNetの出力結果に関しては、事前に何かをしないと変化をいじれないことも分かった。ノードの接続的に
Ksamplerに関しては、計算式にメスを入れないと、変化を確認することは出来ないと思われる
ここまでの話題で考えてみると、仮にKsamplerの値をいじれたとしても、Seedによる変換と変わらないのであれば、微妙になるのかもしれない。conditioningの値の変化は、全体的な変更であれば、Seed値の若干の変化とそう変わらないのではないか
やはり、いじるとしたら、モデルそのものなのかもしれない
ControlNetに関しては、数字をいじってDepthの境界をあいまいにして、より棒人間的(構造的)に捉えられないかとも思ったが、何だろうか
ちなみに、NoobAIを試してみたのだが、あれは、AnimagineXLより少ないプロンプトで比較的柔軟に動くと思う(ただ、プロンプトに対する結果が理解できない場合もあるけど)紹介されていたIllustriousのワイルドカードも参照してみたが、公式ではないため、そのワイルドカード以上にキャラクターを認識しているようだ
いずれにしても、構造的に捉えられるといいんだけどな。
まだ、生成しているのは確かだが、感覚的には模倣の世界だと思うので
絵を描く人のように、スタートの部分があって、そこからGoalに近付くといいのだが。現状はプロンプトがそれに当たるわけだが
リリースしたコードエディターのスマホ操作について(11/10)
基本的に意味があれば修正はするが、とりわけユースケースとならないと思われる内容を編集しても意味がないかと
スマホの表示領域に合ってない → PCでの操作が前提でスマホで編集するイメージをあまり持っていなかった。小さい、スマホの画面で操作するのか? 現状:スマホのブラウザでPC表示すれば、画面全体が表示される
スマホでもXMLの保存と読み込みが出来ることは確認した
残りの時間で何をリリース、作業していくか(11/10)
とりあえず、プログラムしていて苦労したことは全て吐き出して、次の世代が一人でも困らない、助かったと思えるようなものが出来ればいい
① 検討していること
xml viewer
json viewer
この2つは、既存でライブラリが登場しているが、広告付きのサイトであったりするので、今のところ無広告な自サイトに載せることで健全性をはかりたいことが1つと
いつも、タグを追うのが大変なので、もう少しタグを追うのが簡単になるように出来ると、コードを打つときのタグを理解する時間が減らせるかと思う
いつも思うのは末尾から検索できるといいのだが、現状は親要素を判別できないと、末尾のタグに辿り着けない理解でいるからだ
② 英会話(会話練習)アプリ
これは、散々、言ってきているのでスキップ → 移植方法を検討中
③ エフェクターのDIY、簡易、midiドラム(コントローラ)のDIY
ここら辺は、一度はしておきたい(売るとかそういうのではない。暇つぶしに近い趣味だ)
④ 部屋の掃除と部屋のミニマム化(スマート化)
こいつは適宜しているのだが、何といか生活の導線がロジカルではない気がする
⑤ Claude先生と壁打ち
回答は出ないと思うが、英知から学ぶ
Claude先生にコードを描いてもらった(11/10)
完全なコードとは何かという話はあるが、
xml viewer
json viewer
それぞれ、30分〜1時間程度で1〜2回程度で大まかな形を
デバックをして修正指示を、数回ほどやり取りすれば完成した
やはり、仕様がある程度、固まっていると処理は早い(手直しは少ない)
Claude先生はプログラミングは得意そうだ
めっちゃ、爆速である
仕様により自分の欲しい内容が受け取れるので
生産性が格段に違う
先刻、発言していたことが完了するのは今までにない体験だ
同時に、自分の能力のなさを痛感するが・・・
こんなに少ないコードで実装できたのかってところとかね
必要に応じて、学校もClaude先生を取り入れてプログラミングの学習をさせればいいのにと思う。自学自習にめっちゃ便利かと
カリキュラム(お題)は先生が用意してあげれば、後は生徒の方で勝手に調べるだろう
例えば、コードの書き方を教えてほしいと言えば、それなりに答えてくれるだろうし(ほぼ答え)、お題に対して何が必要か仕様を考える練習にはなるだろう
ずると言われる可能性はあるが、学校の勉強なので、自分で考えられるようにアドバイスくださいみたいな感じにできれば、コーティングも自分で考えられるだろうし、例えば、どうやって勉強していけばいいですか?っていう調べ方のお手本にも使えるのではないか?どうしても、わからなければ、教科書の解答を見るのと同じだからAIを使うのもそうは変わらない。リファレンスとして引いて課題に取り組む分にはいいだろうし。まあ、仕様書がある程度固まれば、一つずつ書き方を聞くこともできるだろう。ポイントは困った時に自分だけでもある程度、解決できるかってことだけど、習うという意味だったら、どんどん書き方(実例)を教わった方が、改造もしていけるだろうし、いいんじゃないですかね。最終的に自分で判断すれば。
AIはずるい問題(11/10)
正直、目的を満たせればどうでもいいのだが、プログラムを書く作業を代行してもらったことで、手動から、半自動(プロンプト指示や少しの加筆修正)になったことで、自分で作っている感はなくなった気がする
そもそも、開発者でない立場からすれば、金を払って、他人に作ってもらう感覚に近いとは思うのだが、今回ならば、Claudeに月額3000円払って、小規模なコードを書いてもらう作業のことだろう
プログラムを書いていた人間が、シフトすることで何とも言えない感覚(思考していない感)には陥った
とは言っても、webを調べて他人の書いたコードをコピぺしたりしていた人間(目的を考えなかったり、仕様に落とし込まないで調べるときなど特に)なので、それがAIに移っただけであまり変わりないかとも思う
たまに、真面目に処理の流れを考えて、書き方を調べるという作業はしていたので、そのときにはコードを有効利用できていたとは思う(言語の仕様というよりは機能の大まかな把握と転用を仕様に合わせて考えること、結局、十分に理解していないと逆にバグを生むので結局、よく意味を調べて理解しようとすることになるのだが・・・)
とりあえず、自分はクリエイティブなのかは置いておき、手動から自動になる話は、昨今の絵描き界隈の話題に似ている気がする
でも、Excelはずるい問題と似ている気がするのよね。コードを書かない。手計算をしない。でも、電卓はありなのか?暗算じゃないのか?など、この手の議論は、扱うオブジェクトが変わっただけで内容は変っていないと思う。道具が極みに近付いただけだ。使用するのは自分だ。使用した結果を負うのも自分だろう。電卓、はじくのミスって、電卓のバグでない限り、電卓が悪いとは言わないだろう。間違ったならやり直せばいいだけだし。まあ、何でも100%って訳にはいかないので、ある程度、目的を満たせていれば、いいんじゃないの?とは思っている(クオリティの設定だ)
なので、ずるい問題に関しては、過去を思い出せば、ある程度、飲み込める話だと思うのだ。「どこかで苦労した自分は偉い」という驕りや正当化、何かの言い訳、自尊心の維持など「ネガティブな転用」に使っている部分を一旦、置いていけば、解決していくはずだ
努力が悪いと言っているわけではない。より、効率化して結果を残せた方がより多くの「成果」を上げられるのであれば、ありだよねと言う話
よく分からないからというのはあり。自分が分からない(事実を受け止めること)は全然ありだけど、それを苦労しないからいけないという議論のすり替え(事実を隠す転用)に使うのは、ちょっと違うと思う
どうしたって、勉強したくなかったり、吸収したくないなんてことは山ほどあると思う。Excelが使えないから評価的にダメとか、そういう基準も置いておいて、その上で自分はどうするかを考えればいい話だ
何か、話がとっちらかったが、「作業」ではなく「仕様」を考えることにより集中できるようになったのはメリットだとは思っている
一方で、絵描きの人は、絵を描く練習を積んできたのだと思う。たぶん、絵を自分で描くことでしか得られない経験というのもあるだろう。それはそれでよい体験だと思うので否定されるものではないかと
活用を見出すとしたら、許容量にもよるが、例えば、いつもの自分の絵を描く時間を短縮して、下書きを書いてもらうとか、アニメーションならば中割りを補って加筆修正するとか、実用性は保証できないが、可能性は広がっていると思う。使い方次第なのではないか
手書きの方が高級感(コスト感)はあるとは思うし、自分の意志が反映されたイラストになっていれば、AIでも手書きでも、半々でも何でもいいのではないか(プロセス的に)
売上の問題に関しては、もし減っているならば痛手だとは思うが、自由競争の論理であれば、必ず勝ち続けられるとは限らない
同人に関しては販売をしてもいいとは思うが、2次創作で儲けすぎるのもどうかと思う人なので。儲けたら、ある程度は公式に還元すればいいんじゃないか。最終的に自分のオリジナルで勝負するなら文句は言われないかと
ファンアートはファンアートでしかない
工程が機械なのか手書きなのかの違いだと思う
著作権の問題については、議論しない
今後、ガイドラインが明確化されていくといいなぁと
次に作りたいもの(11/10)
大文字化と小文字の変換ツールって昔からあると思うのだけど、地味に使うときがあったので、Claude先生にサクっと作ってもらおうかと思う
他にもちょっとしたもので何が必要か回想して、リストに入れよう
後は根本的に自分のニーズや解決に必要なこと(仕様・考え方)が足りていないので、そちらにシフトしていく
Geminiは万能なのか?(11/10)
他のモデルでも言えるけどそうではないと思う。万能そうに言っている人達は、どういう作業には有効だと感じたのか言語化してもらえると参考になるのでありがたい(geminiの話なのか、apiの話なのかバージョンも含めて言ってもらえるとありがたい)
現状、会話をベースにしたものであればgeminiに不満はない。コーティングには不満がある。Claude Pro(sonnet new)やChatGPT(4o)の方がより近い答えを出してくれる。geminiのいいところはレスポンスが早いところだ。
同じジャンルでも内容によってはうまくいかないこともあるだろうし、一概には言えない。例えば、ClaudeもHTMLとJavaScriptはうまく行くが、他のコーディング(オープンソースの活用)の理解は怪しいかもしれない。GitHub Copilotもいい感じとは言うが、試していないので分からない。そもそも、開発中のコードを学習させたとして上手くいくものなのか。でも、これもAIのモデルの選択制なのか
APIを利用したサービスというのは、API発行元のサービスを使ったらいいのではと思うが、制限して形を変えるのであればアリかとは思っている。
gemini liveが実装されていた(11/11)
各社、音声による対話実装を進めてきたな。
Line Notify終了のお知らせ(11/11)
今年度の3月末で終了のお知らせが来た
今までWebスクレイピングして楽器の新作情報を取得して通知していたMessaging APIを代替手段として提示されたので、必要に応じて移行作業に入ろうと思う
LINE Notifyを提供して頂き、ありがとうございました
React NativeがAndroidやiOS向けにエクスポートできるらしい(11/12)
Reactは名前だけ知っていて今まで利用しようとは思わなかったのだが、興味を持ってClaude先生に聞いてみたら、ReactNativeについても知ることが出来た。素のHTMLでも出来ることをわざわざReactですることもないが、React Nativeでは、スマホ向けにビルドできるのはありがたい。いくつか、スマホのセンサーにもアクセスできるみたいなので、Claude先生にいくつか作ってもらって、自分用として使いたいと思う。開発者向けのビルドも出来るので、登録しなくても個人でならば楽しめそう
他にもいくつか作りたいのが浮かんだ
ガントチャート
カンバン
センサーを使ったアプリ(方位磁石とかボール転がしとか)
ギターチューナー(web/スマホ)
Claudeのpro planに入っているので小さなコードでガンガンに作ってもらいたい。
数を打てば当たるという言葉もあるし、量とスピードを重視していく
GeminiLiveからUIを学ぶ(11/12)
声は何種類か用意されている
起動したら、話しかければ、録音のやり取りが始まる(テキトーなタイミングで区切っている感じ
どんなアプリも起動から始まるとすれば、ここからハンズフリーって感じだ
相手が回答中に音声を渡すと会話が止まる
こちらが話しかけている間は、音声が録音される(常に録音される感じ?)
音声認識は課題があるように感じる。同音異議や単純にひらがなで認識して欲しい部分が変換されたりする
代替手段としてテキスト入力で補えるようにはしている
レスポンスはモデルの性能次第
短く回答も可能
事前に条件、英会話したい、こちらが黙っていたら、日本語で意味を教えてなどの条件付けが可能、モデルが(録音)で無音の部分で評価するのか、空文字で評価するのかチェックが必要、履歴が残るのでgemini liveの内容からチェック可能か
発音はゆっくりして貰える(3段階くらい確認)
どうやって、英語学習をしていくか
これは、こちらがプランを用意した方がいいと思う
計画表、タスク表みたいなのを用意して、自分が考えらるシチュエーションを明確に用意した方がgemini側も答えやすい気がする
例えば、下記のような計画表だ
シチュエーション
# where (電車の中で)
# what(行先を聞かれる → 例:この電車は新宿に行きますか?乗り換えはできますか?)
そして、分からないときは瞬時に判断して、日本語で返答すれば回答して貰える。
思考が遅く話がまとまらない場合、タップをしてから会話を再開する機能は便利かもしれない。補助機能
今日の注目記事に掲載された(11/12)
今までの記事と何か変えたことは下の記事に書いた
記憶しているのは
今日の注目記事に掲載されればいいなとは思っているが、狙ったつもりはないこと
相手に届けるためにタイトルの文言を検討したこと、普段、意識しない自分の奥の心理状態を言語化を考えたこと(なぜ、綺麗な海を自分は見たいのか?自分自身がどう思っているのか知ることは意外に難しかった。単なる癒しという言葉ではなく、自分にとって、実際にはその場に置いてどういう感覚でいるのか、意識していない、心の内を探ってより近しい言語を考えた。自分自身の整理が中心だったかもしれない)
伝えたい相手は「海を見たい人(恐らく、海を通して癒しを求めている人ってことか?)」であるが、伝えたいこと「海に身を寄せる(今のところ自分に一番近い表現)」を伝えられているか?(チェック)に関しては、AIは多分、伝わっているんじゃね?て回答だった
ただ、前述した通り狙っているのではない。伝えたい相手に伝えたいことを伝えられているか?だけ集中していたと思う。ましてや結果は考えてなかったと思う。いいね!はnote編集部に取り上げられるまで数個あったかどうかだし
第三者の意見として、Claude先生やらAIにどう思うか、伝わっているかやり取りしたこと
今日の注目記事に掲載された後の話(11/13)
注目記事に選ばれたのは初めてだったので忘れないうちに
注目記事のnoteのページビューが普段の約20倍/週
ただし、注目記事を通して僕の他の記事が見られていると思うので、実際はそれ以上かと
フォローもしてもらえた
いいねもしてもらえた
コメントを頂けた
少し人気者になった気持ちを味わうことが出来ました(笑
しかし、これはnote編集部の力のおかげだと思っている。本人の能力が変わったわけじゃないから。狙っていいねとかビューをたくさん稼げる人はすごいです
Claude先生とリリースを続けている(11/14)
コードを代行してもらうことで、ノーコードツールを使うよりも柔軟性のある結果が得られるのは素晴らしい
仕様をユーザーが決める点ではノーコードやAIも変わらない
ノーコードの開発の時短に関しては、比べる開発規模にもよるが、小規模の方がAIの方が時短にはなる
コードの安定性に関してはノーコードがサポートする使い方の範囲では安定するが、ユーザーがある程度ロジックを設定した上でAIとやれば、スコープの範囲では修正をしてもらえる
大したアプリを作るわけでなければ、全然ありだと思う。そして、大事なのは自分の頭の中で仕様を作り、これいいのではないかと思えること(新しいこと)をコード化するのがAIツールで乱造を超えた価値のあるツールだと思う
AIは既存の知識を学習しているので、クローンを作るにはめっちゃ優秀だと思う。Claude3.5 sonnet newのコードが整然とし過ぎている
後は、興味を持ったときに勉強するようにフローと仕様書は出力しておくと、勉強する気になったときにはいいかも。正確性は置いておいてね
どちらかといえば、自分が使う前提のものなので、勉強が目的ではない。
逆にHaikuの使い処がよく分からない。何目的で使うのか?
ちなみに、APIを使ったサービスもあるが、APIが高ければ、Claude Proを使ってClaudeのサービス内で作業すればいいのになと思うのだが、自分が知り得ない何か不都合があるのだろうか?
HTMLは出力してくれる
コードも貼り付ければ済む話だが、エディタ内で編集してもらうメリットは何なのだろうか?後は、APIの出力のフォーマットとClaude内の出力のフォーマットが異なるのであれば、目的に応じてということだと思うが、Claude内のフォーマットで出力されるのが最新になるのではないだろか
おわり!