今月の「インプット」と「実践」と「結果」
前説
毎週、記事を書くのも時間がもったいないと感じてきたので、2025年に関しては、月1にしようかと思います。outputを除く。その分、記事の質が良くなり読む人にとって価値がある記事になればいいなと。有料記事とかは上記の縛りに関係なく出そうと思います。ここ4年は誰でも読める記事に固執し過ぎた気がしています。だって自分の利益にならないから。読む人、使う人には無料でも何かしらの形で自分に益のある形に変えていこうと思います。人生の主役は他人ではない自分なのです。他人のために割く時間はプライベートな関係でない限り「お金」で還元されていいのだと考えるようになりました
ただ、オープンに情報を公開していくことは社会全体の益になると考えているので、基本的な情報は出来る限り公開していきたいと考えています。ただし、自分の利益との関係で公開できないことも多々あると思うのでご了承ください
例えば、DIYした結果などもオープンにした方が同じ問題で悩む人には解決の糸口となると思うのですが、全て公開しないことはそういうことだと思ってもらえるといいのかと思います。
出来るだけ、一般論の部分は「公開」されるといいと思うのですが、中々、その塩梅が難しいですよね
有料記事について
基本的には「値段」を変えない(下げない)がいいのかと思うようになりました。僕は普段、初回セールに飛びつく人なので使えば同じように喜ばれるかと思いましたが、僕のnoteではそうでもないようですね。てことでセール期間が終わったら本来の売値に戻します。それでも企業の講座に比べたらだいぶ安いです。
Project DIGITS
Blackwell GPUって一体、いくつのGPUメモリを積んでいるのか不透明なので気になった。明示しないのにはそれなりに理由があるからだと考えている
オフィシャルにはGPUメモリの言及が見当たらない
Google検索でも答えが出てこない
というか記事を書いている人は誰も疑問に思わないのか?本当に不思議なんだけど。使うことを検討することは本当に興味ないんだろうなと思う
[記述されていることのみで構成する(伝える)]ことは正しいが、
一歩先に進まなければ、ただのコピペ記事でしかないので元記事だけで良いことになる。存在のアラートだけはユーザーは認識していない可能性が高いので価値はあると思うが多くはいらないということだ
もう少し、コピペ記事にならず、ニュースとは別に独自の解釈やツッコミが入ると有り難いんだが・・・
残念ながら誰もしていない。仕方ないので下記の検索ワードで参考となりそうな情報から予測することにした
Blackwell GPUは 価格
GB10が、GB200の1/20と考えるのであれば、GPUは19GBくらいといったところか。50万円とみるならば、イマイチといった感じかな
NVIDIAに問い合わせる窓口が個人向けは見つからない
GPUメモリだけならば大人しく、GeforceやRTXシリーズを買った方が安く済みそうなんだがな。最大~という書き方をしているので恐らく1個では成立しないのではないか?気になるのはメモリが128GBを積んでいるということ、若干、嫌な予感がしているのだが、量子化して使う前提じゃないよね?
ちょっと、実際に使ってみた猛者待ちといったところか
NVIDIAのRTXシリーズがあることも知ったが、A100の40GBにGoogle Colabでアクセスできることを考えると、まだ、当面はColabでいいかといった感じだ
あ、Linuxベースという記事も見たが、そもそも開発者向けだから使う人向けには向いていないということだな。画像生成をする人は使う人に分類されるのかと、LoRA当たりを作るには学習に近いのかもしれないが。50万円も出すメリットはあるかどうかだ
小さなモデルを作るためのパソコンとしては興味はあるが、無償でモニタとして提供してくれると嬉しいのだが・・・
TRELLIS
立体にする。この手の内容は学習させているかさせていないかで出来が分かれそう。試しに自分の持っている二次元画像を試してみるといい
デモにあるような画像は上手にモデリングされるが、デモとはかけ離れた画像はモデリングに難があるって感じだ。恐らく学習の傾向によるものだろう
逆に上手に追加で学習できれば立体にできる可能性はあるが、まあ、そんなモチベーションは自分にはないのでスキップする
Claudeの小ネタ
Claudeの画面でChromeの開発者モードを開くと、求人募集の宣伝が流れるんだよね。昔、HTMLのソースコードに埋め込んだりネタとしてよくあるが、自動化周りを昔、検討していたら偶然発見した
ドメインの更新がせまる
.ne.jpが高くなるので廃止にする。次のドメイン更新は少し間を開けようかと。それに伴い昨年、30リリースした作品がアクセスできなくなります
.orgが今のところ安いので切り替えてから更新作業に入ります。どこかで一時的にアクセスできるリンクを提供する予定です
とはいえ、物置化しているので、もし、優先的にアクセスしたい内容があればコメントをください。順次、対応します
3月11日以降、現在のドメインが使えなくなる予定
コンサルタントが廃業
自称が多かったのかな。コンサルタントは企業をコンサルタントする前に、自分をコンサルタントして稼げばいいのにと毎回、思っているのだが、そうはいかないんだろうか。どうせ、教えてもらうのであれば自身でゼロから起業して真っ当な方法で稼いだ人から教わりたい。出来れば無形資産ではなく有形資産で稼いだ人の方がいいな
コンサルタントは寄生虫みたいなもんだと思っているので信用していない
真面目にコンサルタント業をしている人も多いのだろうけど、どうもXとか見ていると悪い印象ばかり思い描くのでよくないな
つまり、サイレント・マジョリティーは評価しづらいってこと。声が大きい方ばかりが目立つからな。実は目に見えるものだけで分析するのは危険ってことよね
AIが恐らく、公開情報のみで学習しているから「売れる」ための解は出せないのと一緒だと思う
五線譜を読む
2日~3日で15回分くらいしたか
今のところの算段としては
五線譜を読む→ドレミが分かる→フレットの位置が分かる→リズムが分かる→ギターを演奏するを、ほぼ、瞬間的にできるようになればいいのだが
小節単位でもね。記憶力はメチャクチャ悪いので小節単位が限界になると思う。今は一拍目、多くても二拍目までを記憶するのが限界だし、どうも、五線譜の音階から他の五線譜の音階の高さから相対的に読もうとしているので時間が掛かる
1音ずつ、どの音と鳴らして、2音上だから、この音って感じだ
そうじゃなくて、この位置のオタマジャクシだからこの音と1対1で紐づけられるといいのではないかと。じゃないと離れた音程のときにつらい
最近は目も霞むし、動体視力とかそういうのに頼っちゃいけない気がしている
例えば、
下第二線は「A」なのだけど、よく「G」としてしまう。下第一線は「C」なので、そこから2音下げるとかそういう感覚じゃないのだけどな
逆に上1線も「A」だけど、よく「G」にしてしまう。おおよそ、雑に音の高さを相対的に見ようとしているからではないかはないかと思う
下第三線は「F」だ。これも「E」にしてしまう
上第二線は「C」だ。これは比較的覚えやすい
ただ、上下移動をする楽譜だと音が上がっているのか下がっているのか分からないくなるので、相対的に見ようとするとよく読み違える
逆に第二線の上の第2間が「A」であることも覚えにくい
恐らく、間のときと線のときで紐づけようとしているから逆にややこしくなっているのだろう?
そしてもっといこう、上第三線は「E」で上第四線は「G」だ
マジで頭がおかしくなるので、「曲を自作するときに使う機会を増やすか」「問題から慣れる」しかなさそうだ
英会話の練習
僕は英語の構文に組み立てるのが苦手だ
特に主語が何なのか分からなくなる。今は動詞を中心に覚えようとしている
とにかく、自分は相手に伝わればいいやってことなので、上の本をヒントにしながら、自分の言いたいこと(日本語)を脳内で明らかにして変換する作業を繰り返すのが肝だと思っている
脳の負担が少ない
日本の問題は回りくどくて好きではないので、シンプルにできる分、馴染みやすい気はしている。何であんなことをしているのか未だに理解できないのだが、単に書き手が保険をかけたがる癖が反映されているのではないかと思っているのだが
例えば、上記の文において大事なのは"Debuts"ってことなのだと思うんだ
あー、何かデビューしたんだなと
"NVIDIA Project DIGITS With New GB10 Superchip"
これが主語
" as World’s Smallest AI Supercomputer Capable of Running 200B-Parameter Models"
最悪、ここは補語と捉えれば分からなくてもいいやと
今まで全体の単語を全体的に読もうとしたからあやふやになっていたけど、切り捨てることで理解に近付いてきた気がする
大事な内容の8割が分かっていれば十分じゃない?って考えかただ
で、これを今度は読むのではなくて話す場合に置き換える
刹那的に変換できればいいのだろうが、現状は自分は出来ないのでゆっくり変換する
例えば、「今日はnoteに記事を書きました」
I wrote a log at note
ほら、近くない?
logが日誌で、記事はarticleという理解は自分になかった
プラットフォーム上ならonが適切、atは場所という理解も自分にはなかったが、とりあえず「あなたは書いたんだな」ってことで比較的、情報は伝えられていると思うんだ
後は精度の問題な気がするんだよね
興味がある人はリンクの本を読んでみるといいよ
自己啓発本の類に見えるけど、どちらかといえば技術よりの知識本ってイメージに近いから、ちょっと異質に見えてよい
目標はカタコトでいいから、会話ができるようになればそれでいい
(伝えたい人に伝えたいことが伝えられない状態から脱することが出来ればそれでいい)
意志疎通は超、大事
超絶、余談な話
stable diffusionで画像生成をするとき、僕はbreak構文になりがちだが、それでも学習した単語がメインである限り仕方ない
ただ、前置詞など図解が書いてあるのでイメージが掴みやすかった。今まで調べたり認識しているものとは違ったものもあったので、再度、解釈しなおした
進捗
1/20に一周目完了した。
1/17に知人と歩いていたら駅のプラットフォームで電車を聞かれた
渋谷に行きたいとカタコトの日本語で聞いてきたので、知人と力を合わせて答えた。前よりは答えられるようになった感じ
乗り換えを伝えるために、change trainは伝えられたので前よりは会話が進歩した感じがする
電車を降りるを伝えられなかった
get offでいいようだ
get onで乗る
今回の結果で話せない原因が見えてきた気がする。インターネットの記事や大抵の書籍で問題を解決できない理由が分かった気がする
ましてや、AIにも解決できるはずがない。その考え方を学習していなければね。それは予実に分かるんだよ。少なくても自分にとっての問題はね
自分の頭を使って、本を読む以上に自分が使いそうなことで練習をしてみる必要はありそうだ。
ただ、こういう知識として価値がある(ただの自己啓発の語りで終わらない)から、対価を得られるのだと感じた
正直、プログラミングそのものには価値がないと感じていて、AIもあるから個人から出来る前提だから。やはり、同じプログラミングの成果でも価値を変えていかないと販売は難しいと感じた
ギターのコードエディタを修正する点の候補
m9を追加
キーチェンジに対応していない
#の問題がある
音がならない
UFRETは上下キーでキーなのか?コードの音が変わるんだな
半音上げなのかもしれんが
更新内容、2025.01.14
コードとダイアトニックのルート音で構成するように修正した
noteに関わる時間は1日1時間以内にしようかと
outputを書くときだけ使おう
ついでにコンピュータでOutputするのも1時間以内にしようかと
noteがGoogleと資本業務提携
資本業務提携とは・・・
お知らせを見た
株は今回の発表で若干勾配が見られるが全体では安定しない感じだな。最大値と最小値の幅が急だな。まあ、コロナの時は皆、落ちたのであまり気にすることはないかと
なるほど、代表的な大株主は他社で28%くらい占めるんだな。CEO?が34%持っているし、残りの48%が特別反旗を翻さなければおかしくはならなそうだな
黒字化したってことか。よかったな。
なるほど、売上が30億か。170人くらいいて平均700万円が正しければ、かなり社員さんに還元しているのだろうか。11億9千万円なので約30%が人件費に回る。昔、給与の3倍は売上を上げなさいと聞いた記憶があるので理想的であるか。また、固定資産が1億で済んでいるのはちょっと驚き。サーバ代ってもっと掛かるイメージあるんだけど、そんな安く済むものなの?ちょっと自分では読み取れんかった
noteはメディアや出版と相性のいいメディアなのだと感じた。創作を後押しした後の出版がGoalに見えてくる。極端な話だが、noteは巨大な素人から始められる出版社みたいなものなのだろう
プラットフォームの向き不向きは考えた方がいいかもれない。かといって、似たような記事が粗製濫造されるのも集合知としてどうかと思う。まあ、本屋さんも似たような本がたくさん売られているし良いのか
どちらかと言えば読み切れないほどの巨大なマーケットと捉えればいいのか
すると自己啓発本のようなものがたくさん売れるのはサガなのか
(そもそも、書店で平積みされるのは啓発本のイメージがあり、実際のところ売れているのかよく分からん)
するとトレンドを抑えるのは常なのかもしれんが・・・。Stable Diffusionの記事はよく売れるので、最近のモデルで試行錯誤したことなどをあげれば、売れるのだろうか?
好きに試行錯誤すればいい話だし、特別何かしたいことがあるわけじゃないので無理にしなくていいんだよな
逆に技術系の記事が売れて欲しいくらいなのだけど、こちらは思った以上に皆、興味なさそうなのだよね。まあ、ZennやQiitaで書けという話なのかもしれないが
まあ、逆に言えば僕も索引的な感じでAIに移譲すればいいとは言っているので、わざわざ、書店の技術書と一緒で自分の技術書を買おうというnoteユーザーは少ないのかもしれない
ハイクオリティなレベルを取り扱おうとすら考えていないし、知識、行動、会話ともにハイクオリティなレベルの能力は自分にはないしな・・・。むしろ、そのレベルに達していたら、プログラマの仕事は続けていたかもしれない
今は自分のための(売り、実益となる)コードで十分だ
記事にコメントもらえた
詳しい人からコメントをもらえるのはありがたい
単純に疑問点が解決されるし自作に安全性が増す
結果的に悪いユースケースが共有されて、記事もよりクオリティが高くなる
これ、電子回路でも似たような感じで進められたらなぁと思う
日本の育成論、米国の仕事論
僕はとある理由からtypeは好きではないのだが、記事は良かったので共有
よく言われる話だが、コンピューターサイエンスを学んだ人間が、米国ではエンジニアになる
だから、日本ではitの仕事をするためには資格試験ではなく免許制にすればいいと思っている。大学を卒業しても教員採用試験と同じで、合格しなければ免許を取得できない状況にする
免許のレベルも種類と内容にはよるが、その免許がないと特定の仕事が出来ないようにすればいいかと
そうすれば、大学に限らず、教育を受けられなかったという状況下にはならないだろう
特に免許を交付する側には圧を掛ける。現場で対応出来なかったら交付した方が悪いくらいにさせる
逆にいえば、特定の手段、手法だけでしか仕事をさせない(逸脱させない)、更新させるならば、更新免許をとらせる
実習もそうだ。実習も容赦なくダメなら落とすなどしていくことだ。6年くらい掛けて4年で仮免から2年で免許を取らせる。大学院と同じだ
で、免許には初級とか関係なく、設計から会話、マネジメントまで組み込むことで、習っていないを防ぐ
だから、教える機関も同様に審査がなされて初めて教えられる状況がいい
そうすりゃイキナリ使えるエンジニアの出来上がりだ。見切りも早い方がエンジニアを諦めやすくするきっかけになってキャリアチェンジにはいい
日本はIT奴隷を量産した側面はあるので、打破するならば、
ぶっちゃけ、高負荷のストレスには変わらないが免許制で単価も設定して、itに限っては解雇、登用しやすいようにすれば、楽に回るのでは?
ちょっと疑問に思うのは、エンジニアだから高単価というよりは、それだけ売上をあげるという前提なのだと思う(大抵は事業で失敗するが、それを解雇で誤魔化しているだけでは?とは思う)単純に物価は日本の比ではないので、その分も増さないと生活出来ないし、アメリカンドリームってやつなのだろう。貧困差は許容される社会ではないか
ヨドバシは自前
文字通り、ヨドバシはエクストリームだった
クラウドまでプライベートは恐れ入った
というか、それ以上に自社の社員にインフラ強い人間がいないと出来ないだろう
サーバだけじゃなくて、土地やら建設、電気設備など借りる以上に大変な仕事が待ち受けていると思う。めちゃくちゃ、0→1が身につきそう
満員電車対策
僕の場合は下るしか、自宅で働くしかない
都心に行ってはダメだ
勉強した感(満足感)を出すにはどうしたらいいか
大概、自分の実践として使っていないので無駄打ちになることが多い
しかし、受ける側としては勉強した感が必要だ
人は何をもって勉強したと思うのだろうか?
先生から話を聞いたとき
問題を解いたとき、合っているか間違っているか
勉強する側が躓いたとき
試験や資格を受験して合格したとき
学校の授業は、解が用意されているが、社会は解が用意されてはいない、自分か誰かが用意するものだ。そして解が複数あったり、同じ解でも複数の経路がある
同時に、自分で判断する力が問われる
AIで基本的な学習をするときには何が必要か
演習における評価基準と問と解かもしれない
プロンプト(お題)
お題を定義する
pythonの変数について教えて
なお、下記の要素は言及すること
- 変数の型
- 変数の代入
- 変数の出力
- 加算、減算
geminiの出力結果を見て勉強する
Pythonの変数についてのご質問ありがとうございます。Pythonにおける変数は、データに名前を付けて保存し、後でその名前を使ってデータにアクセスするための仕組みです。変数は、数値、文字列、リストなど、様々な型のデータを格納できます。
以下、ご質問いただいた要素について詳しく説明いたします。
変数の型
Pythonでは、変数の型は代入される値によって自動的に決まります。主な型には以下のようなものがあります。
* 整数型 (int): 整数を表します (例: 10, -5, 0)。
* 浮動小数点数型 (float): 小数点を含む数値を表します (例: 3.14, -2.5, 0.0)。
* 文字列型 (str): 文字の並びを表します (例: "hello", 'Python', "123")。シングルクォート (') またはダブルクォート (") で囲みます。
* ブール型 (bool): 真 (True) または偽 (False) のいずれかの値を表します。
変数の型を確認するには、type() 関数を使用します。
x = 10
print(type(x)) # <class 'int'>
y = 3.14
print(type(y)) # <class 'float'>
z = "hello"
print(type(z)) # <class 'str'>
変数の代入
変数に値を代入するには、代入演算子 = を使用します。
name = "Taro"
age = 20
height = 175.5
上記の例では、name に文字列 "Taro"、age に整数 20、height に浮動小数点数 175.5 が代入されています。
変数の出力
変数の値を出力するには、print() 関数を使用します。
name = "Hanako"
print(name) # Hanako
age = 25
print("Age:", age) # Age: 25
複数の値を出力する場合は、, で区切ることで連結して出力できます。
加算、減算
数値型の変数に対しては、加算 (+)、減算 (-) などの算術演算が可能です。
x = 10
y = 5
addition = x + y
print("Addition:", addition) # Addition: 15
subtraction = x - y
print("Subtraction:", subtraction) # Subtraction: 5
x += 5 # x = x + 5 と同じ
print("x:", x) # x:15
y -= 3 # y = y - 3 と同じ
print("y:", y) # y:2
文字列型に対して + 演算子を使用すると、文字列の連結が行われます。
first_name = "John"
last_name = "Doe"
full_name = first_name + " " + last_name
print(full_name) # John Doe
以上がPythonの変数に関する基本的な説明です。ご不明な点がありましたら、お気軽にご質問ください。
問題
変数aと変数bを使って、a+b=9と表示されるようにコードを書く。(制限時間もあるといいかも)
※ ここは、自分で考えて書いてみること(※geminiに聞いてもいいが、事前の解説だけで組み立てること)
a=3
b=6
print(a+b)
プロンプト
その後、自分でデバッグして問題なければコードを貼り付ける
# 変数aと変数bを使って、a+b=9と表示されるようにコードを書いてください
という問題に対するコードを書きましたので評価してください
## コード
a=3
b=6
print(a+b)
## 評価基準
a+b=9となっているか、正解であれば◯、不正解であれば✖️をください
## その他
他にも評価基準を満たす書き方があれば教えてください
geminiの回答を確認する
raspberrypiの5が出ていたことを知った。明らかに性能が違う
これなら、プログラミングもguiでストレスなく出来るかもしれないな
ただ、1000円くらいで売られていた教育PC的な立ち位置の価格ではなくなったと思う
mouseのe10 より、もしかしたら性能よいのではないか説。サブPCとしても機能する気はするが、メモリが16gbあるのは単純に嬉しい
システムramの4gbは単純にしんどいのだ
Geminiの「回答を再確認」するという機能があることを知った
たまたま、クリックしたら知った
偶然だとは思うが自分がtopに来ているじゃん!
プロンプトの主が自分だから、似たような問いと検索になったのだろうか?
どうして検索結果にあがったのだろうかと考えたが、記事のタイトルとプロンプトが一致したからではないか
他のことでgeminiにこの記事を食べさせたか既に記憶はないので、学習したというよりは、検索結果と考えた方がいいとは思う
前からあったのだろうか・・・
ちなみに、やり取りはこんな感じ
質問
pythonでgeminiのapiを使って推論するプログラムを書いてみて!
Geminiの回答
PythonでGemini APIを使って推論するプログラムですね。承知いたしました。Gemini APIは、テキスト生成、埋め込み、チャットなど、さまざまな推論タスクに使用できます。ここでは、テキスト生成の例として、与えられたプロンプトに基づいてテキストを生成する簡単なプログラムをご紹介します。
必要な環境
Python 3.9以上
google-generativeai ライブラリ
インストール
以下のコマンドで必要なライブラリをインストールします。
Bash
pip install google-generativeai
コード例
Python
import os
import google.generativeai as palm
# Gemini APIキーを設定(環境変数から取得)
palm.configure(api_key=os.environ["GOOGLE_API_KEY"])
def generate_text(prompt):
"""
Gemini APIを使ってテキストを生成する関数
Args:
prompt: 生成するテキストのプロンプト
Returns:
生成されたテキスト、またはエラーメッセージ
"""
try:
response = palm.generate_text(
model="models/text-bison-001", # 使用するモデルを指定
prompt=prompt,
temperature=0.7, # 生成するテキストのランダム性 (0.0 - 1.0)
max_output_tokens=256 # 生成する最大トークン数
)
return response.result
except Exception as e:
return f"エラーが発生しました: {e}"
if __name__ == "__main__":
prompt = "AIを使ってできることは?"
generated_text = generate_text(prompt)
print(f"プロンプト: {prompt}")
print(f"生成されたテキスト: {generated_text}")
prompt = "吾輩は猫である。"
generated_text = generate_text(prompt)
print(f"プロンプト: {prompt}")
print(f"生成されたテキスト: {generated_text}")
解説
APIキーの設定: palm.configure(api_key=os.environ["GOOGLE_API_KEY"])でGemini APIキーを設定します。APIキーは環境変数GOOGLE_API_KEYに設定しておく必要があります。APIキーは、[Google AI Studio]([無効な URL を削除しました]。
generate_text関数: この関数がテキスト生成の主要部分です。
modelパラメータで使用するモデルを指定します。models/text-bison-001はテキスト生成用のモデルです。
promptパラメータに生成するテキストのプロンプトを指定します。
temperatureパラメータは生成するテキストのランダム性を制御します。0.0に近いほど決定的になり、1.0に近いほどランダムになります。
max_output_tokensパラメータは生成する最大トークン数を指定します。
実行: if __name__ == "__main__":ブロックで、プロンプトを指定してgenerate_text関数を呼び出し、生成されたテキストを表示しています。
実行結果例
上記のコードを実行すると、以下のような結果が得られます。
プロンプト: AIを使ってできることは?
生成されたテキスト: AIを使ってできることはたくさんあります。例えば、文章の作成、翻訳、質問への回答、画像の生成、音楽の作曲、ゲームの作成などが挙げられます。また、医療、金融、教育など、様々な分野でAIの活用が進んでいます。
プロンプト: 吾輩は猫である。
生成されたテキスト: 名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕まえて煮て食うという話である。しかしその当時は何という人間だか知らぬから別に恐しいとも思わなかった。
注意点
上記のコードは基本的な例です。Gemini APIには他にも様々なパラメータや機能がありますので、必要に応じて公式ドキュメントを参照してください。
APIキーの取り扱いには十分注意してください。コードに直接記述するのではなく、環境変数に設定することを強く推奨します。
Gemini APIの利用料金については、公式ドキュメントで最新の情報を確認してください。
この情報が、PythonでGemini APIを使って推論するプログラムを作成するのに役立つことを願っています。もし他に質問があれば、お気軽にお尋ねください。
Gemini APIの推論でstreamingさせる意味はあるか?
とんでもなく、長い推論であれば必要かもしれないが、基本的に爆速なのでstreamingが1文字1文字表示ってよりは、1回のchunkの量が大きいので塊毎出力している感じに近い
gemini-2.0-flash-expがgemini 1.5 flashよりは性能がよくなった気がする
まだ、1プロジェクトで試しただけだがコードの説明がマシになった気がする。Claudeにも資金提供しているみたいだし、何かノウハウの共有とかあったりするのだろうか・・・
缶バッチはどうやって飾るのか?
100円均一のお店を眺めていたら、コルクボードが目に入ってきた
なるほど、こういう考え方か
ちなみにクリアファイルはA4でないことを理解した。そりゃそうか、A4ファイルを入れるフォルダだからA4より大きいわけだ。従ってA4の額縁には入れられない
ComfyUIネタ
1枚/15秒程度で画像生成しているのだが、最近はUIを立ち上げていると重く感じることがあり、処理が決まったらAPIで実行するようにしている。そちらの方が遅さは感じない。GPUは7GB程度を使用しているので画像生成だけならば12GBのGPUでもいいのではないかと感じてはいる
何か変更が加わったのだろうか
VOXのTTBCシリーズが発表された
おお、NAMM2025でも発表されたのか・・・
いや、それよりもハンドワイヤーシリーズに興味があってだな・・・
これのことか?とりあえず、KORGに問い合わせをしておいた
某バンドの信者的にはVOXは切っても切り離せない関係だからな。一度、本物は手に取ってみたいものだ。その前に部屋を整理しないといけないけど
MXRのROCKMAN
THRのシグネチャーシリーズが昨年は話題になったと思ったが、まさか、MXRからROCKMANが発表されるとは思わなかった
電子工作の件
そろそろ、エフェクターの件やmidiドラム制作の件で、パーツ屋さんにお世話になりたいところだ
資産形成
1500万円の売上を出さないと、資金がショートする件について
キャッシュは大事かもしれんね
何かの緊急時に、広告費は今のところ0円なのでこちらは抑えられるけど・・・組織としてのお金だとは思うけどね
ちょっと、自分なりの計算をしなおした
そもそも、noteの専業は厳しいのでは?
と思うようになってきた。1000万円以上、叩き出している人は軒並み、note専業ではないと思うのだが・・・。noteで生活費をと考えているとドツボにハマる気がしている・・・
それでも単価はだいぶ見直した
自分が"損をしない"計算を意識するようになった
仕事ならば、意味のない活動だからね
本当に考えないといけない・・・
最低時給で働いたと想定して、8時間*20日*12ヶ月働いたとして、240回の取引を達成しなければいけないんだと
確かに価格を安くしていたら、継続は出来ないのはその通りだと思う
きっと、後で色々と積むことになるからだ
サブスクも200名〜300名、入ってきてやっとスタートラインなのだろうという試算だ
自分が1分あたりにいくら稼がないといけないか、意識するいい機会になった。とてもじゃないけどオンラインワーク(タスク)なんてやってられないよね。考えてみると労働者としては認められていない仕事だし、言ってしまえば、経済的に見れば奴隷のような仕事だ。正気の沙汰じゃない。マジで悪いことは言わないから辞めておいた方がいい
一度、自分なりに計算してみることを強くお勧めする
うーん、note向いていないかも
と思う様な出来事があった
僕の目指すところは、フォローはたくさんなくても
確実に利益を出せていて、経済的に成立している状態だな
なぜならば、確実にその状況でも成立しているからだ
何かしら「形」あるものを提供していければと・・・
ビジネスモデル
図解なんてあるんだ・・・
定期的な頭痛が・・・
1/27、今日は頭痛がひどい。とにかくモチベーションが下がる
Stable Diffusionのワイルドカードを扱う
VSCodeで正規表現を使うと便利、だいたいは置換して削除するときに使う
# 改行だけの行
^\n
# 該当する文字列の行
^Design: .*
# 該当する文字
Description:
geminiに聞いたら、"^\s*$"で空行にマッチするとあったのだが、なぜか置換が出来なかった
^\n で空行が削除できたとのこと、おめでとうございます!
^\s*$ と ^\n の違いについて説明します。
^\s*$
^: 行の先頭にマッチします。
\s*: 0個以上の空白文字(スペース、タブ、改行など)にマッチします。
$: 行の末尾にマッチします。
つまり、この正規表現は「行全体が0個以上の空白文字で構成されている行」にマッチします。これは、空白文字しか含まない行、つまり空行とみなされる行に合致します。
^\n
^: 行の先頭にマッチします。
\n: 改行文字にマッチします。
つまり、この正規表現は「行の先頭が改行文字である行」にマッチします。これは、改行のみで構成される行、つまり空行に合致します。
違い
^\s*$ は、空白文字(スペース、タブなど)を含む空行にもマッチします。
^\n は、改行文字のみで構成される空行にのみマッチします。
今回の場合
^\n で空行が削除できたということは、おそらく対象のファイルには、改行文字のみで構成される空行が存在していたと考えられます。
もし、空白文字を含む空行を削除したい場合は、^\s*$ を使う必要があります。
補足
ファイルの改行コード(Windows: CRLF、macOS/Linux: LF)によっては、\n が正しくマッチしない場合があります。その場合は、\r\n や \r を試してみてください。
VSCodeの検索と置換機能では、正規表現モードを有効にする必要があります。
ご不明な点があれば、お気軽にお尋ねください。
anim4gineがリリースされていた
アナウンスされていたので、ざっくり試した
いくつかデモで実行した
デモでだいぶ良さが分かると思う。なお、デモのupscaleした内容が、comfyuiで再現できないのはなぜなのか分からない。たまたまかもしれないけど(デモもupscale前の画像が分からないから)
また、この画像ではないがupscale前と比べると髪がチリチリになってしまう現象に遭遇した
それはそれとして、ETHなどの仮想通貨の送金で支援を募集しているので、特に、プロ驚き屋の人達は彼らをサポートしてほしい
騒ぐだけ騒いで荒らされるのはゴメンだ
追記
しかし、実際問題、利益が出ていないなら仕方ないと思わなくもない。上手くいっていないことは誰にでもある
追記その2
Hugging Faceのスペースを見ていたらGradio(あまりよく分かっていない)を立てて公開されている様だが、よく見たらFilesのリンクがある
コードはそこに書いてあるので、それを見れば違いが分かる。とは言ってもComfyUIのコード(中身)を見ているわけではないので、単純な比較が出来ない。(時間掛かりそうだし、そこまでモチベーションはない)
何というか、WebUIは中々好きだったので、コマンドラインでするのが一番、時間は掛からないのだろうが、自分用のGradioを用意してもいいかもしれんな
ControlNetとか、直ぐに自分がコードを理解して導入するなど、素早くするには自分の能力的に難しい(やる気もない)。だから、多機能に使えるわけではないけど、自分用のシンプルなUIとして作ってもいいかも
簡単なUIの作成
移植
他の要件でも使えるように
例えば、Command Lineベースの推論ではなく、Gradioを立ててローカルLLMを使って推論できるようにしてもいいかもだな。とは言っても既にいくつかElectronとかで作っているのでそんなに必要ないのだが
最終的には多くの人が使えるようにWebに公開できる形が望ましいのだろう・・・
しかし、全員が全員、レンタルサーバを持つわけにはいかないし。自前のサーバを持つわけにもいかない。配布するだけならば"趣味"の範疇をgithubで公開するくらいだろう
追記その2
正しいか怪しいが、ColabでSpaceのコードを実行できた。そして、事象を再現できた。原因が分かった。恐らくupscaleの話で元絵からupscaleした影響のようだ。元のサイズから崩れた感じがある。単純に画像サイズを大きくしたのではなく、HiresFix(理解が正しければこれで合っていると思うが)すると、再度、samplerで書き換えが行われる(拡大は1.5, 強度は0.55 , modelはnearest-exact)
そのため、元絵が気に入っていれば、esrganなどのupscalerで画像をそのままサイズ上げるといいと思う(※ ComfyUIだとimageを拡大とlatentを拡大とそれぞれノードがあり意味合いは異なるかと。今、言っているのはupscalerによるimageの拡大であり、再度、ksamplerを通す訳ではない。なお、upscalerを実行しているときの裏側の動作は把握していないので本当にksamplerを通していないかは不明。comfyuiの見た目上はksamplerを通していないって話ね)好みは分かれると思うので、Hires Fixの内容が気に入ればそれはそれでいい
ベターなのは、画像サイズが大きくなるのでdot数が増えるわけだ。元の絵を維持しつつ書き込み量や陰影など深みが出れば理想だが、ksamplerを通すということは、「書き換え」が行われる訳だ。ここら辺が難しい
逆に言えば、「書き換え」をしない限り、「書き込み」が得られないとも言える
ただ、こだわると疲れるので、それぞれ「別な絵(生成結果)」として捉える方が楽かもしれない
Hiresが分からなくなったので
Hi-resの説明がある
グラブルの設備拡充がしんどい
1年越しで完成できた、しかし、後、7段階くらいあるので先は長い
ニュースの記事だけで判断してはいけないことが分かった話
情報が不足している例を見た
ニュースですら一方通行の記事でしかないため、判断するには自分でリソースを確認することが大切だということを身をもって学んだ
要は一方だけの話で判断してはいけんぞってこと
すごい、違和感がある
「地中からごみ」、この文言だけで「判断」をしてはいけない
何を連想するのか?(マナーの悪いキャンパーを連想したら、あなたはアウトである。それはあなたの想像であって、正しいとは限らないし、それはあなたの思い込みだ。自分は最初、そう思っていた)
しかも、記事はタイトルにしては端切れが悪い。
「なぜ、ゴミが埋まった経緯に言及(追及)をしないのか」(まあ、確定した事実しか話せないのだろうが・・・)
少し、違和感を感じていたのは事実だ。単純に惜しむだけならばゴミの話はいらないだろう。中途半端な気がしてならない
管理人が説明していた。ニュースだけを信用してはいけない
これに加えて、いくつかの続きの動画を見れば、おおよそ最初に話した想像が憶測であるかが分かるだろう
とはいえ、管理人サイドの話であることは注意する必要がある
ただ、口にしたくもない内容だった。そのまま捉えてしまえば「行政」と「地域」に不信感を抱く内容だった
対象によって話は変わるが「産廃」や「不法投棄」の話題ではないかと。管理人は立場が弱いと思われるため仕方ない部分は重々にあるかと。少し闇を見た。むしろ、告発者を守るセーフティネットが張られていないことに違和感を感じる
いずれにしても、問題は残っている
まずは「ゴミ」をどうするかだ
そこら辺は行政が調査してくれることを信じるしかないのだが、
「環境保全」と「問題の追及、事実関係の確認」は分けてほしいところ
別に俺はご意見番になりたいわけじゃない・・・
学んだことは、記事だけを鵜呑みにせず、自分で元のリソースをチェックした方がいいよって話だ
そんなことよりも、何でこの話に興味を持ったかといえば、聖地巡礼に一度訪れているからだ。(10年くらい前かな)
とても懐かしい。自販にストックされたドクペが思い出される
営業終了をするのは英断だと思う。安全を担保できないから終了する。
まあ、木崎湖自体はなくならないから、「キャンプ」は出来なくても「整備」後、見にいくことは出来るだろう
願わくば、あの桟橋を修繕、整備して残してもらえると再び訪れるときには良い
Geminiの推論結果をnoteには貼りづらい
フォーマットがMarkdown形式だからか貼り付けると、自分の文なのか分かりづらくなる。日が立つと何のことかと。引用を使おうと思ったらコードも出力結果にあるので使いにくい
おわり!