今週の「学び」と「アウトプット」について
英単語スピーカーの機能解説を更新しました
自分用の英単語帳リストを作成する機能
Google Pixelの音声アシスタントがGeminiに変更されていた(11/1)
良かった点
Googleのユーザーであれば、自由にGeminiの応答を音声アシスタントを体験できることにあるかと思う
OK、Googleで音声入力にも対応している。
イマイチな点
ちょっと試したけど、Googleアシスタントの方が良かったので戻した。理由は、Geminiで音声会話される部分は音声アシスタントとしていいのだけど、返答が長く、それを音声で延々と聞かされるのがストレスだった
何か調べ物をしようとする時にはいいのだろうけど、例えば、こちらの発音が悪く、おかしな検索をすることがある。そんなときに、本来、興味のあることと違う内容を延々と音声で聞かされるのは苦痛になる
GoogleアシスタントとGeminiを無理やり合体したような内容だ。もちろん、Google音声アシスタントに出来て、Geminiに切り替えると出来なかった内容が対応するのは良い。これが違和感ない形で消化されるといい
音声アシスタントなので、英会話の練習がついにと思ったが、ちょっと、そういったことは出来なさそうだ
改善案
Geminiの回答は短く簡潔にしたらどうか、ユーザーが望まない限り、詳細に最初から掘り下げていく必要はない。短くすることで返答の音声を聞き続ける
僕も、開発している英会話アプリとかInstant Assistantは返答を短くすることを求めるように、プロンプトで入力していた気がする。
戻し方
設定から「アシスタント」→「Googleのデジタルアシスタント」でGeminiかGoogleアシスタントに変更できる(2024.11.1 現在)
なぜ、あなたは儲からないのか?(11/1)
noteではお馴染み(?)の深津さんのポストがタイムラインに回ってきた。他にも、ポストがいくつか紐づいているので実際に読んだらいい
相手が欲しいものを届けることに関わる仕事は儲けられると自分は解釈した。確かに配送業者さんは何かモノを売るわけではないが、ユーザーが商品を購入した後の届けるプロセスにいるから、手数料という形で売り上げを立てることができる
広告代理店が利益が出るのでは、代わりに宣伝をするという手数料をとっているからだと理解している。恐らく、売り物がなくなるということはないから、現実には存在し続けられるビジネスなのだろう。だから、個人メディアなどがnoteに出没するのは戦略的には悪い話ではない。何も個人メディアや企業メディアが悪いわけではないのだ。ただ、僕が疑問視しているのは、その宣伝の仕方だ。
どうしても、広告宣伝費を個人メディアに支払うわけではないので、宣伝が過剰になってしまう部分はある程度、理解できる。逆に言えば、お金を支払えば、適切な温度感で宣伝してくれるのだろうか
一方で、広告代理店の過労死問題を聞くと、宣伝したい人はお金を支払えば済めばいいという話でもない。相手に認知してもらうために、とんでもないストレス、負荷が掛かっているのではないだろうか
しかし、それはモノがある前提だ
ここの部分は一部、疑問が残っており、「ディストリビューション」を配布、流通という意味で使っているならば、生成AIに限らず、届けられていないものは届けられていないし、仮に「結果を保証しない」という意味であれば、その通りなのだけど、例えば、テキストや本だって「ユーザーの結果」を保証しないよね。ユーザーの成果を保証するプロダクトって、どのくらいあるんですかね?という商品に対する疑問は残っている
例えば
ランプは灯りが着くので、ランプを買えば、ユーザーの灯りが欲しいという結果を保証する。
配送物を届ける責任を配達業者は追う。
確かにオブジェクトで見れば、ユーザーの期待する結果を保証していると言える(保証期間とか不具合は別にしてね)
それは、性質によるものだから、その通りだ
ただ、ここでいう「ユーザーの結果」というのは、ユーザーの頭が良くなったり、お金を儲けられるようになったり、何か成長したりというものだ
しかし、特に教えることや、スクールというのは「ユーザー」次第となる
従って、
知識を提供する → これをユーザーが求めるならば、分かる
知識を与えて成果を上げさせる(保証をする) → これは理解できない(ここを勘違いさせる広告多すぎじゃない?)
例えば、1万円を投資すれば、10万円をリターンできますっていうのは、すべての人には不可能なはずだよね。資本には限りがあるから
だから、適切に何を提供するのか(何はサポートしないのか)ってわけだけど、「正しい知識」って何なのかってことだけど、
仮に「正しい知識」を享受したから、自己の成長に繋がることとは相関関係はないと思っている。そもそも、人の言うことが正しいかと判断するのは、自分自身であるわけで、裏取りをせず、そのまま従ってきた結果かと思う。
要は「すべて正しい知識(100%)」で既存の遅い方法で勉強をするのと、学習の仕方を変えて。「何となく正しい知識(60%)」を高速でインプットしていった時の学習曲線に差が出てくれば、AIにも魅力が出てくるのではないかと考えている。今までとは収束の仕方が違うスタイルだ
人は100%完璧ではなくてよければ、実は大した問題ではないのではないか。自分にとって重要なところだけは、正しく確認しておけば
まあ、確かに正しいとされる知識を受けたいのはよく分かる・・・。
誰が証明するから正しいと言う問題点はあるが。多分、自分は支障なければそのまま通す、テキトーな人間だから気にしないだけ。
難しいのはここだよね。
リーチするために、「誰が私の作った商品を欲しいですか?」と欲しい相手が分かる必要がある。僕もここをサボりすぎている。まあ、作るので頭、一杯で疲労してしまうのだろうな。出来るだけ開発はAIに移管して、こういう相手を知ること、相手に存在を知ってもらうこと、届けることに注力したい
有名な人になったからユーザーから「安心感」「信用感」を与えるのとは別な話である
なぜ、Cagliostro Research Labに寄付したのか?(2024/11/01)
色々、考え方はある。投資のリターン(オープンモデルの享受)だ。広告宣伝としても使えるかもしれない。
だけど、今日思ったのは、自分が活動支援を求めているのに、似たようなオープンに活動したいので資金を募っている人達に支援しないのは何だか、嘘のように感じたからだ。自分のビジネスモデル、活動の仕方、思想を自分で否定しているように思えたからだ
たった、1$で何を偉そうにと思うかもしれない。だけど、逆に言えば、1$の支援しか自分も受けられないかもしれないと考えるようにしている。
後は、単純に反省した
彼らの地域はX(Twitter)では、インドネシアとある。一度、平均月給を雑でもいいので調べてみると分かるが、感情的には、何というか本気度が違うことが伝わってきた。もちろん、日本は日本で新しい開発に投資をしているのだろうけど、もっと、恵まれている立場にいるのだから「お前、もっと全力出せよ」と言われたような気分だった
ユーザーの立場に甘んじていないかと
英単語スピーカーをTOEIC対応する(2024/11/)
いや、これ普通にできるのだけどね。手間はかかるけど
標準実装には流石に出来ないので、公開が出来ない。
本当は、TOEICの人達がデータを個人向けに販売してくれる楽なんだけどね(金額にもよるが)。てことで、現状は、TOEICのテキストを持っている(購入している)人達、限定になってしまう
これならば、補助ツールとして英単語スピーカーを使うことが出来るし、所謂、権利関係は守られる。
探し物が多いので部屋の整理をする、ケースに入れる癖をつける(11・3)
特に外に持っていくものはケースに予め入れておこう。この前、探し物を何とか見つけられたばかりではないか。ちょっと、今度ばかりは反省しなければ。机の上はダメ絶対、自分の視界にあるところでも、絶対にだめ
部屋の整理を始めることにする。
掛けるのはまだしも、置いてはダメだ
眠すぎてヤバい(11/3)
眠れなかった。普段は引きこもりだから太陽が眩しい。とはいえ、眠ってしまうと中々起きないので、何ともいえない状況だ。とりあえず、栄養剤を身体に入れて何とか1日、耐えられれば。
ちなみに、claude先生にコードを書いてもらいながら、とある実装が終了した。後は必要な素材だけ用意すれば完成だ
ここまで、2日程度か。明らかに自分がやるよりは早いな
東京楽器博2024に行ってきた(11/3)
これはレポートを書いているので、それを見てもらえれば。九段下には20年振りくらいに降りたとは思うが、日本武道館までの距離が思ったよりは遠くなくアクセス便利だと思った。後は、昭和館という建物が存在していることを初めて知った。令和、平成を超えて「昭和」という歴史に興味を持ち始めた。何か行く機会があったら見てきたい
商品紹介による価値提供に限界を感じる(11/3)
販売促進費みたいな感じで、インフルエンサーによるプロモーションを依頼する企業はいるのだろうけど、最終的にユーザー(というか自分に)までは届くかというとそうではない。まだ、展示会のイベントでメーカの人に直で聞いて、自分の耳で確かめる方がよっぽどいい。録音の音と、自分の耳で聴く音は違うからだ
プロモーションする側はお金を得られるから、それでおしまいになっていいのだろうけど、ユーザーの心には残るか、後で見返したときに価値があるかは話が別だ
そういう稼ぎ方は否定しないけど、振り返った時に、自分にとって、そこそこまともな事をしたなという活動をしたい
それは作品を残すことだったり、プロダクトを残すことだったりするのだが、振り返っても価値があることをしていきたいし、長く使えるプロダクトを作りたい
Pony系のプロンプトについて(2024/11/5)
プロンプト
AnimagineXLでは試していないので分からないのだが、最近知ったのは、プロンプトでキャラクターの上半身に関するキーワードだけ描いたら、キャラクターの上半身を中心にして描かれること
つまり、upper bodyなどのキーワードが不要になることに気づいた
legや靴までプロンプトに含めると、描こうとするので、full bodyに近付くことが分かった
逆に言えば、上半身を描きたい時に、足や靴を指定してしまったら「プロンプト同士」で矛盾を起こすということだ
モデルやLoRAによってプロンプトを共有できない問題を解消したい
これは、モデルを併用する時にすごい不便だと感じた。もちろん、学習内容も違うのだろうけど、構造的な部分は共通化したいのだが、どうすればいいのか?
理由は「1つのモデル」でする方が推論時間が短くて済むからだな
令和の時代に通学する意味ってあるのか?
大学もオンライン化が進むといいなぁと思っている。選択肢としてね。通学の時間を勉強に当てられていいと思うんだけどな。地理的な問題もクリアできていいんじゃないか。といいのを10年くらい前に唱えているのだけど、中々共感は得られない。後から理解したのは利害関係が発生するからだろうね。オンライン化が進めば、コストが安くなる部分もあると思うのだけど、雇用の問題で進まないんだろう。
大学無償化の思想については、やっと時代が自分の思想に追いついてきたかって感じはしている。コスト(費用)をどうやって捻出するかは分からないけど、学習できるチャンスがあることはいいことだ
あの時の面接官はどう思っているんだろうな。意見を変えていないとしたら、是非、この流れに反論を出してほしいね。あの時の言い方は頭に来たからな。その論調でこの流れを批判してほしい
「〜を知っていますか?」じゃなくて、
「だから、何?、なんなんだ?」って、その先の部分を言わない(突き詰めない)と、相手の意見を理解することは出来ないし、意見を言っていないのと同じだろ。私は「既存のこの仕組み」があるので、「あなたの論じるマルマルは不要だと思います」ならば、こちらもまた考え始められる(理解できる)けど、議論ですらない。まあ、自分の意見を言うのが苦手な人だったんだろうと今では思う
別に、こちらも正しさを追求したいわけではないし、証明をしたいわけじゃない。自分のいいと思うことをするだけだなと思って活動をしている
Claude先生と一緒にデバックをした(11/6)
修正の提案が良い。どこを変更したのか比較的わかりやすい。マジでロジカルだわ。何というか提示するコードは可用性と拡張性を見込んで提示している感が半端ない
Geminiに聞いたらGoogleMapと連動しているのか、店の営業時間を答えてくれた(11/6)
どういう仕組みなのだろうか?
Google MapのデータをRAGしているってことだろうか?
店の位置までも表示しているので、ただ、RAGしているわけでもなさそう
Googleアシスタント時代はどうだったっけ
Claude先生と一緒にデバックをしている(11/8)
現在、作っている音楽演奏支援のエディターなのだけど、実際に動作確認をしてリリースに近づいてくると、仕様の段階で認識していなかった矛盾に気付き、コードは気付かない状態でオーダーしているからロジックがおかしくなる。こういうところは、自分でも考える必要があると思った
そろそろ、リリースに持って行けそう
現在、開発中の英会話練習(語学学習・主に会話)のスピーキングアプリを持って、プログラミング関連の作業は全て終了としたい(11/8)
20代の頃に仕事をし始めて3年目(正確には1ヶ月程度)で分かっていたことだが、残念ながらプログラマとしては私は三流以下だし、性格も含めて向いていない。そして、昨年の10月から個人開発を始めてこの1年で全く稼げないこと(稼げる気配がないこと)が分かった。コンテスト等で受賞すればもしかしたら?と思わなくもないが、二度とITの受託の仕事はしない。ITの仕事はしないと決めていたので、すっぱりと辞めて別な方向に労力を注げば良かったのかもしれない
もちろん、趣味としてはプログラミングを続けることはあるが、ここら辺が自分にとって潮時なのかもしれない。どうしても、お前にはITしか価値がないんじゃないかという強迫観念が自分を縛り続けていた。だけど、ITの仕事というのは自分にとっては面倒ごとを押し付けられるイメージしかなく、厄介な仕事であった。巷の人達は何らかしらの方法でこの問題を解決してきたのであろうが、自分自身の性格を変える気はないし、能力を他の人に合わせる気がないので、仕事ではあったが嫌々やっている状態だった
毎日、怒られてきたし、モチベーションなんてものもなかった
今日も、建築現場の仕事なのか怒鳴り声が聞こえてくる。それが彼らにとっては普通なのだろうが、僕はよく怒られていたので、どうしても、怒られる側の気持ちになってしまう。それが仕事のクオリティ、タイムスケジュールを守るためなのではないかと理解をし始めてきたが、本人が中途半端にその仕事をする感じで雇用されたとき、本人は大抵、そこまでの意気込みを理解できないものだ。ああ、仕事とはいえ悪循環だ
どうしても、能力は人それぞれ違うので、仕方のないことだが、とりわけ僕は理解力が悪すぎてしょうがない。製造現場では使い物にならなかったからだ。いつも思うは
どのペースで仕事をすれば間に合うのか?
どのクオリティであればお咎めがないのか?
ということが分からない
理由が不明確だし、結局、自分の中で咀嚼できなければ、教える方もきっと無駄になってしまう(基本は教える方が悪いと考え方を変えた人間なので、教え方を改善してほしい)
しかし、教え方と言っても共通テンプレートを用意すれば済むのではなく、恐らくは人によって性格も理解できる言語、言い方も違うので、一概には統一することができない
この文章を読んでくれた諸兄も、きっと、それぞれのバックグラウンドや経験によって見えた世界が異なっていることだろう
しかしながら、得意でもないことに時間を掛けるのは、稼ぐ意味でもパフォーマンスとしては良くない。さて、今後の人生、何をしたらいいものか
ってところが、次の課題だ
DMMボイスのリリースの話を読んだ(11/8)
巷で話題のDMMボイスがリリースされて、想定以上の利用(コストが発生)があったためか一時中断とのこと
ただ、いくつか読んでいくと、どんどんリリースしていこうという精神はためになった
さて、70文字の利用制限について考えてみたいと思うが、自社のサーバだけではなく、外部のサービスも並行で利用していると思われる。例えば、外部APIなどだ。何を仕様しているのかは分からないが、今後、70文字以上を使いたい時に、ユーザー側で負担の元となっているAPIを個別に契約して課金させれば、70文字以上を使用することはできるのだろうか?
基本料金(DMMボイス)+外出ししたAPI料金(70文字制限の負担の元になっている外部サービスの個別契約)
めちゃくちゃ、機動力(開発スピード)は早そうな方々なので、予めリクエストを言っておけば、設計ロジックで不整合は起こらないかもしれない
従量課金の怖いところは1ユーザーあたりどれくらい使うか分からないから見積もりが難しいと思っていて。かといってmax値と思われる料金をユーザーに課すと結構な値段になってしまう。一気に会社側で負担と管理をすることはユーザーの導入障壁を下げて(アプリさえ持っていれば、高負荷な処理をユーザー側にさせなくて済み、ハード依存による利用できる人の範囲が最大限に広がって)望ましいが、サービス側はリスクを負いやすい
でも、サーバサイドで各クライアントに対して処理してくれるのはユーザーにとっては理想だと思うのでいいことだ
残念ながら、DMMボイスは使ったことがないので再度、launchされたときに使ってみて、自分が使ってみたいと思うようであれば、今の話をリクエストとして送ってみようと思う
style-bert-vitsなど、cpuでも推論は出来るのでハードウェアに余裕があれば、音声生成難民は目的にもよるが、使ってみることを検討しても良いのではないか
おわり!