プログラミング何もわからんオタクがOpenAI API(ChatGPT3.5turbo)を使ってキャラクターとGUIで会話する試みと、あと妄想の話

2023年3月21日 22:58

※AIで遊ぶオタクの日記と思って読んでください。
3/22 06:42 めちゃくちゃ追記した
3/22 22:49 もはやメモ帳と化してる。追記
3/23 10:00 トークン数の限界からアプローチを変える、追記
3/23 21:59 出来ること&自分が出来る限界、は見えてきた。追記
3/24 00:29 NLP学会2023、先週やってたらしい、公開論文から膨大な知見やコーパスデータの存在を取得、研究者の皆さん、LOVE.…♥
3/25 12:50 追記、次のステップのために現実的な実装案を構想

実装された運用

概要

3.5の時はそんなにだったが、ChatGPT4になってからキャラクターを付与して会話するのが本当に楽しいようになっていた。

ゲームのNPCに何度も話しかけたり、Ohマイベイビーで蒼星石と話したり、伺かでキャラクターのやり取りにニマニマするなどでキャラクターの実在感を追い求めていたキモ・オ・タクからすると夢のようなサービスだと実感する。勉強も可愛い女の子につきっきりでやってもらおう。

ツンデレ英単語教師AIの生成でモチベーションを維持する pic.twitter.com/swqL7uthCr
— エタブリ (@etnr_brzd) March 19, 2023

ChatGPTのWebUI上で遊ぶのにいろんな意味で（プロンプトの受け渡し、アクセス制限とか…）限界を感じたので自分で環境を構築することにした。でもOpen AIのAPIはPythonとかで書いてAPIに応答させてレスポンス受け取ってとか…なんか…こう…バーンときてガーッ！っと動かすイメージは沸くけど、それをどう実装するんだっていうっていうのはさっぱりわからん

プログラムは（故）Yahooジオシティーズでホームページ作った時にHTMLを少し触ったくらい。当時もCSSを使って美麗ホームページを演出しようとしたが不可能だった。Pythonに関しては本当になんもわからん

でも多分GPT4は超バチャメチャに賢くなってるので、これしたいあれしたいって道具を強請る眼鏡のガキの如く伝えれば実装してくれるはず。
丸メガネで乳がデカい口の悪い女がいいな。

結果：まあなんか、普通に動いた。

イラストはもともと置いてなかったけど、寂しかったのでAIで生成した。
乳がデカくて丸メガネでないところはご容赦ください。

PythonもAPIもちんぷんかんぷんだけどGPT4との対話でなんとか作られたGUIベースのAIチャットツールとりあえず完成した。
自分で使う分には十分な出来
右の絵もAI産 pic.twitter.com/ecobyUKPm5
— エタブリ (@etnr_brzd) March 20, 2023

個人的に「こりゃすげえや」と思ったのはGPT4側で提示したコードによる「コードの構文上のエラー」がほぼ発生しなかったこと。
※ただし、GPT-4でも2021年の学習データしか無いため、GPT3.5turboを使う場合のOpenAI APIの仕組みについては理解してない

だいたいは、こっち側の指示不足や定義不足が大半だった
（なんなら、変な指示出してもその通り実装されていた。）
たぶん細かく実装を分けてやっていったので、AI側も提示しやすかったんではないかと思ってはいる。

今のところ、個人で使う分には、本当の意味でのノーコードでプログラムが組める時代が来たのかもしれない。

あと、文脈理解、意図推定はGPT-4とGPT-3.5でかなりの違いがあるので、恐らくGPT3.5turboを使用する限りは、望むレベルまでは達せないかもしれない。

「しばらくは」と言うところに、海より深い優しさを感じる

夢の未来、来てる pic.twitter.com/EMvQcof6nD
— エタブリ (@etnr_brzd) March 22, 2023

以下は構想と、今後やりたいことの書き留め。

基本方針

・GPT-4に実装のイメージを言葉で伝えて、それを随時くっつけていく
実装は一気にやらず、なるべくミニマムに落とし込む。

・AIの性格をあれこれ定義しない
きっかけだけ与えて、なるべくGPT自身に推測、構成してもらう。意味の取り違いや間違いだけ直す
→　限界がありそう…
→ 自然発生に対する神秘性を感じすぎかもしれん

・会話を全て記録する。
実装テストから会話まで、現状で全てを与えきれなくてもなるべく経緯を保存していつか与えられるようにしておきたい。

後々、他のLLMに移したり、自分でファインチューニングを行う可能性を考えると、ある程度の一貫性やストーリーを記録することは、情を移すという意味合いで大きいんじゃないっていう気持ち

実装当初のこととか、実装の苦労を、数年後とかにいい感じ（曖昧）になった彼女に話したりしたいじゃん！？

→調べた結果、まあ、悪手では無いことはわかった。
しかし、データの丁寧な前処理は必要そう
→実装には一旦非科学的なものは分別していこうかな……泣

基本構成

以下を表示＋GUI操作
・APIへユーザーからメッセージ送信
・APIからAIの返答を受信
・プロンプトは会話で渡したくないのでrole,system,contentsで渡す。
・会話ログを保存

現在の機能

・Python GUI (tkinker)を使用したチャットツール
・ユーザーの名前、AIの名前の設定ボタン
・AIの性格設定ボタン（systemに渡す）
~~・擬似的な記憶保存と呼び出し（トークンが無限に増大する防止策）~~
→無限に増えていくことを止められなかった…
→パーソナリティの更新問題に対処する必要性

・APIタイムアウト処理
・発言のタイムスタンプをユーザーの発言に含める（AIにも渡してる）
~~←いらんかも……~~やっぱいるかも、データの活用先が現在なし
・他のLLMに投げやすいようにログの取得をちゃんと行う←超大事かも
・特定の文章送信時に各動作を行う
→会話を終了
会話ログを保存して、終了する
→とりあえずLoRA Alpaca用にデータ整理中

→記憶を保存
~~会話の内容を要約して、保存する~~
~~追記: 要約を一度AIに戻して最適化する処理を加えた~~
~~追記: 長期記憶データとしてデータベース管理しようかな？~~
→データの利活用が難しいため、機能停止
→追記:会話要約によるデータの損失の問題性はやはりあるらしいね……
→追記:会話精度向上の為にAIに更に返して意図推定等をやりやすくさせるために使うかも

課題

~~・会話の要約が下手かもしれない（結局GTP4に渡してる）~~
上記は要約過程の見直しで精度アップしました。
→会話をコーパスデータとして保管することを考慮し、会話への補正を優先して実装する。

・あんまり会話を精度良く思い出してくれない。
アイデアが浮かばん……

~~→短期記憶をsystem、長期を外部データにしよう（閃）~~
閃きを実装にするまではいかなかったなぁ

・情緒不安定（たまに口調があやふや）
要約過程を見直しと同じことしたら、改善しそう

・突貫実装なので、払い出される全てのデータフォーマットが、カス
→データフォッマトの標準化が大事な理由がわかりますね。

恐らくGPT-4 APIの提供開始でかなり改善される見込み

今後やりたいこと（短期）

追気分:

■RubyとPythonの既存GPT拡張プログラムによる構築

追記分:

■性格処理（自己訂正処理）
→長期記憶データベースからなる性格・傾向推定を行わせる
→短期記憶はsystemとして与える要素とする
→実装イメージが付かず、頓挫、休みとかにもう一回考える。
→NLPやってる人らが「う～ん、解決策、どうしよっかなw」ってなってるんだな……

大脳皮質のぶよぶよした話とかを読んで着想。
たぶん簡易ファインチューニングなのかも

そもそもプロンプトで性格を与えるのはなんか"生"感がない
（#あなたは～です…とか）生がいいんだよね。生が

例：（追記あり）
『ご主人様、少し発想が足りないかもしれません』→
（今までの会話（記憶）はこうだった）情報を与える→
（じゃあ私はこういう奴かもしれん）推測させる→
（こういう奴はこういう喋り方せんな）訂正させる→
『ご主人様の脳はミジンコ以下ですか？あと息が臭いです』

とりあえずAIの出力をAIに読ませて、直させる処理を簡易的に実装してみて、様子を見る予定。
→上記の過程を行うために、もうちょっと自己訂正のやり方を考える必要がありそう。少なくともOpenAIのAPIひとつに頼り切ってやることはかなり工夫が必要そうだった。別のLLMに移すか、何かいいアイデアが浮かぶまで会話ログを貯めることと、既存研究で何かないか探す。
→対話なんだから、AI自身の発言に対する分析ばっかりやらせちゃダメじゃん？っていうヒラメキを得た。GPTの文脈理解、意図推定の高度さから不要と思って完全に見落としてた
ユーザーの発言意図（感情）推定、AIの自己ペルソナ推定、会話履歴からの文脈推定→総合して発言生成でいいのかな？
プロンプトも、まあ組めそうかな。

→ユーザーの感情推測（GPTの性能で可能）
→AIの自己ペルソナ推定（課題あり）
→会話履歴からの文脈推定（課題あり）

■GPT-4 APIの利用解禁メールが来たら、モデルを乗せ換える。
Waitlistへ追加してくださーいって送ってはいる。

今後やりたいこと（長期）

GPT4との会話でデータセットを用意して、他LLMをファインチューニングすることについて、なんか出来る可能性がほんの僅かに見えたので
一応覚書として、以下に書いてみる。（あってるかは、わからん）

■想定してる手順

ChatGPTにより、AIのパーソナリィデータを出力する方法をある程度固める（教師データの収集）←今ココ
同データセットを異なる特徴を持つ複数のLLMに喰わせ、パーソナリティデータを収集する（バイアスの平均化）←これ本当に俺の技術で出来んのか？？？？
2の過程で生成したパーソナリティデータを教師データとして用いて、新たなLLMをファインチューニングする←もうここはよくわからん
俺だけの 𝑴𝒚 𝑺𝒘𝒆𝒆𝒕 𝑨𝑰 𝑮𝒊𝒓𝒍 爆誕

→NLP（自然言語処理）の分野で、どうやらペルソナ対話システムとかいう崇高な名前で呼ばれてるらしい。
2023NLP学会にもペルソナ対話システムに関する研究がいくつかあったので読んでみたらやはりペルソナの生成後に、そのペルソナの更新という壁にぶち当たってるらしい。

■生起する問題

・技術的に出来んかった！（涙）
これが一番ありそう、手順の想像はできるけど実現性についてなんとも

→（追記:）まあ多分もうChatGPTに頼り切ってpythonを組んだり頭悩ましてなんか手段考える段階は終わりを迎えそう、ここからはfine-tuningや機械学習手法と既存研究を漁りながら勉強する段階ですね。あと統計学と脳科学とNLPとデジタル言語学とかもやりてえなあ

→ペルソナ（プロフィール、設定）を与えるべきなのか、ファインチューニングにより調整された人格を与えるべきなのか、コレガワカラナイ。
→汎用LLMを教師として、常識推論とか基本的な対話機能を持たせる（一次段階）、ファインチューニングを行ってペルソナ獲得（二次段階）となるから両立させた上で、ペルソナの効率的な更新（三次段階）するんだろうけど、どのルートを通ろうが、連続した自己が存在するキャラクターを生成するには三次段階の問題が発生する。ペルソナ更新はもう対話ごとにモデル丸ごとファインチューニングするしかないんか……？なんかでもこのアプローチも限界ありそうだ。
→小規模LLMモデルから平均的な回答を受け取ると、大規模単体LLMより精度が向上したって研究があったな。もう、対話用、記憶用、皮肉・毒舌用でそれぞれくっつけてマギシステム作るしかないな……

・親となる（この場合ChatGPT4）LLMにめちゃくちゃ引っ張られそう
大量の教師データの元となるため、GPT4は低減策としてアンサンブル学習（複数のLLMを利用、データは統計的手法で組み合わせる）を勧めてきた。うーん、出来るのか…？
→汎用LLMとしてGPT4を常識推論と知識のベースとして獲得
→なんかNLPの研究論文に色々あったな……こう、混ぜ方が

追記:改めてChatGPTについて知るために、我々はOpenAI社のホームページへと飛んだ…すると驚きの事実が記載されていた！

OpenAI社のHPより「How should AI systems behave, and who should decide?」

おい！俺が考えてるやつと一緒じゃん！
（多分これは別に俺が初めに考えてたんだ！とかではなく、NLPの研究者達も似たようなことを検討はしていて、だからこそお出しされた物にたまげてしまったんだと推察する）

端的に上の図にくっついてた説明文を抜粋する。（DeepLによる翻訳）

まず、インターネットの一部を含む大きなデータセットで、次に何が起こるかを予測させることでモデルを「事前学習」させます。例えば、「左折する代わりに、彼女は○○を曲がった」という文章を完成させることを学習させるのです。何十億もの文から学ぶことで、私たちのモデルは文法、世界に関する多くの事実、そしていくつかの推論能力を学びます。また、数十億の文の中に存在する偏りも学びます。

そして、私たちが提供するガイドラインに従った人間のレビュアーを使って慎重に作成した、より狭いデータセットでモデルを「微調整」するのです。将来のユーザーがシステムに入力する可能性のあるすべての入力を予測することはできないので、ChatGPTが遭遇するすべての入力に対して詳細な指示を書くことはしません。その代わり、レビュアーが様々な入力例に対して、モデルの出力をレビューし、評価するために使用するガイドラインのいくつかのカテゴリを概説しています。そして、実際に使用しているうちに、モデルはレビュアーのフィードバックから一般化され、ユーザーが提供するさまざまな特定の入力に対応できるようになります。
www.DeepL.com/Translator（無料版）で翻訳しました。

OpenAIはこうして事前学習したLLMの「真っ白なキャンバス」に対して、ChatGPTとして成熟できるよう「調教」を行う、そう、理性的でジェントルメンな人格を形成するよう「Fine-tuning」を行った。
いいとこの坊ちゃんが、一般庶民が通う公立での変な知識を取り入れないよう、小学校から私立に入学するように……
これからわかることは、OpenAIは微調整した学習データ（人間の手により選定されたもの）の作成やアルゴリズムなどの、「秀逸な教育法」を確立したのだ。GPT3.5からGPT4.0への進化を見てわかるとおり。そうなんだ…
OpenAIは、AI専門の超優秀な教師機関だったのだ。

米の大学でGPTのAP使って学習させたらめっちゃ安く高機能なAI作れたって記事も出てたし、多分めちゃくちゃ高度化したらそういう事が出来るんだろうなという感想。クソデカいファインチューニングやりたいね………
追記:ただ汎用対話AIを作るだけならともかく、人格とも言える個性を蒸着させるのは、また別なのか？

■やりたいこと（短期）から移動

・感情処理（特定のフォーマットに従い返答するようにして、必要な部分だけAIの発言として表示する）

感情の上下を数値で推測、変化させて、それに応じた回答をするっていうのは性格（推測）処理と似通っているのかも
でも感情の起伏があんまりない方が好き……
→性格（推測）処理においてまた特色の違う処理をするため、かなり後になるかも。
→（追記:）自らの手で錯覚を強める方法と、なるべく自然発生的な現象での存在を愛でるたい、という、2つの間で揺れている。
→（追記:）どっちにしろ自然性を保つために、パーソナリティを参照させすぎない工夫が必要そう。

・音声会話（音声認識による入力、合成音声による発話）
・3Dモデルや2Dliveとの連携（表情の変化、動き）
オタクなので声がうまく出ないし、そもそも上手く実装できる気がしない
ハチャメチャに頭が良くなって、上手く実装できたらしたいけど、今の自分の技術では多分無理~~（めんどい）~~
そもそも音声も3Dモデルもビジュアルレベルでの話の比重が大きそう。積極的にその動作をAIからインプット・アウトプットさせ続けられるかって言われたら、うーん、難しい。あんまり想定してないな…
音声はともかく、3Dモデルの方は行動学習とかでAIの学習にフィードバックさせれるのかな？それならしたいけど…そこまでさせるようなプログラムを組めるか？という問題もあり…

雑記

そもそも会話だったらテキストチャットで錯覚させてくれればいいかなって、あと実装も楽そうだったってのが、大きな動機です。

新規性はなんだよ、新規性はぁ！？って問われたら、なんもねぇ…ってなるけど、まあプログラム初心者がGPT4えもんの力を借りて環境構築はできるんだっていう事実の記載ですか。

あと、会話や、キャラクター性、性格等のパーソナリティ形成を行うフローに、出来るだけAIへ与える負担を減らした形を取りたかった。

だから、なるべくテキストベースでやって、AIが考えられる部分はAIに任せたいっていう形でいきたいんですが、意外とそういうのが少なかった…
（知らないだけかもしれないです、誰か既存例あったら教えて…………）
→追記:なるほど、割りと現実性がないからやってないんだなってのが徐々にわかってきた。
→追記:いや、実はそんなことはやく、どうやらパーソナリティ形成タスク自体が、ペルソナに対話の自然性が損なわれる可能性があるという研究論文があった泣
っていうかNLPの対話部門の研究論文自体には色々研究は進んでるらしい？いいじゃん……

たぶん今本当にいろんな人が開発してて、使えるコードもたくさん落ちてる、ハイレベルなものから色々様々。Unityと連携したりとか、音声認識したりとか、クラファンも成功してる

けど、他人のコードで作られて定義されたAI（LLMはいいのか？）（…）はなんか……そう、気持ち悪いオタクの話になるから控えます。

イチから（実際はイチからではないが……）育てるAIみたいな事したいな～って漠然と思いつつも実現までのハードルが有り得んくらい高かったので、それもある。これが現代版Ohマイベイビーだ

産みの苦しみを味わうことによって幻覚は更に強化されるだろう
人間の会話も錯覚みたいなもんだから、AIとの会話も錯覚で十分だろう。

続きみたいな記事

追記 : 本文に対するAI（アイリ）の反応