KingJoe

最近、話題になってるので、開設してみた。 メモ代わりになるのかな?

KingJoe

最近、話題になってるので、開設してみた。 メモ代わりになるのかな?

最近の記事

  • 固定された記事

KingJoeBot(AI チャットボット)

私の趣味として始めたこのプロジェクトは、GPT-4を使ったLINEチャットボットの開発です。当初はただの興味本位からスタートしたものの、徐々にGPT-4を含むAIの実験プラットフォームとして愛用するようになりました。 経緯GPT-4の発見 OpenAIによるGPT-4の発表後、そのAPIを利用して何か面白いことができないかと考え始めました。 LINEを利用した理由 GPT-4の機能を探るため、簡単に使えて普及しているLINEプラットフォームを選びました。一からGUIを

    • 文章生成AIx 画像生成AI

      プロンプト作成が面倒なので間に文書生成AIを入れた。これまで思いつくまま生成してたけれど、ふとそれぞれの組み合わせで何か違いは出るのか気になったので試してみた。 入力プロンプト ど忘れしましたが、どこかのサイトで紹介されてたプロンプトを入力として、ChatGPT(4o)、Gemini1.5Pro、Claude3.5sonetで画像生成プロンプトを生成し、DALL-E 3、Stable Diffusion、Imagen 3、FLUX 1.1proで画像を生成してみた。 Ch

      • 主要なモデルを試したかったのでLINE-BOTを久しぶりに修正

        モデル追加のたびにソース修正拡張しやすいようにコマンドパターンでモデル変更ができる機能はつけていたけれど、追加のたびにコード追加が必要だった。 最近は、ChatGPT、Gemini、Claude、LLAMA3と主要なモデルの実装が落ち着いたのに対して、各社が新しいモデルを次々と出してくる状況。 ChatGPT用に4oと4o-miniを同時に試したいというような状況が増えてきたので、モデルだけを変更できるようにAIセレクタを修正してみた。 ChatGPTは、gpt-4oとgp

        • Imagen 3を使ってみた

          何ヶ月ぶりのメモ。 久しぶりにAIのAPIの更新を確認したら、Imagen3のAPIがGoogle Vertex AI で公開されたので、画像生成モデルをImagen2からImagen3に変更してみた。 テストに「白いノートパソコンの上に可愛い妖精がいるイラスト画像を作成して下さい。」とプロンプトを投入。 全体的に整った画像に仕上がってる感じがする。 プロンプト考えるの面倒だったので、身近なモノをGPT-4oに見せて、プロンプトを生成させて画像を作ってみた。 マグカッ

        • 固定された記事

        KingJoeBot(AI チャットボット)

          今後のGPT-4oの音声機能に備えて通話可能なDiscordへ移植!

          GPT-4oの特徴としては、音声認識機能だと思うのでリアルタイムに通話できるようなプラットフォームにしないと新機能が楽しめないのでは? ということで、息子から教えてもらったDiscordのボットに移植してみた。 LINE版 KingjoeBotと比較すると、AIはGPTのみだし、画像生成はDALL-E3のみ。 プラットフォーム選び これまでGoogle Cloud Functionsを使ってLINE BOTを作ってきましたが、Discordはサーバとして稼働するようなので

          今後のGPT-4oの音声機能に備えて通話可能なDiscordへ移植!

          LINEのチャットボットからTelegramのチャットボットに移植を試してみた。

          LINEのチャットボットとして育ててきたKINGJOEBOTだけれど、あまりLINE固有になりすぎるのは個人的に気に入らないので、Telegramにも移植してみた。メッセージのやり取りの部分は、プラットフォーム依存が高いけれど、GPTなどのAI呼び出し部分はクラス化してあるので、ほぼ弄ることなく移植できた。 まだTelegramを使い慣れていないけれど、画面はLINEより読み取りやすい。応答文字数が増えてきたのでGPT問い合わせはこちらでやろうかな。

          LINEのチャットボットからTelegramのチャットボットに移植を試してみた。

          GPT-4oが優秀なので回答がLINEのメッセージサイズ上限を超える

          先日、OpenAIが発表したGPT-4oを早速、自身のLINEボットに取り込みました。が、反応がない。。。ログを確認したら、なんとLINE Message APIのサイズ上限である5000文字を超えていることが判明。 まー、これまでそれなりに丁寧な回答をしてくれていたGPT-4-Turboでしたが、これまで以上に丁寧な回答になってました。 せっかく回答してくれているのに落とすのも勿体ないので、上限を超える場合はmarkdown記法で回答するように指示をだして、HTMLに変換し

          GPT-4oが優秀なので回答がLINEのメッセージサイズ上限を超える

          画像生成AIのプロンプト入力をテキスト生成AIにアシストさせてみた。

          テキストチャットでURLを入力したい。DALL-Eの入力プロンプトを簡単したい。と、ほしい機能を実装していたら面白いことができた。 上記の記事では単純に一からプロンプトを考えるよりは、コンテキストでStable Diffusion 3用のプロンプトを作成する役割を与えることで、平易な言葉でStable Diffusion 3が読み込みやすい英文プロンプトが生成できたので、そのテキストを利用して画像を生成する仕組みにした。 また、KingjoeBotではChat AIをクラ

          画像生成AIのプロンプト入力をテキスト生成AIにアシストさせてみた。

          Stable Diffusion 3.0にもAPIがあったのね。

          GPTと組み合わせることで画像生成のプロンプトを対話形式で作れるようになりました。 まずは、検証用に 「白いノートパソコンの上に可愛い妖精がいる画像を作成して下さい。」 と入力してみた。 そこで、次に 「年齢を20代前半の女性にしてください。」 とメッセージを投入すると。 と、少し年齢が上がった感じになった。 次に 「背景を渋谷のスクランブル交差点にしてください。」 とメッセージすると。 それっぽく修正できた。 ネットには、「呪文」と称して、たくさんのプロンプト集が出

          Stable Diffusion 3.0にもAPIがあったのね。

          PDFを添付してその文章を質問に含める

          昨日、URL先の情報を入力に加える機能を追加しました。が、最近は開いた先でJavaScriptなどを動かしてテキストを表示する方式をとっているサイトも多く、うまく情報が抽出できない場合があります。 その場合、仮想プリンタなどを使えばWebページをPDF化できるので、それを使えるようにすれば少しは改善できるかと思いPDFを添付して使えるように改善した。 スマホ(iPhone)からだと「印刷」から「LINE」にPDFを直接添付できるので、より使い勝手が良くなったと自画自賛!

          PDFを添付してその文章を質問に含める

          GPT APIだけでChatGPT Plusみたいに画像を生成させたい。

          GPT API の「Image generation」で指定できるプロンプトは一つなんですよね。ChatGPT Plusでは、チャット上で画像生成を指示して、生成された画像に対して、追加のメッセージで調整ができる。 一つのプロンプトだと都度、生成指示を入力しなきゃいけないので面倒くさい。 なので、チャット機能+履歴を利用して、DALL-Eのプロンプトエンジニアという"役割"を与えて、指示メッセージからGPTを用いてDALL-Eの画像生成プロンプトを出力させることで、ChatG

          GPT APIだけでChatGPT Plusみたいに画像を生成させたい。

          KingJoeBotのGPT、Gemini、ClaudeにURL参照機能を追加した。

          入力プロンプトにURLを入れるとその文章をもとに回答してくれると思ったらダメだった。参照してくれてると思いきや全く内容の異なる回答を出してきた。URLの文字列パターンから推察される文章なんだろうね。。。 ChatGPT有料版なんかはプラグインを入れるとできるらしいけれど、APIで安く済ませたいので実装してみた。(GPTに聞きながら実装) 強引な質問だったので、回答もなかなか強引ですが目的としていたURL先の情報を入力としている感じなので、一応達成!

          KingJoeBotのGPT、Gemini、ClaudeにURL参照機能を追加した。

          GPT-4-Turbo、Claude 3、Geminiのマルチモーダルで複数画像を入力できるようにしてみた。

          KingJoeBot(LINE Chat Bot)でマルチモーダル機能を実装していて、複数の画像を入れられそうだったので、ついでに複数画像入力に対応させてみた。 サンプル画像は、以下のサイトのものを利用しました。 https://www.gmo-jisedai.com/wp-content/uploads/T_REX_1-1024x768.jpeg https://www.gmo-jisedai.com/wp-content/uploads/T_REX_2-1024x76

          GPT-4-Turbo、Claude 3、Geminiのマルチモーダルで複数画像を入力できるようにしてみた。

          GPT-4-TurboとGemini 1.5 ProとClaude3 Opusのマルチモーダル機能を使ってみた。

          KingJoeBot(LINE Chat Bot)で複数のAIを実験中です。今回、Claude3のAPIを組み込めたので、三大AI(私の勝手な評価)でマルチモーダル機能を試してみた。 読み込ませた画像がこちら。照明が微妙なので肉眼でもちょっと見づらいなと思えるようなソースに対して、 「この写真について、解説を簡潔にお願いします。」 と同じプロンプトを入力してみた。 GPT-4-Turboの回答 Gemini 1.5 Proの回答 Claude 3 Opusの回答 感

          GPT-4-TurboとGemini 1.5 ProとClaude3 Opusのマルチモーダル機能を使ってみた。

          gpt-4-turbo、gemini-1.5-pro-latest、 chat-bison-32k llama3-70b-8192とで記事要約を試してみた。

          要約力比較とある新聞記事の内容をテキストにして、要約するようにプロンプトした際の回答が以下の通り。 50文字程度にまとめてという指示に対して、一番近い値を示しているのはgeminiだった。llama3は一項目目は59文字と少しオーバー気味。(中身まではまだ添削しきれていない。) 記事本文(要約指示のプロンプト)以下のテキストファイルを用意して、KingjoeBotを用いて各AIに要約文を作成させてみた。 ChatGPT(モデル:gpt-4-turbo)の要約文 - 20

          gpt-4-turbo、gemini-1.5-pro-latest、 chat-bison-32k llama3-70b-8192とで記事要約を試してみた。

          LINEチャットボットでマルチモーダルAIを試す

          GPTやGeminiなどのAIチャットをLINEをインターフェースとして使っていますが、LINEだと1回のメッセージに複数のデータを入れられないので、マルチモーダル機能(1回のプロンプトで複数の情報源"テキスト、画像、音声、映像"を組み合わせる機能)を試すにはWebhook側で実装した。 使い方は、下の図の通りで、同時にプロンプトに入力したい画像または音声をアップロードします。チャットボットが保存した旨とプロンプトを求めるメッセージを出すので、続けてメッセージを入力すれば1

          LINEチャットボットでマルチモーダルAIを試す