見出し画像

トピックまとめの揺らぎを検証してみる

こんにちは! なんとか生成AIを活用したビジネスができないかと日々頑張っているリップルトーク分析チームです!
最近、生成AIにデータを突っ込んでがりがり回しているのですが、今課題になっている生成結果の揺らぎについて今回記事にしてみました。

生成AIの結果がまちまち??

生成AIの結果って、結構ブレませんか?? 生成AIを活用している人はお分かりかもですが、生成AIにデータをあげて同じようなプロンプトを入れても、生成結果が毎回同じとは限らないのです。少しくらいのブレではいいんですが、結果にかなりのズレが生じるときが多々あります。
1回目で良い結果になる時もあれば、2回目以降どんどん悪化していく時もあります。この生成結果の揺らぎについて検証してみました。

今回のトピックは「決断は自分の意思??」

このトピックはリップルトークアプリ内で議論されました。参加者は3名、コメント数はトピックの説明コメント入れて9コメントのみと、そんなに文字数が多くないトピックでした。

【トピックの内容】
タイトル:決断は自分の意思??
テキスト:日々何か行動するたびに人は選択からどれにするか決断していますが、果たしてどこまで自分の意思によるものなんでしょう??なんとなく決断しているようで、無意識に選択しているんじゃないかと日経の記事を読みながら考えていました。これは自分の決断だと言えるものってなんでしょうね。

リップルトークアプリより

トピック内の主なコメント

このトピックの主なコメントは以下のとおりです。

コメント①
今日のNHKの「ヒューマニエンス」では、「腸内細菌が意思決定を左右しているかもしれない」という話をしていました。

トピック参加者さまより

コメント②
トキソプラズマに感染してると、行動が変わるようです。\n人の意思と言いますか、動物の意思は案外細菌に支配されているのかもですね。

トピック投稿主さまより

コメント③
細菌類が意思決定を左右している、ということも注目に値しますね。\nここではさらに、「遺伝子が意思決定を左右している」ということもご指摘したいです。\nいわゆる「性選択」の問題が、特にそうです。\n\nわれわれは、なぜ美女やイケメンを好むのでしょうか。\n\nある男性が、2人の女性のどちらかを妻に選ぶ、という際には、きっと多くの男性が美人の女性を選ぶしょう。\nそれは、遺伝子が「美女の方が、配偶者として望ましい」と判断させるからだ、と言われています。\nでも、言い方は極めて不謹慎ですが、頭が悪くても美女のほうが子孫を残しやすい、というのは、とても不合理である気がします。でも、それは我々の遺伝子がそうさせているのであって、我々がそれに逆らうことは、なかなか難しいことなのです。

トピック参加者さまより

これらのコメントを要約したものたトピックまとめとなります。
それではさっそく検証していきましょう。

トピックまとめを考察してみる

これらのトピック内容をChatGPTでまとめていったのですが、これがまとめ直すごとに内容が結構ブレました。
プロンプトは、まずトピックに参加していない人向けに問いかけする内容を生成し、その生成された内容をもとにサマリーを生成して、トピックをまとめています。(プロンプトは自動的に処理できるようにアプリ内に実装しています。)

【1回目のトピックまとめ】
参加者は日々何か行動するたびに人は選択からどれにするか決断していますが、果たしてどこまで自分の意思によるものなんでしょうか??

なんとなく決断しているようで、無意識に選択しているんじゃないかと日経の記事を読みながら考えていました。これは自分の決断だと言えるものってなんでしょうね。腸内細菌が意思決定を左右しているかもしれないという話をしていました。

遺伝子が意思決定を左右しているということも注目に値しますね。ここではさらに、「遺伝子が意思決定を左右している」ということもご指摘したいです。

われわれは、なぜ美女やイケメンを好むのでしょうか。ある男性が、2人の女性のどちらかを妻に選ぶ、という際には、きっと多くの男性が美人の女性を選ぶしょう。それは、遺伝子が「美女の方が、配偶者として望ましい」と判断させるからだ、と言われています。

でも、言い方は極めて不謹慎ですが、頭が悪くても美女のほうが子孫を残しやすい、というのは、とても不合理である気がします。でも、それは我々の遺伝子がそうさせているのであって、我々がそれに逆らうことは、なかなか難しいことなのです。

トピックまとめより

【2回目のトピックまとめ】
参加者は、日々の選択や決断がどれだけ自分の意思によるものなのかについて話し合いました。

無意識に行動しているのではないかという疑問や、腸内細菌や遺伝子が意思決定に関与している可能性について考えました。細菌や遺伝子が意思決定を左右することについて注目が集まっています。

トピックまとめより


1回目と2回目のトピックまとめ内容を見ると、全く違う結果になっています。1回目はよく見ると、ほぼユーザーのコメント(コメント③を参照のこと)そのまま生成されているようです。これはなぜこうなったのか推測するしかないのですが、もしかしたら、この参加者が生成AIで作成したコメントをそのまま貼り付けたのか、それともこの参加者さまの文章がかなり良かったのか? 正直、このようなまとめ方された理由がよくわかりませんでした。

【3回目のトピックまとめ】
参加者は、日々の行動において自分の意思による選択がどれくらいあるのかについて話し合いました。

無意識に選択しているのではないかという疑問を持ちながら、日経の記事を読んで考えていました。さらに、腸内細菌や遺伝子が意思決定に関与している可能性についても言及されました。これらの要素が無意識の根源となっているなら、非常に興味深いですね。

トピックまとめより

3回目のトピックまとめでは、最後の生成されたコメントは問いかけで終了しています。最後に問いかけて欲しいと指示したわけではなく、あくまでも要約してくださいとの指示なのですが、たまにこのようなまとめ方をするときがあります。この問いかけで終わるまとめ方、結構いい感じだなと思うのですが、これがなぜか毎回出てこない。このあたりが生成AI活用の難しさなんだろうなと思っています。

【4回目のトピックまとめ】
参加者は、日々の行動において自分の意思による選択がどれだけあるのかについて話し合いました。

日経の記事を読みながら、無意識に選択しているのではないかという疑問が出されました。また、NHKの番組では腸内細菌が意思決定に関与している可能性があるという話も取り上げられました。さらに、トキソプラズマ感染や遺伝子による意思決定についても言及されました。細菌や遺伝子が意思決定を左右していることについて、参加者は注目していました。

トピックまとめより

4回目のトピックまとめで最終的落ち着きました。要約文の長さもちょうどよく、最後に参加者の注目度合いについても触れられていたので、参加していなくてもどんなトピックだったのかわかりやすい内容でまとめられたと思います。
これが4回繰り返して、やっと出てきたトピックまとめだったのですが、なぜ1回目から出てこないのか、安定した生成方法は無いのかとつくづく思います。生成された結果の品質をどう保のか、誰が判断するのか、まだまだ人間の目が必要だと思いますね。

GPT−4でトピックをまとめてみる

今実装しているのはGPT-3.5Turboで生成しているのですが、それならGPT-4を使ったら、また結果は違うのかと思いました。GPT-4の方が高性能かつ学習元も比較的新しいデータを用いているはずなので、どんな結果が出るのかさっそく試してみました。

【トピックまとめ①】
参加者は「決断は自分の意思?」というテーマで話し合いました。人は日々、選択と決断を繰り返していますが、その多くは自分の意思によるものか、それとも無意識の選択なのかという疑問が提起されました。ある参加者は、日本経済新聞の記事やNHKの番組「ヒューマニエンス」の内容を引用し、腸内細菌が意思決定を左右する可能性や、会員制記事にアクセスする方法について述べました。また、他の参加者からも、「意識的な決断と無意識的な選択の違いは何か」「外的な影響をどのように排除できるのか」など、興味深い視点が共有されました。このトピックでは、最終的に「自分の決断だと言えるものは何か」という問いが深く考察されました。

GPT-4より

【トピックまとめ②】
参加者は「決断は自分の意思?」というテーマについて議論しました。日々行動するたびに、人は選択と決断をしていますが、果たしてその決断はどこまで自分の意思によるものなのでしょうか。この疑問に対して、日本経済新聞の記事やNHKの「ヒューマニエンス」で紹介された内容が取り上げられました。中には、腸内細菌が意思決定に影響を与える可能性や、意識と無意識の選択の違い、外的な影響をどのように排除できるのかといった意見が出されました。参加者の意見交換を通じて、「これは自分の決断だ」と言えるものは何かという問いが深く掘り下げられ、意思決定の意味やその背後にある要因が考察されました。

GPT-4より

なんか自然にトピックがまとめられていますね、うんうんいい感じ。1回目と2回目の内容を比較しても、大きなブレもなくちゃんと読みやすくトピックがまとめられています。さすが上位モデルといったところですか、これはアプリ内でもGPT-4を使うべきなのか?? 非常に悩ましいですね。
もっとリップルトークが活発化し、生成AIの活用範囲も多くなってきたら考えても良さそうですね。(わりかし費用が上がるんだよな。。)

3つのポイントで要約

最後にトピックを3つのポイントでまとめてみました。

参加者は「決断は自分の意思?」というテーマについて議論しました。ポイントは以下の3点です。

1. 自分の意思と無意識の境界:
人は日々選択と決断を繰り返していますが、それがどこまで自分の意思で、どこからが無意識の選択なのか疑問が提起されました。

2. 腸内細菌の影響:
NHKの「ヒューマニエンス」で紹介された内容を基に、腸内細菌が意思決定に与える影響が議論されました。

3. 外的要因の排除:
意識的な決断と無意識的な選択の違いや、外的な影響をどのように排除できるのかといった視点が共有されました。

このトピックでは、「これは自分の決断だ」と言えるものは何かという問いが深く考察されました。

GPT-4より

非常にトピック内容が把握しやすいまとめ方になりました。
今まではコメントすべてを要約して300文字前後でまとめていましたが、この3つのポイントに整理するのもいいのかもしれません。
要約文は短いといっても読み込む必要がありますが、3つのポイントに絞って、箇条書きでまとめれば、それぞれ把握しやすい気がします。
このポイントまとめは、次回実装してもいいかもしれませんね。

トピックまとめ機能の課題点は?

昨年4月より実装したトピックまとめ機能ですが、改めて検証してみると生成結果にかなり揺らぎが生じているのが浮き彫りになりました。この結果を考えると、どのタイミングで生成された要約文が最適なのか、はたまた正確なのか、これがほんと判断しにくいと思ってます。この判断をなんらかの指標をもとに生成AI自体に判定させるというのもやれないことはないと思いますが、果たしてどうすればうまくいくか??ちょっと今の時点ではアイデアが無いですね。(※どなたかアイデアをお持ちであれば、ぜひともご連絡ください!)
このあたり最適化するには、自社データを使ってトピックをまとめに特化した生成モデルを作る必要があるのかもなと。そろそろ取り組みましょうかね、テキストデータはGIRON時代からのも合わせて沢山あるので、やれないことはないのでちょっと検討しましょう。

さいごに

今回はトピックまとめの生成結果について検証してみました。
生成AIの活用はいろいろなところで使われていますが、みなさんこのような問題に直面したとき、どう対処されているのか非常に気になります。
しかし、トピック内のコメントをまとめて要約文などを作成するなんて、これを人力でやろうとしたらいったいどれ位の時間がかかるのか計り知れません。今は「再度作成してください」とプロンプトを打ち込むだけですからね。いやはや、ほんとすごい世界になりました。
僕たちももっと頑張ってフル活用していきたいと考えておりますので、引き続きよろしくお願いいたします!!


さて、今回の記事はいかがだったでしょうか?
はやく生成AIを活用して飛躍したいと願っているリップルトーク分析チームです!僕たちにご興味があるかた、お気軽にメッセージください。お待ちしております!!
上記についてご質問がございましたら、リクエストを送信してください

リップルトークアプリはこちらからダウンロードできます。

iOSの方はこちら

Androidの方はこちらから


いいなと思ったら応援しよう!