トピックまとめの揺らぎを検証してみる
こんにちは! なんとか生成AIを活用したビジネスができないかと日々頑張っているリップルトーク分析チームです!
最近、生成AIにデータを突っ込んでがりがり回しているのですが、今課題になっている生成結果の揺らぎについて今回記事にしてみました。
生成AIの結果がまちまち??
生成AIの結果って、結構ブレませんか?? 生成AIを活用している人はお分かりかもですが、生成AIにデータをあげて同じようなプロンプトを入れても、生成結果が毎回同じとは限らないのです。少しくらいのブレではいいんですが、結果にかなりのズレが生じるときが多々あります。
1回目で良い結果になる時もあれば、2回目以降どんどん悪化していく時もあります。この生成結果の揺らぎについて検証してみました。
今回のトピックは「決断は自分の意思??」
このトピックはリップルトークアプリ内で議論されました。参加者は3名、コメント数はトピックの説明コメント入れて9コメントのみと、そんなに文字数が多くないトピックでした。
トピック内の主なコメント
このトピックの主なコメントは以下のとおりです。
これらのコメントを要約したものたトピックまとめとなります。
それではさっそく検証していきましょう。
トピックまとめを考察してみる
これらのトピック内容をChatGPTでまとめていったのですが、これがまとめ直すごとに内容が結構ブレました。
プロンプトは、まずトピックに参加していない人向けに問いかけする内容を生成し、その生成された内容をもとにサマリーを生成して、トピックをまとめています。(プロンプトは自動的に処理できるようにアプリ内に実装しています。)
1回目と2回目のトピックまとめ内容を見ると、全く違う結果になっています。1回目はよく見ると、ほぼユーザーのコメント(コメント③を参照のこと)そのまま生成されているようです。これはなぜこうなったのか推測するしかないのですが、もしかしたら、この参加者が生成AIで作成したコメントをそのまま貼り付けたのか、それともこの参加者さまの文章がかなり良かったのか? 正直、このようなまとめ方された理由がよくわかりませんでした。
3回目のトピックまとめでは、最後の生成されたコメントは問いかけで終了しています。最後に問いかけて欲しいと指示したわけではなく、あくまでも要約してくださいとの指示なのですが、たまにこのようなまとめ方をするときがあります。この問いかけで終わるまとめ方、結構いい感じだなと思うのですが、これがなぜか毎回出てこない。このあたりが生成AI活用の難しさなんだろうなと思っています。
4回目のトピックまとめで最終的落ち着きました。要約文の長さもちょうどよく、最後に参加者の注目度合いについても触れられていたので、参加していなくてもどんなトピックだったのかわかりやすい内容でまとめられたと思います。
これが4回繰り返して、やっと出てきたトピックまとめだったのですが、なぜ1回目から出てこないのか、安定した生成方法は無いのかとつくづく思います。生成された結果の品質をどう保のか、誰が判断するのか、まだまだ人間の目が必要だと思いますね。
GPT−4でトピックをまとめてみる
今実装しているのはGPT-3.5Turboで生成しているのですが、それならGPT-4を使ったら、また結果は違うのかと思いました。GPT-4の方が高性能かつ学習元も比較的新しいデータを用いているはずなので、どんな結果が出るのかさっそく試してみました。
なんか自然にトピックがまとめられていますね、うんうんいい感じ。1回目と2回目の内容を比較しても、大きなブレもなくちゃんと読みやすくトピックがまとめられています。さすが上位モデルといったところですか、これはアプリ内でもGPT-4を使うべきなのか?? 非常に悩ましいですね。
もっとリップルトークが活発化し、生成AIの活用範囲も多くなってきたら考えても良さそうですね。(わりかし費用が上がるんだよな。。)
3つのポイントで要約
最後にトピックを3つのポイントでまとめてみました。
非常にトピック内容が把握しやすいまとめ方になりました。
今まではコメントすべてを要約して300文字前後でまとめていましたが、この3つのポイントに整理するのもいいのかもしれません。
要約文は短いといっても読み込む必要がありますが、3つのポイントに絞って、箇条書きでまとめれば、それぞれ把握しやすい気がします。
このポイントまとめは、次回実装してもいいかもしれませんね。
トピックまとめ機能の課題点は?
昨年4月より実装したトピックまとめ機能ですが、改めて検証してみると生成結果にかなり揺らぎが生じているのが浮き彫りになりました。この結果を考えると、どのタイミングで生成された要約文が最適なのか、はたまた正確なのか、これがほんと判断しにくいと思ってます。この判断をなんらかの指標をもとに生成AI自体に判定させるというのもやれないことはないと思いますが、果たしてどうすればうまくいくか??ちょっと今の時点ではアイデアが無いですね。(※どなたかアイデアをお持ちであれば、ぜひともご連絡ください!)
このあたり最適化するには、自社データを使ってトピックをまとめに特化した生成モデルを作る必要があるのかもなと。そろそろ取り組みましょうかね、テキストデータはGIRON時代からのも合わせて沢山あるので、やれないことはないのでちょっと検討しましょう。
さいごに
今回はトピックまとめの生成結果について検証してみました。
生成AIの活用はいろいろなところで使われていますが、みなさんこのような問題に直面したとき、どう対処されているのか非常に気になります。
しかし、トピック内のコメントをまとめて要約文などを作成するなんて、これを人力でやろうとしたらいったいどれ位の時間がかかるのか計り知れません。今は「再度作成してください」とプロンプトを打ち込むだけですからね。いやはや、ほんとすごい世界になりました。
僕たちももっと頑張ってフル活用していきたいと考えておりますので、引き続きよろしくお願いいたします!!
さて、今回の記事はいかがだったでしょうか?
はやく生成AIを活用して飛躍したいと願っているリップルトーク分析チームです!僕たちにご興味があるかた、お気軽にメッセージください。お待ちしております!!
上記についてご質問がございましたら、リクエストを送信してください