第１５回対話システムシンポジウム調査報告

2024年12月20日 14:56

研究開発本部　海老原樹　青田和也

はじめに

シャープでは、エッジ技術を活用した、人に寄り添った対話システムの開発を行っています。そのような我々の開発に役立つような重要な視点や最新技術の調査のために、11/28(木)・29（金）に開催された第１５回対話システムシンポジウムへ参加してきました。

対話システムシンポジウムは人工知能学会言語・音声理解と対話処理研究会（SLUD）が開催しているシンポジウムで、国内の対話システムの研究者が多く集まる場です。

この記事では、個人的に注目した研究発表や若手賞を受賞された研究発表などを簡単にご紹介します。

研究会全体の印象

対話システムの研究会へ参加するのは初めてでしたが、本シンポジウムは参加費無料、参加資格は特になく、私たちのような初学者や対話システムに興味のある一般の方でも参加しやすいと感じました。対面とオンラインのハイブリッド開催（一部セッションは対面のみ）でしたが、現地会場である国立国語研究所へ行ってきました。

今年のシンポジウムでは55件の研究発表が行われました。そのうち約半数は企業による発表、もしくは大学と企業の共同研究であり、産学連携が強く進められている分野であることがうかがえました。これにより、基礎的な研究以外に、明確なユースケースが想定された実用的な研究が多かったことが印象的でした。

技術的なトレンドとしては、やはり、ほとんどの研究で大規模言語モデル（LLM）を始めとした生成AIを対話システムのベースとして用いていました。ChatGPTを筆頭としたクラウドベースの大規模で高性能なLLM、HuggingFaceのようなモデルを共有するプラットフォーム、LLM周辺の開発のためのライブラリなどのLLMのエコシステムが近年大きく発展・整備されたことが、対話システムの研究に貢献していることが伺えます。LLMをChatGPTのようなAPI経由で利用しているケースが多かったですが、比較的軽量なLLMを自作のデータセットで学習している研究もありました。

また、心理学的なアプローチを用いた人間の性格分析や感情分析を取り入れいてる研究が目立ちました。この分析は、例えば(i)対話システムの評価、(ii)ユーザー意図の理解度の向上、(iii)人間らしい対話システムの構築のための理論のベースなどに用いられていました。前の話と関連しますが、LLMの発展により言語理解や言語生成の部分での技術ベースラインが大きく向上した分、より「人間らしさ」という側面が注目されるようになったのかなと思いました。

その外、国内の研究会ということもあり、日本語をベースとして対話モデルを構築している研究が多かったです。そのために、日本語の対話データセットの収集に力を入れている研究も見受けられました。

個人的に注目した発表

ここでは、我々が調査した中で特に興味を持った発表を2つご紹介します。

発話意図の同時生成によるユーザ情報抽出を目的としたLLMエージェントの対話戦略学習

発表者: 濱健太 1*、基村竜晟 2、大塚淳史 1、中辻真 1
（1: NTT 人間情報研究所、2: 北陸先端科学技術大学院大学）

こちらは、人間同士のインタビューを参考に、「話し方の戦略」を練ることでAIがより自然な会話ができるように工夫した研究です。

人間のインタビューアは分野に囚われず、共感や深堀の質問を行いながらユーザーの自己開示を促すように会話を行います。しかし、LLMを活用した既存のインタビューシステムでは抽出できる情報が限定的であったり、会話の柔軟性がなくユーザーに嫌悪感を持たれるようなことがありました。

これらの課題を解決するために、人間のインタビューアが"共感"や"深掘り"など、どんな意図で発言したのかを解析してAIに学習させ、人間のインタビューアの対話をAIに模倣させるという方法を用いています。

人間同士のインタビューにおけるインタビューアの発話意図が付与されたデータを構築し、そのデータを使ってLLMが応答と発話意図＝「話し方の戦略」を同時に生成するように再学習を行うことでインタビューアを模倣したAIの作成を試みています。

LLMによる発話意図（＝「話し方の戦略」）の推定と応答イメージ。
※本記事投稿者によるイメージ化

学習によって作られたモデルを用いて人間とインタビューをさせると、人間からの印象の評価に向上がみられました。

（聴講感想）
我々も「人間らしく会話できるAI」の開発を目指しており、この研究のように人間を模倣させるというアプローチは参考になりました。将来的には、悩み相談や情報収集など、より深い対話ができるAIの実現に繋がることを期待しています。

Voice Activity Projectionモデルを用いたリアルタイム相槌予測

発表者: 井上昂治*1、Divesh Lala*1、Gabriel Skantze*2、河原達也*1
（1: 京都大学大学院情報学研究科、2: スウェーデン王立工科大学）

人間同士の会話では、話を聞いているときに「うんうん」と相槌を打ちますよね。この研究は、AIにその「相槌のタイミング」を学ばせようとするものです。その中でも、二名の対話者の音声アクティビティを予測する汎用的なモデルである Voice Activity Projection(VAP) を相槌予測に活用する初の試みです。

VAPによる音声アクティビティの予測のイメージ。2名の対話の音声（2ch）を入力として受け取り、次区間の音声アクティビティを予測する。
※記事投稿者によるイメージ化

アンドロイドERICAを用いた Wizard-of-OZ [1]によって、日本語の汎用的な対話データと相槌を含む傾聴対話データを収集しています。汎用的な対話データと傾聴対話データを使ってVAPを事前学習し、その後、相槌予測のためにモデルに新たな層を追加し、傾聴対話データを用いてファインチューニングをしています。

相槌予測のタスクには、タイミング予測のみと、タイミングと相槌の種類を同時に予測するという２つのタスクを検討しています。どちらのタスクでもベースラインを上回るスコア（F1）を達成しています。

さらに、毎秒10回の予測に調整したモデルは、CPU（Intel Core i7-11700 @ 2.50 GHz）上でリアルタイムに動作します。

日本語の相槌予測モデルは以下のgithubで公開されています。

（聴講感想）
相槌は会話をスムーズにするための重要な要素です。この技術を用いて相槌を適切なタイミングで挿入することで、AIとの会話がより心地よいものになると考えらえます。研究チームはモデルとプログラムを公開しており、すぐに試せるのも魅力です。

受賞発表

ここでは、シンポジウムで賞を受賞された発表を5つご紹介します。各賞の選考方法は以下の通りです。

若手優秀賞: 発表者が若手の一般またはポスター発表の中から，研究内容が優れており，今後の対話システム研究の発展に寄与するものを実行委員の評価に基づき選出した．
若手萌芽賞: 発表者が若手の一般またはポスター発表の中から，研究テーマの新規性・独創性・発展性が高いものを実行委員の評価に基づき選出した．
優秀デモ賞: デモセッション発表および一般発表（口頭・ポスター）でデモを実施の発表の中から，参加者投票にて選出した．

人工知能学会研究会優秀賞 (JSAI Incentive Award)のページより引用

（若手優秀賞）RAGチャットボットは重要でない会話を忘れるべきか？心理学における発見を用いた重要度と忘却の探究

発表者: 住田龍宇一 *、井上昂治、河原達也（京都大学大学院情報学研究科）

本研究は会話記憶の重要度付けとそれに基づいた記憶の忘却に関する検証を行ったものです。

ChatBotにおいて、会話の記憶はユーザー体験や利便性の向上のために重要な機能である。しかし、すべての会話を記憶することは容量の問題や検索精度の低下といった問題を引き起すため、重要な情報を保持し、そうでない記憶は忘却する必要があります。

本研究では記憶の重要度を心理的観点から定義してモデル化を行い、その重要度が高いものは残し、そうでないものは捨てるという形で忘却を実現しました。この記憶システムを搭載した対話システムによる実験では既存のシステムよりも高い評価を獲得しました。

（聴講感想）
Chatbotとの会話の記憶と忘却というテーマは、人間のような自然な対話システムを実現したい我々の開発とも深いつながりがあり大変興味深い研究でした。我々も人間の記憶に関する心理的な見方や脳科学的な見方にも焦点を当てて、人間らしい対話を目指していきたいと思います。

（若手優秀賞）インタビューエージェントの関係構築的対話戦略が言語パフォーマンスに与える影響

発表者: 倉田楓馬*1、江口政貴*1、佐伯真於*2、鈴木駿吾*1、松山洋一*2
（1: 早稲田大学、2: 株式会社エキュメノポリス）

英語スピーキングテストにLLMベースのインタビューエージェント使った際に、エージェントの関係構築的な振る舞いが受験者の言語パフォーマンスを向上させるかを評価しています。

エージェントの関係構築的な振る舞いとは、受験者との信頼関係を築くための行動で、実験では、AIエージェントがスモールトーク（インタビュ前の雑談）、ポジティブかつ共感的なフィードバック（例「That sounds productive!」）、傾聴動作（頷き）を行いました。

下記YouTubeに実際のデモ動画が掲載されています。
InteLLA: Intelligent Language Learning Assistant [Reimagine Education Award 2021 BRONZE]

受験者のインタビュー後のアンケートを分析したところ、エージェントの関係構築的な振る舞いによって、受験者のエンゲージメントの一部の側面（対話への意欲）とラポール（話者同士の信頼関係）は向上する一方で、言語パフォーマンスには有意な差を生む影響を与えないことが明らかになりました。

（聴講感想）
AIとの自然で心地よい会話をするためには信頼関係が大切であるということを本研究を通して改めて感じました。エージェントの関係構築的な振る舞いの設計も参考になります。

（若手萌芽賞）継続知識編集のための評価手法について

発表者: 石垣龍馬、前田英作（東京電機大学）

LLMの複数の知識を連続的に更新する「継続的知識編集」に対する新たな評価手法とデータセットを提案しています。

2022年から、LLMの特定のパラメータを変更することで効率的に知識を編集する「局所修正ベースの知識編集」技術が登場していますが、この技術の継続的な知識編集能力を評価するための手法とデータセットです。

データセットは、共有型と排他型の2つのタイプのリレーションをもつ subject に関する｛subject, relation, object}で構成されています。（たとえば、{Ryoma Ishigaki, Hobbies, Reading}）

実験では、特定の知識編集手法に対して、複数の条件で継続的な知識編集を行うことで、各条件が知識編集にどのような影響を与えるのかを評価しています。

（聴講感想）
同じユーザーに対話システムを長く使ってもらう場合、AIに覚えておいてほしいことは多くありますし、AIの知識を更新しなければいけないことも数多くあります。ユーザーに長く寄り添える対話システムの開発には、本研究のような継続的な知識編集という観点が大切であると感じました。

（若手萌芽賞）ロボットによる親密行動の許容予測に向けたエントレインメントの活用

発表者: 小松秀輔*1,2、河野誠也*2,1、吉野幸一郎*3,2,1
（1: 奈良先端科学技術大学院大学、2: 理化学研究所ガーディアンロボットプロジェクト、3: 東京科学大学）

人間とロボットとの会話を通して、人間がロボットにどれだけ心を許しているかを予測しようという試みです。

人間と対話ロボットとの対話の中での関係性の内、社会的距離（対話における話者同士の親疎関係）に焦点をあて、それを疑似的に測る指標としてエントレインメントスコアを用いています。ここでのエントレインメントスコアとは、どれだけ発話内容、韻律、動作が似ているかを表すスコアです。このエントレインメントを活用し、被験者のロボットによる親密行動の許容/拒絶を予測することを目指します。

実験では、ロボットは、一般的な会話と親密行動＝答えにくいパーソナルな会話、物理的接近を行い、実験後に被験者の主観的評価を得るためのアンケートを取っています。

（聴講感想）
ＡＩとユーザーとの心理的距離感を予測するという観点は非常に興味深く、ＡＩとユーザーの会話体験の向上のために応用可能な新しい視点であると感じました。

（優秀デモ賞）生成AIを活用した九州・琉球の方言対話システムの開発―言語継承支援への応用―

発表者: 坂井美日（鹿児島大学）

この研究では、生成AIを活用した方言対話システムを通じて日本の消滅しかかっている方言の伝承に貢献することを目的としています。

現在、消滅の危機にあるような方言を話せるLLMは存在していません。そこで、本研究では対訳情報や文法情報を活用したプロンプティング手法を用いたLLMによる方言変換器を実装することで、方言によるLLMを使った会話を実現しました。

この仕組みにより低資源な言語でも自由にチャットすることができ、ユーザーの方言習得を助けることができます。

（聴講感想）
この研究の趣旨からは逸れてしまいますが、方言は親しみやすさに大きく寄与すると感じました。人に寄り添ったAIを実現し、普及させていくにはこのような観点も重要だと思いました。

まとめ

対話システムの研究会への参加は初めてでしたが、対話システムに関する多くの知見を得ることができました。特に、対話システムに頷きなどの非言語的な振る舞いを導入し、円滑なやりとりを実現する取り組みは、我々の対話システムの改善のヒントになると感じました。このような非言語的な振る舞いはリアルタイムでユーザーの発言に反応することが重要で、レスポンスの良さが求めれます。そのため、エッジ技術を用いて非言語的な振る舞いを実現し、より親しみやすい会話システムの構築を進めていきたいと思います。

また、人間らしさを獲得するという観点で、心理学で分析された人間の振る舞いをモデル化しようという試みも散見されました。我々の会話システムの開発の中でも、このような心理的なアプローチを積極的に活用し、より自然で、人間的で、親しい会話を実現することに活かしていきたいです。

参考文献

[1] INOUE, Koji, et al. Talking with ERICA, an autonomous android. In: Proceedings of the 17th Annual Meeting of the Special Interest Group on Discourse and Dialogue. 2016. p. 212-215.