「第14回対話システムシンポジウム」参加レポート
レポートというほどではないですが、感想。結局オンラインで参加したため、ポスターは中継されず、抄録を読んだ感想です。Q&Aがとても参考になった。
「人工知能学会 言語・音声理解と対話処理研究会(SLUD)第99回研究会」
「第14回対話システムシンポジウム」
2024年9月に 25th Meeting of the Special Interest Group on Discourse and Dialogue/第25回談話と対話の特別利益グループの国際会議 が京都であるそう。3月に発表締め切り。行ってみたい!倫理の発表通るかな。
個人的ベスト3プレゼン
1.「21.動的計画共有と共同運動主体感モデルに基づく身体的共同行為における調整のための会話の分析 岩橋 直人(岡山県立大学)、相良 陸成(静岡県立大学)、田口 亮(名古屋工業大学)、船越 孝太郎(東京工業大学)」
簡単なコンピュータ共同課題を用いて、コミュニケーションとパーソナリティの関連を検証している。仮説演繹になってないのが惜しいところ。
2.「22.視覚的質問応答における視線情報を用いた質問の明確化 稲積 駿(NAIST / RIKEN GRP)、河野 誠也(RIKEN GRP / NAIST)、湯口 彰重(TUS / RIKEN GRP)、川西 康友、吉野 幸一郎(RIKEN GRP / NAIST)」
学習データ生成頑張ったでしょう。提案モデルが何で優れているのかの検証までしていてすごかった。
3.「18.第三者のペルソナを考慮したマルチモーダル対話システム 朝原 隆太朗、小野関 宏己、斉 志揚、金子 拓正、秋山 一馬、上原 隆一、樋口 智哉、稲葉 通将(電気通信大学)」
確かに文脈にそぐわない会話があったから、コンペでは3位だったけど、キャラが生きたリアクションやフィラーはよかった。一番人間らしかったと思う。評価指標が「文脈に沿っているか」だったから、交渉がうまかった東北大のシステムが勝ったんだろうな。
1日目
口頭①
1.音声対話システムの客観評価のためのユーザのマルチモーダルなふるまいの分析
井上 昂治、Lala Divesh、越智 景子、河原 達也(京都大学)、Skantze Gabriel(スウェーデン王立工科大学)
そもそもユーザ体験を評価したいなら主観評価でいいんじゃないかなとは思います。私は心理的ストレスの自己評価と他者(面接者)評価の研究を行っている。
その観点から言うと、結局参照する指標が主観評価になってしまうというのが共通して難しい所だなと感じる。
また、私は面接時の反応をストレス反応と捉えていましたが、一般的には、対話タスクに対する反応、面接者に対する反応と捉えるのだなというのはもう点でした。
また、発話内容後の種類の数、あいづちの数、フィラーの数、笑いの数、言いよどみの数、対話の交換潜時など、通常のカウンセリング研究では指標にしないような側面を指標にしているのも、興味深かった。
ただ、基本的には、理論や仮説がないのに、「とりあえず測定してみたらこんな結果だったんで、たぶん~です」っていう研究は、再現性の観点から非常に危ういと思う。あと、やりがちなのが主観的評価を標準化されていない尺度で測定するやつ。これも、再現性に影響するし、そもそも結果の信ぴょう性が疑わしくなるので絶対にやめた方がいい。
2.親和的な対話システムの実現にむけた非接触呼吸推定技術の開発
小尾 賢生、船越 孝太郎(東京工業大学)
音声活動ってなんだろ。一般的な言葉なんだろうか。呼吸を扱うのは興味深いけれど、意図的な制御をどのように除外するかだよな。あと、こういう研究をするときに、なんで生理学的な知見を直接引用しないんだろ。引用文献はあるけど、工学系の研究だと思う。生理学的な知見は直接引用した方がいいよな。
音声の匿名化が行われているのは、関心。ぜひ参考にしたい。
ただ、何のために呼吸と発声の関連を研究するのかよくわからなかったわ。呼吸を同調させると印象が向上するらしいが、本当だろうか…
呼吸の生理メカニズムについての検証が足りないからな気がするけど、結局、呼気と発話の関係は、発話内容(発話量)による気がするけど。そのようなばらつきがある中で、呼気の変動で発話開始時間を予測しても意味ない気がする。発話予定の内容によって呼気が変わって、それによって、呼気と発話開始の関連が変わるのではないだろうか。その辺り、つまり、長く発話させた時と、短く発話させた時で、呼気や呼気と発話の関連がどう変わるかというところから、分析した方が良さそうな気がする。
3.経験に基づく知識の想起と深化を伴う対話システム
渡邉 寛大(奈良先端科学技術大学院大学、理化学研究所ガーディアンロボットプロジェクト)、河野 誠也(理化学研究所ガーディアンロボットプロジェクト、奈良先端科学技術大学院)、湯口 彰重(理化学研究所ガーディアンロボットプロジェクト、東京理科大学)、吉野 幸一郎(理化学研究所ガーディアンロボットプロジェクト、奈良先端科学技術大学院)
対話の深化という表現がそもそも嫌いなんだよな…
ただ、対話システムにどのように記憶を持たせるかというのは、非常に重要なテーマで、かつ、前回の対話内容の記憶だけでなく、それに関連した知識が必要というのは、非常に興味深い洞察。
「対話が深化する」、「対話を深化させる」、「経験から知識を深化させる」ってなんやねん。社会科学や人文科学の論文審査だとここでめっちゃ詰められると思う。「会話内容の進展」とか「過去の会話情報を使った会話」ということだろうな。後者に至っては、全く深化していない。
WoW: wizard of wikipedia は、要は、片方が知識にアクセスできて、色々教えたい、もう片方が色々知りたいっていう役割分担かな。
とりあえずこの工学系の、評価項目を勝手に作るというのは、一般的な習慣なのかね。レビュー論文でも、評価方法が統一されていないという記載があって、ゴールドスタンダードの尺度がないという理解だったけど、そもそも尺度の標準化という考えがあまりないのかもな。
エージェント研究のレビュー:
Keita Kiuchi, Kouyou Otsu & Yugo Hayashi (2023) Psychological insights into the research and practice of embodied conversational agents, chatbots and social assistive robots: a systematic meta-review, Behaviour & Information Technology
https://www.tandfonline.com/doi/full/10.1080/0144929X.2023.2286528
あと、結果について考察しないというのも工学系の慣習なのかね。結果に考察を含めてしまっているのか…人間とか心理についての研究では、仮説検証、結果、結果についての考察、限界点の評価が重要だと思う。
既存手法の1つはコサイン類似度(CS)
既存手法のもう1つはTF-IDF
これらに対して、本研究では、情報量を考慮した話題選択を加えたのが特徴なのかな…さらに、CSで選択された類似の話題についてWikipediaの見出しを与えることもしてるよな…
なぜ、CS + TF-IDF + Wikipediaの見出し語のモデルは使わなかったのだろ。単純に考えると、これが一番強そうだけど…これと提案手法を比較しないと意味ないよね。
Q&Aより
人間にもバリエーションがある。「人間」と同じとか違うとか言っても意味がないかも。
情報提供性が上がっても、他の要素が上がっていない。情報提供はあまり重要ではない?
記憶の評価は、AIのパーソナライズに対する認知と独立して評価できない。
ポスター①
4.対話データに基づく重複文負例の作成と重複を抑制する言語モデルの提案
薛 強、滝口 哲也、有木 康雄(神戸大学)
面白い。ちゃんと生成・分類学習ベースという提案モデルで重複が解消されているのがいい。
ただ、重複って昨今どれだけ問題なんやとは思う。トークン長が指定された推論課題とかだといいのかな。答えを出し切った後は、何を生成するのだろう…
5.Remdis: リアルタイムマルチモーダル対話システム構築ツールキット
千葉 祐弥(NTT)、光田 航(rinna株式会社)、李 晃伸(名古屋工業大学)、東中 竜一郎(名古屋大学)
適切なタイミングでのターンテイキングって、別に人間も出来てなくね。人間にできていないことを、機械にやらせる必要あるのか。
人間がやってるのは、ターンテイクじゃなくて、適当な相づちと、喋りたい時に喋る、相手を不快にさせないタイミングで喋るくらいじゃね。ターンをテイクしてるんじゃなくて、喋りたいから(喋らないといけないから)喋ってるし、相づちうたないと嫌われるから打ってるんだよ。
タイムアウト方式が不適切と言う前に、人間の対話の「ターンテイキング」とやらを定義すべきだと思う。
LLMを使って次の応答(相づち等)や応答すべき感情を判断させるのは面白いな。どんだけ正確なんだろ。でも、これをやるとマルチモーダルの統一感のある反応が出せるよね。
相づちのタイミングの話どこいった…
結局やりたいのはトランシーバーのような対話を無くしたいということなんだから、聞きながら話せるようにしたらいいんじゃね。相づちのタイミング、関係なくね。
6.ユーザへの共感対話に基づく作業記録促進システムの開発
上田 弦輝、吉原 一成、小林 一樹(信州大学)
タイトルがすっと入ってこないな…「共感対話システムによるユーザの作業記録促進」とか「共感対話よる作業記録促進システムの開発」のがまだいいと思う。わざわざ「ユーザへの」を入れると主体がシステムになるから、作業記録が促進されるのもシステムなのかと思うよな。
音声記録するときに主観的な体験が引き出されていないのは、いらないからだろ…〜がないから作るってもの多い気がするな。せめてどの分野でそういうニーズがあるのか、提案手法がなぜ他よりも優れていると言えるのかは、主張してほしい…
評価項目を勝手に作る(先行研究を参考にして)ってのも、常套の誤りだな。
結局、標準化された評価指標が無いと言うことは、何を作ったらいいかはっきりしていはいという事だと思う。とりあえず作ってみようではなく、何を作るかはっきりさせてから作った方がいいよな。
こういう事をしているから、よく喋るホットクックのようなウザい物ができてしまうような気がする…
7.声質変換を用いたデータ拡張による対話音声生成の検討
川西 翔貴(東北大学大学院工学研究科)、千葉 祐弥、杉山 弘晃(NTTコミュニケーション科学基礎研究所)、伊藤 彰則(東北大学大学院工学研究科)
音声合成により、対話音声の学習データを作る試み。大変興味深い。
ただ、自作主観評価の闇からは抜け出せないよう。「対話らしさ」と「音声の品質」を5段階評定。単一項目でちゃんと分散が確保できるのだろうか。そもそも「対話らしさ」ってなんだろう…
この辺りの尺度構成法の講義もあるといいな。
対話らしさは確保できたけど、音声の品質が悪いらしい…品質が悪いのに何で対話らしさが評価できるんだろう。まだ先は長そう。
8.キャラクタ対話システムのための文脈を用いた応答評価
上原 隆一、稲葉 通将(電気通信大学)
対話データからペルソナベースのものを抽出すると。めっちゃカウンセリングに関連しそう。この手のものはまんま、カウンセリングボットの開発と同じなんだよな。
正しいパーソナリティ(ペルソナ)を提示して、それに反するものを否としているけど、否が多すぎるよな。せめてパーソナリティタイプ論とかを使って整理できるといい気がする。
で、結局どうやって学習させるんだろ。できるのかな…
9.ユーザの理解度を考慮したニュース解説対話インターフェース
樋口 智哉、稲葉 通将(電気通信大学)
ニュース記事は長いし、前提知識が難しいけど、対話ならわかりやすいって、そもそものスタート地点がめちゃくちゃだな。ちゃんと認知科学や認知心理学を踏まえてスタート地点を決めるべきだと思う。
ただ、ニュース記事に対して、自動的に質問が出て、それを選ぶことでニュースの理解が深まるという発想は面白い。bing chat 提案してくる追加質問は、1度も使ったことないけどな…
作る前に、このアイディアがどうして面白いかをちゃんと検証すべきだと思うんだよな。
結局、いわゆる「何がわからないかわからない」に対処しているんだよね。ニュースを見ながら、AIが、一般的にはこの部分を疑問に感じると思うよというところ提案してくれる。そうすると、確かに、そこわからないなと、わからないところを1つずつ埋めていくことができる。
教科書のデザインの話で、関連しそうなことがあった気がするな。こういうのって、学習者のレベルによって、効果が変わるから、検証の仕方が難しそう。
あと、そもそも目的は何かというね。ニュースの内容を知りたのであれば、AIに頼らずに、自分で調べると思う。そして、その方が、能動的な学習になるから、有効だろう。だから、目指しているのは学習効果ではない載ろうな。
興味がないこととか、どうしてもやらないといけないことについての情報収集の時に役立つとか、あるいは、フェイクニュース対策とか、陰謀論にはまらないようにとか、そういった文脈で役に立ちそう。
あ、今はリアルタイムじゃないんだ…リアルタイムにしなきゃ意味なくね。
質問の候補がひどいな…用語の意味を問う小学生レベルの質問って、用語の意味を問うのは必ずしも小学生レベルではないし、小学生が問う質問は用語の意味だけじゃないし…一般的な質問ってなんやねん。専門家が行うような質問ってなんやねん。しかも、記事の内容から答えられる質問じゃないといけないんだ…ちょっと、用途がわからないな。
これなら、単純にGPTに記事の内容を解説してもらえばよくね。
10.知識グラフを活用したルールベースによるFact Verification
籾井 裕貴、滝口 哲也、有木 康雄(神戸大学)
誤情報の発見にルールベーストのシステムを活用する。「やってみたらできたよ」だと、へーっとしか言いようがないよな。結局、ルールベーストの問題点は、網羅性や柔軟性の低さだからな。
ただ、model basedとの正答率を比較すると、具体的な関連の有無で答えられるような情報の判定は得意そうだな。そこに特化すればありなんだろうな。
11.GPT-4を用いた就活生の自己分析支援コーチングエージェントの開発
橋本 慧海(名古屋工業大学)、柳楽 浩平、水本 武志(ハイラブル株式会社)、白松 俊(名古屋工業大学)
やってることは面白いと思うけど、検証手続きがめちゃくちゃなんだよな。心理学者を仲間に入れた方がいい。
12.タスク指向対話の対話状態追跡における言語モデルのHallucinationの抑制
佐藤 明智、南 泰浩(電気通信大学)
ハルシネーションで機械の誤操作が起こるなら、実際にやって見せたらいいと思う。実際に例に出されているのは、レストランの予約について。確かに、この課題なら、言っていないことを加えたりしそうだな。
基の研究はこちら:
Zhao, J., Gupta, R., Cao, Y., Yu, D., Wang, M., Lee, H., ... & Wu, Y. (2022). Description-driven task-oriented dialog modeling. arXiv preprint arXiv:2201.08904.
こういう課題意識ならわかるな。
とはいえ、実際にこういうの学習させて試せる環境は非常にうらやましい。実際に先行研究の手法が最も優れていて、再現性という点では非常に重要な研究だな。それにも関わらず「提案手法は良いぞ、もっと学習させるぞ」という結論は意味わからんが。
招待講演
13.大規模言語モデルの対話処理から始まるインタラクション研究元年
慶應義塾大学 今井倫太先生
「LLMが持つ文脈・意味把握能力を活用することで、人と人や、人とコンピュータ・ロボットのインタラクションの研究がさらなる次のステージへ進むインタラクション研究元年を迎えている」という主張は、私が感じている、心理学の研究分野がコンピュータ・エージェントを対象とすることで、倍、もしくは3倍(人対エージェントの領域)になったということに近い気がする。
Q&A
文脈に沿うときにどこまで言語を使うか。
まぁな。ただ、人間もそもそも表象は言語的に保存しているからな。
人間超えちゃうので、人間っぽく作るのって難しい。
口頭②
14.半自律対話による同時並列傾聴システム
川井 悠生、山本 賢太、越智 景子、Lala Divesh、井上 昂治、河原 達也(京都大学 大学院情報学研究科)
システムの共感は人間のレベルに達していないのか...人間の共感のレベルもいろいろあると思うけど...
前提として、認知科学でいわれている認知的共感、情動的共感と、心理カウンセリングにおける共感的理解は違う。ここは押さえておきたいよな。
介入のタイミングが沈黙、ユーザの短い発話の連続、システムの相づちの連続、システムが繰り返し応答と語彙的応答しかしていないって(評価応答と掘り下げ質問をしていない)、心理カウンセラー殺しやん…反カウンセリング的共感応答システムを作ろうとしている興味深い挑戦…
結局目指しているのが、傾聴というか、雑談を継続するシステムなんだよな…そんなもん作ってどーすんの。誰得やねん。
Q&A
※そもそも、「雑談」が「うまくいってる」とか「いってない」ってなんやねん…
15.話したい人と話せる音声対話システムの実現を目指して
山本 雄樹、西田 昌史(静岡大学)、村田 雄一、安田 晴彦(株式会社シルバコンパス)
Talk With
これ系な。技術開発は応援したいけど、社会実装に当たっては、倫理規定の整備が追い付いていないのが申し訳ないし、どう考えているのか気になる。
とりあえず、実験手続きが意味不明。面識のある人物がしゃべる動画と、フェイススワップした人物がしゃべる動画を見せ、動画で話された知識問題に答えさせる。
もともと知ってる内容だったら意味ないだろ…しかも難しいのは、知っている人物とファイススワップを比較すると、それが知っているかどうかの違いなのか、フェイススワップの有無の違いなのかの判別がつかない。盲検化もできないし。そもそも盲検化って知ってるかな…
まず課題としては、記憶課題にすべき。これから花子さんと太郎さんとポチが出てくる話をします的な。比較は、とりあえず、フェイススワップの有無による違いを検証すべきだよね(どちらも知らない人)。その後、知り合いと別の知り合いへのフェイススワップの比較。最終的に、知り合いと知らない人へのフェイススワップの比較を行う。この3群を比べないと、適切な検証はできないと思う。
今回の結果は、単純にフェイススワップした方が画像がゆがんだり、音質が悪かったりして、聞きにくかったんだと思う。実際に実験3ではそれを検証していたな。
Q&A
まぁ、肖像権の問題があるからな…
16.精神科デイケアのための傾聴対話システム:きくロボ
越智 景子、井上 昂治、ララ ディベッシュ、河原 達也(京都大学)、熊崎 博一(長崎大学)
気分については、精神科患者だからVASなんだな。
印象評価はなぜか5段階。自作。しかも、集計から1項目恣意的に抜いている…チェリーピッキングしてそう…応答数とか異なる語彙数とか話しやすさとか、適当に相関出してるしな…
事前事後比較しかしていないな…
原著論文にするには、長期の効果検証が必要だな。一事例実験がいいと思う。
Q&A
簡単に言うよな。薬機法があるからな…
対話システムライブコンペティション
17.対話システムライブコンペティション6
東中 竜一郎(名古屋大学)、高橋 哲朗(富士通(株))、稲葉 通将、斉 志揚(電気通信大学)、佐々木 裕多、船越 孝太郎(東京工業大学)、守屋 彰二、佐藤 志貴(東北大学)、
港 隆史(ATR/理化学研究所)、境 くりま、船山 智(ATR)、小室 允人(株式会社アイアール・アルト)、西川 寛之(明海大学)、牧野 遼作、菊池 浩史(早稲田大学)、宇佐美 まゆみ(東京外国語大学)
シチュエーションがめちゃ面白い。新しい教員の歓迎会。システムは盛大に、ユーザは小規模でやりたい。5分間話し合う。
対話者をかえるのはなぜだろう。ランダムだから公平ということかな…1人か2人の話者が全チームのシステムと対話した方がシステムの評価としては公平だよな。そもそも、この人、人間との対話大丈夫かって人が話者をやると大変だな。
評価項目:
- 文脈に沿った対話内容
- 文脈に沿った表情やジェスチャー
- 文脈に沿った発声
18.第三者のペルソナを考慮したマルチモーダル対話システム
朝原 隆太朗、小野関 宏己、斉 志揚、金子 拓正、秋山 一馬、上原 隆一、樋口 智哉、稲葉 通将(電気通信大学)
【3位】
めちゃ面白い。将来的に人間のパーソナリティ研究との融合を期待したいな。16タイプのパーソナリティ理論を使うといいのではないだろうか。
https://amzn.to/3Nq3Ktn
https://amzn.to/3ti4N7J
今は、ビッグ5もタイプ分けできるようになってるんだな。
Herr, R. M., van Vianen, A. E., Bosle, C., & Fischer, J. E. (2021). Personality type matters: Perceptions of job demands, job resources, and their associations with work engagement and mental health. Current Psychology, 1-15.
19.GPT-4を活用した感情・対話行為分析を組み込んだシチュエーショントラック対話システム
松浦 直樹、大沼 飛宇多、中山 朝陽、佐藤 明智、南 泰浩(電気通信大学)
【2位】
フィラーとか、考えているときに上を向くとか、細かい所作が素晴らしい
たまに、文脈にそぐわなかったり、発話の流れに合わない応答をするな。
20.Hagi bot: LLMを用いた対話状態追跡と人間らしい振る舞いで自然な議論を行うマルチモーダル対話システム
中野 雄斗、野末 慎之介、穀田 一真、有山 知希、佐藤 魁、曾根 周作、亀井 遼平、謝 素春、成田 風香、守屋 彰二(東北大学)、赤間 怜奈、松林 優一郎、坂口 慶祐(東北大学・理化学研究所)
【1位】
感情を表す動作や表情はあまり目立たなかった気がするな。コンペではキャラが濃い方がいいよな。
2日目
口頭③
21.動的計画共有と共同運動主体感モデルに基づく身体的共同行為における調整のための会話の分析
岩橋 直人(岡山県立大学)、相良 陸成(静岡県立大学)、田口 亮(名古屋工業大学)、船越 孝太郎(東京工業大学)
パーソナリティの評価でなぜかいきなりSOC(首尾一貫感覚)が出てくる…SOCは協力の分析に適していると言いつつ全く考察されないが…なめんなよ。
SOC高・高の組み合わせの発話が最適なんだろうな。つまり、Chat が多く、Physical-Future、Physical-Presentの順に発話が下がる。SOC低・低だと、不安なのか、Physical-Futureの発話がやや増えて、Chat はそれほど上がらない。SOC高・低の組み合わせだと、たぶん合わないんだろうね。極端にPhysical-Futureの発話とChatが増える。
これは、各組合せごとにどちらの発話が増えているのかを出してもらえるとより分かりやすいな。あと、発話内容も。
48人も共同作業課題をやったというのは、とても興味深いデータだな。
「言語が世界を構築する」、「言語が世界を分節する」の意味をはき違えていると思うな。当然ながら、物理的世界を言語が構築することはない(ラディカルな立場でなければ)。言語は主観的世界を構築していて、人間はその主観的世界に生きているというのが大事。
「危ない」と感じているときは、「危ない」と思っている。それを言語化するかどうかは関係ない。
Q&A
「共同運動主体感」と「動的計画共有」の関連
言語がない世界ではどうなるか
Synofzik, M., Vosgerau, G., & Newen, A. (2008). Beyond the comparator model: a multifactorial two-step account of agency. Consciousness and cognition, 17(1), 219-239.
22.視覚的質問応答における視線情報を用いた質問の明確化
稲積 駿(NAIST / RIKEN GRP)、河野 誠也(RIKEN GRP / NAIST)、湯口 彰重(TUS / RIKEN GRP)、川西 康友、吉野 幸一郎(RIKEN GRP / NAIST)
こんな学習データできるんだな。
提案手法で成績がなぜ向上したのかという点の検証が素晴らしい
Q&A
データセットは視線情報とセットになっている?データセットの作り方にも制約が出る?応用の際に困る?どんな応用を考えている?
※単純に、視線情報を提供すれば、あいまいな情報にもこたえられるということではないかな。そもそも学習データの作成でも、視線情報の提供は自動的にやってるわけで…
ワーカーの人は、特定の人物のつもりで回答しているわけではない?そのとか、あのとかは、その人の印象。
※そもそも、そのとかあのとかは主観的やろ
23.感情語りコーパスを用いたバリデーション応答の生成
彭 子豪、傅 雅慧、Lala Divesh、越智 景子、井上 昂治、河原 達也(京都大学 情報学研究科)
「わかるよ。それはつらいよね。」は、バリデーションじゃねーよ。なめんなよ。バリデーションは、「あぁ、それはつらいね」。あくまで、認めるのは相手の感情であり、自分の感情ではない。発表者は、弁証法的行動療法わかってるのだろうか。バリデーションの日本語訳は「承認」だよ。承認とは「セラピストが患者に対して,患者の反応は現在の生活の状況において当然のことであり、理解可能なものだと伝えること」
境界性パーソナリティ障害の弁証法的行動療法 : DBTによるBPDの治療
引用してるけど、ちゃんとこの論文読んだんか。
英語だけでなく、日本語の書籍も読むべき。
遊佐先生のこのワークショップのまとめもよい。
1)レベル1:傾聴と観察(listening and observing)
2)レベル2:正確に反映する(accurate reflection)
3)レベル3:言葉にされていないことを明確にする(articulation the unverbalized)
4)レベル4:理解できる理由(必ずしも妥当でなくても)に関して承認する(validation in terms of sufficient (but not necessarily valid) causes)
5)レベル5:現時点で理にかなっているとして承認する(validating as reasonable in the moment)
6)レベル6:その人を承認できる人として扱う―徹底的に真摯に(treating the person as valid-radical genuineness)
この論文も引用されているけどちゃんと読めているのか。そもそもマターナル・エモーショナル・バリデーション(母親の子供に対する情動的承認)の論文だけど…
ちゃんと書いてあるからな…
疲れた…
アノテーション(バリデーション):わかる、確かに、それは~(感情)だね
わかる、確かには、バリデーションとは限らない…
とりあえず動機づけ面接を学ぶといいと思う…MITIデコーディングもするけど、MITIは、音声を聞かずにはやらないんだよね。カウンセリング対話のアノテーションなめんなよ。
Q&A
感情認識は、名詞に焦点を当てている?
24.高齢女性二者間初対面会話テキストコーパス (TDU-Kao)の提供-リアルと遠隔会話の収録とアノテーションの紹介-
武川 直樹(東京電機大学 システムデザイン工学部)、徳永 弘子(東京電機大学・理化学研究所)、山田 晴奈(東京電機大学 システムデザイン工学部)、高柳 直人、楊井 一彦、平石 牧子(花王株式会社 パーソナルヘルスケア研究所)
さすがにこの7, 8人(9, 12ペア)の会話を高齢女性が関係を築くときの会話と一般化するのは無理がありまくるだろ…
コーパスをせっかく作ったので使ってくださいじゃねーよ…
しかも、テキストコーパスだけ…
ポスター②
25.LLMに基づく音声対話システムのための非言語情報を活用したユーザ心情の考慮とリアルタイム性の向上
金子 拓正、稲葉 通将(電気通信大学)
これは、研究というか、みんなやってるよな。GPT-4Vが出てきて、崩壊した研究かな...
26.個人の特性に基づくブレインストーミング対話の分析
江連 夏美、稲葉 通将(電気通信大学)
そもそも人間で難しそうな研究を機械でやろうとするのどうかと思うけどな...まずは人間でちゃんと再現性を検証した方がいいと思う
一応、Big5とブレインストーミングの研究あるんだな。1998年の研究だけど...
しかも、特定のBig5の特徴を持つメンバーのブレインストーミングは成績がいいという話だから、本研究の、リーダーとサポーター(細かい点でいうとリーダー/フォロワー、ファシリテータ/メンバーという言葉の使い方の方が適切だと思う)の特性の対比とは違うような...
リーダーとサポーターの性格特性の組み合わせ5因子×低中高を総当たりで検定したんだって...これ絶対再現性低いやつ...
27.対話システムの円滑な話者交替の実現に向けた日常会話における対話テンポの推定
岡永 佳子、藤江 真也(千葉工業大学)
円滑な話者交代がなぜ必要かってやつな。zoomの会議で人間同士で、全然円滑に話者交代できてないじゃんね…
対面の会話でできているように思っているのは、できているように思っているだけで、ちゃんと記録すれば人間同士でも全然できていないと思う。
どちらかというと、沈黙が開くと、誰かが話始めるよね。そのタイミングが被るということはある。だから、沈黙が開くと、お互い目を見合わせたり、タイミングを外したりするよね。だから、taking turn というのは、taking turn という単一の行為ではなく、その時々の状況で、適切なタイミングで話始めるということ。かつ、人間は話したいことがあるから話す、もしくは、話す必要があるから話す。turn taking しているわけではない。
全然何のためにこんなことやっているのかわからない。そもそも、音声対話のリアルタイム性を上げる方が重要な気がする。
28.対話体験品質評価手法の検討:ロールプレイと議論対話におけるエンゲージメントとラポールの分析
倉田 楓真、佐伯 真於、江口 政貴、鈴木 駿吾、高津 弘明、松山 洋一(早稲田大学)
尺度校正しようとするのはいいけど、やるならCOSMINガイドラインに従ってね…
確認的因子分析の仕方、ちがくね。ベースラインモデルって何?
仮説モデルの適合度がいきなりめちゃいいけど、項目選択しないでこれなんだろうか。すごいな。ほんとか。再現性の検証が必要だな。
29.笑い声に応答するゲームシステムの開発に向けたイベント呈示の生理学的評価
倉澤 瑞(千葉工業大学)、福田 樹人(千葉工業大学大学院)、有本 泰子(千葉工業大学)
これは笑いの後のゲーム提示という話ではなく、笑いによる反応をとらえているだけでは…
いや、ちゃんと笑いのみの群も測定してるな。
これは、笑ったことで、反応がハイポを起こしている可能性があるよな。笑わせる前からの測定があるといいかな。
これも結局、仮説がよくわからないんだよな。笑った後にイベントをさせると何で反応に違いが出るのか、生理学的な仮説が必要だと思う。
ただ、ちゃんと考察してるのえらいw
30.セールストークを対象としたエンゲージメント駆動タスク指向対話の検討
邊土名 朝飛、馬場 惇(サイバーエージェント)、赤間 怜奈(東北大学)
インターンの開発練習かなんかかな…
「意欲」なめんなよ。購買意欲だけでも本1冊書けるだろ。
それをちょいと1項目(7件法)で聞きやがって(対話継続意欲、情報提供意欲、目標受容意欲)。
31.大規模言語モデルは心理カウンセリングを行うことができるか?:ロールプレイ対話データを用いた分析とカウンセラーによる評価
稲葉 通将(電気通信大学)、浮世 満理子(株式会社アイディアヒューマンサポートサービス)、高溝 恵子(一般社団法人全国心理業連合会)
やばい。工学系の研究室と自称心理カウンセラーが組むというのは、非常にまずい状況です。
一般社団法人全国心理業連合会
株式会社アイディアヒューマンサポートサービス
めちゃくちゃいうやん…
この自称心理カウンセラーがGPT-4のプロンプトを書いて、その出力を評価して、GPT-4も人間と同等にできますねって評価している。
世界の終わり…
まじめな話、心理の専門家を必要としている研究者や事業者がまともな専門家とつながれる仕組みが必要ですね。一応、倫理規定については、ぼちぼち頑張っています。
32.D4AC: 異分野連携のためのマルチモーダル対話システム構築ツール
中野 幹生、東中 竜一郎(名古屋大学)
ほんとそう思う。
非プログラマーでも、対話システムを作れるツール!
GTPs 出たけど大丈夫?あ、マルチモーダルか!
この先生とは友達になれそう。
33.LLMのハイブリッド利用による間を制御するマルチモーダル対話システム
吉開 一輝、内田 昂、本田 為彬、本田 裕(本田技研工業株式会社)
おぉ!こういうのやってみたかった!マルチモーダルでできちゃうのすごいな。
でも、決勝には進めなかったのかな。
インダストリーセッション
34.ChatGPT等生成AIを活用した顧客対応の最前線! AI Copilot 「Kasanare(カサナレ)」の事例紹介
安田 喬一(カサナレ株式会社)
35.Retrieval Augmented Generationを用いたキャラクター対話システムにおけるIP固有情報検索の取り組み
頼 展韜(株式会社バンダイナムコ研究所)
リトリーバルにIP固有情報(順位付け)を使う
36.マニュアルの章構造にロバストなマニュアル検索技術
永江 尚義、吉田 尚水、小林 優佳、久島 務嗣、岩田 憲治(株式会社東芝)
ほう…
37.カスタマーサポートにおけるLLMを用いたRAGベース対話システムの評価と事業活用に向けた取り組み
二宮 大空(株式会社AI Shift)
RAG後のハルシネーションの自動評価
38.RAGによる対話システム開発で見えてきた課題と現状
芝原 隆善、清 律康、安冨 泰輝、鷺坂 文野(株式会社レトリバ)
フィルターと代替出力によるRAGの補助
39.フェアリーデバイセズにおける研究開発 -人と機械の円滑な音声対話を実現するための音声処理技術-
宮澤 幸希、佐藤 可直(フェアリーデバイセズ株式会社)
ほう。
40.マルチモーダル入力からリアクティブな行動と応答発話の制御を両立する音声対話基盤の開発
馬場 惇、岡藤 勇来、大平 義輝、兵頭 克哉、猪狩 大輔(サイバーエージェント)
マルチモーダルの統合
41.LANGX Speaking 会話エージェントによる英会話能力判定システム
佐伯 真於、高津 弘明、倉田 楓真、鈴木 駿吾、江口 政貴、松山 洋一(株式会社エキュメノポリス)
どんだけ使えるんかね。
42.Artificial Emotional Intelligence “Saya”
大須 賀晋、田中 五大、渡邊 凌太、浅見 浩司、光森 卓、道下 裕也、川崎 拳人(株式会社アイシン)、藤井 駿伍(アイシン・ソフトウェア株式会社)、
石川 友香、石川 晃之(GarateaCircus株式会社)、中村 晃一、藤井 裕也(Idein株式会社)、東中 竜一郎(名古屋大学)、杉山 雅和、西村 良太(徳島大学)、太田 健吾(阿南工業高等専門学校)、北岡 教英(豊橋技術科学大学)
実物みたいな
表彰
まじかよ…評価している先生が生理測定や対人支援に精通してないだけじゃね…
若手優秀賞
2.親和的な対話システムの実現に向けた非接触呼吸推定技術の開発
14.半自律対話による同時並列傾聴システム
若手萌芽賞
11.GPT-4を用いた自己分析支援コーチングエージェントの開発
29.笑い声に応答するゲームシステムの開発に向けたイベント提示の生理学的評価
再現性を高める努力の必要性(個人的見解)
感想として、仮説演繹型の検証になっていない、標準化された測定を使っていない、適切に統制群が比較デザインが用いられていないなど、再現性に問題がありそうな内容が多かった。ヒューマン・コンピュータ・インタラクション(HCI)研究における再現性問題については、昔から指摘されているようだ。しかし、ちゃんと原著論文になっているのが1つしかないな。この辺は、国際会議の抄録集の価値を認める分野の特徴なのかな…
Hornbæk, K., Sander, S. S., Bargas-Avila, J. A., & Grue Simonsen, J. (2014, April). Is once enough? On the extent and content of replications in human-computer interaction. In Proceedings of the SIGCHI conference on human factors in computing systems (pp. 3523-3532).
Wacharamanotham, C., Eisenring, L., Haroz, S., & Echtler, F. (2020, April). Transparency of CHI research artifacts: Results of a self-reported survey. In Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems (pp. 1-14).
Vornhagen, J. B., Tyack, A., & Mekler, E. D. (2020, November). Statistical significance testing at chi play: Challenges and opportunities for more transparency. In Proceedings of the annual symposium on computer-human interaction in play (pp. 4-18).
Salehzadeh Niksirat, K., Goswami, L., SB Rao, P., Tyler, J., Silacci, A., Aliyu, S., ... & Cherubini, M. (2023, April). Changes in Research Ethics, Openness, and Transparency in Empirical Studies between CHI 2017 and CHI 2022. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (pp. 1-23).
Ballou, N., Warriar, V. R., & Deterding, S. (2021, May). Are you open? A content analysis of transparency and openness guidelines in HCI journals. In Proceedings of the 2021 CHI Conference on human factors in computing systems (pp. 1-10).
Komninos, A. (2022). The value of open data in hci: A case report from mobile text entry research. Multimodal Technologies and Interaction, 6(9), 71.
Qarout, R., Checco, A., Demartini, G., & Bontcheva, K. (2019, October). Platform-related factors in repeatability and reproducibility of crowdsourcing tasks. In Proceedings of the AAAI Conference on Human Computation and Crowdsourcing (Vol. 7, pp. 135-143).