第10回 Language and Robotics研究会聴講(2022年12月17日)

2022年12月18日 08:17

はじめに

【第60回AIセミナー】「言語を用いて経験を共有可能なロボットの実現を目指して」で、登壇者の谷口忠大先生が紹介していた研究会。
Twitterでも、頻繁に案内を目にした。

門外漢が聴講していいものかどうか迷っていたが、決め手は、品川先生のこのつぶやき。

話します！text2imageも色々できるようになって面白くなってきたので、今こそ対話的画像生成をしようぜという内容にするつもりです。じゃあ今どういう研究があるのか、これからどういう研究が必要なのかについてLanguage and Roboticsとの接続を意識しつつ紹介していこうと思います。 https://t.co/o9aPgcpZPp
— Seitaro Shinagawa (@sei_shinagawa) November 29, 2022

視聴にはconnpass登録が必要。
アカウントを作成したら、おっとびっくり！
超有名な先生のお名前がずらり
しかも、各先生の講演および聴講履歴までわかる。
こんなサイトをいままで知らなかったとは、不覚の至り

動画が公開されました

意図の接地と意味の接地～テキストに紐づけられた対話的画像生成とLanguage and Roboticsとの接続と展望について～

開催日：12月17日 10:30-12:00
講演者：品川政太朗さん (NAIST）
発表タイトル：意図の接地と意味の接地～テキストに紐づけられた対話的画像生成とLanguage and Roboticsとの接続と展望について～
概要：text-to-imageに代表されるテキストに紐づけられた画像生成技術はここ一年の間に急展開を迎えており、研究者だけでなく多くの一般のユーザにより、関連するアプリの開発や、目的の画像を生成するための入力文の入れ方といったノウハウの検討が進んできている。しかし、その制御の難しさも一般に知られるところになってきた。この難しさの根底にあるのは学習データの画像と言語が一対一対応していない問題があり、この問題に対応するには、またLanguage and Roboticsに応用するためには、対話による意図の接地（基盤化）を行いつつ画像と言語の意味の接地を行うことが重要であると講演者は考えている。本講演ではそのような技術の実現に向けて、「テキストに紐づけられた対話的画像生成」と発表者が定義・呼称して取り組んでいる研究領域について紹介し、またLanguage and Roboticsとの接続と展望について議論のたたき台を提供したい。

講演概要

録画は後日公開予定なので、速報としてお考えください
2022年12月18日、動画とスライドが公開されました

第10回 LangRobo研究会：品川政太朗先生 (NAIST)「意図の接地と意味の接地～テキストに紐づけられた対話的画像生成とLanguag... https://t.co/LJUvJEA9Ku @YouTubeより

昨日のLanguage and Robotics 研究会の動画が公開されました。良かったら見てください。 #NLP2023 でもお会いしましょう。
— Tanichu/たにちゅー (Tadahiro Taniguchi, 谷口忠大） (@tanichu) December 18, 2022

また、第10回の発表資料と、当日回答できなかったQAを公開させていただきました。うまく質問に答えられてると良いのですが。なにとぞよろしくお願いいたします🙇‍♂️https://t.co/HEWbXPaEKU
— Seitaro Shinagawa (@sei_shinagawa) December 17, 2022

品川政太朗先生は、谷口忠大著「コミュニケーションするロボットは創れるか」にインスパイアされて、研究テーマを設定されたとのこと。

【祝・電子書籍化】
初版から10年の時を経て、谷口の処女作『コミュニケーションするロボットは創れるか』の電子書籍版が出ました。「人工知能ブーム」「記号創発ロボティクス」以前の思索をもしよろしければご一読ください！
https://t.co/ER5KCXeQmm
— Tanichu/たにちゅー (Tadahiro Taniguchi, 谷口忠大） (@tanichu) September 1, 2021

研究の駆動源は「ニューラルネットと対話したい」
研究テーマは「視覚と言語」、「対話システム」、「深層学習」だが、今回は「対話システム」のお話。
最新の研究成果は、学生の講演会発表の前なので今回は無し。

1）意味の接地(Symbol Grounding)

「美しい」と「かわいい」の境界は？
「古いおもちゃ」の部品を交換していくと、ずっと「古いおもちゃ」なのか？
これらの、漠然とした境目をどのように取り扱えばいいのだろうか
最近のAIがクリアしつつある

では、個人やコミュニティレベルにどのように適応させればいいのか？
（1）文化の差違　「いただきます」「お疲れさま」は、英語で表現不可
（矢野：そういえば、LaMDAが、「私の内的状況を現す言語がありません」とか言っていたな）
（2）知識・理解度の差違（「ディープでポン！」で笑えるか否か）
（3）経験や身体的な差違
（矢野：盲目者と難聴者では脳内地図がまるで違うんだろうな）
これらはローカルな「意味の接地」であり、対話により意味の修正をしていく必要がある

品川先生は、個人的に、「現実世界の対話可能なロボット人口が少なすぎる」とのことで、ロボット共存社会の進化には対話可能なロボット人口の増加が欠かせないと考えていらっしゃるそうだ
（矢野：現状、対話ロボットはマイノリティで、保護対象なんだな）

対話可能ロボット人口増加の３要件
(1)　長く使われる機械　雑談だけではダメで、生活支援機能が必須
（矢野：おおっ、杉山弘晃先生は、雑談ロボットを目指していたな）
(2)　自然言語対話ができないとダメ
(3)　自然言語に閉じていないこと（言語以外のコミュニケーション能力を有すること）

研究を振り返る

Text-to-Image(2015年)

ユーザは目標画像と言語で指示　機械は指示内容をコミュニケーションで修正
プロンプト（説明文）がたいへん
（矢野：Midjourneyでは、法典まで作成されていたな）
不良設定（制御性低下）（指示者が、修正後の結果を予測できない）
（矢野：ちょと呪文をいじるととんでもない絵が生成されたりするな）

解決方法
(1)　説明文ベース　キャプションの一部単語の入れ替え、単語と絵の対応箇所の明示
追加データセット必要なし、制御文は全文入れ直す
(2)　編集指示文ベース　元画像＋指示文の重み付け「長髪の度合いなど」
追加データセット　編集には指示前後の画像が必要、制御文は差分情報のみ

(矢野：そういえば、制御文に＋とかつけているな。これからは、対話が重要だな）

Prompt-to-Prompt　画像のどこが編集部分か明示する
Imagic　E-targetとE-Optのあいだの画像を自由に制御(生成)可能

Adobeが画像編集ソフトにAI搭載　T2ONet

Learning by Planning: Language-Guided Global Image Editing (CVPR2021)
編集指示文による画像編集タスクにおいて、編集指示がより具体的な操作系列で構成されるものだと考えてタスクを再定義し、強化学習で最適化する手法T2ONetを提案。MA5k-Req、GIERデータセットも提案https://t.co/mZA3YOnGy6 pic.twitter.com/NbabpMA10E
— Seitaro Shinagawa (@sei_shinagawa) June 22, 2021

コードは以下で公開予定とのこと。https://t.co/UeJT0wFd0P
ちなみに、某dobeさんっぽいなと思って読んだら某dobeさんの論文でした。この研究は必ず５ターンの編集を行う設定ですが、せっかく強化学習使ってるのでより短いターン数でやるとかもっと色々な検証ができそう感あります
— Seitaro Shinagawa (@sei_shinagawa) June 22, 2021

Adobe以外　CLEVAによる人工データ　画像データから指示文作成

🔥 Join us for the @ContinualAI #AI Seminar! This Thursday the 24th at 17.30 CEST, we are with @mundt_martin, presenting their work on “CLEVA-Compass”

Be sure to subscribe and join us LIVE ⭕️ at https://t.co/rSCFxYMrlS pic.twitter.com/KLTcUCS5d9
— Keiland Cooper (@kw_cooper) March 21, 2022

対話の問題点
(1)　機械からの働きかけの方法は、人間と同じでいいのか？
(2)　現在は、受動的なので指示者から見てブラックボックス

Conversational image setting(2018年)

意図の接地には、対話的プロセスが必要
SIGDIAL2018　Adobeソフトとの対話による編集
（人間同士の場合のユーザとクライアントの音声対話を７種類に分類、かつその強度を５段階で判定)

Conversational Image Editing: Incremental Intent Identification in a New Dialogue Task (SIGDIAL2018 best paper nominee)https://t.co/QOukh1Oire
画像操作は予め与えられてて対話でどの操作を選ぶかって話らしい（後輩氏が教えてくれた）
— Seitaro Shinagawa (@sei_shinagawa) June 21, 2018

現状、機械への指示が「ハンサムにして」などは苦手で、へんな出力になりやすい
この時は、いくつか候補画像を示して「品川さん、どれがいいですか」と、判定を委ねる
しかし、この方式だとやりとりが長くなる傾向にある
質問の回数は極力減らしたい

DALL-Eの使用で、曖昧さを解消する
指示文：An elephant and a bird flying.
質問：Is elephant flying?
(象と鳥のどちらが飛ぶのかを確認している)

Talk-to-Edit

顔画像限定で、５種類の表情と５レベルの25種類で対話しながら画像生成

Text-to-image(Diffusionベース)

GANベースからDiffusionベースへ移行
ChatGPT　text guided interactive image editting
人と人との対話をモデルにした対話的画像編集

Language and Roboticsへの応用

テキストによる画像編集を、ロボットの行動指示に使えるのでは？
「蛇口から水」→「蛇口から水の絵」→「水を止めて」を理解可能に

Sim-to-Real

SayCan has achieved impressive results, but how do its language model plans get grounded to what robots can achieve? The key ingredient is the PI-QT-Opt agent, which learns robust multitask value functions with sim-to-real RL at scale #CoRL2022 https://t.co/5UOqg1YWwq. Details🧵 pic.twitter.com/59QSzW7XAh
— Kuang-Huei Lee (@kuanghueilee) December 17, 2022

大規模言語モデルを用いて、ロボットの適切な行動を予測可能
人間の雑な要求に対し、質問で確認する　PFNが研究中
エージェントがエラーから回復するための指示を仰ぐ
(道に迷ったときに聞くなど)

このあとQandAが続いて、本講演は終了した。

私の妄想

講演会の後は、ハイになり、いろいろな妄想が膨らむ

人間は、機械にいじわるをしたくなる

サーベイ論文作成AIが、３日でサービス停止に追い込まれ、開発者が「お前たちは、サービス停止で満足したか！」と、怒りのツイートを発したように、人間が、機械相手だと人間相手と異なる行動を起こすところにどのように対処するかは今後大きな課題となりそう。

特に、物理的身体を有するロボットの場合は深刻な事態を引き起こしそう

AI、人類のダメなところを学習しがちww

科学記事を自動で生成するAI「Galactica」がわずか3日で公開停止へ、入力内容次第で「ウソ記事」を生成可能と判明 - GIGAZINE https://t.co/LujhrVzf93
— Shuuji Kajita (@s_kajita) November 24, 2022

学習データの枯渇問題

@s_kajita @robonewsnet
翻訳も、ネットで同じ文章の翻訳例を検索し、その中から適切な翻訳を選択するアルゴリズムをメインに据えるとプロの翻訳者の域に達します。欠点は、地球人が全員自動翻訳に頼るとデータの蓄積がストップすることです。
— YANO Tomoaki@JSMEｰTRCビジョン2050WS12月23日 (@yanotomoaki) December 1, 2013

早晩、学習データが枯渇する。AIが学習データを続続と生み出し、人間がそれを評価する時期を経過したあと、人はクリエート能力を失い、イノベーションが起きずに停滞する。
AI社会は「既存データチャンバー」に閉じ込められ、そこから抜け出す智恵をAIと共同で生み出す必要に迫られるだろう。
この時、人類を救うのは「隠れた知能生物」である、タコや植物なのかもしれない

タコは頭が良いんです🐙
しかも、その知能パターンが全く読めない！ pic.twitter.com/DLqVa3RGnt
— toku the ブッチャーⅡ (@G9kxm1KEl4c62Ea) December 12, 2022

#植物は未来を知っているによると、
植物の「根」が「脳」に近い情報伝達を担っている可能性があるそうだhttps://t.co/Jz1mruYbis https://t.co/IxedHC1bUw pic.twitter.com/H1XExEVoLy
— YANO Tomoaki@JSMEｰTRCビジョン2050WS12月23日 (@yanotomoaki) December 13, 2022

制御工学のターニングポイント

私が研究所に入所した頃、制御工学は「伝達関数」から「現代制御理論」に置き換わり、線形代数がその基礎となる必修学問だった。
伝達関数や、伝達関数による多様な図を描けなくても制御できる時代に突入した

いま、「現代制御理論」が「ベイズ推定」に置き換わろうとしている。
強い非線形性を有し、パラメータが不明でも制御可能な「機械学習」さえ学べば、現代制御理論を知らなくても制御できる時代に突入した感がある。

人類の退化問題

３Dプログラマーの方が、「Blender」のプラグインで問題提起されている。
プラグインに頼っても、仕上げには自分で微調整が必要なのに、そこが勉強できない。「これでまあいいや」と「妥協」して終わると、AIに引きずられ、本当に自分が創作したかったものを見失うことにもなりかねない

最近blenderが流行った弊害を目の当たりにしている。
何か3Dの技術をWeb検索する時、ワードに｢3DCG｣って入れても｢モデリング｣って入れても、酷いと｢Maya｣とか｢Max｣って入れていてもblender関係のページばっかり出てくる。
僕はblender使いなので一見問題なさそうなのだが
— 重冨顕 /とげみ (@Sgtm0602) December 16, 2022

これは、「先生、皆の前でぼくをほめないで下さい」よりさらに深刻な事態を招きそうだ

講義の進め方の参考に
今の学生は私が教壇に立っていた10年前とは全く違うというお話
先生、どうか皆の前でほめないで下さい | 東洋経済STORE https://t.co/wNF11OiIgd https://t.co/wZ4cxEfc0K pic.twitter.com/rCTbmdNC0t
— YANO Tomoaki@JSMEｰTRCビジョン2050WS12月23日 (@yanotomoaki) April 5, 2022

おわりに

日替わりで新しいソフトがリリースされるこの分野、最後に私のこのツイートで終わりとしたい

#Holara 画伯で
MIKU on stage,MIKU dancing on stage
8月11日の投稿からたった4ヶ月！ https://t.co/HRfccTUUnU pic.twitter.com/t5YIWnwZQT
— YANO Tomoaki@JSMEｰTRCビジョン2050WS12月23日 (@yanotomoaki) December 17, 2022

追記：品川先生からお返事いただきました♬
Twitter最高
いつまでも、いつまでも、変わらないままでいてくれよ

お聞きいただきありがとうございました！すごくしっかりまとめていただけて光栄です！人間がいじわるなのは、データ駆動で学習させる上で大きな問題になってますね…(特に対話システム界隈では)😅 https://t.co/pEhnOyONuc
— Seitaro Shinagawa (@sei_shinagawa) December 18, 2022

いいなと思ったら応援しよう！

本noteは私の備忘録ですが、自由に読んでくださいサポートは、興味を持ったnote投稿の購読に使用させていただきます