見出し画像

第10回 Language and Robotics研究会聴講(2022年12月17日)

はじめに

【第60回AIセミナー】「言語を用いて経験を共有可能なロボットの実現を目指して 」で、登壇者の谷口忠大先生が紹介していた研究会。
Twitterでも、頻繁に案内を目にした。

門外漢が聴講していいものかどうか迷っていたが、決め手は、品川先生のこのつぶやき。

視聴にはconnpass登録が必要。
アカウントを作成したら、おっとびっくり!
超有名な先生のお名前がずらり
しかも、各先生の講演および聴講履歴までわかる。
こんなサイトをいままで知らなかったとは、不覚の至り

動画が公開されました

意図の接地と意味の接地~テキストに紐づけられた対話的画像生成とLanguage and Roboticsとの接続と展望について~

開催日:12月17日 10:30-12:00
講演者:品川 政太朗さん (NAIST)
発表タイトル:意図の接地と意味の接地~テキストに紐づけられた対話的画像生成とLanguage and Roboticsとの接続と展望について~
概要:text-to-imageに代表されるテキストに紐づけられた画像生成技術はここ一年の間に急展開を迎えており、研究者だけでなく多くの一般のユーザにより、関連するアプリの開発や、目的の画像を生成するための入力文の入れ方といったノウハウの検討が進んできている。しかし、その制御の難しさも一般に知られるところになってきた。この難しさの根底にあるのは学習データの画像と言語が一対一対応していない問題があり、この問題に対応するには、またLanguage and Roboticsに応用するためには、対話による意図の接地(基盤化)を行いつつ画像と言語の意味の接地を行うことが重要であると講演者は考えている。本講演ではそのような技術の実現に向けて、「テキストに紐づけられた対話的画像生成」と発表者が定義・呼称して取り組んでいる研究領域について紹介し、またLanguage and Roboticsとの接続と展望について議論のたたき台を提供したい。

講演概要

録画は後日公開予定なので、速報としてお考えください
2022年12月18日、動画とスライドが公開されました

品川 政太朗先生は、谷口忠大著「コミュニケーションするロボットは創れるか」にインスパイアされて、研究テーマを設定されたとのこと。

研究の駆動源は「ニューラルネットと対話したい」
研究テーマは「視覚と言語」、「対話システム」、「深層学習」だが、今回は「対話システム」のお話。
最新の研究成果は、学生の講演会発表の前なので今回は無し。

1)意味の接地(Symbol Grounding)

「美しい」と「かわいい」の境界は?
「古いおもちゃ」の部品を交換していくと、ずっと「古いおもちゃ」なのか?
これらの、漠然とした境目をどのように取り扱えばいいのだろうか
最近のAIがクリアしつつある

では、個人やコミュニティレベルにどのように適応させればいいのか?
(1)文化の差違 「いただきます」「お疲れさま」は、英語で表現不可
(矢野:そういえば、LaMDAが、「私の内的状況を現す言語がありません」とか言っていたな)
(2)知識・理解度の差違(「ディープでポン!」で笑えるか否か)
(3)経験や身体的な差違
(矢野:盲目者と難聴者では脳内地図がまるで違うんだろうな)
これらはローカルな「意味の接地」であり、対話により意味の修正をしていく必要がある

品川先生は、個人的に、「現実世界の対話可能なロボット人口が少なすぎる」とのことで、ロボット共存社会の進化には対話可能なロボット人口の増加が欠かせないと考えていらっしゃるそうだ
(矢野:現状、対話ロボットはマイノリティで、保護対象なんだな)

対話可能ロボット人口増加の3要件
(1) 長く使われる機械 雑談だけではダメで、生活支援機能が必須
(矢野:おおっ、杉山 弘晃先生は、雑談ロボットを目指していたな)
(2) 自然言語対話ができないとダメ
(3) 自然言語に閉じていないこと(言語以外のコミュニケーション能力を有すること)

研究を振り返る

Text-to-Image(2015年) 

ユーザは目標画像と言語で指示 機械は指示内容をコミュニケーションで修正
プロンプト(説明文)がたいへん
(矢野:Midjourneyでは、法典まで作成されていたな)
不良設定(制御性低下)(指示者が、修正後の結果を予測できない)
(矢野:ちょと呪文をいじるととんでもない絵が生成されたりするな)

解決方法
(1) 説明文ベース キャプションの一部単語の入れ替え、単語と絵の対応箇所の明示
追加データセット必要なし、制御文は全文入れ直す
(2) 編集指示文ベース 元画像+指示文の重み付け「長髪の度合いなど」
追加データセット 編集には指示前後の画像が必要、制御文は差分情報のみ

(矢野:そういえば、制御文に+とかつけているな。これからは、対話が重要だな)

Prompt-to-Prompt 画像のどこが編集部分か明示する
Imagic E-targetとE-Optのあいだの画像を自由に制御(生成)可能

Adobeが画像編集ソフトにAI搭載 T2ONet

Adobe以外 CLEVAによる人工データ 画像データから指示文作成

対話の問題点
(1) 機械からの働きかけの方法は、人間と同じでいいのか?
(2) 現在は、受動的なので指示者から見てブラックボックス

Conversational image setting(2018年)

意図の接地には、対話的プロセスが必要
SIGDIAL2018 Adobeソフトとの対話による編集
(人間同士の場合のユーザとクライアントの音声対話を7種類に分類、かつその強度を5段階で判定)

現状、機械への指示が「ハンサムにして」などは苦手で、へんな出力になりやすい 
この時は、いくつか候補画像を示して「品川さん、どれがいいですか」と、判定を委ねる
しかし、この方式だとやりとりが長くなる傾向にある
質問の回数は極力減らしたい

DALL-Eの使用で、曖昧さを解消する
指示文:An elephant and a bird flying.
質問:Is elephant flying?
(象と鳥のどちらが飛ぶのかを確認している)

Talk-to-Edit

顔画像限定で、5種類の表情と5レベルの25種類で対話しながら画像生成

Text-to-image(Diffusionベース)

GANベースからDiffusionベースへ移行
ChatGPT text guided interactive image editting
人と人との対話をモデルにした対話的画像編集

Language and Roboticsへの応用

テキストによる画像編集を、ロボットの行動指示に使えるのでは?
「蛇口から水」→「蛇口から水の絵」→「水を止めて」を理解可能に

Sim-to-Real

大規模言語モデルを用いて、ロボットの適切な行動を予測可能
人間の雑な要求に対し、質問で確認する PFNが研究中
エージェントがエラーから回復するための指示を仰ぐ
(道に迷ったときに聞くなど)

このあとQandAが続いて、本講演は終了した。

私の妄想

講演会の後は、ハイになり、いろいろな妄想が膨らむ

人間は、機械にいじわるをしたくなる

サーベイ論文作成AIが、3日でサービス停止に追い込まれ、開発者が「お前たちは、サービス停止で満足したか!」と、怒りのツイートを発したように、人間が、機械相手だと人間相手と異なる行動を起こすところにどのように対処するかは今後大きな課題となりそう。

特に、物理的身体を有するロボットの場合は深刻な事態を引き起こしそう

学習データの枯渇問題

早晩、学習データが枯渇する。AIが学習データを続続と生み出し、人間がそれを評価する時期を経過したあと、人はクリエート能力を失い、イノベーションが起きずに停滞する。
AI社会は「既存データチャンバー」に閉じ込められ、そこから抜け出す智恵をAIと共同で生み出す必要に迫られるだろう。
この時、人類を救うのは「隠れた知能生物」である、タコや植物なのかもしれない

制御工学のターニングポイント

私が研究所に入所した頃、制御工学は「伝達関数」から「現代制御理論」に置き換わり、線形代数がその基礎となる必修学問だった。
伝達関数や、伝達関数による多様な図を描けなくても制御できる時代に突入した

いま、「現代制御理論」が「ベイズ推定」に置き換わろうとしている。
強い非線形性を有し、パラメータが不明でも制御可能な「機械学習」さえ学べば、現代制御理論を知らなくても制御できる時代に突入した感がある。

人類の退化問題

3Dプログラマーの方が、「Blender」のプラグインで問題提起されている。
プラグインに頼っても、仕上げには自分で微調整が必要なのに、そこが勉強できない。「これでまあいいや」と「妥協」して終わると、AIに引きずられ、本当に自分が創作したかったものを見失うことにもなりかねない

これは、「先生、皆の前でぼくをほめないで下さい」よりさらに深刻な事態を招きそうだ

おわりに

日替わりで新しいソフトがリリースされるこの分野、最後に私のこのツイートで終わりとしたい

追記:品川先生からお返事いただきました♬
Twitter最高
いつまでも、いつまでも、変わらないままでいてくれよ



本noteは私の備忘録ですが、自由に読んでください サポートは、興味を持ったnote投稿の購読に使用させていただきます