見出し画像

Interaction Design for Reconciling Off-The-Shelf Machine Learning Models with Open-Ended User Needs

2023年度研究会推薦博士論文速報
[ヒューマンコンピュータインタラクション研究会]

矢倉 大夢
(マックスプランク人間開発研究所 研究員)

邦訳:既製の機械学習モデルとオープンエンドなユーザニーズを調和させるインタラクションデザイン

■キーワード
インタラクションデザイン/機械学習/生産性・創造性支援

【背景】生産性・創造性支援等,さまざまな場面で機械学習は有用
【問題】幅広いニーズごとに機械学習モデルを用意するのは大変
【貢献】既存のモデルを包括的に使い回すデザイン手法を提案

 ChatGPTがいろんな文章を生成してくれたり,Photoshopがうまく画像を加工してくれたりと,機械学習技術は幅広い場面で我々の役に立っています.一方,機械学習技術を新たな目的に応用しようと思うと,データをたくさん用意し,大規模な計算処理によって機械学習モデルを訓練する必要が出てきます.それゆえ,「こういう場面で新しく機械学習を使いたいな」と思っても,なかなか気軽には試しにくいという状況があります.

 もし,機械学習モデルをいろんな目的ごとに一から用意しなくても,便利に使いこなせるような手段があれば,もっと多くの人が機械学習技術の恩恵に預かれるのではないか.そういった思いから,「インタラクションデザイン」を工夫することで既存の機械学習モデルの新たな使い道を切り拓くという研究に取り組みました.

 たとえば,最近の音楽生成モデルを使うと,文章での指示を与えるだけで作曲することができます.しかしこうしたモデルは,しっかりと音楽を学んできた人の書くような具体的な指示を出さないと,うまく意図を汲み取ってくれません.そのため,なかなか初心者の人が使いこなすのは難しいものとなっていました.もちろん,初心者の人がどのような指示を出しがちなのか,データを集めてモデルを訓練すれば解決できるのですが,なかなかハードルが高いですよね.

 そこで,ChatGPTのような大規模言語モデルの力を借りながら「初心者でも音楽生成モデルを使いこなす力をつけられる」インタラクションを生み出しました.たとえば,「スターウォーズみたいな曲」という指示を与えたとすると,まず大規模言語モデルが「壮大なオーケストレーションによる……」「波打つように重低音が響く……」「ドラマチックなコーラスとともに……」といくつか具体的な指示のアイデアを考えてくれます.そして,そうした指示を与えるとどんな曲が生まれるのかを聴き比べることで,自分が意図していたものが「壮大なオーケストレーション」だったのか「ドラマチックなコーラス」だったのかを理解できるという仕組みです.こうしたサイクルを繰り返すことで,より細かく指示を調整しながら,ユーザ自身も「どうすれば生成モデルを使いこなせるのか」を学んでいくことができます.
 
 実はこの音楽生成に関する研究は,博士論文で取り上げた5つのテーマの1つにすぎません.ほかにも,「Instagramの写真編集」や「オンライン授業での集中の強化」といったさまざまなテーマについて,機械学習技術を有効活用するためのインタラクションを考え,その有効性を実験的に検証してきました.そしてそれらの実例を元に,「既存の機械学習モデルを使いながらインタラクションを工夫することで応用を拡大する」というコンセプトを,具体的なデザインアプローチとともにまとめました.

 私は,ヒューマンコンピュータインタラクション(HCI)という分野の役割に,さまざまなシステムを新たに提示するというのはもちろん,その中で得られた「コンピュータの使い方・あり方についての知見」を他の研究者や技術者に提供するという点も含まれていると考えています.そうした点で,機械学習モデルを新たに作るだけでなく,既存のものを使い倒すというアプローチについても広まってくれればと願っています.

■Webサイト/動画/アプリなどのURL
https://hiromu.phd/

(2024年5月31日受付)
(2024年8月15日note公開)

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
 取得年月:2024年3月
 学位種別:博士(工学)
 大学:筑波大学
 正会員

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー

推薦文[情報環境領域]ヒューマンコンピュータインタラクション研究会
既製の機械学習モデルは,必ずしもユーザの多様なニーズを満たせない.本論文はそれをインタラクションデザインの力で解決できることを,ビデオ講義学習,知的作業,写真編集,作曲,音声書き起こしという5つの異なる領域において示した.人間の認知プロセスやユーザの歩み寄りを利用する顕著な研究成果は高く評価できる.

研究生活  博士課程前から国際会議に参加する中で,自分のアイデアを世界の研究者と議論できるという機会に心惹かれ,博士課程に足を踏み入れました.また,修士のタイミングでJST ACT-Xに採択してもらったことも心強い後押しとなりました.博士課程に入ったタイミングでCOVID-19が広がり,なかなか思うようにはいかなかった3年間ではありましたが,徐々に国際学会の機会も戻る中で,いろいろな先輩あるいは同世代の研究者と交流できたのは博士課程の醍醐味でした.いろいろ興味の赴くままに研究に取り組んできた結果,博士論文として何を提示するのかという点にはかなり悩みましたが,改めてHCIの歴史を振り返ったり,「学術的貢献とはなにか」を考えたりといい機会になりました.結果として,Höökらの(Strong)Conceptというパラダイムをヒントに,「機械学習を使い倒す」ということに自分は興味があったのだなと整理でき,なんとか博士論文を仕上げることができました.