StabilityAIが東工大で講演を行っていたので聴講した(ぼくの感想)
2023年4月25日、東京工業大学 学術国際情報センター 横田研究室によって開催されたセミナーで、今日のジェネレーティブAIムーブ面の火付け役となったStable Diffusionをオープンソースで公開した「Stability AI」社が講演を行いました。
★残念ながら講演スライド等の共有は(執筆して打診してみたのですが)許可されなかったので、私的な講演まとめとなります。
まずは日本代表の Jerry Chiさんよりショートトーク
テキストを入力し、画像を出力することができるモデル「Stable Diffusion」の2022年8月のローンチ以来、瞬く間に100万人のユーザーを獲得し、10月には1億ドルを調達。彼らはStable Diffusion 2を含むモデルの新バージョンをリリースし、コミュニティを拡大しています。また、BlenderのプラグインやDream Studio、Stable Language Modelsも用意しています。1月に日本支社を設立し、コミュニティの構築、特定の日本語モデルのエンジニアリング、ビジネスチャンスの開拓に取り組んでいます。企業と連携し、カスタマイズされたプライベートモデルのトレーニングや、顧客が所有するプライベートデータでFoundationモデルの微調整を行うっています。彼らの目標は、AIを民主化し、日本を含む多くの人々にジェネレーティブAIを提供することです。ジェネレーティブAIへの関心を共有できる方との交流を希望しています。
https://twitter.com/stabilityAI_JP
https://twitter.com/StabilityAI_JP/status/1648881153561235456
David Ha氏による講演
サマリー:StabilityAIの研究者であるDavid Ha氏は、このセミナーで、創造的なAIに対する集合知のアプローチについての見解を述べました。彼は、より大きなモデルを継続的に構築するのではなく、これらのモデルをより集団的に使用して問題を攻略する方法に焦点を当てるべきだと考えています。Haは、画像生成に適用された集合知のさまざまな例と、集合的な聴衆のためにモデルをオープンソース化することの利点について説明しました。また、生成ビデオとモデルベースの強化学習に関する自身の研究、そして最近利用できるようになったテキストベースの画像生成モデルについての興奮を語っていたのが印象的です。そしてその根っこには常に「集合知」がありました。
Twitter @hardmaru
https://otoro.net/
で生成した画像らしい、かわいい。
話の概要
AIにおける集合知
モチベーション
画像生成
Place
https://ja.wikipedia.org/wiki/Place_(Reddit)
QuickDraw
https://quickdraw.withgoogle.com/data
5,000万枚の絵はどのようなものでしょうか?
1,500万人以上のプレイヤーが、Quick, Drawで何百万枚もの絵を投稿しています!これらの落書きは、開発者が新しいニューラルネットワークを訓練するのに役立ち、研究者が世界中の人々の描き方のパターンを見るのに役立ち、アーティストが私たちがまだ思いつかないものを作り出すのに役立つ、ユニークなデータセットです。そのため、誰でも遊べるようにオープンソースにしています。Incomplete Drawings
Text-to-Doodle
Gnerative Video Game Environments
DalleMini
人間がインタラクションするフィードバックループモデル
人間とAIのクリエイティブなエコシステム
クリエイターであり、デベロッパーである
AIミームからAIアートへ
オープンソースLLM
「英語だけでなく日本語も」
Stability AIは言語モデル「StableLM Suite」の第一弾をリリース開始
4月19日
https://ja.stability.ai/blog/stability-ai-launches-the-first-of-its-stablelm-suite-of-language-models
ぼくの感想
まずはDavid Haさんにはとてもシンパシーを抱きました。
大規模言語モデル、生成AIの研究開発はいまでこそGoogleやOpenAIのような大きな研究所や企業によって行われ、大きなムーブメントを起こしていますが、長い間、生成AIは(特に役に立つと思われていなかった時代が長く)学術的な研究や芸術的な研究も多くあります。
もちろんここ10年ぐらいのAI研究と言えば機械学習やディープラーニングが主流ではありますし、データアナリストが活躍されていますが、もともとはニューラルネットワーク、その前はサイバネティクス、さらにその横でVRやゲームはじめSNSやエンタテインメントシステムの開発者であった側としては群知能のような集合知に関連する概念への興味は大変共感できるものです。
2007~2009年に自分が日本科学未来館の常設展示の設計に関わっていたころ、「Collective intelligence - 集合知」について学び、深くこの技術を設計にしみこませています。この展示は私の退職後も無事に同僚により開発が続けれ、リリースされ、メディア芸術祭での受賞、その後も長年愛されており、2023年の現在も日本科学未来館の3Fで日々お客さんに情報科学技術と社会の未来を伝えています。
https://www.youtube.com/watch?v=j1zLBXUoG3I
当時の書籍を紹介しておきます。
集合知プログラミング
Toby Segaran 著、當山 仁健、鴨澤 眞夫 訳
みんなの意見は案外正しい
JamesMichaelSurowiecki (著), 小高 尚子 (監修, 読み手, 翻訳)
集合知とは何か ネット時代の「知」のゆくえ (中公新書)
西垣通 (著)
David Ha氏の集合知関する研究動機の1つは「自然が知能を進化させる方法」と「人間が構造を構築する方法を比較すること」で、例えばアリの群れで形成された橋と これらを比較すること、橋や建物はすべて、環境に適応するためではなく、変動に耐えるために、環境に無関心であるように設計されている、という視点。
たしかに「アリの群れで形成された橋」をNjiJourneyで生成してみると…
そういう人工的な設計者がいるわけじゃないんですよね、実は。
グンタイアリは自分たちの体で橋を作るとき2つのシンプルなアルゴリズムに従っている - GIGAZINE
https://gigazine.net/news/20180228-ants-build-bridge-algorithm/
2022年ごろ、テキストから画像への変換(Text2Img)の未来は、彼のような知識も技術も経験も思想もある研究者にとっては、人類が作り出したバベルの塔に見えたと思います(私はそう感じています)。より大きなデータセットでより大きなモデルを訓練できる大企業・大資本が支配する可能性があったし、そのバベルの塔は雲の上、世界を見渡せる高さまで到達していた。
これを、先ほどの技術的視点で2つのタイプの道で分類してみると、大々的に宣伝されている「合理的なもの」と、一歩引いて考えてみると、「自然発生的なもの」の存在やその生まれ方について考えることができます。
David Ha氏が紹介してきた数々の研究(スライドが公開されないのは本当に残念だけど紹介したキーワードから論文やサイトを探してみてください)、そしてオープンソーススタイルの開発もあります。そして、すべてが同時並行的に進行していることを考えると、この空間は非常に速く動いていて、多くの人々が集団でこれに取り組んでいます。この種の集合知や集合的なコミュニティのコラボレーションが、ついに大規模な言語知識や画像生成を使った言語の壁を越えて、クリエイティブな人間の表現を進化させ強化するフレームワークとなることが感じられます。
そういえば西垣先生は2018年にこんな書籍も書かれています
AI原論 神の支配と人間の自由 (講談社選書メチエ)
今まさに読み直しておきたい1冊かもしれないですね……。
そして調べていたら2021年8月のRunway社によるDavid Ha氏の動画を発見。Runway社はStable Diffusionの共同開発者であり、Stable Diffusionリリースのちょうど2年前です。AGIについて話をしつつも根っこは集合知で変わらないのですね。
合理的な支配ではなく、人間の自由。
僕は、そこに向けて、一緒に動ける人々と様々な形で、くっついていきたいと思います。
(企業だけが集合知的な組織の形ではないので…)
Acknowledgement
I would like to thank David Ha and Jerry Chi for organising this great seminar. I would also like to thank Yokota Sensei in Tokyo Tech for organising this opportunity, not only as a former student but also as a technologist in humanism.