見出し画像

【動画レポ】ChatGPT研究会第9弾・MSの専門家がVisual ChatGPTを深掘り解説!

今回は2023年6月1日に開催されたALGYANさんのシリーズイベント「ChatGGPT研究会」の第9弾のイベント「MSの専門家がVisual ChatGPTを深掘り解説!」についてレポートします。毎回豪華なスピーカーのこのイベントですが、今回は日本マイクロソフト株式会社の松崎 剛さんを招いての開催です。早速見てみたいと思います。

<動画です>

生成AIの基礎とTaskMatrix(Visual ChatGPT)

正式名称はTaskMatrix

スピーカー紹介

松崎 剛さん
・日本マイクロソフト株式会社 パートナー事業本部
 クラウドソリューション・アーキテクト(AIの担当)
・MinecraftのAIにハマっている

Transfomerの説明(英語)

OpenAIの基礎

GPT:テキスト生成、
Embedding:文章をベクトルにする、この文書と似た文書・・・
Codex:プログラムコードを生成、GPTと統合されていく
Dall.E:画像の生成、類似の画像を生成

OpenAI.comとAzureOpenAIの違い
・基本的にAPI仕様やAPIの価格はほぼ同じ
・AzureOpenAIは本番を意識したもの(契約や機能、リージョン)
 サポートもAzureと同じ窓口から出来る
・AzureOpenAIは基本的に法人向け、個人申し込みはできない
・OpenAI.comは研究者、学生にとっては使い勝手が良い
・新規モデル対応はOpenAI.com⇒AzureOpenAIの順番
・OpenAI.comは無償でプレビュー提供がある

言語モデルの発展

言語モデルの発展

・毎週新しいモデルが登場している
・OpenAI以外のモデルもどんどん出ている
・今の生成AIはデコーダーだけ使っている言語モデルが多い
 エンコード⇒クロスアテンション⇒答えを出していく
・言語モデルの発展のポイント:Transformerの成長
・Transformerはパラメータをどんどん増やせる
・アンスーパーバイズドなラーニング
 インターネット上の膨大な情報をラベリングぜずに学習させる
・スーパーバイズドなラーニングも組み合わせている

OpenAIのモデルはダウンロードできない
・中のソースも何やっているかあまりわからない、
・LLama系のオープンなモデルも出ている
・小さいモデルを最適化してChatGPTに近い性能を出すモデル
 RaspberryPI上で動く、算術タスクだけを処理する

LLMのEmergent Abilities

LLMのEmergent Abilities

Emergency=突然出現するもの
Emergent Abilities 
 あるパラメータ数を超えると起きる突然予測不能な現象・能力
⇒専門的な機械学習の領域を大規模言語モデルがカバーしてしまう
・与えたデータの分類・類似の抽出
・計算、結構複雑な計算も行う(鶴亀算的な)

⇒TaskMatrixの「reasoning」もこのEmergent Abilitiesのひとつ
<例>論理的なステップ・手順を踏んだ計算など
 外部のデータベースやコンテンツと連携して進めていく

reasoning

reasoning関係の論文など
・GoogleのReAct
・MRKL Systems    
・テキストベースの推論ゲームを解かせていく
・数式をreasoningで解かせる(モデルのチューニングもした)
・Microsoft Researchがロボティックスの動作をreasoningにさせる

ReAct・MRKL Systems

⇒言語モデルが人のように様々なタスクを解く

TaskMatrix

「言語」の存在が人類を発展させた⇒言語モデルも同じ
 ・言語とともに映像やふるまいも覚える

Multi Modelitiesへの期待

Multi Modelities:混合学習をさせるともっと知性をもつのでは?
・人間と同様に言語だけでなく画像や音声なども合わせて学習させる

・MetaのImage binding
 画像だけでなく音声・動画など様々な情報を基に学習させる
 同じ規格のベクトルに変換してLLMで処理
・MicrosoftのFlorence
 イメージとテキストを同じ比較ができるベクトル
・GPTはテキストもイメージも読み込んで学習する

イメージのアウトプット⇒別の仕組みが必要
TaskMatrix(Visual ChatGPT)の登場
 イメージのアウトプットを含むやり取り

TaskMatrix(Visual ChatGPT)

言語モデルを使ってReasoning

例)ソファーの画像を机に変えて水色にペインティングして下さい
・2つのタスク(ソファーを机に/水色に塗る)に分割
・1個の命令の場合でも複数のタスクに分けて実行する
・HuggingFaceの中にあるVisual Foundation Modelが実行
 GPTでReasoningして他のモデルを呼び出す

Reasoningの実行例

プロンプトの内容
・Few-ShotではなくZero-Shotを使用している

プロンプトの内容

Diffusions(Hugging Face):画像生成のモデル
・非常に多く使われている画像生成モデル(Stable Diffusionなど)
・U-Net:ノイズ消去する処理を行う、ノイズを学習して消去
・Clip:テキストとイメージを同じようなベクトルにする

Diffusions

Related Projects


〜TaskMatrixと同じような試み

JARVIS(HuggingGPT)〜Microsoft
・タスクをHuggingFace上のFoundationモデルと連携する試み

LLM-Augmenter system 〜Microsoft
・モジュールとして接続することで外部タスクと連携

Transformers Agent 〜Hugging Face
・TaskMatrixそっくりのプロジェクト

GPT-4 + Stable Diffusion 〜Berkley AI Reserch
・テキストから画像を作る際の品質をより精緻にする

ReasoningとFoundation Modelの組み合わせ

Auto-GPTなど様々なプロジェクトがReasoningを使用している



ALGYAN(あるじゃん)主催 公式イベント!

IoT ALGYAN は、IoTを学べる最強コミュニティです。

ALGYANとは「All Gadget Your Alliance and Network」を略した造語です。
IoTを学びリードしようという意識の高い技術者が集合したコミュニティです。
 「つながる広がる・あなたのアイディアを地球にプロット!」を合言葉に、日本から世界へ明るく楽しくIoT(The Internet of Things)を広めます。
・全国ハンズオンキャラバン(40カ所以上)
・IoTアプリコンテストの開催
・1500台以上のデバイスを無償配布
・教育機関様や企業様とのタイアップを積極的に実施!
・260ページのマニュアルが常に成長。
・わくわくしながら世界のIoTを盛り上げる!
2015年3月設立
https://www.facebook.com/groups/ioytjp/ (←登録推奨)


この記事が気に入ったらサポートをしてみませんか?