マルチパーティチャットプロジェクト『mPLUG-Owl』について解説しています。
MultiLIGHTを用いて、言語モデルがグループ会話で複数のキャラクターとして機能する能力を評価しています。
公開日:2023年4月29日
※動画を再生してから、インタビューを読むのがオススメです。
そこで、このプロジェクトが実際にできることを、実際に提供されたいくつかの例で紹介したいと思います。
Owlは、画像の説明や会話ができるマルチターンの会話、さらにはエンコーダを使って実際の画像の特定の要素を識別するなど、さまざまなことができます。
また、画像間の保持を理解することもできます。
次に、ミームやジョークを使って、知識集約型のQ&Aや創造的な生成など、さまざまなことができるようになります。
このように、プロンプトの生成に役立つさまざまな種類の対話調査を行うことは、実際の革命という点で、非常に有用なことです。
例えば、画像の説明のようなものを見てみましょう。
画像の説明をできるだけ詳しく書くと、実際の人工的な文脈に沿った反応を見ることができるのです。
これは、画像が人々や車、オートバイでいっぱいの賑やかな市街地を捉えるもので、ここにある画像で全部見ることができます。
さて、これによって画像の記述的分析が得られるだけでなく、さらに詳しい情報を得るために実際のボットと話すことができるようなものも得られます。
つまり、「右の男性は誰ですか?
と尋ねると、基本的には「ヤオ・ミン(NBAで活躍した中国のプロバスケットボール選手)です」と、それが誰であるかを教えてくれます。
では、"左の男性は誰ですか?"と尋ねると、彼がNBAで活躍した中国のプロバスケットボール選手であることがわかります。
は、バスケットボールのコーチであることがおわかりいただけると思います。
では、"背の高い人は誰でしょう?"。
とボットに話しかけると、ボットはエンコーダーを使って画像の中で起こっていることを分析し、適切な反応を示す画像を与えてくれます。
最後に、クロスイメージ保持の理解についてです。
つまり、"1枚目の画像で人物が着ている服と、2枚目の画像で着ている服は色が違うのか?"ということです。
すると、ボットは「はい、1枚目の写真の人は黒いシャツを着ていますが、2枚目の写真の人はグレーのシャツを着ています」と回答します。
エンコーダがどのように動作しているか、またMultiLIGHTが大規模な言語モデルの実際の能力をどのように評価しているかは、本当に驚くべきことです。
そして、これは非常にユニークなことなのです。
このコード上の例をチェックすると、さまざまなことや使用例を見ることができますので、ぜひチェックしてみてください。
そう思って、すぐにビデオに戻りましょう。
このモデルをテストするために、研究者は基本的に新しく作成したデータセット(MultiLIGHTと呼ばれる)で訓練したモデルを比較しました。
これが行うことは、既存のペアワイズで訓練されたダイアログモデルや大規模言語モデルを、少数のショットプロンプトと組み合わせることで、この図で見ることができます。
第1段階では、事前に訓練されたLLMがあり、基本的に視覚的抽象化器と視覚的エンコーダーを使って、会話で起こっていることを処理します。
そして、これを介して、命令チューニングに送信されます。
そして、LoRaや他の事前学習済みLLMを使用し、よりよい理解と微調整を行うために、同じプロセスを実行します。これにより、目標を達成する際に更なる洞察が得られることでしょう。
このモデルには、このかわいい犬が疲れていて、「月曜日、月曜日」と言いながら、自分の意識を表現しようとしている様子が描かれています。
この画像からもわかるように、画像があり、それが事前に訓練されたLLMと一緒に送られます。
そして、ビジュアルエンコーダーに送られ、実際の画像で起こっていることを処理します。
そして、パッチフィーチャーに送られます。パッチフィーチャーでは、画像をさまざまなチャンクに分類し、実際の画像の各チャンクで起きていることを要約して強調します。
このようにして、ビジュアル・アブストラクターに送られ、そこで、それぞれのチャンクで起こっていることを参照し、トークン化します。
そして、事前に訓練されたLLMに送られ、この画像で実際に何が起こっているのかを分析します。
この画像から何が起こっているのか、詳細な反応を得ることができることがわかります。
研究者たちは、MultiGP、つまりGPCではなくMulti-Liteデータセットが、グループ設定においてモデルのパフォーマンスを大幅に向上させることを発見しました。
これは、彼らが実際にどのように機能するかを様々なケースで確認しているものであり、後ほどビデオでデモを行う際に詳しくチェックしていきます。
このプロジェクトの主な目的は二つあります。まず、現行のLLMモデルをマルチパーティダイアログ設定に拡張した場合の性能を評価すること。次に、モデルが不十分な場合にはそれらを改善する方法を特定することです。
この研究では、基本的に2つの主要な課題に焦点を当てます。それは、先ほどもお話ししたように、ターンテイキングと発話の一貫性というものです。
さて、ターンテイクは、会話の流れを維持し、次に話すタイミングを決めるのに、実際のチャットボットにとっていかに重要であるかと同じように重要です。
発言者が順番を無視して話したり、返事を期待されても黙っていたりすると、基本的に実際のプロジェクトではマイナス評価となります。
さて、発話のまとまりは、次の課題として重視しようとしている。
ここでは、基本応答と同様に、生成的なアプローチでは、実際に会話をしている複数の人の対話に配慮する必要があります。
モデルは、良い応答を生み出すために、さまざまな特性から来る参加は、多くの情報で十分でなければならないことを考慮しなければなりません。
また、特定の会話の中で、適切なタイミングで参加する必要があります。
このような場合、これは実際に抱えている2つの問題のうちの1つなのです。
そこで、この研究では、この2つの課題を解決し、複数人での会話における大規模言語モデルの性能を向上させることを目的としています。
ここまで、この研究がいかに生産的で、いかに有用であるかを見てきましたが、実際にどのような使用例があるのでしょうか。
というのも、「これのどこがいいんだろう?
なぜこんなものを見せてくれるんだ? しかし、基本的にこのプロジェクトは、AIの世界や対話研究の分野でいくつかの重要な貢献をしています。
その利点のいくつかを挙げると、まず第一に、マルチパーティ会話に焦点を当てており、これはダイアログ研究において重要だが見過ごされがちな側面です。
さて、皆さんがこれについて詳しいかどうかはわかりませんが、クロスイメージ関係の会話やマルチターンの会話など、構造化された環境で複数人の会話を収集・評価することによって、これらの課題に対する貴重な洞察を得ることができます。
また、チャットボットやLMが、このような多者間会話からデータを評価・収集する方法を改善する機会にもなります。
第二に、このプロジェクトではMultiLIGHTデータセットを導入していますが、これは非常に新しいもので、複数当事者の会話に特化して設計されています。
これは非常にユニークなもので、発話だけでなく会話も多数含まれています。
このデータセットは、研究者が多人数会話用の言語モデルを開発・評価するための貴重なリソースとなります。
最後に、このプロジェクトは、基本的に、複数当事者の会話をモデル化する際の2つの主要な課題、すなわち、ターンテーキングと発話の一貫性を特定していると感じています。
これらの課題に対処する戦略を提案し、時間が経つにつれて、構造化された環境でのマルチパーティ会話の進歩が見られるようになると感じています。
さて、これはその研究論文を読めば、より深く理解することができます。
彼らが何をしようとしているのか、またそのロードマップについて、多くの情報やさまざまな詳細な分析がなされていますので、ぜひご覧になってください。
というわけで、ぜひご覧いただくことをお勧めします。以下、説明文に残しておきますね。
では、実際のデモモデルで、その使用例を確認してみましょう。
では、実際に今からこのデモをチェックしてみましょう。
基本的には、自分で生成するよりもずっと簡単なので、彼らの例の一つを使っただけです。
しかし、基本的には、「この画像のベースとうまく韻を踏んだラップの名曲を書いてくれませんか」ということです。
そして基本的に、それは実現できました。
また、このモデルが、グループ内で首尾一貫した、文脈に応じた適切な応答を生成する能力を実証していることもわかります。
これは、このデモの他のショーケースでも確認できることです。
この画像のどこが面白いのかがわかります。この画像の素晴らしいところは、エンコーダーをうまく使って理解できていることです。
さて、これを入れて、これを生成できるかどうか見てみましょう。
このデモを通して、私たちは複数人による会話の難しさと可能性を体験することができます。
そして、グループ設定のための大規模なモデリングで使用されるこれらの技術や戦略について、より深く理解することができるようになります。
このデモは、ダイアログ研究の刺激的な世界を垣間見る機会を提供してくれるでしょう。なぜなら、この分野での革新と解決策に多大な可能性があるからです。
さて、どうでしょう、ここにありますね。
この画像の面白さは、パネルごとに説明することです。
そして、この画像には、おばあちゃんがサングラスをかけて音楽に合わせてロックしている姿と、USBケーブルにつないだまま、携帯電話につないでいる姿があることがわかります。
おばあちゃんの熱意と、変わった音楽のチョイスが、実際に笑いを誘っているのです。
そして、実際に肌や指のしわを検出し、より良い反応を得るために、説明しようとしているものについてのストーリーを作成することがわかりました。
では、もう1つ見てみましょう。
この画像のどこがおかしいかについて話した、こちらの図にある実例から、何か見えてくるものがあるかもしれません。
それでは、これを生成してみましょう。説明欄の下にリンクを貼っておきますので、トップKやトークンに使える分量をいじって遊んでみることもできます。
では、この実際の生成で何をするかというと、なぜこんなに面白いのかを説明します、月曜日、ちょうど月曜日です。
さて、これでいろいろなことができますよ、みなさん。間違いなく、これはいろいろなケースでたくさん使われそうな気がします。
さて、どんなものができるのか見てみましょう。
スクロールアップせず、押し続けました。
ジェンダーの回答が増えましたが、さらにいろいろな種類の回答が得られることがわかり、とてもクールです。
次に、短いものですが、このようなものがあります。
このミームは、人が疲れているときや意気込んでいるときによく使う2つのフレーズを組み合わせたもので、面白かったです。
さて、最初の行「it's not even Monday yet」は、まだ週の初めであり、話し手がこれからの週末や平日を楽しみにしていないことを暗に示しています。
このように、エンコーダーやビジュアルコンストラクションが、大規模な言語モデルに基づいていることは、非常に驚きです。
そして、このモデルの素晴らしい点は、マルチパーティチャットプロジェクトが言語モデルが複数人の会話に参加する能力を示すことです。
個人的には、将来的にこれが非常に大きな可能性を持つと感じています。なぜなら、ビジネスの現場でこれを活用するさまざまな方法やユースケースが多く存在するからです。
というわけで、このプロジェクトのショーケースは、かなり役に立ったのではないでしょうか。
実際にこのプロジェクトについて調べている人はたくさんいるので、ぜひチェックしてみてください。
インストールはもちろん、コアライブラリを使用して使用することもできます。
デスクトップにローカルでインストールすることもできますので、興味がある方はぜひ私が送るリンクをチェックしてみてください。また、下の説明欄にもリンクを貼っておきます。
それでは、このビデオをご覧いただき、ありがとうございました。
このビデオを楽しんでいただけたなら幸いです。
次回は何に焦点を当てるべきか、ぜひ教えてください。
次の週末にはもう少し投稿するつもりなので、このビデオの購読と「いいね」をお願いします。
この数日間はチャンスがないかもしれませんが、皆さんが恩恵を受けられるような価値を提供し続けられるよう、最善を尽くします。
それでは、次回もお楽しみに。
それではまた次回お会いしましょう。