見出し画像

ReALM: Reference Resolution As Language Modeling言語モデリングとしての参照解決(Apple論文)

この論文はAppleが独自の会話型LLMを構築する論拠です。これによりAppleはホームロボを開発すると思われます。

Abstract

参照解決は重要な問題であり、様々な種類のコンテキストを理解し、適切に処理する上で不可欠です。このコンテキストには、以前の対話や、ユーザーの画面上にあるエンティティ、バックグラウンドで動作しているエンティティなど、対話外のエンティティに関連するコンテキストも含まれます。大規模言語モデル(LLM)は、様々なタスクにおいて非常に有効であることが証明されていますが、参照解決、特に非対話的なエンティティに関するLLMの活用は、まだ十分ではありません。本論文では、LLMを使用して、様々なタイプの参照を解決するための非常に効果的なシステムを構築する方法を示します。これには、画面上のエンティティのような、従来テキストのみのモダリティにはなじみにくい形式を含む参照

解決を、言語モデル化の問題にどう変換できるかを示します。我々は、異なるタイプの参照で、既存のシステムに対して顕著な改善を示し、最小限のモデルで画面上の参照において5%以上の絶対的な改善を達成しました。また、GPT-3.5とGPT-4に対してもベンチマークを行い、我々の最も小さなモデルがGPT-4と同等の性能を、より大きなモデルがそれを大幅に上回る性能を達成したことを示します。

1 はじめに

人間の発話には通常、「they」や「that」のような曖昧な表現が含まれます。このような言及が含まれる文脈を理解する能力は、ユーザーが自然に要求をエージェントに伝え、エージェントと対話するための会話アシスタントにとって不可欠です。さらに、ユーザーが画面に表示されている内容について問い合わせを行えるようにすることは、音声アシスタントの真のハンズフリー体験を実現するための重要なステップです。

表1: ユーザーとエージェント間のインタラクション例

  • 発言者:

    • 近くの薬局を教えてください。

    • Rainbow Rdにある薬局に電話してください。

    • 一番下に電話してください。

    • この番号に電話してください。

ここで、コンテキストを利用し、それを理解する能力がなければ、エージェントがユーザーのクエリを理解し、対応することは不可能であることが明らかです。また、ユーザーのクエリを処理するために必要なコンテキストの種類は複数あり、会話のコンテキストと画面上のコンテキストがその主な例です。エンドツーエンドのアプローチが常に十分であるわけではありません。第一に、スマートフォンのような限られたコンピューティングパワーしか持たないシステムでは、プライバシーや効率性の理由から完全にオンデバイスで実行されるフレームワークの消費電力とレスポンス時間の制約により、大規模なエンドツーエンドモデルの使用は現実的ではありません。第二に、モデルがAPIと統合される必要がある場合、上流のコンポーネントからの情報の消費や、下流での情報提供が必要になります。

第三に、特化したモデルの使用により、既存の参照解決モジュールを透明な方法で改良したバージョンに置き換えることができ、システムのモジュール化によってヒルクライム能力が向上し、解釈可能性が改善されます。最後に、本論では、参照解決が会話参照のみならず、ユーザーがデバイスとのインタラクションで直接知覚しているが、問題のバーチャルエージェントとの直接的なインタララクションから生じる会話履歴の一部ではない、画面上や背景のエンティティを参照する能力も含むことを検討します。これにより、大規模な言語モデルが暗黙的に扱える場合でも、「伝統的な」NLPタスクである参照解決を探求することの有用性があります。そのため、本研究では、特に参照解決タスクのために特別かつ明示的に微調整された(比較的)小さな言語モデルの使用を提唱します。

同様に、言語モデルを使用することで、因果推論、言語的受容性、質問応答、テキスト含意、共参照解決など、様々なタスクを扱うことが可能になります。言語モデルの使用は、シーケンスツーシーケンスでモデル化できるタスクに非常に効果的です。しかし、音声アシスタントの文脈で一般的な参照解決タスクにこの技術を採用する際の最大の課題は、画面上のエンティティへの参照を解決し、そのプロパティを活用すること、言い換えれば、言語モデルに「見る」ことをさせることにあります。特に、画面上のエンティティをどのようにエンコードすれば言語モデルが参照解決を行えるようになるのか、また、どのように会話エンティティをエンコードすれば、言語モデルが両方のエンティティの参照解決を行えるようになるのかは、まだ明らかではありません。

本研究では、解析されたエンティティとその位置を用いて画面を再構築し、画面を視覚的に代表する純粋なテキスト表現を生成することを提案します。このテキスト表現では、画面のエンティティの部分にはタグが付けられ、言語モデルはエンティティの出現場所と、それを取り巻くテキスト(例えば、「ビジネスナンバーに電話する」)のコンテキストを知ることができます。我々の知る限り、これは画面からのコンテキストを符号化することを目的とした大規模言語モデルを使用した最初の研究です。

この記事が気に入ったらサポートをしてみませんか?