ツールフォーマー:メタの言語モデルはAPIで検索エンジン、電卓、カレンダーを使う
言語モデル(LM)は、ある入力に基づいて自然言語のテキストを生成できる強力なシステムです。質問に答えたり、物語を書いたり、記事を要約したりといったさまざまなタスクをこなすことができます。しかし、それらにもいくつかの限界があります。
例えば、算数や事実検索といった基本的な機能に苦戦することがよくあります。これらの機能は、より単純で小さなモデルが得意とするものです。また、事実と異なる情報を含むテキストを生成する傾向があります。
これらの限界を克服するために、Meta AI Researchは最近「ツールフォーマー:言語モデルは自分自身にツールの使い方を教えることができる」というタイトルの論文を発表しました。
この記事ではツールフォーマーがさまざまなツールを利用できるようになる訓練の仕組みを解説します。
ツールフォーマーとは
ツールフォーマー(Toolformer)は、外部ツール(検索エンジンや電卓やカレンダーなど)をシンプルなAPI(アプリケーション・プログラミング・インターフェース)経由で使える言語モデルです。
つまり、ツールフォーマーはAPI経由で外部プログラムにアクセスし、自身の中には存在しない情報や機能にアクセスすることで能力を向上させることができます。
例えば、ツールフォーマーはWikipedia検索エンジンAPIを使って質問に答えたり要約を書くための関連する事実を見つけることができます。計算機APIを使って算数や変換などの操作を行うことができます。カレンダーAPIを使って日付やイベントなどを確認することができます。これらのツールを使うことで、ツールフォーマーは高度な推論と基本的なAPI機能の両方の長所を得ることができます。
このためゼロショット(ファインチューニングを使わない)でも下流タスクで優れた性能を達成しました。 その上、コアの言語モデリング能力も犠牲にしません(理由は、後述します)。
ツールフォーマーのベースモデルは
ツールフォーマーのベースとなるのは言語モデルGPT-Jです。GPT-JはJAXを使って作られたオープンソースの言語モデルでOpenAIのGPT-3の代替として使えるように開発されました。GPT−3が1750億個のパラメータがある一方、GPT-Jは60億個のパラメータという比較的に小さいモデルです。
そのままではGPT-3には敵わないのですが、Metaの研究者たちはGPT-Jを外部APIを使えるように訓練し、結果として多くのテストでGPT-3よりもより良い性能を発揮できるようになりました。
ここで利用されたのが文脈内学習です。 文脈内学習では与えられて例文か意図を読み取って文章生成を行うことができます。この文脈内学習をうまく利用してGPT-Jが外部APIを必要なときに呼び出せるように訓練したのがツールフォーマーになります。
文脈内学習をどのように外部APIを使えるようにする訓練に利用するのかがもっとも重要なポイントになります。詳細は訓練の説明とともに後述します。
この記事が気に入ったらチップで応援してみませんか?