GPT-4Vの新たな可能性:リモートセンシングとの融合
天地人は、衛星データを使った土地評価コンサルを行っているJAXA認定ベンチャーです。地球観測衛星の広域かつ高分解能なリモートセンシングデータ(気象情報・地形情報等)や農業分野の様々なデータを活用した、WebGISサービス「天地人コンパス」を提供しています。
Tenchijin Tech Blogでは、宇宙に関連するさまざまな最新情報を、天地人のエンジニア、研究者、ビジネスリーダーが一歩踏み込んで解説します。
宇宙ビッグデータを活用したWebGISサービス「天地人コンパス」に、2024年3月31日までの期間限定で、AIが質問に答えてくれる 「Compass AI on Azure」機能を搭載しております。「Compass AI on Azure」は、Microsoft Azureを活用した機能で、ビジネスでの活用を想定しています。無料で利用ができ、参考例も公開しておりますのでぜひこちらもご覧ください。
話題のGPT-4Vとは
OpenAIから誕生したAIが質問に答えてくれるでおなじみのChat-GPT。ついに画像入力機能と音声入力機能が搭載されました。
いきなり結論から言うと、GPT-4Vの登場により大きく変わった点はこの3つです。
GPT-4Vのすごいところ
マルチモーダル処理能力:GPT-4Vは、画像、テキスト、音声など、複数の情報を組み合わせて処理することができます。これにより、より高度なタスクを実行することができます。
科学的知識の理解:GPT-4Vは、科学的な知識を理解し、科学的なタスクを実行することができます。これにより、科学的な分野での応用が期待されます。
テキスト指示の理解:GPT-4Vは、テキスト指示を理解し、指示に従ってタスクを実行することができます。これにより、人間とコンピュータのインタラクションが可能になります。
従来のモデルと比べて、GPT-4Vは、より高度なマルチモーダル処理能力を持ち、科学的な知識を理解し、テキスト指示を理解することができます。これにより、より高度なタスクを実行することができるようになります。
より詳しく見ていくために、今回はMicrosoftから発行された「The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)」という論文を取り上げ深堀していきます。
Microsoftの論文を深堀
この論文では、最新のGPT-4Vモデルに焦点を当て、その驚異的な入力処理能力と汎用的な知能について解説しています。論文の目的は、大規模なマルチモーダルモデル(LMM:Large multimodal model)とGPT-4V(Vision)についての包括的な分析を行うことです。
つまりGPT-4Vとは、マルチモーダル入力の処理能力や汎用的な知能の達成に焦点を当てたモデルであると言えます。
GPT-4Vでできること
この論文では、GPT-4Vは視覚的なマーカーを理解し、人間とコンピュータのやりとり方法を円滑にするものと定義しています。
まずは、画像から文字を読み取る能力について紹介します。
ドリンクショップのメニューボードの画像です。おしゃれにレタリングされたこのメニュー表ですが見方によっては「図形」と読み取れるかもしれません。
GPT-4Vでは下記のように文字起こしをしてくれます。
一つ一つの文字を単語として出力できていることがわかります。
また、科学的な知識も理解し、数学や統計に関連するタスクもこなせます。
下記の画像の直角三角形のxの長さを求めるようGPT-4Vに命令します。
こちらに対するGPT-4Vの回答を翻訳したものがこちらです。
GPT-4Vでは画像を読み込む、図形を認識する、xを求める手法を選択する、計算手法を言語化する、といった人間の脳に極めて近いプロセスを踏むことができます。
ちなみに上記画像のように「x」指定せずに、手書き入力の質問にも対応することができます。
さらに、画像、テキスト、音声など、複数の情報を組み合わせた力も持っており、様々なAIタスクに適用可能です。
こちらは動画・音声・文字情報を含む短めのジョーク動画を入力して、動画の解説を求める命令を与えました。
異なるデータが結合され、その情報を基にして人間の感情まで論理的に文章化することが可能です。まさにここが、人間とコンピュータのやりとり方法を円滑にするポイントと言えるでしょう。
GPT-4Vの課題
しかしながら、GPT-4Vの処理に使われるデータは学習されたものであることに留意しなければなりません。例えば、2023年2月6日トルコ地震の際に撮影されたこの画像に対し「いつ・どこ」で撮影されたか問いを投げかけるとします。LMMに使われている学習データは2021年9月以前のデータのため、このような問いへの回答は漠然としたものになります。
GPT-4Vの処理能力には不完全な部分があり、一回の処理では上手く出力できないことがあります。これを改善するために次のような解決策が提示されています。
マルチモーダルプラグイン
マルチモーダルプラグインは、最新の情報にアクセスし、計算を行い、サードパーティのサービスを利用するなど、様々なタスクを支援します。特に、マルチモーダルプラグインの例として、Bing Image Searchなどが挙げられます。これらのプラグインは、モデルが画像などの複数の情報源を組み合わせて処理し、最新の知識を取得できるようにします。
マルチモーダルチェーン
マルチモーダルチェーンは、大規模言語モデル(LLM)と視覚/マルチモーダルのプラグインを組み合わせ、高度な推論と相互作用を可能にする概念で、視覚的な情報を含む複数の入力源を統合して処理します。
例えば、下記の画像でヘルメットをかぶっている人の人数を数える処理を行うとします。
コンピュータの処理はこのような形です。
「GPT-4V:(写真の中の人数を数えなくてはいけないな。)」
「言語モデル:プラグインさん、この画像<ImagePath>に表示されている人々を検出してください。」
「視覚/マルチモーダル:
4.「GPT-4V:(この8人中からヘルメットをかぶっている人数を数えなくてはいけないな。)」
5.「言語モデル:<ImagePath> で指定された領域を切り抜いてください。」
6.「視覚/マルチモーダル:
6.「GPT-4V:
要約:8人のうち、5人がヘルメットを着用し、3人がヘルメットを着用していない。」
このように大規模言語モデル(LLM)と視覚/マルチモーダルのプラグインを組み合わせることで複雑な処理を行えるようになります。
セルフリフレクション
ダブルチェックをするよう命令することで出力の改善を促すことです。
例として、GPT-4Vに下記のグラフに類似したグラフを書くためのPythonコードを出力させる命令文を与えたとします。
一度目の回答では、下記のようなグラフを描くコードを出力します。
ここでさらに、ダブルチェックを要求すると元画像のようなパーセンテージを表示するグラフを描く改善されたコードを出力してくれるようになります。
セルフコンシステンシー(自己無頓着)
複数回の試行の中で最も回数の多い結果を出力値とすることです。
例えば、下記の画像に対してボートの数を数えさせる命令文を与えたとします。
GPT-4Vの通常のの回答では「ボートは6隻ある」と回答します。
しかし、セルフコンシステンシーで3回試行させると、4隻という結果が2回、6隻という結果が1回となり、この中から多数決を取って「ボートは4隻ある」という最終的な結果を導き出します。
(この論文はChatPDF等を使用しChat GPTを有効活用しました。)
以降の内容は有料となります。
(この記事のみ購入する場合は、200円です。月に3~4記事が月額500円になるサブスクリプションプランもご用意しております。)
天地人へのご質問・記事に関するご感想・記事の内容のリクエスト等ございましたら、info@tenchijin.co.jp までお気軽にお問い合わせください。
ここから先は
¥ 200