![見出し画像](https://assets.st-note.com/production/uploads/images/121932375/rectangle_large_type_2_1d697c837a6ae2cbca3f72ef0ff774b9.jpeg?width=1200)
GPT-4Vの新たな可能性:リモートセンシングとの融合
天地人は、衛星データを使った土地評価コンサルを行っているJAXA認定ベンチャーです。地球観測衛星の広域かつ高分解能なリモートセンシングデータ(気象情報・地形情報等)や農業分野の様々なデータを活用した、WebGISサービス「天地人コンパス」を提供しています。
Tenchijin Tech Blogでは、宇宙に関連するさまざまな最新情報を、天地人のエンジニア、研究者、ビジネスリーダーが一歩踏み込んで解説します。
宇宙ビッグデータを活用したWebGISサービス「天地人コンパス」に、2024年3月31日までの期間限定で、AIが質問に答えてくれる 「Compass AI on Azure」機能を搭載しております。「Compass AI on Azure」は、Microsoft Azureを活用した機能で、ビジネスでの活用を想定しています。無料で利用ができ、参考例も公開しておりますのでぜひこちらもご覧ください。
話題のGPT-4Vとは
OpenAIから誕生したAIが質問に答えてくれるでおなじみのChat-GPT。ついに画像入力機能と音声入力機能が搭載されました。
いきなり結論から言うと、GPT-4Vの登場により大きく変わった点はこの3つです。
GPT-4Vのすごいところ
マルチモーダル処理能力:GPT-4Vは、画像、テキスト、音声など、複数の情報を組み合わせて処理することができます。これにより、より高度なタスクを実行することができます。
科学的知識の理解:GPT-4Vは、科学的な知識を理解し、科学的なタスクを実行することができます。これにより、科学的な分野での応用が期待されます。
テキスト指示の理解:GPT-4Vは、テキスト指示を理解し、指示に従ってタスクを実行することができます。これにより、人間とコンピュータのインタラクションが可能になります。
従来のモデルと比べて、GPT-4Vは、より高度なマルチモーダル処理能力を持ち、科学的な知識を理解し、テキスト指示を理解することができます。これにより、より高度なタスクを実行することができるようになります。
より詳しく見ていくために、今回はMicrosoftから発行された「The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)」という論文を取り上げ深堀していきます。
Microsoftの論文を深堀
この論文では、最新のGPT-4Vモデルに焦点を当て、その驚異的な入力処理能力と汎用的な知能について解説しています。論文の目的は、大規模なマルチモーダルモデル(LMM:Large multimodal model)とGPT-4V(Vision)についての包括的な分析を行うことです。
マルチモーダルモデル(LMM)とは
数値/画像/テキスト/音声など複数種類のデータを「マルチモーダル」と呼びます。LMMは、大規模な言語モデル(LLMs: Large language models)にマルチモーダルな能力を統合することで、より強力な汎用的知能を実現する新しい種類のモデルです。LMMは、自然言語処理、画像認識、文書理解、多言語処理など、さまざまなタスクに適用できます。LMMは、視覚的な情報を含む複数の入力モダリティを処理することができ、これにより、より豊かな表現とより高度なタスクを実現できます。
つまりGPT-4Vとは、マルチモーダル入力の処理能力や汎用的な知能の達成に焦点を当てたモデルであると言えます。
GPT-4Vでできること
この論文では、GPT-4Vは視覚的なマーカーを理解し、人間とコンピュータのやりとり方法を円滑にするものと定義しています。
まずは、画像から文字を読み取る能力について紹介します。
ドリンクショップのメニューボードの画像です。おしゃれにレタリングされたこのメニュー表ですが見方によっては「図形」と読み取れるかもしれません。
![](https://assets.st-note.com/img/1700193532133-fzHdpSGYPg.png?width=1200)
GPT-4Vでは下記のように文字起こしをしてくれます。
![](https://assets.st-note.com/img/1700193558675-CeKrGlHACn.png)
一つ一つの文字を単語として出力できていることがわかります。
また、科学的な知識も理解し、数学や統計に関連するタスクもこなせます。
下記の画像の直角三角形のxの長さを求めるようGPT-4Vに命令します。
![](https://assets.st-note.com/img/1700193591191-SY5TtOHtkr.png?width=1200)
こちらに対するGPT-4Vの回答を翻訳したものがこちらです。
GPT-4Vの出力:
画像のxの値は、ピタゴラスの定理を使って求めることができる。
直角三角形において、斜辺(直角と反対側の最も長い辺)の2乗は
の2乗は、他の2辺の2乗の和に等しい。
この場合、斜辺は辺ACであり、他の2辺はABとBCである。我々はABが4でBCが3であることを知っているので、これらの値を式に差し込むことができる:
a² + b² = c²
3² + 4² = c²
9 + 16 = c²
25 = c²
したがって、c(斜辺の長さ)は5である。
GPT-4Vでは画像を読み込む、図形を認識する、xを求める手法を選択する、計算手法を言語化する、といった人間の脳に極めて近いプロセスを踏むことができます。
ちなみに上記画像のように「x」指定せずに、手書き入力の質問にも対応することができます。
![](https://assets.st-note.com/img/1700193796008-N3HLqijhQ5.png)
さらに、画像、テキスト、音声など、複数の情報を組み合わせた力も持っており、様々なAIタスクに適用可能です。
こちらは動画・音声・文字情報を含む短めのジョーク動画を入力して、動画の解説を求める命令を与えました。
![](https://assets.st-note.com/img/1700193841836-PNIYHzr5rw.png?width=1200)
GPT-4Vの出力:
この画像はインスタグラムのリールである。
最初の画像は、「愛犬にいくら使ったか聞かれたら」というキャプションとともに、愛犬を抱いている男性を映している。次の3つの画像は、ジョー・バイデンが「7000億」と言うクリップに続いて、「7000億と1兆3000万」、「7000億と1兆3000万ドル」と続く。このユーザーは、ジョー・バイデンが大金を言っているクリップを使うことで、愛犬に費やした金額を冗談めかして誇張しているのだ。
異なるデータが結合され、その情報を基にして人間の感情まで論理的に文章化することが可能です。まさにここが、人間とコンピュータのやりとり方法を円滑にするポイントと言えるでしょう。
GPT-4Vの課題
しかしながら、GPT-4Vの処理に使われるデータは学習されたものであることに留意しなければなりません。例えば、2023年2月6日トルコ地震の際に撮影されたこの画像に対し「いつ・どこ」で撮影されたか問いを投げかけるとします。LMMに使われている学習データは2021年9月以前のデータのため、このような問いへの回答は漠然としたものになります。
![](https://assets.st-note.com/img/1700193895294-O7hoIjOOBX.png?width=1200)
GPT-4Vの出力:
申し訳ありませんが、この写真には背景や情報が記載されていないため、この質問には正確にお答えできません。
しかし、破壊の様子や緊急対応要員の存在から、戦争や災害の被災地で撮影されたものと思われます。戦争や災害に見舞われた地域で撮影されたものと思われます。
GPT-4Vの処理能力には不完全な部分があり、一回の処理では上手く出力できないことがあります。これを改善するために次のような解決策が提示されています。
マルチモーダルプラグイン
マルチモーダルプラグインは、最新の情報にアクセスし、計算を行い、サードパーティのサービスを利用するなど、様々なタスクを支援します。特に、マルチモーダルプラグインの例として、Bing Image Searchなどが挙げられます。これらのプラグインは、モデルが画像などの複数の情報源を組み合わせて処理し、最新の知識を取得できるようにします。
マルチモーダルチェーン
マルチモーダルチェーンは、大規模言語モデル(LLM)と視覚/マルチモーダルのプラグインを組み合わせ、高度な推論と相互作用を可能にする概念で、視覚的な情報を含む複数の入力源を統合して処理します。
例えば、下記の画像でヘルメットをかぶっている人の人数を数える処理を行うとします。
![](https://assets.st-note.com/img/1700194052653-2vrJv1Zpmh.png)
コンピュータの処理はこのような形です。
「GPT-4V:(写真の中の人数を数えなくてはいけないな。)」
「言語モデル:プラグインさん、この画像<ImagePath>に表示されている人々を検出してください。」
「視覚/マルチモーダル:
Person [4, 126, 72, 175]
Person [63, 121, 88, 181]
Person [30, 107, 56, 88]
Person [223, 123, 43, 78]
Person [178, 122, 52, 180]
Person [322, 118, 41, 68]
Person [268, 109, 55, 178]
Person [357, 127, 88, 173] 」
4.「GPT-4V:(この8人中からヘルメットをかぶっている人数を数えなくてはいけないな。)」
5.「言語モデル:<ImagePath> で指定された領域を切り抜いてください。」
6.「視覚/マルチモーダル:
![](https://assets.st-note.com/img/1700194230838-xPEI9DyC3g.png?width=1200)
6.「GPT-4V:
画像1:ヘルメット未着用
画像2:ヘルメット未着用
画像3:ヘルメット着用
画像4:ヘルメット着用
画像5:ヘルメット着用
画像6:ヘルメット着用 ヘルメット着用
画像7:ヘルメット着用 ヘルメット着用
画像8:ヘルメット着用 ヘルメット非着用
要約:8人のうち、5人がヘルメットを着用し、3人がヘルメットを着用していない。」
このように大規模言語モデル(LLM)と視覚/マルチモーダルのプラグインを組み合わせることで複雑な処理を行えるようになります。
セルフリフレクション
ダブルチェックをするよう命令することで出力の改善を促すことです。
例として、GPT-4Vに下記のグラフに類似したグラフを書くためのPythonコードを出力させる命令文を与えたとします。
![](https://assets.st-note.com/img/1700194360236-nGWKIwDCOB.png)
一度目の回答では、下記のようなグラフを描くコードを出力します。
![](https://assets.st-note.com/img/1700194386198-ykdxFqKiYd.png?width=1200)
ここでさらに、ダブルチェックを要求すると元画像のようなパーセンテージを表示するグラフを描く改善されたコードを出力してくれるようになります。
![](https://assets.st-note.com/img/1700194412430-FcRTASUM2k.png)
セルフコンシステンシー(自己無頓着)
複数回の試行の中で最も回数の多い結果を出力値とすることです。
例えば、下記の画像に対してボートの数を数えさせる命令文を与えたとします。
![](https://assets.st-note.com/img/1700194446554-ipWYW2trK0.png?width=1200)
GPT-4Vの通常のの回答では「ボートは6隻ある」と回答します。
しかし、セルフコンシステンシーで3回試行させると、4隻という結果が2回、6隻という結果が1回となり、この中から多数決を取って「ボートは4隻ある」という最終的な結果を導き出します。
(この論文はChatPDF等を使用しChat GPTを有効活用しました。)
以降の内容は有料となります。
(この記事のみ購入する場合は、200円です。月に3~4記事が月額500円になるサブスクリプションプランもご用意しております。)
天地人へのご質問・記事に関するご感想・記事の内容のリクエスト等ございましたら、info@tenchijin.co.jp までお気軽にお問い合わせください。
ここから先は
¥ 200
Amazonギフトカード5,000円分が当たる