見出し画像

ググるGPT-3の作り方

Generative AIは、OpenAIのDALL-E 2のような生成アートツールやGPT-3.5世代モデルのような大規模言語モデルが先導して、テクノロジーの世界で波及している。生成的AIで最もエキサイティングな開発のひとつが、情報検索において機械と人間のような対話を可能にするGenerative Question-Answering(GQA)である。

情報検索(IR)システムは、Google検索からNetflixのレコメンドまで、私たちの身の回りにあふれています。しかし、IRとGQAの組み合わせは、情報検索を全く新しいレベルに引き上げる可能性を秘めている。GQAシステムを使えば、上位20ページをベースに、重要なポイントや情報源を強調した洞察に満ちた要約でクエリに答えてくれるGoogleを実現することができるのだ。

最も簡単なGQAシステムは、ユーザーのテキストクエリーと大規模言語モデル(LLM)を必要とし、これはOpenAIを介してアクセスすることができる。しかし、よりニッチで具体的な質問に対しては、LLMだけでは苦戦し、ユーザーによる検出が困難な幻覚につながる可能性がある。そこで、知識ベースという形で、GQAシステムに「長期記憶」の要素を追加することができる。

知識ベースとは、情報の蓄積とその情報を取り出すシステムの役割を果たす。AIシステムにとっての「長期記憶」ともいえる。知識ベースは、言語を理解する機械学習モデルを用いて符号化された情報のベクトル表現を格納するベクトルデータベースとすることができる。

OpenAI Pinecone(OP)スタックは、検索拡張型GQAを含む高性能なAIアプリの構築によく使われている。検索機能付きGQAのパイプラインは、OpenAI Embeddingエンドポイント、Pineconeベクトルデータベース、OpenAI Completionエンドポイントから構成されている。

GQAシステムに知識ベースを追加することで、回答の精度が向上し、回答生成に使用した情報源を下流のツールやアプリに追加することができ、ユーザーの信頼性を向上させることができる。この技術は、すでにYouChatやポッドキャスト検索アプリなどで利用されており、今後はGoogleへのチャレンジャーとして利用されるという噂もある。

結論として、検索機能付きGQAは、現在使われている時代遅れの情報検索システムを破壊する大きなチャンスとなる。その大きな可能性から、ジェネレーティブAIの分野ではエキサイティングな時代になっている。

次のページへ

前のページへ

「超勇敢なウサギ」へ


いいなと思ったら応援しよう!