見出し画像

RAG技術が生成AIにもたらすものとは~「SeekAI」導入事例を考える

LINEヤフー株式会社は、7月11日に「SeekAI」を全従業員に本格導入したことを発表。SeekAIとは生成AIを活用した社内向け独自業務効率化ツールで、社内ワークスペースツールや社内データを参照元とし、従業員が入力した質問に対する回答を端的に表示するツールのこと。

テスト導入段階では、技術関連の社内ナレッジ共有・共同作業ワークスペースツールや社内Q&Aを参照することで、エンジニアがコーディング業務を行う際、技術スタックの検索・選定にかかる工数・時間を削減。また、広告事業のカスタマーサポート業務においては、テスト導入段階で約98%の正答率を達成。

この度、SeekAIの利用対象を全従業員に拡大するにあたり、参照元となる社内ワークスペースツールのページや社内データを部門やプロジェクトごとに登録できるように設定がアップデートされた。

生成AIと聞くと、LLM(大規模言語モデル)を思い浮かべる人は多いだろう。LLMは膨大なテキストデータを学習し、ある単語の後に続く単語が、どのくらいの確率で出現するのかを予測する。そのため、一般的なLLMでは、モデル内の情報から問い合わせに対する回答が検索され、一般的な回答が表示される。

ところが、SeekAIでは、あらかじめ任意の社内データをデータベースに登録しておくことによって、そのデータベースから問い合わせに対する回答を検索して表示するため、従業員は要件に最適化された回答を得ることができる。例えるならば、一般的なLLMは「頭の中にある知識だけを利用する」のに対して、SeekAIは「頭の中にある知識だけでなく、辞書などの知識も利用する」という風に考えらる。一般的なLLMの場合、知らないことは「知ったかぶり」をする可能性がある。これがハルシネーションだ。ハルシネーションは回避しなければならないから、SeekAIは先ずデータベースを検索し、その結果と事前に学習した情報を合わせて回答することで回答精度が飛躍的に向上する。このため、ハルシネーションの発生を抑えることができる。

LLMの内部情報は時間とともに古くなり、知識不足になることが予想される。そのため、LLMに新しい情報を注入することが必要になる。その手法は、主に「ファインチューニング」と「RAG」の2つ。「ファインチューニング」は新しいデータを使って再訓練する手法、「RAG」は回答を生成する際に外部のデータベースや情報源を参照する手法。

先述のSeekAIではRAGを利用している。RAG(Retrieval-Augmented Generation:検索拡張生成)とは、「検索機能」と「生成AI」を組み合わせた技術のこと。検索機能は、AIが与えられた情報の中から「検索した用語に合致する内容」を並べることしかできない。検索結果に多くの情報が並ぶと、その中から自分が探している情報を選ぶ作業に時間がかかってしまう。生成AIは、学習済みの情報についての内容にしか回答できない仕組み。

ChatGPTの場合、インターネット上に公開されている情報を学習しているため、社内規定や業務マニュアルなどクローズドな情報についてのやり取りはできない。学習していない情報に関する質問に対しては、虚偽の回答を提示する場合もある。

一方、RAGは外部のデータベースから情報を探して回答を生成する仕組みのため、指示や質問に対してAIがピンポイントの回答を提示するため「検索する→検索結果の中から自分が求める情報を探す」という手間がかからない。また、管理者はAIが検索する情報をコントロールでき、意図しない回答を提示することも防げられる。データベースに社内規定や業務マニュアルを登録しておけば、社内情報を取得するツールとしても活用可能だ。

SeekAIはまさに、RAGの特徴を最大限に利用したツールといえる。生成AIの弱みを補完することができる素晴らしい技術のRAGだが、そんなRAGにも注意が必要な点がある。1つは「回答の提示に時間がかかる」ということ。RAGは情報検索をおこなう分、生成AIに比べて回答の提示に時間がかかる傾向にある。データベースの情報量が多いと、検索にかかる時間がより長くなってしまう。回答が出てくるまでの時間が長いと、利用するユーザーの満足度を下げてしまう可能性がある。対策としては、データベースに登録する情報を絞ることが挙げられる。情報の取捨選択が必要になるが、管理者からすると、どの情報も必要だから登録しているはずなので、ここの調整は難しいかもしれない。

もう1つは「回答の精度が登録された情報の質に左右される」ということ。RAGはデータベースを参照して回答するため、データベースに登録された情報が誤っていれば、そのまま誤った情報を提示する。そのため、データベースに登録する情報は、正確なものでなければならない。正確な情報を維持できるように、登録した情報を定期的に更新し、常に新しい情報を参照できるようにすることが求められる。いずれの場合も、登録するデータに依存するという点では、情報を登録する管理者の責任は重大だと思う。RAGを導入するには、しっかりとした情報管理をしなければ、効果を発揮しないといえる。

2024年の生成AI活用において注目を集めているRAGだが、生成AIにRAGを導入するだけでは期待された効果を発揮できるとは言い切れない。データベースの情報そのものも問題になるが、システム側にも難しい問題を孕んでいる。それは、「検索システムの精度」と「LLMの精度」の両方を高めなければならないということだ。

検索システムの精度を改善することは非常に難しく、Googleのような最高の検索システムでも、ベストマッチの記事が出るのは60~70%程度と言われている。社内情報の検索システムであれば、ベストマッチが50%程度あればいい方だと思う。そう仮定すると、LLMが検索した情報は、50%の確率で誤っていることになる。

さらに、LLMが検索した情報を写し間違えたり解釈を誤ったりする可能性も考慮に入れると、回答の正答率を50%に到達させることは難しいということになる。RAGにおいて実用的な精度を高めるには、検索システムの改善や検索内容を最適化など、柔軟なアプローチを取るべきではないだろうか。

SeekAIのテスト導入段階とはいえ、広告事業のカスタマーサポート業務において、約98%の正答率を達成した実績は驚異的。RAGを導入するにあたり、かなりチューニングをしたのだろう。SeekAIの本格導入により年間70~80万時間の業務削減を目指すという数値目標からもLINEヤフー株式会社の本気度が窺える。本格導入され、どんな実績を出すかは分からないが、SeekAIの活用は、RAG導入の有用なサンプルになることは間違いない。RAGの導入により生成AIは次の段階へ進んだ。

この記事が気に入ったらサポートをしてみませんか?