言語理解研究所の日本語DX データ構造化ソリューションによるRAG精度向上 vol.2

2025年1月17日 19:00

言語理解研究所（以降ILU）で、CMO 事業開発責任者芳賀です。
この記事は、前回記事の「社内文書・書類をAIの知識に変える。データ構造化ソリューションによるRAG精度向上 vol.1」の後半にあたるvol.2となります。

前回は生成AIを企業内の業務に活用するための取り組み（RAG）や、その課題・背景について述べました。
続編となる今回は、具体的にどのような解決方法がとれるのか、ILUのソリューションも交えて説明していきます。

RAGにおける「情報検索」の役割と課題

生成AIで企業の内部情報（クローズドデータ）を扱うには、RAG（Retrieval-Augmented Generation）の仕組みが広く採用されています。
RAGは"LLMにカンニングペーパーを見せて回答を生成させる"と例えられるように、いかに適切なカンニングペーパーを見つけてプロンプトに組み込み、LLMに投げることができるかが重要です。
つまり、プロンプトを拡張するための情報を引っ張ってくる「情報検索」の部分が精度を左右することになります。

私たちは日頃、GoogleなどのWeb情報検索を利用しており、検索はすでに社会インフラレベルで一般化されています。
そのため、検索部分の難しさはエンジニアではない一般の方からするとあまり意識されないかもしれませんが、実際には、情報検索は自然言語処理技術を含む高度な技術の集積により構築されています。

企業内RAG導入の課題

前回の記事で、RAGの検索部分で注目を集めているのはベクトル検索だと説明しました。最近は、従来のキーワード検索とベクトル検索を組み合わせたハイブリッド検索が主流となっています。
しかし、このハイブリット検索は一定の効果を発揮するものの、社内書類や文書といった非構造的なデータを扱う場合、期待するような十分な精度を達成することは未だ難しいのが実情です。
そこで、特に以下の3点が企業での導入時の課題として挙げられます。

・図表や記号といったテキストデータの扱い方
・頻繁に出てくる社内用語・略語への対応
・対象ドキュメントの必要な部分の切り出し方（分割・チャンク化）

ILUが実現するRAG精度向上の「laei」

これらの課題を解決するのが、ILUのデータ構造化ソリューション「laei」（レイと読みます）です。
「laei」は、ILUの独自のトークナイザーや大規模言語データベースを基盤とした新しいソリューションです。

RAGの精度向上においては、主に以下の3つの機能を提供します。

1. 図表やグラフ、画像のテキスト化

社内文書には、文章だけでなく図表やグラフ、フローチャートなど、視覚的な表現が多用されています。これらをAIが扱えるよう、Markdown記法やMermaid形式などの構造化されたテキストに自動変換します。特に複雑なフローチャートは、Mermaid形式への変換により、構造的な情報を保持したままテキストデータに変換し、AIが扱える情報にすることができます。また、画像内のテキストについてもOCR技術と組み合わせることで、高精度な抽出が可能です。これにより、スキャンされた文書や手書きのメモなども、検索対象として活用できます。

2. 高度なテキストアノテーション

ILUは40年に渡り蓄積した日本語辞書、1300万語を超える大規模言語データベースを保有しています。この言語資産を用いて、テキストにアノテーション（注釈）を付加します。これにより、言葉の意味の補完や同義語の拡張、社内用語や専門用語の識別が可能になります。

例えば、「Iサ本」という略語が出現した場合、これが「ITサポート本部」を指すことを示すアノテーションを自動的に付与します。また、業界特有の専門用語や、その企業固有の用語についても、カスタマイズした辞書を用いることで適切なアノテーションが可能です。

3. ドキュメントと質問文（クエリ）のマッチング精度向上

ユーザーからの質問文を、より適切な検索結果が得られるように変換します。人間が作成する質問文は思っている以上に曖昧なものが多いです。表現の明確化や、社内用語・略語の適切な展開を行います。さらに、質問の意図を解析し、関連する同義語や類義語を追加することで、より広範な検索を可能にします。

例えば、「新入社員の教育資料が見たい」という質問に対して、「新入社員」を「新人」「新卒」などの同義語を含めた検索を行い、「研修資料」を「研修マニュアル」や「教育プログラム」、「オンボーディング資料」なども検索対象として考慮します。このような同義語・類義語により拡張をILUでは「シノニム拡張」と呼称します。

特に重要なのは、ベクトル検索とキーワード検索を組み合わせたハイブリッド検索の実現です。社内特有の用語が質問文に含まれている場合、ベクトル検索ではなくキーワード検索に切り替え、該当箇所を優先的に表示することで、より正確な検索結果を提供できます。ILUではこれを特定ワードの「ブースト処理」と呼びます。

「データの質」で競争力を高める

この一連の構造化処理の良いところとして、確実かつ比較的低コストで成果が出る点です。既存の社内文書を構造化処理するだけで効果が得られ、業務フローの大きな変更を必要としません。さらに重要なのは、構造化されたデータが陳腐化しないことです。生成AI自体は日々進化し、新しいモデルが次々と登場していますが、適切に構造化されたデータは、モデルが変わっても継続して活用できます。

日々新しいモデルが生まれ広く普及するこのAI時代において、企業の競争力の源泉は、利用するAIモデルではなく、保有する「データ」の質になっていくでしょう。ILUの「laei」は、お客様ごとの社内用語や業務特性に合わせてカスタマイズ可能なソリューションです。

RAG構築やデータ構造化に関するソリューションを提供する企業は複数ありますが、ILUが持つ最大の強みは、生成AIの普及以前からさまざまなAI技術を開発してきた豊富な経験と、40年間にわたり蓄積された膨大な日本語の言語資産です。
この技術的基盤を活かし、ILUならではの深い専門性をもってお客様の課題解決に取り組んでいます。

生成AIを業務利用しようと思っているのだけど、精度が出ないな、と課題を持っている企業様は是非、お問い合わせください。

お問い合わせはこちら
https://www.ilu.co.jp/contact/

生成AIサミットvol.4に登壇します

https://peatix.com/event/4169579?lang=ja-jp

生成AIサミットvol.4にてデータ構造化ソリューションについてお話させて頂きます。
また、RAGの課題/ベストプラクティスについてディスカッションに参加させて頂きます。
生成AIサミットvol.4は参加費無料のオンラインイベントです。
当日コメントで直接ご質問頂く事も可能ですので、是非ご視聴ください。

【累計申し込み1万名突破】生成AIサミットVol.4 ~進化を続ける生成AIの最前線~【参加無料】
■視聴登録はこちら
https://peatix.com/event/4169579?lang=ja-jp
■開催概要
【累計申し込み1万名突破】生成AIサミットVol.4 ~進化を続ける生成AIの最前線~【参加無料】
・主催：株式会社Workstyle Evolution
・日時：2025年1月22日（水）11:00～18:00
ILU　芳賀の登壇予定時間は以下のスケジュールです。
15:30～16:00　セッション9
16:05～16:35　パネルディスカッション
※当日の進行に伴い、時間が多少前後する場合がございます。
・場所：Youtube Liveにて配信（※申込者限定でアーカイブ配信予定）
・費用：無料
・申込締切：12月3日（火）11:00まで

◇こんな人におすすめ
・生成AIというキーワードは知っているが、まだ一歩踏み出せていないビジネスマンの方
・最新の生成AIトレンドをキャッチし、企業戦略に活かしたい企業担当者の方
・自社ビジネスにおいて、生成AIの開発・導入、活用支援の方法を模索している企業担当者の方
・自社で生成AIを取り入れ、業務効率化や成果向上を図りたい経営者の方