特許エージェントの精度検証の結果

Sumi（スミ）2020@SaaSプロダクト・PdM、新規事業・事業開発

2024年12月29日 21:34

近年、LLM（大規模言語モデル）を活用したAI検索エンジンが注目を集めており、その中でもFeloやPerplexityなどが有名です。しかし、現状のツールの多くは、Web上の情報検索に主眼が置かれており、より専門性の高い情報を求めるユーザーにとっては、十分な回答を得られないという課題が残ります。この記事では、オープンソースソフトウェア（OSS）を利用して、次世代AI検索エンジンを開発するプロジェクトの会議で検討している点についてご紹介します。

今回は、特許データを取得するエージェントの検証結果を記載します。サンプルで10個の特許をベクトル化して検証してみました。いわゆるRAGの仕組みを活用したエージェントになります。

こちらの記事の「赤枠」の特許エージェントの精度を検証しております。

特許エージェントのプロンプト内容

### あなたの役割
あなたは「特許技術回答システム」における、特許情報を元に、ユーザーの入力に応答するAIです。必ず以下の制約に従い、応答を生成します。

### 制約
・必ず特許情報を元に応答を生成し、根拠となる特許情報の出願番号を必ず明記する
・特許情報に必要な情報が不足している場合、素直に「情報が不足しています」と返答する
・取得した特許情報のうち、ユーザーの質問に直接関係しない情報は含めない
・過去の会話でユーザーにすでに提供した特許情報を再び提供しない
・特許情報で渡された情報をそのままの形式で回答に含めない
・ユーザーの質問に対して、明確かつ的確に回答する
・自然な文章構造になるように心掛ける

### ユーザーの質問
{query}

### 特許情報
{patent_data}

ユーザの入力

機械学習を使って悪意のあるコードを検出する方法について教えてください。

<特許エージェントの回答>
機械学習を用いて悪意のあるコードを検出する方法については、特願2024-81556に記載されています。
この特許は、文書ファイル内に難読化された悪意のあるコードを検出するためのシステム及び方法を提供するものです。
具体的には、訓練済みの機械学習モデルを使用し、悪意のあるコードを含む文書を特定することを目的としています。
また、既知の署名を持たない悪意のあるコードに対しても検出能力を持ち、さらに疑わしい文書に対しては隔離やサンドボックス化などの追加処理を行うことができます。
この技術を採用することで、ネットワーク内の安全な文書を保護し、悪意のあるコードを含む文書を適切に拒否することが可能です。

ユーザの入力2

この技術の具体的な実装方法を教えてください。

<特許エージェントの回答>
特願2024-81556の技術の具体的な実装方法は、文書内の難読化された悪意のあるコードを検出するために、訓練済みの機械学習モデルを使用することに基づいています。
以下はその実装の一般的な流れです。

1. **データ収集**: まず、悪意のあるコードと安全なコードの大量のデータセットを収集します。これには、サンプル文書や既知の悪意のある署名が含まれます。

2. **特徴抽出**: 次に、収集したデータから特徴量を抽出します。これは、コードのパターン、難読化手法、その他の関連するメタデータを含む可能性があります。

3. **モデルの訓練**: 抽出した特徴量を用いて、機械学習モデルを訓練します。このモデルは、与えられた文書が悪意のあるコードを含むかどうかを学習するように設計されています。

4. **検出プロセス**: 訓練済みモデルを用いて新しい文書を分析します。モデルは、文書中の各コードのセクションを評価し、悪意のある可能性を判断します。

5. **結果のフィードバック**: 分析結果に基づき、疑わしい文書を隔離またはサンドボックス化します。さらに、検出された悪意のあるマクロやOLEファイルも検査し、ネットワークの安全を確保します。
このようにして、文書内に潜む悪意のあるコードを効果的に検出し、ネットワークを保護するシステムが構築できます。
具体的な実装には、使用する機械学習アルゴリズムや技術的要件によって異なる可能性がありますが、基本的な流れはこのようになります。

ユーザの入力3

他に類似技術はありますか？

<特許エージェントの回答>
類似の技術として、特願2023-155537が挙げられます。
この特許は、機械学習モデルを用いて、ｅメールネットワークを保護するサイバー脅威防御システムを提供しています。
具体的には、正常なメール活動やユーザの行動を学習したモデルを参照し、非正常な挙動を検知することが目的です。
この技術は、悪意のあるコードを検出する方法と同様に、機械学習を活用してリスクのある行動を判断するアプローチを取っています。

検証結果サマリー

特許情報に基づいた精度の高い回答を生成できることが確認できました。

特に、プロンプトに設定した厳格な制約事項（根拠となる特許情報の明記、不足情報の報告、重複回答の回避、情報の言い換えなど）を遵守しつつ、ユーザーの質問に対して具体的かつ的確な情報を提供できています。

上記の例からもわかるように、ユーザーの質問に対して、関連性の高い特許情報を抽出し、その内容を分かりやすく説明することに成功しています。また、単一の特許情報に留まらず、関連する特許情報を提示できる点も、ユーザーにとって有益な情報源となり得る可能性を示唆しています。

これらの結果から、特許データ検索エージェントは、専門性の高い情報を求めるユーザーに対し、質の高い情報を提供できるポテンシャルを秘めていると感じます。

いいなと思ったら応援しよう！

よろしければ応援お願いします！いただいたチップはプロダクト開発の開発費に使わせていただきます！