自社情報を文書にまとめてRAG（チャットボット）を構築する方法

テックジム創業者：藤永端（みんなのグラさん）のIT業界裏話

2025年2月8日 07:00

自社の情報を文書にまとめてRAG（Retrieval-Augmented Generation）を構築するには、以下の手順を踏みます。

ステップ 1: 自社情報の整理

RAGモデルの基盤となる知識ベースを準備します。以下の情報を文書として整理しましょう。

会社概要（社名、所在地、設立年、ミッション・ビジョン）
製品・サービス情報（特徴、価格、導入事例）
FAQ・ナレッジベース（よくある質問と回答）
社内ドキュメント（マニュアル、ホワイトペーパー、契約書のテンプレート）
最新情報（プレスリリース、ブログ記事）

文書形式は Markdown（.md）やPDF、CSV、JSON などを統一すると管理しやすいです。

ステップ 2: データの前処理

情報を効率的に検索・活用できるように、適切な形に整えます。

テキストのクリーニング
- 不要な改行や特殊文字を除去
- OCR（光学文字認識）を活用してスキャン文書をテキスト化
分割処理
- 文書が長い場合、適切なサイズ（例：1,000〜2,000文字）に分割
- 章・見出し単位で整理
メタデータの付与
- 各ドキュメントにタイトル、作成日、カテゴリータグを追加
- 例： { "title": "サービス概要", "content": "当社のサービスは...", "tags": ["サービス", "製品情報"], "date": "2025-02-07" }

ステップ 3: ベクトルデータベースを構築

RAGは、検索効率を高めるために ベクトルデータベース（Vector DB） を活用します。

1. 適切なベクトルDBを選定

代表的なデータベース：

Pinecone（スケーラブルで使いやすい）
Weaviate（オープンソースで柔軟）
FAISS（Meta開発の高速検索ライブラリ）
ChromaDB（軽量で簡単に使える）

2. 文章をベクトル化

OpenAIの text-embedding-ada-002 などの Embeddingモデル を利用
Pythonでのベクトル化例（OpenAI API使用）：

from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

# OpenAIの埋め込みモデルを使用
embeddings = OpenAIEmbeddings(openai_api_key="YOUR_API_KEY")

# ベクトルDB（FAISS）をロード
vector_db = FAISS.load_local("faiss_index", embeddings)

# LLM（GPT-4）を使用
llm = OpenAI(model="gpt-4", openai_api_key="YOUR_API_KEY")

# RAGパイプラインの設定
qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=vector_db.as_retriever())

# ユーザーの質問に応答
query = "自社の主力製品は何ですか？"
response = qa_chain.run(query)
print(response)

得られたベクトルをDBに保存し、検索時に類似度計算を行う

ステップ 4: RAGの構築

1. LLM（大規模言語モデル）の選定

商用LLM: OpenAI GPT-4, Claude, Gemini
オープンソースLLM: Llama 2, Mistral, Falcon
オンプレ向けLLM: GPT-4 Turbo (Azure), LlamaIndex

2. 検索＋生成の流れ

ユーザーが質問を入力
ベクトルDBで関連情報を検索
検索結果をLLMに渡して回答を生成
ユーザーに自然な形で回答を表示

LangChainを使った実装例（Python）

from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

# OpenAIの埋め込みモデルを使用
embeddings = OpenAIEmbeddings(openai_api_key="YOUR_API_KEY")

# ベクトルDB（FAISS）をロード
vector_db = FAISS.load_local("faiss_index", embeddings)

# LLM（GPT-4）を使用
llm = OpenAI(model="gpt-4", openai_api_key="YOUR_API_KEY")

# RAGパイプラインの設定
qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=vector_db.as_retriever())

# ユーザーの質問に応答
query = "自社の主力製品は何ですか？"
response = qa_chain.run(query)
print(response)

ステップ 5: Google Calendarとの統合（Difyを活用）

Dify を使えば、Google Calendarと統合してスケジュール管理を自動化できます。

Difyに独自データ（RAG用）をアップロード
- Settings > Knowledge Base で自社情報を追加
- ベクトル検索を有効化
Google Calendar APIを連携
- Difyの「API & Actions」から Google Calendar API を接続
- OAuth認証を設定（Google Cloud ConsoleでAPIキー取得）
スケジューリングの自動化
- RAGで適切な候補日時を取得
- Google Calendar APIを介して予定を作成
- メールで確認を送信

Difyの設定例

プロンプト: あなたはスケジューリングアシスタントです。ユーザーの希望日時を聞き、カレンダーの空き状況に基づいて最適な候補を提案してください。
APIアクション:
- Google Calendar: Create Event
- Google Calendar: List Free Slots

ステップ 6: デプロイと運用

1. APIとして公開

FastAPIやFlaskを利用し、RAGをAPI化
Docker コンテナを作成し、AWS/GCP/Azureにデプロイ

2. セキュリティ対策

APIキーの管理（環境変数 env で管理）
アクセス制御（OAuth認証やJWTトークン）
社内情報の漏洩防止（機密データのフィルタリング）

3. モニタリング

ログ管理（Elasticsearch, Kibana）
パフォーマンス計測（Prometheus, Grafana）
ユーザーのフィードバックを分析し改善

まとめ

✅ RAGの構築手順

自社情報を整理
データを前処理
ベクトルDBを構築
RAGシステムを作成
DifyでGoogle Calendarと連携
デプロイ・運用

Difyを活用すれば、RAG＋Google Calendar連携 により、メールでのスケジューリングを自動化できます。
まずは ベクトルDBの構築とDifyの設定 から始めましょう！ 🚀

いいなと思ったら応援しよう！

よろしければサポートお願いします。その際はご依頼に答えた執筆をいたします。サポートの際にご依頼文を添えていただけますと幸いです。