見出し画像

GPT Indexを使って「就業規則チャットボット」を作ってみる

こんにちは。

昨日の「問い合わせ対応」に続いて、GPT Indexを使って、実践活用の可能性を探ってみます。

昨日の記事はこちら↓

今回のテーマは「就業規則」です。

AIチャットボットという概念が世に出始めたころ(2017年頃)、まず社内規則に関する問い合わせ対応をチャットボット化しよう!と検討をした企業も多いのではないでしょうか。法改正によってルールもしばしば変わり、目の敵にされがちな間接費にメスを入れられ、さらにルールは企業ごとに異なるので汎用ソリューションもないため、最初のAI活用チャレンジ(そしておそらくは最初の失敗案件)にした企業は多いと思います。

AIビジネス古参兵の思い出話

自社の就業規則でやってみたいところですが、守秘の都合上そうもいかないので、今回は厚労省が公開している「モデル就業規則」でやってみます。

これの、第一章から第五章、具体的には第1条から第32条までを使用します。その量、約5500文字と、昨日のニュースリリース(約1000文字)の5倍くらいの長さです。加えて文章もお堅いため、人間にとっては読むのも一苦労です。

データの整形

手始めに、アップロードされているwordファイルをそのまま突っ込んでインデックス化してみたのですが、結論、全然うまく行きませんでした。

詳しくはわかりませんが、「箇条書き」「空白」「改行」「表組」などが悪さをしているのかなと考え、多少データを整形することにしました。

今回実施したのは以下の処理です。

  • 余計な空白を詰める。

  • 全角数字を半角に。

  • 「項」を廃し、すべて「条」のあとにつなげる。

  • (モデル就業規則のため)空白になっていた会社名や日数を仮で入れる。

  • 表になっていた部分は、適宜テキストにするか、「別紙で定めるところとする」に置き換える。

これにより、こんな感じでテキストデータができました。

GPT株式会社の就業規則です

ちなみに、インデックス生成用のファイルサイズには上限があるようなので、全部で3つのテキストファイルに分けました。だいたい1ファイル2000文字くらいが限度のようです。


聞いてみる

①簡単な質問

手順は昨日と同じです。

さっそく問い合わせてみましょう。

完璧
完璧
完璧

シンプルなQAですが、ここまでは完璧です。すごいぞ!


うーん?

今回の実験の中で、この質問だけ、返答が突然英語になってしまいました。内容は正しいようですが、許可があればOKという文脈もありました。ChatGPTも突然返答が英語になることがありますね。


細かいところも正解しています。

後半に記載されていた項目もちゃんと正解しています。シンプルな質問には、おしなべて正解できています。


②ちょっと難しい質問

ここからはちょっと難しい質問です。

ぶっちゃけ今までの質問は「就業規則を読め!」で解消できるので、チャットボットを導入する意味はあいまいで複雑な問い合わせにあります。

ちゃんと答えられている。

「パワーハラスメント」という単語は本文中には登場せず、第12条が該当します。第13条はセクハラ、第14乗はマタハラ、第15条はその他ハラスメントに関する項目です。

ですので厳密には13~15条はパワハラではないのですが、概ね正解と言えるでしょう。本文中にない単語も推測して答えることができています。


今年の年初は曜日の並びが悪かったのを思い出した。

これも同じで、「年末年始休暇」という文言は本文中にありませんでしたが、正解しました。


正解。

本文中は「双子」という表現はなく「多胎出産の場合は」という書き方になっていましたが、正解しました。


正解です。

「家族が死亡」みたいな文言も本文中にありませんが、ちゃんと拾って答えています。参照した条項も添えてくれるので、確認もしやすいです。

この時点で並みの人間より優秀では、という気がします。


③間違えた設問

と、正解ばかりを拾って来ましたが、一部、間違えた質問もありました。

??

インターバルというのは、夜から朝まで必ず休息しなければならない時間を指す人事用語ですが、その言葉は知らなかったようです。

聞き方を変えてみます。

計算間違い

10時間の休息が必要、というのは理解しているようですが、計算が間違っていますね。


うーん。

これは間違いです。試しにもう1回聞いてみます。

ブラック企業化してしまった。

実は、この実験をする前に、少し短いバージョン(2000文字程度)でも試していたのですが、その時は同じ質問に正解できていました。その時は「新卒」という言葉の理解ができていたようです。

やはりインデックス化したテキストが長いほど細部が抜け落ちたり、応用が利かなくなったりするような印象です。


最後にいじわる質問。

クイズ形式です。

試用期間が6か月、その後1年なので正解は18か月なのですが、さすがに間違えてしまいました。計算をともなう質問は難しいようです。


ちなみに、ChatGPTで同じことをしようとすると、

長すぎるのか、19条まででも、エラーが出ます。

まとめ

というわけで、多少実践を想定して、「5500文字程度の就業規則」を入れてみました。

  • シンプルな質問にはかなりの精度で返答することができました。

  • テキストが長くなるほど、そして複雑な質問になるほど、正答率は落ちていくようでした。

  • 計算をともなうものは苦手なようです。

精度を担保するためにボット自体を複数に分け、かつシンプルな問い合わせレベルであれば、しっかり作れば実践投入は可能な水準だと感じました。インデックスの作り方にも色々種類や工夫があるようなので、試してみる価値はありそうです。

特にチャットボット黎明期は、直接エンドユーザーが操作するのではなく、オペレータースタッフ側の支援としてのチャットボットもよく見かけましたが、そういった用途ではすでにかなり使えるのではと感じます。

何より、私のような完全な非エンジニアでも先人のコピペで作れてしまうのは本当にすごいことです。

OpenAIのAPIがAzureで使えるようになるというニュースもあったので、これからかなり身近になっていくのではないでしょうか。

(ぶっちゃけ、この辺の技術たちがビジネスに与えるインパクトは単なる問い合わせbotにとどまるレベルではないのは明確なので、その辺を踏まえていろいろ考えていきたいなと思ってます)

今日はここまでです。


とのことです。


いいなと思ったら応援しよう!