#ChatGPT を使って #Slack 上でPDFやWordドキュメントと対話をしてみよう
実装方法変えました!!
以下は変更前の文章なので参考まで
前回はブラウジング機能を追加したChatGPTを使うという話しを書きました
今回はPDF/Wordファイルを読み込ませてChatGPTに解析させる話しです。
なぜそんなことをするのか
ChatGPTは生成AIですが、情報が0の状態からテキストを生成させると、その溢れんばかりの想像力でいろんな文字列を生成してくれます。つまり嘘が混じるんですね。これはそういうものとして考えてください。
一方で、強力な威力を発揮するのは、素材となるテキストが存在する場合です。元ネタがあればそれをxxx風(作家等の名前で変換)するとか、要約や翻訳、もっとフォーマルにとか、テキストの雰囲気を変えたり表現を変えたりといったことを得意とします。
書かれていることの要点を教えてもらったり、テキストについてこういう点はどう書かれているか?みたいな対話も可能でしょう。
業務効率向上に役立つキラーアプリじゃないかと思っています
今現在この生成AIって結局何に使えるのよ?って思っている人が多数だと思うのですが、これについてはわかりやすく業務効率を向上させる可能性を秘めていると思っています。
弊社リバネスの場合であれば、論文を読み込ませてそこに書かれている内容について質問形式で引き出していくというようなことができます。
報告書の中から要点を引き出したり、書かれていることについて質問することもできます。結構便利なのではないでしょうか。
使い方
スレッドにファイルを添付すると、それを読み込むかどうか聞かれます。
PineconeのAPIキーが必須なので取得してください(無料で使えます)
登録するボタンを押すと、ファイルの中身を抽出してPineconeに登録します。
Pineconeについてはここにも書きました
これまでと違う点は、スレッド内添付の場合は、そのスレッド内のみで情報を参照できるようにしてあることです。
つまり、上記のやり方で登録した情報に混ざらないようになっています。
全員が共通して使うものについては🍍スタンプを付けて登録をする。
自分が、その瞬間使いたい情報についてはスレッド内に添付してPineconeに登録するという使い分けになります。
登録完了したあとに質問をすると、ファイルの中身から情報を抽出してくれます。これがどこから来るかというとこのスライドです
この機能で期待すべきことは、ファイル内の探索を楽にするというものです。その資料について知りたいことを問えば、それについて解析した答えが返ってくる訳ですから業務効率が格段に上がることが期待できます。
現時点ではベータ機能としてあります
それはなぜかというと、Pineconeを使った情報の扱い方に工夫の余地がありそうだというものです。
現在の設定では、ファイル内のデータを1000トークンずつのチャンクに分割してPineconeに登録しています。
なぜかというと、
スレッド内で質問する
Pineconeで検索したデータを一つだけ戻す
質問+PineconeのデータにしてChatGPT APIに渡す
というフローになっているからです。
可能性としてはPinecone登録時のチャンクの大きさをもっと小さくして、Pineconeから取得するデータ数を1じゃなくて複数にしたほうが総合的な回答が得られるのではないか、みたいな最適化がありえます
こちらについては今後の改善にご期待ください
ベータの理由2
PDFのローダーをもう少し良いものに変えるかもしれません
現状では抽出したテキストをそのまま登録しているのですが、情報は一度マークダウン形式に変換して登録してあげることができればChatGPTはそれを解釈することができるのでテーブル内の情報が適切に扱えるようになるからです
まとめ
Party on Slackにドキュメント探索機能が追加されました!
使用感に関するテストが全然できていませんので、是非皆様使ってみてフィードバックをお願いします