ChatGPTに観光白書を要約させてみた
はじめに
分析屋の佐藤です。
先日社内の読書会イベントで観光産業の現状について発表をする機会がありました。その際発表資料作成のためにChatGPTを用いてpdfの要約を試してみたので、そこで得られた知見を備忘も兼ねて記しておこうと思います。ChatGPTは有料版のGPT4、pdfの要約にはLink Readerのプラグインを使用しています。
使用したpdf
今回は令和4年版観光白書の「本文(第 I 部 観光の動向)」を使用します。
https://www.mlit.go.jp/statistics/content/001615072.pdf
読み込ませてみる
まずはシンプルに要約を依頼してみます。
内容の検証
出力された内容を見ていきましょう。
使用したPDFは令和4年版観光白書の「本文(第 I 部 観光の動向)」ですが、本文は令和3年の観光産業についての説明なので間違いではないでしょう。
本文に同様の記述があります。
こちらも本文に同様の記述があります。
こちらも本文に同様の説明がありますが、直前に記述されているグラフの注釈は無視されています。
こちらも本文に同様の記述があります。また、直前の注釈は無視されています。
本文と同様の記述です。
本文と同様の記述ですが、直前の段落が丸々カットされています。「これまでは国際観光客数と世界の実質GDPの間には強い相関が見られたが、コロナ後は世界の実質GDPが先行して回復している」という記述です。観光の概況として具体的な数値を記述しているわけではないので、要約の際に省く箇所としては適切かと思います。
この記述は誤りです。冒頭の「日本の観光については、新型コロナウイルス感染拡大により大きな影響を受け、2020年の外国人旅行者受入数は大幅に減少しました。」は正しいのですが、それに続く記述は不正確なものとなっています。
「2021年には世界全体の国際観光客数が前年比で増加しましたが、新型コロナウイルス感染拡大に伴う渡航制限等による旅行需要の大幅な減少が続いています。」とありますが、pdf内では2021年が最新のデータであり、その後に旅行需要がどうなっているかの記述はありません。同じような記述がないかpdf内を探したところ、pdf内の各所の記述をツギハギしてできた文章のようでした。
本文に同様の記述はなくChatGPTが新規に作成したものです。全体をまとめた内容で文章にも問題はありません。
ここまでの内容を振り返ると出力された内容は一部怪しい部分もありつつ概ね正しいと言えそうです。ですが、この要約文はpdf全文の要約はしていないのです。
どういうことかといいますと、このpdfは全部で40Pあるのですが、Link Readerが要約した内容は8Pあたりまでの内容となっています。
原因の検証
原因として考えられるのはChatGPTのトークン数制限です。ChatGPTは入力も出力も4096トークンが最大なので、その制限に引っかかっているのではないかと思われます。
OpenAI社が提供している以下のトークン数計測サイトでpdfの8Pまでのトークン数を計算してみます。
https://platform.openai.com/tokenizer
トークン数は6493でした。
上限数よりも多いですが、グラフの中の数字なども含まれていたためそれらの文字を削除して再度計測します。
グラフ内の数字や文字を削除して計測するとトークン上限に近い数字となりました。
別のpdfで要約を試した場合でも同様の結果となったためLink Readerの仕様は、プラグインを使用してもトークン上限は変わらず、pdf内のグラフは読んでいないものと推定されます。
トークン上限数を試みる
先に結論を書くと、トークン上限以降の内容を読ませる試みはうまくいきませんでした。
ここで検証の内容を細かく見ることはしませんが、試したこととその結果を列挙してみます。
①続きを要約するように依頼する
→1度目の依頼と同じような内容が返ってきました。
②特定のページ数以降を要約するよう依頼する
→トークン上限以内なら指定したページ数の内容を要約できましたが、
上限以降のページを指定すると失敗しました。
③特定の章を指定して要約を依頼する
→②と同様に、トークン上限以内の章のみ要約可能でした。
④冒頭の文章を無視するように依頼する
→いくつかの言い方で試しましたが、どれも上手くいかず要約できる
範囲は変わりませんでした。
Link Readerでトークン上限数以降の文章を読ませることはできないようです。
まとめ
ChatGPTのLink Readerを用いてpdfの要約を試した結果は以下になります。
①要約は高い精度で行うことができる
②プラグインを使用した場合でもトークン数の上限がある
③トークン数の上限数を回避する方法は(自分が試した範囲では)ない
実際に自分で試した感触としては、5000トークン程度の文章ならChatGPTに読み込ませるのと自分で読むのはそこまで手間が変わらないように感じました。
もっと長い文章を読み込めればいいのですが、今のところトークン上限数がネックになって使い道が限られるという印象です。今後の改善に期待しましょう。
なんとも締まりのない結果となってしまいましたが、実際に手を動かしてChatGPTにできること、できないことを明確にできたのは有意義でした。
生成系AIに限った話ではないですが、実際に触ってみないことには特性はわからないものです。今回の試みはやや不発に終わりましたが、今後もいろいろな機能を試して知見を共有していけたらと思います。
ここまでお読みいただき、ありがとうございました!
この記事が少しでも参考になりましたら「スキ」を押していただけると幸いです!
株式会社分析屋について
弊社が作成を行いました分析レポートを、鎌倉市観光協会様HPに掲載いただきました。
ホームページはこちら。
noteでの会社紹介記事はこちら。
【データ分析で日本を豊かに】
分析屋はシステム分野・ライフサイエンス分野・マーケティング分野の知見を生かし、多種多様な分野の企業様のデータ分析のご支援をさせていただいております。 「あなたの問題解決をする」をモットーに、お客様の抱える課題にあわせた解析・分析手法を用いて、問題解決へのお手伝いをいたします!
【マーケティング】
マーケティング戦略上の目的に向けて、各種のデータ統合及び加工ならびにPDCAサイクル運用全般を支援や高度なデータ分析技術により複雑な課題解決に向けての分析サービスを提供いたします。
【システム】
アプリケーション開発やデータベース構築、WEBサイト構築、運用保守業務などお客様の問題やご要望に沿ってご支援いたします。
【ライフサイエンス】
機械学習や各種アルゴリズムなどの解析アルゴリズム開発サービスを提供いたします。過去には医療系のバイタルデータを扱った解析が主でしたが、今後はそれらで培った経験・技術を工業など他の分野の企業様の問題解決にも役立てていく方針です。
【SES】
SESサービスも行っております。