ChatGPTに観光白書を要約させてみた

2023年7月26日 17:11

はじめに

分析屋の佐藤です。
先日社内の読書会イベントで観光産業の現状について発表をする機会がありました。その際発表資料作成のためにChatGPTを用いてpdfの要約を試してみたので、そこで得られた知見を備忘も兼ねて記しておこうと思います。ChatGPTは有料版のGPT4、pdfの要約にはLink Readerのプラグインを使用しています。

使用したpdf

今回は令和４年版観光白書の「本文（第 I 部　観光の動向）」を使用します。
https://www.mlit.go.jp/statistics/content/001615072.pdf

読み込ませてみる

まずはシンプルに要約を依頼してみます。

このPDFは、日本の国土交通省が発行した「令和３年度観光白書」の一部です。以下にその要約を提供します。

・世界経済は、新型コロナウイルス感染拡大の影響のあった2020年は大きく減少したが、2021年は大幅に回復した。IMFによると、世界全体の実質経済成長率は6.1％となった。
・2020年の外国人旅行者受入数は、日本は412万人で21位（アジアで５位）となり、2019年の12位（アジアで３位）から順位を下げた。
・2020年の各国・地域の国際観光収入は、米国が728億ドルで１位となり、フランスが326億ドルで２位、オーストラリアが258億ドルで３位となった。日本は107億ドルで15位（アジアで４位）となり、2019年の７位（アジアで２位）から順位を下げた。
・2020年の各国・地域の国際観光支出は、中国が1,305億ドルで１位となり、ドイツが389億ドルで２位、米国が358億ドルで３位となった。日本は55億ドルで25位（アジアで６位）と、2019年の16位（アジアで６位）から順位を下げた。
・2021年の世界全体の国際観光客数は、前年より約1,800万人増（前年比4.6％増）の４億2,100万人となったが、対2019年比では71.3％減となり、新型コロナウイルス感染拡大に伴う渡航制限等による旅行需要の大幅な減少が続いた。
・2021年の国際観光客数を地域別にみると、欧州を訪れた国際観光客数は約２億8,130万人（前年比18.6％増）、アジア太平洋を訪れた国際観光客数は約2,090万人（前年比64.7％減）、米州を訪れた国際観光客数は約8,240万人（前年比17.7％増）となった。
・日本の観光については、新型コロナウイルス感染拡大により大きな影響を受け、2020年の外国人旅行者受入数は大幅に減少しました。また、国際観光収入も減少し、順位も下がりました。しかし、2021年には世界全体の国際観光客数が前年比で増加しましたが、新型コロナウイルス感染拡大に伴う渡航制限等による旅行需要の大幅な減少が続いています。特にアジア太平洋地域は前年比で大幅に減少しました。

この報告書は、新型コロナウイルスの影響により観光業が大きく変化したことを示しています。それは、旅行者の数、観光収入、観光支出など、多くの指標で見られます。これらの変化は、観光業が世界経済にとって重要な部分であることを示しています。また、これらのデータは、新型コロナウイルスが経済全体に及ぼす影響を理解するための重要な情報源でもあります。

内容の検証

出力された内容を見ていきましょう。

①このPDFは、日本の国土交通省が発行した「令和３年度観光白書」の一部です。以下にその要約を提供します。

使用したPDFは令和４年版観光白書の「本文（第 I 部　観光の動向）」ですが、本文は令和3年の観光産業についての説明なので間違いではないでしょう。

②世界経済は、新型コロナウイルス感染拡大の影響のあった2020年は大きく減少したが、2021年は大幅に回復した。IMFによると、世界全体の実質経済成長率は6.1％となった。

本文に同様の記述があります。

③2020年の外国人旅行者受入数は、日本は412万人で21位（アジアで５位）となり、2019年の12位（アジアで３位）から順位を下げた。

こちらも本文に同様の記述があります。

④2020年の各国・地域の国際観光収入は、米国が728億ドルで１位となり、フランスが326億ドルで２位、オーストラリアが258億ドルで３位となった。日本は107億ドルで15位（アジアで４位）となり、2019年の７位（アジアで２位）から順位を下げた。

こちらも本文に同様の説明がありますが、直前に記述されているグラフの注釈は無視されています。

⑤2020年の各国・地域の国際観光支出は、中国が1,305億ドルで１位となり、ドイツが389億ドルで２位、米国が358億ドルで３位となった。日本は55億ドルで25位（アジアで６位）と、2019年の16位（アジアで６位）から順位を下げた。

こちらも本文に同様の記述があります。また、直前の注釈は無視されています。

⑥2021年の世界全体の国際観光客数は、前年より約1,800万人増（前年比4.6％増）の４億2,100万人となったが、対2019年比では71.3％減となり、新型コロナウイルス感染拡大に伴う渡航制限等による旅行需要の大幅な減少が続いた。

本文と同様の記述です。

⑦2021年の国際観光客数を地域別にみると、欧州を訪れた国際観光客数は約２億8,130万人（前年比18.6％増）、アジア太平洋を訪れた国際観光客数は約2,090万人（前年比64.7％減）、米州を訪れた国際観光客数は約8,240万人（前年比17.7％増）となった。

本文と同様の記述ですが、直前の段落が丸々カットされています。「これまでは国際観光客数と世界の実質GDPの間には強い相関が見られたが、コロナ後は世界の実質GDPが先行して回復している」という記述です。観光の概況として具体的な数値を記述しているわけではないので、要約の際に省く箇所としては適切かと思います。

⑧日本の観光については、新型コロナウイルス感染拡大により大きな影響を受け、2020年の外国人旅行者受入数は大幅に減少しました。また、国際観光収入も減少し、順位も下がりました。しかし、2021年には世界全体の国際観光客数が前年比で増加しましたが、新型コロナウイルス感染拡大に伴う渡航制限等による旅行需要の大幅な減少が続いています。特にアジア太平洋地域は前年比で大幅に減少しました。

この記述は誤りです。冒頭の「日本の観光については、新型コロナウイルス感染拡大により大きな影響を受け、2020年の外国人旅行者受入数は大幅に減少しました。」は正しいのですが、それに続く記述は不正確なものとなっています。

「2021年には世界全体の国際観光客数が前年比で増加しましたが、新型コロナウイルス感染拡大に伴う渡航制限等による旅行需要の大幅な減少が続いています。」とありますが、pdf内では2021年が最新のデータであり、その後に旅行需要がどうなっているかの記述はありません。同じような記述がないかpdf内を探したところ、pdf内の各所の記述をツギハギしてできた文章のようでした。

⑨この報告書は、新型コロナウイルスの影響により観光業が大きく変化したことを示しています。それは、旅行者の数、観光収入、観光支出など、多くの指標で見られます。これらの変化は、観光業が世界経済にとって重要な部分であることを示しています。また、これらのデータは、新型コロナウイルスが経済全体に及ぼす影響を理解するための重要な情報源でもあります。

本文に同様の記述はなくChatGPTが新規に作成したものです。全体をまとめた内容で文章にも問題はありません。

ここまでの内容を振り返ると出力された内容は一部怪しい部分もありつつ概ね正しいと言えそうです。ですが、この要約文はpdf全文の要約はしていないのです。

どういうことかといいますと、このpdfは全部で40Pあるのですが、Link Readerが要約した内容は8Pあたりまでの内容となっています。

原因の検証

原因として考えられるのはChatGPTのトークン数制限です。ChatGPTは入力も出力も4096トークンが最大なので、その制限に引っかかっているのではないかと思われます。
OpenAI社が提供している以下のトークン数計測サイトでpdfの8Pまでのトークン数を計算してみます。
https://platform.openai.com/tokenizer

トークン数は6493でした。
上限数よりも多いですが、グラフの中の数字なども含まれていたためそれらの文字を削除して再度計測します。

グラフ内の数字や文字を削除して計測するとトークン上限に近い数字となりました。
別のpdfで要約を試した場合でも同様の結果となったためLink Readerの仕様は、プラグインを使用してもトークン上限は変わらず、pdf内のグラフは読んでいないものと推定されます。

トークン上限数を試みる

先に結論を書くと、トークン上限以降の内容を読ませる試みはうまくいきませんでした。
ここで検証の内容を細かく見ることはしませんが、試したこととその結果を列挙してみます。

①続きを要約するように依頼する
　→1度目の依頼と同じような内容が返ってきました。

②特定のページ数以降を要約するよう依頼する
　→トークン上限以内なら指定したページ数の内容を要約できましたが、
　　上限以降のページを指定すると失敗しました。

③特定の章を指定して要約を依頼する
　→②と同様に、トークン上限以内の章のみ要約可能でした。

④冒頭の文章を無視するように依頼する
　→いくつかの言い方で試しましたが、どれも上手くいかず要約できる
　範囲は変わりませんでした。

Link Readerでトークン上限数以降の文章を読ませることはできないようです。

まとめ

ChatGPTのLink Readerを用いてpdfの要約を試した結果は以下になります。

①要約は高い精度で行うことができる
②プラグインを使用した場合でもトークン数の上限がある
③トークン数の上限数を回避する方法は（自分が試した範囲では）ない

実際に自分で試した感触としては、5000トークン程度の文章ならChatGPTに読み込ませるのと自分で読むのはそこまで手間が変わらないように感じました。
もっと長い文章を読み込めればいいのですが、今のところトークン上限数がネックになって使い道が限られるという印象です。今後の改善に期待しましょう。

なんとも締まりのない結果となってしまいましたが、実際に手を動かしてChatGPTにできること、できないことを明確にできたのは有意義でした。
生成系AIに限った話ではないですが、実際に触ってみないことには特性はわからないものです。今回の試みはやや不発に終わりましたが、今後もいろいろな機能を試して知見を共有していけたらと思います。

ここまでお読みいただき、ありがとうございました！
この記事が少しでも参考になりましたら「スキ」を押していただけると幸いです！

株式会社分析屋について

弊社が作成を行いました分析レポートを、鎌倉市観光協会様HPに掲載いただきました。

ホームページはこちら。

noteでの会社紹介記事はこちら。

【データ分析で日本を豊かに】
分析屋はシステム分野・ライフサイエンス分野・マーケティング分野の知見を生かし、多種多様な分野の企業様のデータ分析のご支援をさせていただいております。「あなたの問題解決をする」をモットーに、お客様の抱える課題にあわせた解析・分析手法を用いて、問題解決へのお手伝いをいたします！
【マーケティング】
マーケティング戦略上の目的に向けて、各種のデータ統合及び加工ならびにPDCAサイクル運用全般を支援や高度なデータ分析技術により複雑な課題解決に向けての分析サービスを提供いたします。
【システム】
アプリケーション開発やデータベース構築、WEBサイト構築、運用保守業務などお客様の問題やご要望に沿ってご支援いたします。
【ライフサイエンス】
機械学習や各種アルゴリズムなどの解析アルゴリズム開発サービスを提供いたします。過去には医療系のバイタルデータを扱った解析が主でしたが、今後はそれらで培った経験・技術を工業など他の分野の企業様の問題解決にも役立てていく方針です。
【SES】
SESサービスも行っております。

この記事が参加している募集

#やってみた

38,786件