PolicyGPT: Automated Analysis of Privacy Policies with Large Language Models
本研究の背景と研究の「問い」は、内部的なプライバシーポリシー編集者が使う様々な法的要件から自由になって、そのプライバシーポリシーの文言をシンプル化し、ユーザーフレンドリーにすることができるような、自動化されたテキスト解析ツールを開発することが可能なのか、ということです。
本研究の目的は、プライバシーポリシーのテキストを分析し、適切なカテゴリに分類できるフレームワーク、PolicyGPTを開発することです。学術的な独自性と創造性は、大規模な言語モデルであるChatGPTとGPT-4をベースにした初めてのフレームワークを開発したことにあります。
本研究は、プライバシーポリシーが拡大し続けている現状、そしてEU全域におけるプライバシーポリシー長の増加(35.39%)から着想を得ました。これらのポリシーは、しばしば法的な専門用語や難解なテキストに満ちており、一般のユーザーが理解するのは困難です。そのため、ユーザーがポリシーを適切に理解し、自身の情報がどのように利用されるかを把握することを目指しています。
2つのデータセットを使ってPolicyGPTの性能をテストしました。1つ目のデータセットは、115のウェブサイトからのプライバシーポリシーで、法的専門家によって丁寧に注釈が付けられ、10のクラスに分類されたものです。2つ目のデータセットは、304の人気モバイルアプリのプライバシーポリシーで、各文が手動で注釈が付けられ、別の10のカテゴリに分類されたものです。ゼロショット学習の条件下では、PolicyGPTは堅実なパフォーマンスを示し、最初のデータセットでは97%、2つ目のデータセットでは87%の正解率を達成しました。
本研究の有効性は、手動で注釈を付けた分類と結果を比較し、精度を計算することで検証しました。その結果、ゼロショットの状態でも、それ以前の機械学習やニューラルネットワークモデルよりも優れたパフォーマンスを発揮しました。