人工知能(GPT-3 text-davinci-003)を用いた「質的データ分析の自動化」──SCAT：Steps for Coding and Theorizationを対象に

2022年12月27日 18:32

openAIが公開している大規模言語モデルGPT-3 text-davinchi-003を使った「質的データ分析の自動化」というのをやってみたのでその結果の報告です。今回自動化の対象にするのはSCAT：Steps for Coding and Theorizationとよばれる質的データ分析手法（大谷, 2007）です。

質的データ分析手法とは

「質的研究」において用いられる、研究手法の一部です。今回自動化の対象とするSCATのほか、GTA（グラウンデッドセオリーアプローチ）などが世界的にさまざまな分野における質的研究に用いられる手法としてよく知られています。

質的研究とは

引用します。（なお以下の引用には質的データ分析手法についての言及も含まれています）

「質的研究」をご存じでしょうか。
さまざまな定義がされていますが、おおまかにいえば言葉や行動のような数値化しにくい質的なデータを用い研究上の問を探究していくものです。「××とは何か」「××な方々の体験はどのようなものか」「××について人々はどう考えているのか」などの問を持つ場合に多く用いられ、よく知られた研究手法としては、グラウンデッド・セオリー・アプローチ（GTA）、内容分析、事例分析、エスノグラフィーや談話分析などが挙げられます。
Google Scholarで「質的研究」「定性的研究」「Qualitative Research」「Qualitative Study」など検索してみるだけでも、多くの研究者が質的なアプローチで研究に取り組み、成果を発表していることにお気づきになることと思います。
こうした質的なアプローチと量的なアプローチ、これらは対立するものではなく、互いに補いあうものとすることで、より深い理解、よりよい解決策、より高い価値をもたらしていくものと捉えられています。

質的データ分析研究会 https://www.qdaa.info/qualitative-analysis

SCAT：Steps for Coding and Theorizationとは

大谷（2007）において提案された質的データ分析手法です。この手法の意義は「分析手続きの明示化、分析の初段階への円滑な誘導、分析過程の省察可能性と反証可能性の増大、理論的コーデイングと質的データ分析の統合」にあるとされています。（大谷, 2007）

SCATの手順

大谷先生ご自身がホームページにて説明されているので引用します。

SCATは，マトリクスの中にセグメント化したデータを記述し，そのそれぞれに，
〈1〉データの中の着目すべき語句
〈2〉それを言いかえるためのデータ外の語句
〈3〉それを説明するための語句
〈4〉そこから浮き上がるテーマ・構成概念
の順にコードを考えて付していく4ステップのコーディングと，そのテーマ・構成概念を紡いでストーリー・ラインを記述し，そこから理論を記述する手続きとからなる分析手法です。この手法は，一つだけのケースのデータやアンケートの自由記述欄などの比較的小さな質的データの分析にも有効です．また，初学者が着手しやすい方法です．（この手法は，現在のところ，日本人の開発した唯一の完全にオリジナルな「テクスト形式の質的データ」の分析手法でもあります．）

「SCAT Steps for Coding and Theorization 質的データの分析手法
」https://www.educa.nagoya-u.ac.jp/~otani/scat/#02

GPT-3 text-davinchiを使った「質的データ分析の自動化」──autoSCAT

今回の自分の目的は、上述のSCATの手順をGPT-3 text-davinchi-003を用いて自動化することです。
実際にはひとつの切片化（segmentation）されたデータに対する4ステップコーディングまでしか自動化できておらず、まだSCATの全てを自動化できているわけではないのですが、現状の進捗を公開します。（一部「のり弁」になってます。すいません）
なおこれには「autoSCAT（オートスキャット）」という名前をつけてみました。

まずopenai packageを読み込み、API経由でGPT-3を操作できるようにします。

2.openaiをつかってGPT-3に指示を出していきます。これはstep1「<1>の「テクスト中の注目すべき語句」を書く」をGPT-3にやってもらうためのpromptを組んでいるところです。

3.同じ要領でstep5まで順にpromptを組んで、連鎖的に情報を処理させます。

結果

プログラムはおおよそ上記のような感じです。それでは実際にSCATの4ステップコーディングをGPT-3にやってもらいましょう。
素材として、僕自身が過去に発言した以下のテキストを流し込みます。（ちょうど昔10+1でやった鼎談がありました。）（いま読むとつらい）

中村健太郎──よろしくお願いします。まずは議論の裾野を広げるために、谷繁さんのお話を少し掘り下げておきましょう。日本における建築家は明治政府が養成したテクノクラート（技術官僚）としての出自をもつわけですが、いまやそうした役割は求められていないという現状認識を提示してくれました。それに対しては、戦後日本において、政策イシューとしての建築や都市が政府主導で脱政治化されていった結果だよね、というのが素直な応答になるでしょう。ご存知の通り日本の建築・都市は戦後復興と高度経済成長を通して、内需拡大のための燃料としてくべられてきた経緯があります。住宅に関しては（住宅不足に対する苦肉の策とはいえ）戦後早々に金融とセットになった民間主導の住宅政策がとられていますし、都市空間についても1982年に発足した中曽根政権による「アーバンルネッサンス計画」を嚆矢に、バブル崩壊後も繰り返し規制緩和が行われています。こうした建築・都市をとりまく脱政治化の政治と新自由主義的な政策の常態化は、建築・都市の問題を公的な責任のもとに解決するテクノクラートの仕事領域を縮小させただけでなく、設計実務者の側にも巨大な建設市場という"消費の海に浸る"スタンスを取ることがあたかも優れた生存戦略であるかのような錯覚を与えてきたのではないでしょうか。しかしそれは再帰的に建築・都市の脱政治化を推し進め、政府や地方自治体の政策形成能力を徐々にスポイルし、究極的には一握りのスターアーキテクトとハウスメーカー以外の選択肢を排除してゆく緩やかな自殺行為にほかならなかった。そんな平成の成れの果てが現在だというのが、やや単純ですが僕の認識です。さらに言えば新自由主義と脱政治化が同時進行する傾向は日本一国だけでなく、程度の差こそあれ先進民主主義国家全般に見られる現象となっています。

「アーバニズム、建築、デジタルデザインの実践とグラデュアリズム
」https://www.10plus1.jp/monthly/2020/01/issue-01.php

これを入力として、スクリプトをcolab上で実行します。するとこうなります。

数秒で結果が出力されました。おもしろいですね。なお動画も用意しましたのでご覧ください。

以下が実行結果です

step1：<1>の「テクスト中の注目すべき語句」を書く
脱政治化, 政策イシュー, 民間主導, アーバンルネッサンス計画, 新自由主義, 先進民主主義国家
step2：<2>の「テクスト中の語句の言いかえ」を書く
非政治的な空間構築, 政策的な消費拡大, 非政治的な政策形成, 市場主導の都市計画, 市場原理主義,
step3：<3>の「左を証明するようなテクスト外の概念」を書く
政治的な空間構築から非政治的な空間構築への移行, 政策的な消費拡大を促す政策形成, 非政治的な政策形成, 市場主導の都市計画, 市場原理主義, 先進民主主義国家における脱政治化, 新自由主義的な政策の常態化, 政府・地方自治体の政策形成能力の縮小, スターアーキテクトとハウスメーカー以外の選択肢の排除
step4：<4>の「テーマ・構成概念」を書く
脱政治化と新自由主義的な政策の常態化による政策形成能力の縮小
step5：<5>の「疑問・課題」を書く
このような脱政治化と新自由主義的な政策の常態化は、先進民主主義国家全般において、政策形成能力をどのように縮小させているのか？

入力したデータがGPT-3によって質的に分析され、分析結果が出力されています。

考察

得られた結果の質について
1. 大事なのは、GPT-3によってSCATが実行できることではなく、得られたデータの質です。結論から言えば、それっぽいモノは出てきますが、個人的にはまだまだクオリティに難があります。しかし、これはpromptの改善等によってかなり伸びしろがあるだろうとも思います。
GPT-3によるSCATはSCATか？
1. これは難しい問いです。今後も考えていきたいと思います。個人的にはこれはSCATであると考えています。
2. なお大谷先生は、SCATを提案した2007年の論文で次のように述べられています。
  1. 「はじめは一人で分析するより、複数で協働し、多様な視点を入れて話し合って行うのが良い。すぐれた質的研究者は自身の中に多様な視点を包含し得るが、初学者は、作業を協働で行うことで、多様な観点を共有すべきである。」
  2. ここで「複数」の定義に「GPT-3（大規模言語モデル）」をカウントすることができるのならば、手続き上はGPT-3と、すくなくとも協働でSCATを行ったとしても、それはSCATの運用として許容範囲内ということになる可能性があると僕は考えます。
  3. ただし大谷先生は上記に続けてこうも述べられています。
  4. 「ただし、自立した研究者になるためには、この作業が自立して行えるようになる必要がある。」
  5. これには、個人的にぱっと思いつく限りでふたつの解釈があり得ると思います。
    1. 人間の初学者研究者がGPT-3と協働して、いずれ自立するルート
    2. GPT-3が人間の研究者と協働して、いずれ自立するルート
  6. どちらも面白そうです。引き続き考えていきたいと思います。

今後の展望

今後の作業予定
1. 今後もプロンプト・エンジニアリングを重ね、autoSCATの出力結果のクオリティを上げていきます。進捗は定義ご報告します。
2. またSCAT以外にも、GTA（グラウンデッドセオリー）やm-GTA（修正版グラウンデッドセオリー）といった、より一般的かつ広く使われている質的データ分析手法にも、大規模言語モデルによる自動化アプローチは有効なのではないかと考えており、そうした方向性も模索してゆくつもりです。
特許について
1. 実はこのブログの内容で特許を取ることを一瞬考えたのですが、実現可能性はさておき、仮に特許がとれたとして、学術コミュニティ全体にもたらされる価値と自分一人が得る価値を天秤にかけると前者の方が望ましいこと、ほかにもいくつかの個人的な出来事があり、今回ブログで世の中に向けて公開することとしました。
研究テーマとして
1. 「質的データ分析の自動化」は、SCATに限らず（2でのべたように）様々な可能性があると考えており、再び実現可能性はさておくとして、今後の研究テーマのひとつに据えていければよいなと思っています。興味ある研究者の方などいらっしゃたらお気軽にお声がけください。

お問い合わせ

お問い合わせはこちらまで

参考資料

colab上でのgpt-3の実行についてはこちらのnoteが非常に参考になりました。ありがとうございました！