論文紹介: ChatGPTは大卒専門家の作業時間を40%減らし、質を18%高めた
みなさんご存知ChatGPT、「人の仕事を奪う」という言説が巷にあふれておりますが(labor displacement)、一方で「人々の仕事を促進する」というポジティブな側面も注目されています(labor augmentation/enhancement)。
ただ実際、ChatGPTが「どれくらい人の作業を効率化するのか」については、まだ定量的な証拠は示されてきませんでした。
そこでScience誌に採択された本研究では、453人の大卒専門家(コンサルタント、データアナリスト、マーケターなど)を集め、その半分にはChatGPTの補助ありで、もう半分にはChatGPT補助なしで、ライティングタスクを行わせる実験をしています。
その結果、「ChatGPT補助あり」グループは、タスクの平均所要時間は40%減少し、アウトプットの質は18%上昇したとのことです。
しかも、もともと作業の質が低いほどChatGPTによる質の改善向上効果は大きく、労働者間の不平等は減少したそうです。被験者のAIに対する関心と興奮も、一時的にですが上昇したとのことです。
また、実験中にChatGPTに触れた人は、実際の業務でChatGPTを使用すると回答する確率が2週間後に2倍、2ヶ月後には1.6倍になったとのことです。
もし、コンピュータのような自動化技術が既存の労働者の増強に成功すれば、賃金を引き上げ、生産性を向上させ、価格を引き下げることによって、労働者、資本所有者、消費者に同時に利益をもたらすことができると一般に言われいる、とのことです。
Shakked Noy and Whitney Zhang,
Experimental evidence on the productivity effects of generative artificial intelligence.
Science 381,187-192(2023).
https://www.science.org/doi/10.1126/science.adh2586
結果
実際のライティングタスクでは、それぞれのグループに2回行わせており、処置群は2回目のみChatGPTを使います(対照群は2回とも使いません)。これにより、グループ間比較だけではなく、1回目と2回目のグループ内比較も実現し、より結果を堅牢にします。
生産性の向上
下図では、作業の時間(左側)と質(右図)を比較した図を載せています。
ともに、処置群の2回目(ChatGPTを使った場合)に、作業時間は減り(図A)、作業の質は向上している(図B)ことがわかります。
(作業C, Dは時間と質のヒストグラム)
生産性の不平等の縮小
下図は、1回目と2回目に関して作業の質をプロットしたものです。
これを見ると、
1回目の作業の質が高かった人々は、2回目の作業で、ChatGPTある/なしに関わらず同じくらいのグレードを取っていました(図の右側、□と▲が同じ位置)。
一方で、1回目の作業の質が低かった人たちでは、2回目にChatGPTを使うかどうかで、2回目の作業の質が大きく変わりました(図の左側、ChatGPTを使った▲が高い位置にある)。
つまり、ChatGPTは作業の質が低い人にほど、改善効果が効いた→生産性の不平等を縮小したということになります。
(これはnote著者の余談ですが、)この結果を見たときに想起したのは、最近発表された、「英語の非ネイティブはネイティブに比べ科学の活動の労力に関しての負担が非常に大きくなっている(プレゼンの準備に倍の時間がかかる等)」という研究でした。
私もDeepL始め、論文執筆には様々なAIツールに頼っていますが、AIの発達によって、元々低かった能力の人たちが、高い生産性を発揮できる時代になっていきそうです。
仕事の満足感と自己効力感は上昇、自動化に対しての楽観視も増す、が仕事の代替懸念も増す
以下は実験後のアンケートの結果です。
まず、ChatGPTを使った方が、タスクへの満足感は有意に増し(図A)、自己効力感も若干増していました(図B)。仕事がうまく楽しめたということだと思います。
さらに、「仕事の自動化に対しての認識」を問いたところ、ChatGPTを使った人たちは、仕事が代替されることの憂慮は増したものの(図C左)、同時に仕事が効率化されることへの期待感は増し(図C中央)、全体としてポジティブな認識を抱くようになった(図C右)とのことです。
2週間および2ヶ月の追跡調査
上記で得た認識(2023年1月下旬〜2月下旬)が、その後変化があったかを、追跡調査もしています。
これによると、上記の認識の変化(仕事代替への変化や、効率化への興奮)は、時間が経つにつれて消えており、これらはあくまで一時的な変化だったということがわかりました。
一方で、ChatGPTを使ったグループは、その後自分たちの仕事でChatGPTを使う割合が有意に増したそうです。
また、その後ChatGPTを使わなかったグループにその理由を聞いたところ、ほとんどの場合、コンテキスト固有の知識がChatGPTに欠けているためだと述べていたそうです。顧客を想定した文章や、個別商品に関しての文章には物足りないところがあったのではないかとのことです。
議論
議論では、LimitationやImplicationについて述べられていました。
特にImplicationの二点目は、人材活用に関する議論を提示しており、興味深かったので紹介します。
まず、シニアとジュニアの対立構造についてです。「一人のシニア広告マネージャーが直接ChatGPTにハイレベルなガイダンスを提供すること」か、それとも「10人のジュニア広告デザイナーが注意深くプロンプトをデザインし、ChatGPTのアウトプットを編集すること」か、どちらがより生産性が高いのか。この答えによって、広告業界の雇用構造が決まるのではないかと述べています。
同様に、専門知識と賃金の関係性の行方です。例えばChatGPTがプログラミング作業において人間の労働力を高度に補完するならば、プログラマーは賃金を上げることができる一方で、彼らの専門知識は不足したままです。一方で、人間がプログラミングの基本的な知識しか必要としないのであれば、潜在的なプログラマーのプールは大幅に増加し、生産性が上昇しても賃金は低下する可能性もあります。しかしまた一方で、ChatGPTのようなツールを上手く使うことで、学習は促進され、専門知識をより身近なものにするかもしれないという方向性も考えられます。
いずれにせよ、「ChatGPTの登場は、AI技術の経済的・労働市場的影響について膨大な不確実性の時代の到来を告げるものである」として、本論文は締めくくられています。
データや手法など
ここからはnote筆者の参考として、気になった細かい部分をメモ書きしておきます。
参加者は調査プラットフォームProlificから集めたそうです。
使用したGPTのバージョンは3.5だそうです
選んだ職業はマーケティング担当者、グラントライター、コンサルタント、データアナリスト、人事担当者、マネージャーだそうです
タスクは、プレスリリース、短いレポート、分析計画、デリケートな電子メールの作成などで、これらの職業で実際に行われるタスクに似せてデザインされており、20分から30分の課題で構成されたそうです
タスクはインセンティブ付されていて、基本報酬10ドルに加え、アウトプットの質に応じて最大14ドルのボーナスを受け取り、全体の平均時給は17ドルと、Prolificの基準である時給12ドルを大幅に上回ったそうです
インセンティブ構造も2つ作り(正解ごとにボーナスを貰えるか、さらに加えて高得点だと追加ボーナスを貰えるか)、被験者はこの点に関してもランダム化されたそうです。(結果に影響はなかったそうです)
作業のアウトプットを1~7の尺度で慎重に評価するよう奨励された(22)。各アウトプットは3人の評価者に見てもらい、論文内の評価者間の平均相関は0.44
処置群のグループでは1つ目のタスクと2つ目のタスクの間にChatGPTに登録するよう指示されますが、使うかどうかは実際は被験者に委ねられ、「便利だと感じたら2つ目のタスクで使用してもよい」と伝えられたそうです。
対照群には代わりにLaTeXエディタOverleafに登録するように指示をして、タスク間にかかる時間をコントロールしたそうです。
タスクを実行している間、参加者のアウトプットのスナップショットを毎分撮影したそうです