ChatGPTを研究に活用する時の注意点
以前の記事で、ChatGPTが研究に有用であることと、研究者が適切に利用するための方法について話しました。
一方で、ChatGPTを研究に活用する上での倫理的課題について気になりました。ChatGPTを利用して作成したものを論文にすることが可能なのでしょうか。また、その論文が正当に評価されるのでしょうか。
最近、Web上で、Natureと言うイギリスの権威のある雑誌に、研究過程にChatGPTのようなLLMs(a large language models)を活用した場合の注意点を書いた論文を見つけました。
https://www.nature.com/articles/d41586-023-00288-7
LLMsを利用した研究はこれから急速に増えると思うので、この論文は多くの人に役立つものと考えられるため、その内容を要約して紹介したいと思います。
LLMs活用における革命
世界的に研究者は、ChatGPTをはじめとしてLLMsをすでに幅広い研究活動に活用しています。
具体的にはエッセイを書いたり、文献の要約、論文の草稿、研究テーマの特定、コンピューターのコード、統計分析など、多くの研究者が行う作業をカバーしています。
そして、いずれは、このAIは実験をデザインしたり、論文を完成させたり、また、雑誌の査読や論文の採択における意思決定にも活用されるようになると予測しています。
したがってLLMsの登場により、イノベーションのスピードを早めたり、研究論文が発表されるまでの期間を短縮したり、論文をもっと流暢に書けるようにしたりと、研究プロセスの効率化に大いに寄与するだろうと指摘しています。
特に、かつては長時間かかっていた論文の執筆から出版までの時間が短縮されることで、将来的には人間社会に良い影響を与えることが期待されています。
LLMs活用における問題点
一方で、現段階でLLMsを研究に活用することに対する懸念を述べています。それは、LLMsの活用によって論文の質と透明性に問題が出てくる可能性があると言うことです。
まず、論文の質についてです。Chat GPT3では、研究論文のレビューは正確に行えないと指摘しています。もちろん、これから発展していくことが考えられますが、今の段階ではまだ課題が多いと言うことです。
一般的な知識については豊富なようですが、特定の分野の研究について掘り下げてみると、かなり不正確で、偏った結果になること、また場合によっては盗用や剽窃になってしまう可能性があることを指摘しています。
例えば、自分の専門領域のある現象に関する具体的エビデンスまでは正確に答えられないと言うことです。
これらの間違いがなぜ起こるのか。
それは、現段階のChatGPTのトレーニングセットの中にその回答に必要な文献や情報が含まれていないからなのだそうです。
このまま会話をChatGPTと続けると、ますます誤った回答を再生産し、拡大することになるようです。
つまり、今のままChatGPTを研究に不用意に使ってしまうと、間違った情報によって影響を受け、そしてそれを自分の考えや論文に取り込んでしまうリスクがあると言うことです。
特に、Chat GPTの出力する文章はとても洗練されており、格調高い文章で、そのために読んだ人は、その内容の正確さを見落とし、その文章力に惑わされてしまう可能性があるそうです。
また、Chat GPTのようなAIはその回答の際に活用したエビデンスをその引用先を明示せずに出力するので、それを活用した研究者は知らないうちに、論文の盗用や剽窃を犯してしまうリスクもあります。
このように、LLMsを活用する研究者はこれらのリスクを念頭においておかねばならないと言うことです。
安易な活用は研究者としての生命にも関わる場合があると言うことですね。LLMsの出す回答について専門家のチェックや妥当性の確認のプロセスが必須だと筆者は言っています。
論文投稿先のルールとその確認
これらか、筆者らは研究者がLLMsを誠実に、透明性を持って使うことが必要であると言います。
そのために、著者たちは、論文投稿時に、自分たちがAIを活用したかどうか、もし活用したのであれば、どのプロセスでどのように活用したかをAuthor contribution statements (著者の貢献)やAcknowledge(謝辞)のセクションに明記することが必要だと主張しています。
たとえば、自分がデータ解析の際にAIを使用した場合、その方法を具体的に述べることが重要です。また論文作成でどの程度LLMsを活用したのかを明記することです。
今の時点では、LLMsが書いた文章をそのまま投稿すべきではないと言われます。しかし、将来WordのようなワードプロセッサーにもLLMsが搭載されてくると、それはそれで異なった判断になるのだろうと思いますが。
しかし、いずれにしても「透明性」が重要であると主張しています。
今後の開発について
開発上の問題点としてはこれらのLLMsのデータセットに何をどの程度使っているのかは、公開されていないところだと言っています。
多様な会社が競って開発をしていますので、企業秘密にもなるのだと思うのです。そこが、研究領域についてAIを使う上では問題である言っています。
どのような論文を活用しているのか、どのような研究者をデータベースに含んでいるのか。その領域領域で質の高い論文を書いている人なのかどうか、そういうことを研究者としては知りたいということですね。
結果、この筆者たちが提案しているのは、LLMsの開発費を大学とかあるいはその非営利組織に投入すること、また開発過程においてどのようなデータセットを構築するのかを、可視化していくことが必要だということです。
つまり開発者と研究者側が協働すると言うことです。そうすることで、開発者が研究者側の持つデータにアクセスが可能となり、より活用しやすい正確性のあるLLMsができるだろうと言っています。
とても、示唆に富む論文でしたので、要約して紹介させていただきました。
ではでは