論文査読や論文の質の向上プロセスにおけるAIの活用とプロンプトについて
査読の業務効率化はAIで図れるか?
英語で論文を書くのも大変なのですが、英語論文を査読するのも大変なのです。
依頼がいきなり飛んできて、納期が短く、自分の専門からは離れたテーマで、しかも数十ページ、査読しても自分の評価向上にはそれほど役立たず、でもコミュニティには貢献する必要があります。
AIを用いて査読ができれば、業務効率化に直結することは間違いない!
今までの業務効率化は、情報システムを組織に導入することや、Excel関数、Gasを使って他のサービスとの連携など、主にルーティンワークを楽にする方法が主流でした。
スタンフォード大学がAIを用いて査読する方法について、専門家(人間)の査読との比較検証を行ったとの記事がありました。
上記の記事を引用しつつ、AI査読のプロセスとプロンプトを備忘録としたいと思います。
LLMを用いて科学的フィードバックを生成する
どうやら、AI査読のプロセスは以下の通りである。
① PDFを用意してChatGPTで要約
② PDFを解析→指示を設計(タイトル、アブストラクト、図や表のキャプション、方法論。。。などその他の腫瘍テキストを解析するための指示)
③ ChatGPT用プロンプト作成→プロンプト投入
④ アウトプットとしてフィードバック(例:研究の重要性や新規性・受け入れるための理由・拒否するための理由・改善の提案など)
論文中の図に記載されたプロンプトは以下のようである。適宜変更して実験してみようと思う。
GPT-4で生成したフィードバックの評価
スタンフォード大の研究では、LLMと人間の査読者のフィードバックの重複を評価するためのコメントマッチングパイプラインを開発した。
提出された論文に対する人間のフィードバックとして、分野の違う2つの大規模データベースを作成し、内容の重複をチェックしている。
第1のデータセット:Nature系列のジャーナルから取得。3096の受理された論文に関する人間の査読者からの8745のコメントを含む。
「Nature」「Nature Biomedical」「 Engineering、Nature Human Behaviour」「Nature Communications」などの15のNature系列のジャーナルが含まれる。
第2のデータセット:コンピュータサイエンスの人工知能研究の主要な会議であるICLRから1709の論文に関する人間の査読者からの6505のコメントを含んでいる。(査読を通らなかった論文のコメントを含む)
調査の結果、LLMによる査読は、人間の査読とほぼ同等であると示された。
特に、査読を通らなかったものほどフィードバックの重複は大きい。
これは、拒否された論文の修正が大きいほど、人間とLLM双方が一貫して特定できる明確な問題点や欠点が多いことを示す。
査読におけるAIの利用
上記の結果は、AIを査読で利用する場合、以下の利用法が考えられる。
1)査読を依頼された際の下読み段階での大きな欠陥の指摘
細かい点は人の目で読む必要があるが、領域違いの論文の査読を依頼された場合などの、初期における大きな欠陥の指摘には業務の効率性が図れる。
2)投稿前にAIを用いてフィードバックを得ることは、研究者自身が論文の質の向上を図る上で有用であろう。
参考文献:
現論文はコチラ
Can large language models provide useful feedback on research papers? A large-scale empirical analysis
Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Smith, Yian Yin, Daniel McFarland, James Zou
https://doi.org/10.48550/arXiv.2310.01783
2023年10月3日公開のホヤホヤ論文。
Cornell大学のリポジトリーに入っていました。著者を見るとほとんどが中国系の名前。。。。
リポジトリー ChatGPTと相談しながら理解していこうと思います。
追伸:
ChatGPTに査読結果の修正におけるChatGPTの活用法について聞いたところ、幾つかのアイデアと共に下記の記述が。
ときには、これが一番重要、かもしれない。
そういえば初期のプロンプト生成に関するネット記事にも(最近もやっているヒトも多いかもしれない?)「やさしく教えてください」とか、「柔らかい表現で教えてください」とかが#アウトプットに入っていました。
そしてデジタル修行は続く。。。