科学者とAI【翻訳記事】
~研究論文執筆の1割をLLMがお助け~
The Economist, Jun 29th - July 5th 2024
「確かに、君の題材にありうべき序論だ…」
科学雑誌サーフェス・アンド・インターフェースに最近掲載された記事の冒頭だ。注意深い(attentive)読者であればその不自然な書き始め(that bizarre opening line)が正確に誰に向けたものなのか訝しく思ったかもしれない。そして、続くバッテリー技術についての文章を書いたのが人間なのか機械なのか疑念を抱いただろう。
これまでになく多くの科学誌の読者が疑問を口にしている。LLMは科学の論文を書く手助けになるのに十分というより優れているのかと(are now more than good enough)。LLMはしっかりした科学的な散文(prose)に命を吹き込み、特に非英語話者にとって、起草過程を加速させる。このような利用方法にはリスクもある。例えばLLMはバイアスを再生産することにある意味影響を受けやすく(susceptible)、もっともらしい無意味な文章(plausible nonsense)を大量生産(churn out)させ得る。この問題は広く認識されているにもかかわらず、未だに不透明だ。
最近arXiv(コンピュータサイエンス、数学、統計学、物理学等の分野における世界最大のプレプリントのサーバー)に投稿されたプレプリント(査読前の論文)で、独テュービンゲン大と米ノースウェスタン大に拠点を置く研究者らはいくらかの明晰(clarity)を提供した。彼らの研究は、―査読(peer review)されていないが―、少なくとも新規で発表される論文の10のうち1つはLLMで生成される内容を含んでいるという。それはつまり、100,000を超える論文が今年だけで発表されるということを意味する。そしてこれは最も少なく見積もった値(a lower bound)だ。コンピューターサイエンスのようないくつかの分野では、20%を超える研究抄録(abstracts)がLLM生成のコンテンツを含んでいると予想されている。中国のコンピューターサイエンス学者による論文の中で言えば、その数は3つに1つだ。
LLM生成の文章を探し出す(spot)のは容易ではない。研究者たちは通常、次のいずれかの方法に頼ってきた(have typically relied on one of two methods)。人間の散文の語り口のリズムを見分けられるよう訓練された探知アルゴリズムと、LLMが好むと疑われる単語の不釣り合い(disproportionately)を嗅ぎ分けるより直接的なアプローチだ。いずれの方法も人間が書いた文章の塊とLLMが書いたそれを実際に観測したデータ(ground-truth data)に頼っている。これらのデータを揃えることは驚くほど難しい。人の文章と機械によって書かれた文章はいずれも時間と共に変化する。言語が進化し、モデルがアップデートされるように。更に、研究者たちはLLMのテキストを、言語モデルそれ自体をプロンプトすることで集めるのが常だ。おそらくこの方法は科学者たちの振舞いとは異なっている。
独テュービンゲン大学のドミトリー・コバクと彼の同僚による最新の研究は、実際に観測してデータを集めることを必要としない第3の方法を示した。彼らのチームのやり方は、過剰死に関する人口統計上の取り組み―予想された死亡者数と実際の死亡者数の差を調査することで、ある出来事に関連した死亡率を確かめることを可能にする―にインスピレーションを受けたものだ。ちょうど過剰死亡調査手法が死亡率の異常値を見つけ出すように、彼らの過剰ボキャブラリー調査手法は単語使用の異常値を見つけ出す。具体的には、研究者たちは抄録に出てくる単語の中で、既存の文献に比して出現度が以上に高い単語を探していた。
彼らが分析のために選んだコーパスの中身は、2010年1月から2024年3月の間に発刊された1千420万件もあるバイオメディカル分野の検索エンジンであるPubMed上の全ての英語の論文だ。
研究者たちは単語の使われ方はほとんどの年で比較的に一定であることを発見した。2013~19年で予想を1%でも上回るような単語の使用頻度の増加があった年は一度もなかった(in no year from 2013-19 did a word increase in frequency beyond expectation by more than 1%)。変化があったのは2020年だった。「SARS」、「コロナウイルス」、「パンデミック」、「病気」、「患者」、そして「重症(severe)」といった単語が爆発的に増えた。(コロナ関連の単語は2022年まで非常に高いレベルで使用され続けている(covid-related words continued to merit abnormally high usage until 2022))
ChatGPTのようなLLMが広く一般に使用可能となってから約1年後の2024年初からまた別の単語群の使用が急に高まった(took off)。2013~2024年の間で顕著な使用の増加を示した774個の単語の内、329単語の使用は2024年の最初の3ヶ月に急上昇したのだ。280単語は、内容の問題というよりは、完全に文体に関わっていた。注目すべき例の中には、「掘り下げる(delve)」、「見込みがある(potential)」、「複合的な(intricate)」、「几帳面に(meticulously)」、「重要な(crucial)」、「特筆すべき(significant)」そして、「洞察(insight)」などが含まれる。
研究者ら曰く、この現象の一番もっともらしい理由は、LLMのアシスタントがあるということだ。彼らが少なくとも一つの過剰に使用される単語(どのみち広く一般に使われる単語を除外したものだ)を使った抄録のシェアを試算したとき、彼らはLLMからのインプットは少なくとも10%にのぼること発見した。PubMedが年間およそ150万の論文を登録する(indexes annually)に伴い、150,000もの論文がLLMの手助けを借りながら書かれていることを意味する。
この傾向はある特定の分野で、他の分野よりも広まっていると見られている。研究者ら曰く、コンピューターサイエンスでは最多で20%超えな一方、エコロジーは最も少なく5%未満だ。これは地域別にも異なり、台湾、韓国、インドネシア、そして中国出身の研究者が最も高い使用頻度だったのに対し、英国とニュージーランドの研究者の使用進度は最も低かった(その他の英語圏の国々の研究者らの使用率は低かった)。各ジャーナルによっても、その結果が異なる。ネイチャー紙系列の権威的なジャーナルやサイエンス紙、セル紙では低いLLM使用率が見られた(10%以下)のに対し、センサー紙では24%を超えた。
このような特定の語彙の過剰な使用という結果は、もっと少ないサンプルから分析をしていた過去の検知アルゴリズムの結果ともおおよそ一致する(are roughly consistent with)。例えば、2024年4月に発表された査読前の論文(preprint)についてスタンフォード大学のチームは、コンピューターサイエンスの抄録における17.5%の文章がLLMによって生成されたとみられることを発見した。彼らはまた、ネイチャー紙の出版物と数学界の論文におけるLLMの普及率の低さにも気づいた(LLMは数学が苦手なのだ)。過剰な使用率を見せる語彙群は、既存の疑わしいワードリストとも一致する。
このような結果は決して驚くべきものではないはずだ。研究者らは日常的に論文を執筆するためにLLMの使用を認めている。1,600もの研究者を対象にした2023年9月のある調査では、25%以上の研究者が原稿を作成するのにLLMを使っていることをネイチャー紙に伝えている。自らの研究のためにAIを勉強もしくは利用しているインタビュー対象者らのメリットで最も多かったのは、英語が第一言語でない研究者らにとって文章を編集したり翻訳するための手助けをしてくれるということだった。素早く、そして容易にコーディングをしてくれるというのが、管理上のタスクを単純化してくれるということや、特定の文献を全確認したり(trawling)要約してくれて研究の原稿を書くのを効果的に(tellingly)スピードアップしてくれるという回答と並んでその次に多かった(came joint second)。
これらいずれのメリット(benefit)のためにLLMを利用することも、リスクと無縁ではない。科学論文は不確定さにおける正確な情報の伝達(the precise communication of uncertainty)、―例えばLLMの能力にまだ疑問が持たれている(remain murky)分野―に頼っている。LLMは自信満々にファンタジーを語るが、幻覚というべきものもまだまだ普通にあり、他の人の言葉をコンテキストから切り離して逐語的に受け売りすることも多い。
LLMはその分野において引用数が多い論文を好んで参照している(preferentially cite)ことから、既存のバイアスを強要し創造性を制限する可能性がある(potentially reinforcing existing biases and limiting creativity)ことを研究は示唆している。アルゴリズムのように、LLMは著者のように論文に記載されることもなく、誤った記述に対して責任を持つこともしない。おそらく最も懸念されるのは、LLMが文章を大量生産する速度にあわせ、科学界が低質な出版物で溢れかえるリスクに晒されるということである。
LLMの使用に関する学界のポリシーは定まっていない(are flux)。完全にその使用を禁止しているジャーナルもいくつかあるが、方針を変えたジャーナルもある。2023年11月までサイエンス紙は、「究極的には全ての作成物は私たちの頭の中にある素晴らしいコンピューターから出力され、表現されるべき」だとして全てのLLMの文章を剽窃だと断言していた(label as plagiarism)。カバーレターも含めて、論文の中でどのようにLLMが使われたかを詳細に記載する条件でLLMの使用を許可する方針に、彼らはポリシーを修正した。ネイチャー紙とセル紙も、その使用が明記されている限りLLMの使用を認めた。
どれほどそのポリシーが、強制性があるか(enforceable)は不透明だ。今のところ、LLMの文章を一掃できるような信頼できる方法は存在しない。過剰ボキャブラリー調査法ですら、―大まかなトレンドを指摘するのには有効ではあるが―特定の抄録にLLMの文章が含まれているか否かを判断することはできない(cannot tell if)。それに、研究者らは特定の語彙を検知されるのを避けるために使わないだけですむ。新たなプレプリントがそうするように、これは「几帳面に(meticulously)」「掘り下げられる(be delved into)」べき課題なのだ。