見出し画像

巨人の肩の上:大規模言語モデルとのつながり

if I have seen further, it is by standing on the shoulders of giants.

Isaac Newton

研究は先人たちの研究の積み重ねの上にある。研究は既存の研究により構築された学問体系に、新しい知見を付け加え、人類の知の境界線を広げていく営みである。冒頭で引用した“巨人の肩の上に立つ”というフレーズは、このような意味で使われ、フランスの哲学者シャルトルのベルナールが用いたものをアイザック・ニュートンが広めたとされている。

しかし、現代では(ヒトの認知的な限界に照らし合わせると)無数ともいえる研究論文が出版されている。例えば、マウスの神経科学の文献を網羅的に知りたいと考え、論文検索エンジンのPubmedで“mouse neuron”と打ち込んで検索すると、20万以上の文献がヒットする。直近1年に絞っても、1万本以上の文献が出版されていることがわかる。これは1日当たり30本のペースであり、これをすべて把握するのが非常に困難であることがわかるだろう。

このような現状により、行っている研究が、実はすでに似たようなことがなされていたという事態が発生する場合がある。既存の知見の独立した追試により発見の信頼度が上がるため、それも科学的に大事なプロセスではあるが、このような事態が頻発すれば資源の大きな無駄であると言わざる負えないだろう。

大規模言語モデル=具現化された巨人

そこに出てきたのが大規模言語モデルである。ChatGPTにリサーチクエスチョンを投げると、それに関する既存の事実を教えてくれる。ブラウザと接続されたバージョンを使用すれば関連文献を検索してくれる。知らないことを聞くとでっちあげをいうハルシネーションが現状深刻だが、現在の発展スピードから鑑みるに今後数年~十数年で気にならないレベルになるだろう。今までアクセスするのにコストがかかり、ぼんやりとしていた巨人が、大規模言語モデルとしてだれでも簡単にアクセスできる形で具現化された、そのように僕は感じる。

参考文献

生成AIニヒリズムへの処方箋|Readable's Compass
PubMed (nih.gov)

研究は先人たちの知見を基に新たな発見を積み重ねるものであるが、現代では膨大な数の論文が発表され、すべてを把握することは難しい。大規模言語モデルは、既存の知識にアクセスしやすくし、研究の効率化に寄与するが、現状ではハルシネーションの問題が残っている。今後、技術が進展すれば、誰もが巨人の知見に簡単にアクセスできる時代が訪れるだろう。

ChatGPTを用いて要約
サムネイル画像はDALL-Eにより生成