
Deep Researchを使ってみた(1)
2025/02/14
このところ寝ても覚めてもLLMで、考えていたことはほとんど試してみた. 中でも強烈なのはDeep Research である。学問は論文を書くことですすんでいく. 論文の基本はセカンダリーデータとプライマリーデータである。セカンダリーデータとはすでに出版されている学術論文. これをふまえて自分の意見と較べる. 同じ事を言ってはいけない. 自分の意見と人の論文(セカンダリーデーター)の主張の違いをGAPという。ここを見つける. この作業は50年くらい前から、研究者に厳しく要求され、論文を検索する巨大な書籍(Citation Index トップの写真)とメインフレームコンピュータとそれを駆使する「リサーチライブライアン」という人が「リサーチライブラリー」にはいた。 慶應大学は図書館情報学科という専攻があり、ここはとてもすすんでいて、日本には珍しく、大学院生以上が使える「リサーチライブラリー」があった。留学先の大学はライブラリー・オブ・コングレスが使えて、カード検索や紙の検索にくわえてコンピュータ検索も出来た。その操作はブール代数で、慶応の文学部は記号論理学が凄くすすんでいて、その入門の授業はとっていたので、簡単に操作できた.
この動きがコンピュータ化されてインターネットで検索できるようになったのは20年くらい前だと思う. その後Google ScholarやSemantic Scholarというサービスが登場して、インターネット検索ができるようになった. また論文が査読されて掲載される前の状態をプレプリントというのだが、そのデータベースも完備された. 慶応の場合は大学のネットワークにつなげておくと、図書館が契約している学術雑誌の論文はダウンロード出来る.また名誉教授になって大学のネットから離れても、大学の図書館に接続すればアカウントを作ってくれるので、必要な論文を慶応が契約してくれていればダウンロード出来る.
LLMが登場したときは、ここへのアクセスが出来なくて、本格的なリサーチはLLMでは出来なかったが、最近、Deep Research がでてきて、そこがリサーチできるようになった. これはすばらしくて、論文をセカンダリーデータとして駆使して、自分の研究のGAPを明確にすることが出来る. これで一気に本格的論文に向かう体制が出来る.
昨日、文献リサーチをdeep researchを使って、85%ほど行った. さらに、こうして集まった情報をBibtexを使って整理できる。KMDで本格的な研究の訓練が出来る体制を考えたときにどのように文献を整理するかの方向を決めて、時間をかけてそれを当時博士論文を書いていた学生(今は研究者)がBibTexにしてくれた. LaTexという研究論文のフォーマットをきめる方法があって、SFCでは開講当初から学生に教えていて、授業でも使ってきた。そのかたちで論文を整理していかないと、きちんと引用出来ない。そこをきちんと形式をLatexで整理する. 研究室の特徴を出すことも出来る.こうしてまとめた文献整理形式指示のファイルをBibTEXと呼ぶ. このあたり、面倒でそれなりの技法もいる世界なのだが、それもDeep Researchはあっさりとやってくれる.さらにこれを学術研究をするために不可欠な作業用文献リスト作成に使うことも出来る.
この世界は「シカゴスタイル」呼ばれる形式で明確にメタデータが整理されていて、ここに論文をまとめないと引用文献が適切に配置されないので、読んでいて訳が分からなくなる. 僕が博士論文を書いていた45年くらい前は、これをカードをつかって、論文を一つずつカードに書き込んで、それを著者名をアルファベット順にならべて、木の小箱に整理して、40年前に博士論文を仕上げたときには、それを当時登場していたパソコン用の文献リストデータベースに入力して検索できるようにしていた.このあたりは拙著『物書きがコンピュータにであるとき』及び『思考のエンジン』に詳しい.
このあたりの作業が身についていないと、文献と文献の相互引用関係が見えなくなるので、GAP(既存の研究と自分の研究の違い)を明確にして自分の論文の特徴を説明できない.だが、現在は、リストをただ打ち込んでおけば、LLMにシカゴスタイルで整理しておいてと命令すると直ぐ整理したリストを文書にフォーマットして生成してくれる.
そして、ここからが今回紹介するところだが、こうした調査の結果、自分の研究テーマでもっとも近くて最新まで(たとえば2024年まで)の出版の論文がいくつか見つかったとする。すると、その論文のPDFをDeep Resarchに渡して、一つの文献リストにシカゴスタイルでまとめて、というと、ちょっと時間がかかるがまとめてくれる. これも参考文献をカードに写して整理して、みたいな手作業でおこなうと、場合によっては1週間も2週間も整理するのにかかったりした.
こうしてできた作業用の文献リストworking bibliographyがいま手許にある。ここまで小一時間.である。 これから次の作業に入る。まずは論文のPDFを大学の図書館にネットで入ってダウンロードする。 大学がこうした学術出版社と契約をしていれば、そのままダウンロード出来る. この仕組みで、勉強から研究まで支援できるのがこれからの高等教育システムだろうな.この先は専門的になってliterature reviewというものを書いていく.
ここは複雑で、この方法を学ぶのに最低一年くらいかけるのだが、資料をあつめてコピーをとってworking bibliography を作るだけで、何ヶ月もかかる. これをもとに自分の主張に新規性(既存研究とのGAP)があることを示すのだが、この段階で、しかるべき学会のしかるべき論文が集まっていなくてはいけない. 自分の主張の根拠に人の論文を引用する。引用の付け方にもまあ規則はあるがそれほど難しくはない.で、ここでひとの論文を正確に引用しなくてはいけない。論文への引用無しに人の意見を自分の主張として論文を書くことは絶対に行ってはいけない. 引用無しあるいは引用に間違いがあると「剽窃」と言われる.
剽窃をチェックするデータベースがあって、査読のプロセスの終わり頃になって、この剽窃チェックを行い、失格になることもある。自分の論文で過去に同じことを書いていて、新しい論文でそのことに言及していないないと、自己剽窃とされる. これもアウトだ。まあこの手の論文執筆の作業の基本となる文献リスト作成がLLMとdeep researchを使うと、2時間とかで出来てしまう。
LLMが言っていることが本当ではないとかハルシネーションがあるという批判はよく聞く. LLMはデーターの言葉同士の確率的相互関係を見ているので、そこにどんなデータが入っているか、確率的に想定するデータの存在も作り出しているとか、あるだろう。人間の記憶もそうだし、見聞記とかもそのての幻想に満ちているだろう。だが学問ではそこは許されない. 論文として成立している人の論文を正確に引用しながら自分の主張が正しいことを説明していく. そのためには、現物の論文を手許に置いておかなくてはいけない. resarech視点のSemantic researchやGoogle researchはどこにいけば論文が入手できるかまでを教えてくれる.
で、ここが終わって、自分の主張が既存の研究とは違う(GAPがある)と説明できそうだと見当が付いたら、次の段階に入る.それは自分の主張が正しいと、自分のデータ、これをプライマリーデータという、をつかって証明をする. このデータをでっち上げることを「捏造」といい、剽窃もだめだが捏造もだめである。みつかればソク退場である。このことは研究者としての訓練のなかで厳しく指導される. データとしての存在をきちんと説明する方法はいろいろあって、学問によってそのやり方は違う.ここででっち上げがあると、すべてが壊れる. なのでここも論文では、ここを厳密に説明をする.
ノーベル賞をとっても剽窃が疑われるものもあるし、捏造もある。朝起きて研究室にいったらだれかが実験装置を壊していた、みたいなことも起きているだろう. 証拠が破壊されているのだ。いずれにしても存在が証明されているデータを作る.そしてそのデータが正しいと説明する「方法論」を決める.
方法論は帰納法、演繹法などもあればその混合もあるが、実体はかなり奥深いものであって、多くの研究の場合、安易な方法論でデータをつかった理論を正しいと証明しているものが多い. ここは哲学や数学が深く関わってくるところであり、もっともらしく「方法論」を語るエンジニアリングや自然科学、あるいは社会科学の統計的方法があるが、ここで方法論とは何か、という哲学的な議論をしっかりと出来ないと、きちんとした論文は書けない.まあ博士に入った学生にここまでを教えて、一流の学会誌に投稿できるまでに早くて3年、普通は5年かかる。だがこのプロセスをへないと論文は書けない. ここが出来ると、一流の学会誌に論文が採択されるようになる.
ここまで二次資料の整理をLLMがやってくれるとなると、人間はなにをやるのか?論文をみずから書くのである。実はこの作業を一昨日からやっていて、思ったことは、ここまでLLMがやってくれるのなら、論文は人間が書くべきだな、ということだ。論文の構成については、research をしっかりと行ってくれるLLMのアシスタントでおこなうと人間だと半年くらいかっかる作業が二日で出来る。これはびっくりする.でその先の論文は、人間が書くべきだろう.
自分の文体を鍛えて、自分で書く. 膨大な時間がかかる準備は生成AIをリサーチャーとして駆使して行う. そして最期の執筆は自分でする. 二次資料と一次資料を研究室の弟子にそろえさせて、最期の執筆(一番美味しいところを)は人間が行う. だいぶまえに日本のノーベル賞をもらった研究者のエッセイで、セカンダリーデータの調査、テーマの決定、GAPの特定、実験装置の構築、主張の設定、実験データプライマリーデータの獲得までをチームで行い、最期に「こうしたデータを元に、私が論文を書く」とあって、いいとこ取りかよ!!と憤った覚えがある. 理系の研究室あるある、だろう。だが、生成AIにこうした準備をやってもらい、論文執筆を人間がすると考えると、かなりのものが出来る.
というわけで、論文を生成AIではなくて僕がみずからむかしのように書く、という作業をきちんと行って行きたいと思う. できれば共著者にLLMを入れたい.謝辞もしっかりLLMにあたえたいと思うくらいだ。また以上のことはどの論文を参照していくかはRAGに収納して、どのように発想をしていくかはLLMだがこれもローカルにしたい. 研究の新規性を維持するためにもクラウドのLLMに学習させたくはない.
今回は練習なのでクラウドにつなげるが、ローカルのLLMやRAGが研究室や大学には必要になるね. またかつて、博士論文提出資格としてジェネラル試験4つとツール試験という関門があった。くわえて外国語二つ.これはインターディシプリナリー時代の形で、その前はコンプリヘンション試験つまり特定分野の関する試験1つであった。いずれにしても、知識と技法と外国語である。このうち技法と外国語はLLMで化なり代替できる.知識の方は、critical reading、writing、thinkingの試験で、これもまた生成AIと対話すればかなりのところまで短期間でいけることはここ半年LLMを使ってみて実感している.
というわけで、いま説明しているのは学術論文の書き方だが、同じような方法でツールとしての線形代数、統計学、微積分みたいなこともLLMで教えることが(学ぶことが)出来るし、博士論文提出資格試験であるgeneral examは要するに経済史とか、政治哲学とか、民族誌といった学問を複数学ぶことなので、これもLLMで対話式に学習を組み立てることが出来る。すべてLocalな環境で行えば、ハルシネーションの問題はないし、奇妙な知識の結合は、間違っている、のではなくてideationとして捉えて、その論理的実証的な検証をすればいいので、発想のもとになりそうだ。この方向で一年ほど開発を続けたい.ボトムラインは「論文の文章は人間が書こう」である。他をLLMにサポートしてもらう. 次回からぐたいてきなresearchの様子を紹介していきたいと思う。
(この項終了)