見出し画像

退屈な論文調査はAIにやらせよう ― arXivとChemRxivからの論文自動抽出&要約LLM: PaperBot君の紹介



はじめに

こんにちは。株式会社QunaSys CRSチームの大西です。
今回は、弊社エンジニアが開発した論文調査&要約LLMであるPaperBot君の紹介と、PaperBot君による論文要約の精度についてまとめていきます。最後までお読み頂ければ幸いです!

PaperBot君の機能

1. arXivおよびChemRxivからの論文自動抽出

PaperBot君は、arXivおよびChemRxivから論文の抽出と要約を自動的に行ってくるbotで、弊社Slackチャンネルで日々活躍しています。以下のスクショは、arXivのquant-phからランダムに論文を抽出し、毎日決まった時間に8報の論文を自動的にSlack上のスレッドで教えてくれている様子を写しています。

現在の設定では上から順に、著者・雑誌名・公開年・論文名・論文名(日本語)・キーワード・PDFへのリンク・SciRateを出力してくれます。

PaperBot君による日々の論文自動抽出の様子。

2. 論文の概要を日本語で出力

論文をランダムで抽出して教えてくれるのと同時に、返信スレッドにて論文の要約を日本語で出力してくれます(以下のスクショ画像の右半分を参照)。

コミカル目な感じの日本語で文章を出力するように設定しています。

PaperBot君が自動抽出した論文の要約を出力した様子。

3. 落合陽一フォーマットに基づく詳細な要約の出力

Slackのメッセージ送信欄で/summarize [PDFのURL]を送信すると、落合陽一フォーマットに即した要約を出力してくれます。今回の場合、指示を出してから約6分ほどで要約を出力してくれました。

ユーザーからの指示に基づき、PaperBot君がより詳細な論文の要約を出力した様子。

4. 指定したキーワードに基づく論文自動抽出

PaperBot君に対して、ユーザー側が知りたいキーワードを含む論文を抽出させるように指示を出すことも可能です。

PaperBot君にメンションをしつつキーワードを与えてあげると、そのキーワードを含む論文を探してきてくれます。もちろん、日本語での要約も出力してくれます。

ユーザーからの指示に基づき、PaperBot君がキーワードに関連する論文を自動抽出した様子。

5. 機能のまとめ

このように、PaperBotくんは
1.      arXivおよびChemRxivからの論文自動抽出
2.     論文の概要を日本語で出力
3.     落合陽一フォーマットに基づく詳細な要約の出力
4.     指定したキーワードに基づく論文自動抽出
といった機能を持っています。
 
さて、論文を自動抽出した先にある日本語要約の出力は、どのくらいのレベルなのでしょうか?次章では、出力した要約の内容について筆者自身で確認してみました。

PaperBot君の出力内容を確認

PaperBot君の出力内容と論文との比較

PaperBot君によって抽出してくれた論文「ChemLLM: A Chemical Large Language Model」を用いて、PaperBot君の出力について調べていきます。
 
PaperBotくんは、論文の要約として以下のように出力しました。
(※PaperBot君の出力と対応する原文とを見比べやすくするために、太字と通常フォントで分けています。)

日本語サマリー: 科学界、特に化学の分野での驚くべき進展があったのですが、その中心にいるのが、なんと大規模な言語モデル(LLM)です。これまでの化学における役立ち方といえば、分子の特性予測、分子生成、実験プロトコル設計などの華麗な技術です。しかし、化学に特化した対話型モデルがないという空白地帯がありました。問題は、化学のデータや科学知識が整然としたデータベースに蓄積されていること。この整然としたデータを直接使うことで、モデルが会話を続けるのが難しくなるんですね。ここで颯爽と登場するのが、「テンプレートベースの指示構築法」です。これにより、構造化された知識を普通の会話に変換し、言語モデルの訓練に適した形にしています。この新奇なアプローチを用いて開発されたのが、ChemLLM。化学専用の初の大規模言語モデルで、化学分野の様々な課題に対してスムーズな対話インタラクションを実現しています。化学の3大タスク(名前変換、分子キャプション、反応予測)でGPT-3.5を上回り、そのうち2つではGPT-4をも超える成果を見せています。特筆すべきは、主に化学中心のコーパスで訓練されているにも関わらず、関連する数学や物理のタスクにも驚異的な適応能力を示していること。さらに、ChemLLMは、化学内の特化した自然言語処理タスク、例えば文献翻訳や化学情報学プログラミングにも精通しています。ChemLLMは化学研究内で新たな探索路を開き、構造化された化学知識を対話システムに統合する私たちの方法は、様々な科学分野でLLMを開発するための新しいフロンティアを設定します。コード、データセット、モデルの重みは公開されており、hf.co/AI4Chem/ChemLLM-7B-Chatでアクセスできます。というわけで、化学が苦手だったあなたも、これからはChemLLMのおかげで化学者気分を味わえるかもしれませんね。化学の問題に直面したときは、ChemLLMに相談してみましょう!

対して、論文のAbstractは次のようになっています。
PaperBot君の出力とAbstractのそれぞれにおける、太字と通常字体の文を比較してみましょう。

Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at this http URL.

D. Zhang et al., ChemLLM: A Chemical Large Language Model, arXiv:2402.06852.

いかがでしょうか?

筆者も自分自身でAbstractを読み、PaperBot君が誤ったことを出力していないかを確認しましたが…。完敗です。正しく和訳し、その上でフランクな文章にせよという指示に対しても難なくこなし、理解を促進してくれる文章にしてくれています。

最後に

自動で選定した論文を日本語で要約し、毎朝定時に知らせてくれるなんて驚きです。さらに、Slackで特定のキーワードと共にPaperBot君にメンションするだけで、数分内に関連する論文を選び出し、その要約まで提供してくれます。日々の論文調査において、PaperBot君は強力なサポートを提供してくれます。

大西担当の記事では、今回取り上げた論文「ChemLLM: A Chemical Large Language Model」についての解説を今後行う予定です。
これからも引き続き、よろしくお願いします!