はじめに
こんにちは。株式会社QunaSys CRSチームの大西です。
今回は、弊社エンジニアが開発した論文調査&要約LLMであるPaperBot君の紹介と、PaperBot君による論文要約の精度についてまとめていきます。最後までお読み頂ければ幸いです!
PaperBot君の機能
1. arXivおよびChemRxivからの論文自動抽出
PaperBot君は、arXivおよびChemRxivから論文の抽出と要約を自動的に行ってくるbotで、弊社Slackチャンネルで日々活躍しています。以下のスクショは、arXivのquant-phからランダムに論文を抽出し、毎日決まった時間に8報の論文を自動的にSlack上のスレッドで教えてくれている様子を写しています。
現在の設定では上から順に、著者・雑誌名・公開年・論文名・論文名(日本語)・キーワード・PDFへのリンク・SciRateを出力してくれます。
2. 論文の概要を日本語で出力
論文をランダムで抽出して教えてくれるのと同時に、返信スレッドにて論文の要約を日本語で出力してくれます(以下のスクショ画像の右半分を参照)。
コミカル目な感じの日本語で文章を出力するように設定しています。
3. 落合陽一フォーマットに基づく詳細な要約の出力
Slackのメッセージ送信欄で/summarize [PDFのURL]を送信すると、落合陽一フォーマットに即した要約を出力してくれます。今回の場合、指示を出してから約6分ほどで要約を出力してくれました。
4. 指定したキーワードに基づく論文自動抽出
PaperBot君に対して、ユーザー側が知りたいキーワードを含む論文を抽出させるように指示を出すことも可能です。
PaperBot君にメンションをしつつキーワードを与えてあげると、そのキーワードを含む論文を探してきてくれます。もちろん、日本語での要約も出力してくれます。
5. 機能のまとめ
このように、PaperBotくんは
1. arXivおよびChemRxivからの論文自動抽出
2. 論文の概要を日本語で出力
3. 落合陽一フォーマットに基づく詳細な要約の出力
4. 指定したキーワードに基づく論文自動抽出
といった機能を持っています。
さて、論文を自動抽出した先にある日本語要約の出力は、どのくらいのレベルなのでしょうか?次章では、出力した要約の内容について筆者自身で確認してみました。
PaperBot君の出力内容を確認
PaperBot君の出力内容と論文との比較
PaperBot君によって抽出してくれた論文「ChemLLM: A Chemical Large Language Model」を用いて、PaperBot君の出力について調べていきます。
PaperBotくんは、論文の要約として以下のように出力しました。
(※PaperBot君の出力と対応する原文とを見比べやすくするために、太字と通常フォントで分けています。)
対して、論文のAbstractは次のようになっています。
PaperBot君の出力とAbstractのそれぞれにおける、太字と通常字体の文を比較してみましょう。
いかがでしょうか?
筆者も自分自身でAbstractを読み、PaperBot君が誤ったことを出力していないかを確認しましたが…。完敗です。正しく和訳し、その上でフランクな文章にせよという指示に対しても難なくこなし、理解を促進してくれる文章にしてくれています。
最後に
自動で選定した論文を日本語で要約し、毎朝定時に知らせてくれるなんて驚きです。さらに、Slackで特定のキーワードと共にPaperBot君にメンションするだけで、数分内に関連する論文を選び出し、その要約まで提供してくれます。日々の論文調査において、PaperBot君は強力なサポートを提供してくれます。
大西担当の記事では、今回取り上げた論文「ChemLLM: A Chemical Large Language Model」についての解説を今後行う予定です。
これからも引き続き、よろしくお願いします!