NotebookLMの性能を徹底比較!カスタムメイドRAGと使いやすさを比べてみた
生成AIへの感度が高いみなさんなら、「NotebookLM」はご存知のはず。こちらは、資料ベースでの回答・要約が得られるGoogle発のAIツールで、なんと日本語換算で500,000語分の資料が一度に要約できるという優れものです!
このNotebookLMが登場した際、「RAGシステムを自前で開発・実装する意義が薄れてきたのでは……」と思われた方も、結構いらっしゃるのではないでしょうか?
ですが、そんなことはありません!NotebookLMとカスタムメイドのRAGシステムには、大きなキャラクターの違いがあるんです。
ということで今回は、NotebookLMとカスタムメイドのRAGを徹底比較!機能・利便性の比較はもちろん、実験に基づく性能比較も行っていきます。
完読いただくと、業務スタイルに合ったAIツールの導入方法が見えてくるはず。ぜひ、最後までお読みください!
NotebookLMとは
まずはGoogle発の生成AIツール「NotebookLM」について、概要・機能を紹介!以下、NotebookLMのどこがすごいのかを詳しくみていきましょう。
NotebookLMの概要
「NotebookLM」は、Googleが送るLLM(大規模言語モデル)を搭載したWebサービスです。2023年7月12日・アメリカでの先行リリース後、翌年の2024年6月6日に日本を含む200カ国以上の国と地域で提供が始まり、話題を呼んでいます。
このNotebookLMの概要をひとことで説明すると……
LLMに資料を読み込ませて、その資料についての要約・FAQ・アイデア…etc.が得られるサービス
というもの。そんなNotebookLMが注目される理由としては、
Googleが誇る最新のLLM「Gemini 1.5 Pro」を搭載している
非エンジニアでも資料の引用に基づく回答生成(RAG)ができる
の2点が挙げられます。
とくにGemini 1.5 Proを搭載している、というのが重要で……
Gemini 1.5 Proの特徴
コンテキストウィンドウが1Mトークン(日本語にして500,000語前後!)
テキスト・画像対応のマルチモーダルLLM
計算効率に優れた「MoE / Mixture-of-Experts」アーキテクチャを採用
以上のとおり、膨大な文書についても要約が可能になっているんです!
NotebookLMでできること
NotebookLMの具体的な機能は、以下のとおりになっています。
NotebookLMの機能
最大500,000語まで、日本語の資料が読み込み可
下記のメディア媒体について、読み込み・引用可
Googleドキュメント
PDF
テキストファイル
Googleスライド
URL
下記5種類のテンプレートを完備、ワンクリックでの要約が可能
FAQ:FAQ形式での要約
Study Guide:テスト問題・論述問題・用語集の形式での要約
Table of Contents:複数のテーマに分割後、箇条書きでの要約
Timeline:年代の抽出、時系列・歴史順での要約
Briefing Doc:論述形式での要約
生成時には、引用元の提示が可能
その他、プロンプトに基づく要約・回答生成も可能
このNotebookLMはGoogleによると、資料の読み込み / 情報の整理 / アイデア出し / 共同作業…etc.に使えるとのこと。具体的な活用例を挙げてみると……
会議資料の確認
会議の文字起こし・議事録の要約
FAQの作成
論文・リサーチ業務
テスト問題の作成
ニュースレターの生成
契約書の抜け漏れチェック
などなど、様々な用途に使えそうです。
なお「資料内で文字コードが混在していると文字化けが起きる」「資料内の画像は読み取れない」等、できないこともありますので、その点はご留意ください。
NotebookLMとその他RAGの機能・利便性を比較!
「NotebookLMをそのまま使う」以外にも、LLMに資料・ドキュメントベースの回答をさせる方法があります。それは「RAGシステムを自分で開発・開発する」というものです。
NotebookLMもRAGシステムの一種なのですが、カスタムメイドのRAGシステムとは様々な面で違っていて……
以上のとおりになっています。それでは次の項目で、性能面の違いもみていきましょう!
NotebookLMとその他RAGの性能も比較!
ここからは、NotebookLMとカスタムメイドのRAGシステムの性能面での違いを……
要約の能力
アイデア出しの能力
コーディング能力
上記の項目で徹底比較していきます!まずは肝心な「要約の能力」から、詳しくみていきましょう。
要約の能力
まずは実際に、NotebookLMと自前で用意したRAGシステムを使って、両者の性能差を比較してみます。
今回実験に用いるRAGシステムの内訳は……
RAGシステムの条件(共通)
Google Colaboratory(Colab)とPythonで制作
LLMとデータベースの連携にはLangChainを使用
引用したチャンクの数 / n_results:4(デフォルト)
ベクトルデータベースにはChromaを使用
分割するチャンクの大きさ / chunk_size:1000
チャンク同士の重複 / chunk_overlap:0
エンベディングに使ったモデル:text-embedding-ada-002(Embeddings API)
LLMはChatGPT APIのGPT-4o(gpt-4-0125-preview)を使用
以上のとおりです。基本は上記条件のもと、回答の自由度(temperature)と引用させるテキストを適宜変更します。
ということで早速、NotebookLMと自作RAGシステムとで「要約」の能力を比較していきます。今回両者に引用させるのは……
こちら、「生成AIずかん」全記事のテキストデータ。自作RAGシステムのtemperatureは0.1に設定して、精度重視で比較します。
準備・設定後、以下のプロンプトをNotebookLMと自作RAGシステムに入力してみると……
日本語に対応しているLLMについて、具体的なモデル名を交えて要約して
自作RAGシステムでの回答
「日本語に対応しているLLM(大規模言語モデル)には、複数の具体的なモデルが存在します。その中でも特に注目されているのは、「ELYZA-japanese-Llama-2-70b」と「PLaMo-13B」です。
「ELYZA-japanese-Llama-2-70b」は、700億パラメータを持つ日本語特化のLLMであり、日本語能力が非常に高いとされています。しかし、知識面での不足が指摘されており、複雑なコーディングタスクにおいては他のモデルとの差が顕著になる場合があるようです。
一方、「PLaMo-13B」は、約130億個のパラメータを持ち、日本語と英語に特化した日本発のLLMです。このモデルは、Weblab-10BやLlama 2に匹敵する性能を持つと噂されています。日本語に特化している点が、日本人ユーザーにとって大きなメリットとなっています。
これらのモデルは、生成能力、理解能力、推論能力の向上により、創作活動、情報検索、顧客サービス、教育など様々な分野での活用が期待されています。しかし、バイアスの問題、説明責任の難しさ、セキュリティ問題など、克服すべき課題も存在しています。これらの課題を解決することで、LLMはさらに社会に貢献する技術となるでしょう。」
以上のとおり、要約についてはどちらも問題なくしてくれました。
ですが、引用できたツールの数については、一度に全文を検索できる「NotebookLM」の圧勝。同等の検索能力をもつRAGシステムを作るには……
Gemini 1.5 Pro(API版)
のような1MトークンのコンテキストウィンドウをもつLLMを使うほかなさそうです。
アイデア出しの能力
続いては、NotebookLMと自作RAGシステムのそれぞれに引用ベースでの「アイデア出し」をしてもらいます。
今回も、引用させるのは「生成AIずかん」全記事のテキストデータ。そして、自作RAGシステムのtemperatureは、自由度重視で1.1に設定してみます。その後、下記プロンプトをNotebookLM・自作RAGシステムに投げかけてみると……
画像を加工できる生成AIを使ったビジネスアイデアを考えてください。アイデアについて語るときは具体的にどんなモデルが使えるかも添えること
自作RAGシステムでの回答
「一つのビジネスアイデアは、カスタマイズ可能なプリント商品のEコマースプラットフォームの開発です。このプラットフォームでは、ユーザーが簡単なスケッチやテキストベースの説明をアップロードし、それをもとにして「flowty-realtime-lcm-canvas」モデルを使用して高品質な画像を生成します。生成された画像はTシャツ、マグカップ、キャンバスプリントなど、さまざまな商品に印刷して販売できます。
このアイデアの鍵は、「flowty-realtime-lcm-canvas」が提供するリアルタイムでの画像生成能力で、ユーザーは自分の雑なスケッチからプロ並みの絵を見ることができ、その瞬間の創造性を即座に商品化することができます。ユーザーは生成された画像をリアルタイムでプレビューし、必要に応じて調整や変更を加えることが可能です。これにより、自分だけのオリジナル商品を簡単に、かつ迅速に作成することができます。
また、このプラットフォームはアーティストやデザイナーにとっても有益で、彼らの作品をプロダクトとして直接一般の消費者に届ける新しいチャネルを提供します。さらに、既存のアニメキャラクターや人気のあるデザインを題材にして、合法的な版権許諾を受けたカスタマイズ商品を提供することも可能です。
このビジネスアイデアで重要なのは、ユーザー中心のデザインと、Eコマースプラットフォームの柔軟性です。プラットフォームでは、「flowty-realtime-lcm-canvas」モデルの能力を最大限に活用し、ユーザーが自分自身で簡単に使える、直感的なインターフェースを提供する必要があります。」
今度は自作RAGシステムの圧勝です!引用したAIツールに基づいて、いい感じのビジネスアイデアを出してくれました。
対してNotebookLMでは、「引用元にビジネスアイデアがないので回答不可」との旨を返しています。どうやら、原典に忠実に回答するよう、制約がかけられている様子です。
コーディング能力
今度は「コーディング」でも、NotebookLMと自作RAGシステムの能力を比較してみます。
ここでは引用元を「生成AIずかん」に、自作RAGシステムのtemperatureを0.9に、それぞれ設定。下記のプロンプトを入力してみました。結果は……
LLMについて、用途別で分類を考えてから、関連する具体的なモデル名を挙げてください。なお、出力はマーメイド記法のフローチャートで書くこと。
自作RAGシステムでの回答
graph TD;
LLM(大規模言語モデルLLM)
LLM --> 創作活動
LLM --> 情報検索
LLM --> 顧客サービス
LLM --> 教育
創作活動 --> ELYZA-japanese-Llama[ELYZA-japanese-Llama-2-70b]
情報検索 --> GPT4[GPT-4 Turbo]
顧客サービス --> GPT35[GPT-3.5 Turbo]
教育 --> LLAVAl[LLaVA-1.5 LMM]
このフローチャートは、大規模言語モデル(LLM)の用途別分類と、それに関連する具体的なモデル名をマーメイド記法で示しています。分類された用途は「創作活動」「情報検索」「顧客サービス」「教育」であり、各用途に対して、ELYZA-japanese-Llama-2-70b、GPT-4 Turbo、GPT-3.5 Turbo、LLaVA-1.5 LMMがそれぞれ関連するモデルとして挙げられています。
続いても自作RAGシステムの勝利です!回答の自由度(temperature)を大きめに設定したからか分類は的外れでしたが、それでも自力で考えたのち、コードに起こしてくれています。
ちなみに、自作RAGシステムによるマーメイド記法のコードを、エディターに入力してみると……
お見事!一発でフローチャートの画像に変換できました。
NotebookLMの料金・規約
Googleによると、NotebookLMは「早期テスト段階」とのこと。したがって2024年6月現在、日本国内では完全無料で使えます。ビジネスでもプライベートでも使い放題ですね。
ただし、気をつけていただきたい点もあって……
NotebookLMの規約上の注意点
年齢制限あり(18歳以上)
入出力の内容については、人間のレビュアーによる確認・監視を実施(改善・不正対策のため)
医療・法律・財務・その他の専門分野についての質問は非推奨
他者の著作物のアップロードは基本NG(クラウド上に複製される)
以上のとおり、NotebookLMには各種規約・制限が設けられています。社内の機密情報や購入した電子書籍については、アップロードを控えたほうがよいでしょう。
NotebookLMとRAGはそれぞれ一長一短!
NotebookLMの特徴:膨大な資料を忠実に要約
カスタムメイドのRAGシステムの特徴:アイデア出し / コーディング / 外部ツール連携…etc.応用力が抜群
このように同じRAGシステムでも、全くの別物になっています。両者ともに一長一短ありますので、用途にあわせて選ぶのがベストでしょう!