CBDの正しい知識を広めるための情報プラットフォーム構想(妄想)とChatGPTの活用
CBD部アドベントカレンダー5日目を担当させていただきます!!
錚々たるメンバーの中で一人、無名のひよっこが紛れ込んでしまったのでまず自己紹介をさせてください。
Twitter上で@GixTanvという名前でADHDあるあるを適当につぶやいたり、CBN/CBGリキッドをメルカリやECサイトで販売している株式会社ENFRIARTEのがっちゃんというものです。
商品情報やプレゼント企画等はこちらのアカウントで発信しています。
とは言いつつも現在は主にマカロニCBDの運営をサポートさせていただいており、現在はそちらの業務に時間を割くことが多くなっています。
2023年4月14日にマカロニCBDが設立2周年を迎えるということで、2周年記念イベントを企画中ですので、こちらも振るってご参加いただけると幸いです。近日中に詳細など告知できればと思います。
また、余談ですが、昨年このアドベントカレンダーに参加させていただいたのが、CBD部さんとの出会いのキッカケで、そのときやりとりさせていただいたまさきさんと今一緒にお仕事させていただいているので、そんなことを思い返すとなんだか感慨深いものはあります笑
流れ
それはそうと、早速ですが記事の流れですが、
今まで書いた記事の概要【宣伝】
CBD関連の情報収集の難しさ
ChatGPTは解決策になりうるのか
こんな情報プラットフォームがあったらいいな【妄想】
といったコンテンツでお送りします。いつも記事が長くて読みづらいと評判なので、適度に読み飛ばしていただけると幸いです。
今まで書いた記事の概要【宣伝】
CBD関連の情報収集って難しい
消費者としてCBD関連製品に接していたころから感じていたのですが、CBD関連の知識を得るのって難しくないですか?笑
CBD部さんが運営しているグループチャットでも初心者らしき方がCBDの安全性や、どこで買えばよいかなどを尋ねているところを時々目にしますが、必ずしも満足のいく回答を得られていないように感じます。
情報収集の難しさの要因は数多くあると思いますが、たとえば
ある事柄に対してそもそもの認識/説明が事業者によって異なっていたり、国内と国外で同じ単語が異なる意味合いで使われている
コミュニティ内で行われた議論の蓄積がどこで行われているのか少し見えずらい
常に新しい情報、成分(CBDからは離れてしまいますが)、論文情報が共有され、その膨大な情報に対してファクトチェックをする時間も人材も足りない、、
今流行のChatGPTで情報収集できるのか
はじめに
ということで??、今話題のChatGPTを使ってCBDに関する情報収集の難しさは解決できるのか、基礎的な知識の収集と専門的な知識を得るのに活用可能なツールになりえるのか、という観点で我々なりに検証してみました。
ChatGPT(gpt-3.5)は論文を読めるのか、に関してはChatGPTの限界値を興味深い形で示せたと思っていますが、少し専門的な内容も含むので、初めは読み飛ばしていただくのが良いかもしれません。
ChatGPTの使い方
先ずは公式のドキュメンテーションを確認して、ChatGPTの使い方を簡単に説明します。
OpenAIはChatGPTの能力を示す4つのサンプルユースケースを提供しています。
コードのデバッグ(これは本当に革命)
他人の家に侵入する方法についての質問に答える
フェルマーの小定理の定義を説明し、リメリックを書き、対話をまとめる
日常のシナリオに基づいたメモを書く
これらのユースケースは、従来の多くのチャットAIとは異なり、ChatGPTが過去のやりとりに基づいて回答できることを示しています。またOpenAIは不適切な情報の提供(例:違法行為)を拒否するようにするための努力をしているのもわかります。
本記事では、ChatGPTを活用してCBDに関連する信頼性の高い情報を得ることができるのか、というを検証しています。
ChatGPT(gpt-3.5)は論文を読めるのか?
結論から先に申し上げますと、現在(2023/03/28時点)無料アカウントで使えるモデル:gpt-3.5では論文の情報を効率的に得るのは難しいのではと感じています。
論文中の重要な情報の抽出
ChatGPTがCBD関連の論文を読む際のパフォーマンスを確認してみます。例として、「Phylogenomic and chemotaxonomic analysis of the endocannabinoid system」という名前の論文をChatGPTにリンクを提供する形で、要点の抽出をお願いしてみました。
参照先のリンクは、以下です:https://www.sciencedirect.com/science/article/abs/pii/S0165017304000037?via%3Dihub
ChatGPTは全く異なるタイトル「Cannabidiol: An Overview of Some Pharmacological だけでなく、著者名やジャーナル名も全て誤っています。
では、正しく要点を抽出してくれているでしょうか?以下の論文の要約と比較してみましょう。
VR1, FAAH, MGLなどのabstractにあるキーワードは、ChatGPTの答えには存在しません。ChatGPTが抽出した要点はあきらかに別の話題であり、ChatGPTによってしめされた要点も単なる入門レベルに過ぎません。CBDに関する書籍を読んだことがあれば、(たとえば”CBDのすべて”など)既知の情報が羅列されており、この論文から得たい情報を得ることはできなさそうです。
それでは、なぜChatGPTがそのようなことを言ったのでしょうか。
まず考えられるのは、アクセスの問題です。おそらくChatGPTはリンクにアクセスができず、適当な情報を出力したのかもしれません。 ※リンクはScienceDirectのものですが、機関アカウントがない場合はGoogle Scholarからダウンロードすることをお勧めします。
次の試みとして論文のPDFファイルを提供します。
OpenAIのユースケースで示されている通りChatGPTは会話を要約することが可能なので、より長いテキスト(論文)をまとめることも可能と考えてみます。
※ChatGPTにどうやってPDFファイルを共有すればよいか聞いたら、Google Driveなどのオンラインファイル共有プラットフォームにアップロードして、そのリンクを共有すれば大丈夫という回答があったので、その通りに従っています。
PDFファイルに興味がある方は、こちらのGoogle Driveリンクからダウンロードできます:https://drive.google.com/open?id=1_Q5tagPl25PLPzgY2g6CXcuRasBw4AJc&authuser=kyotagahara@gmail.com&usp=drive_fs
ChatGPTが提供した論文にアクセスできることを確認できたので、今回得られた回答を見てみましょう。
タイトル、著者、ジャーナルの名前:1回目と若干異なるが、まだ誤りがある
要点の抽出結果に関してもほぼ1回目と同じ、、、
それでは、、、
英語の論文の要約としてChatGPTを利用できない場合、日本語に翻訳してもらうのはどうでしょう?Google翻訳よりも優れているかもしれません。
同じGoogle Driveリンクを使用して、論文の翻訳をお願いしてみました。
論文はAIについてではないので、
ということでした。
明らかになったのは、ChatGPTは学術論文を要約するために使うことはできないということです。より正確には、ChatGPTはハイパーリンクまたはPDFファイルによって提供された情報を実際に処理するわけではなく、トレーニングデータに基づいて回答を作り出しているようです。(おそらく要点の抽出もそこから来ているのでしょう。)
論文は単に長いテキストで、会話を形成するのもテキストです。ChatGPTが会話を高度に理解できることから、言語処理には長けているように見えます。
そこで、公式のドキュメントにまた立ち返ります。
2021年以後の世界やイベントに関する知識が限られている。
もう少し調べてみたところ、ChatGPTはインターネットに接続されていないことがわかりました。
したがって、ChatGPTが「はい、お手伝いできます。PDFファイルのリンクを提供してください。」と答えたとき、まんまとだまされていたことがわかりました。
すごい回り道でしたが、問題がどこにあるかはわかりました。
それでは、PDFファイルからテキストを抽出してChatGPTに送信すれば大丈夫なはずです。しかし、そこでまた別の問題が発生します。
最新のGPT-4では、学術論文のテキスト量(10ページ程度?)が処理可能である一方、無料アカウントで利用可能なGPT-3.5では制約を超えてしまいました。。。
以下のテキストを基に、キーワードAとキーワードBの関係を説明してください
GPT-3.5を使って論文の全文は処理することはできませんでしたが、ChatGPTが提示されたテキストを正しく理解できるかどうか、それをどうやって確かめるのか。
そこで検証してみたのはキーワード間の関係性の理解力の検証です。
実際に論文を読むとき、キーワードAについてはある程度知っており、キーワードBやキーワードCは理解できていないパターンがあるかと思います。
そこで、もしChatGPTが論文内の情報に基づいて、キーワードAとキーワードB、Cの関係性をまとめてくれて、理解したいキーワードB、Cを理解するうえで役に立ちそうであればその論文を深掘りし、そうでなければ別の論文を読む。ということができれば時間の節約に繋がる、便利に使えるのではと期待しました。
また、キーワード間の関係は長文読解の問題としてよく出題される問題でもあるので、ChatGPTの論文理解度テストの視点からも相応しいと思いました。
質問:以下の情報に基づいて、VR1とCB受容体の関係を説明できますか?(abstract添付)
abstractを基に自分が作成したチャートは以下になります。(間違っていたらすみません、、、)
このチャートとChatGPTの回答を比較して、以下のChatGPTの出力と提供した情報が重複している部分を太字で示します。
↑から分かるように、半分以上は元のabstractにない内容です、恐らくデータセットからのものでしょう。abstractに書かれていた「VR1がCB受容体を捕食する可能性」について、ChatGPTの回答にはありませんでした。
ここまで見ると、「元のテキストにない内容は信頼できますか?参考文献はありますか?」という点が気になるかもしれません。今回のケースでは、それらは信頼できるように見えます。たとえば、論文内でVR1のキーワードを検索すると、次のように記載されています。
また、ChatGPTに参考文献を尋ねることで、以下の情報を得ることができます。
まとめると、提供したテキストに基づいてキーワードAとキーワードB、Cの関係について尋ねたとしても、ChatGPTはデータセットに基づいて、いくつかの追加情報を混じえて回答する可能性があるため、注意が必要です。そのようなケースを避けるために、ONLYのようなキーワードを追加することは有効かもしれません。
CBDに関する基礎的な質問をしてみよう
しっかりと他の薬剤との相互作用も言及されておりますね。賢さを感じます笑
Referenceについても提示してくれます。ただ先ほど説明した通り、インターネットに接続できないので、ウェブサイトのページが存在しない場合もあります(例えば一番目の以下リンクは存在しませんでした:https://www.who.int/medicines/access/controlled-substances/CannabidiolCriticalReview.pdf)
まとめ
ChatGPTはあたかもインターネットに接続されているように振る舞いますが、接続されていません。そのため、得られる回答は提供されたテキストから処理されるか、または2021年までのデータセットに基づいています。
GPT-4 generally lacks knowledge of events that have occurred after the vast majority of its data cuts off (September 2021), and does not learn from its experience.(出典:https://openai.com/research/gpt-4)GPT-3.5はトークンの制限により10ページの論文を処理できませんでしたが、GPT-4.0を使えば、処理できることが期待できます。
提供されたテキストに基づいてものの関係を説明するように求められた場合、ChatGPTはデータセットによる情報に基づいて追加情報を混じえて回答する場合があります。
ChatGPTは回答の参考資料を提供してくれます。ただし、インターネットに接続していないので、リンク先のページが存在しないケースもあります。
こんなCBD関連情報プラットフォームがあったらいいな
ChatGPTに関しては一定活用する余地があることがわかりましたが、はじめに述べた認識の齟齬によって消費者が混乱してしまう問題や、過去に起こった問題や情報の蓄積が見えにくいという問題の解決策にはならないという所感を得ました。
そこで、かねてよりひっそりと計画を練っている、こんな情報プラットフォームがあったらいなという妄想を少し具体化してみることにしました。
以下3/28日の22時を迎え締め切りが近づいていることもあり、少々雑になってしまいますがお許しください。
コンテンツ
CBD関連用語データベース
完全にイメージと一致しているわけではないのですが、例としてこちらのような、ものがあると、自分がCBDを知った当初を振り返ると嬉しいなーと思っています。
似たようなデータベースの構築を社内で試験運用しているので、その運用方法について次のセクションで説明します。セグメント別の優良記事まとめ
初心者向け、消費者向け、事業者向け、自作したい人など各セグメントごとにニーズのありそうな記事をまとめて、提供します。
CBD界隈にたくさんある優良な記事をカテゴリーに分けて整理するだけで、価値はあるのではと感じています。CBDに関する最新の情報、研究動向
カンナビノイド関連の最新の動向や専門的な情報の提供を目的に情報を発信します。よくあるQ&Aのまとめ
これは同じ質問に繰り返し答えているであろう事業者さん同士で協力して、集約していければ、各事業者にとっても消費者にとってもwin-winではないでしょうか。
CBD関連用語データベース運用方法
ENFRIARTEでは細々と以下のようなフローでデータベースの構築を目指して試験運用しています。
運用方針としては、
記事の正しさをチェックするレビュアーを配置し、その人の責任をもって情報の信頼性を担保すること。
その解説は誰にとっての、何に基づいた認識なのかを明らかにすること
です。
専門用語の整理や共通認識をもつことを目的として、整理しているデータベースを例にすると以下のイメージになります。
激しい妄想ですが、有志の方にも協力していただいて、データべースを充実させることができたら幸せこの上ないです。
運用するとしたらこんな課題がありそう
情報の信頼性の高さを維持しつつ、スケールするため(情報の網羅性を高めるため)の協力者の確保
現状社内で気が向いたときに細々と進めていますが、情報の網羅性/信頼性を高めるためには、協力者が必要になります。 しかし、CBDに関する情報を正確に提供できる人材の確保やそういった方々に協力していただくモチベーションを提供するのが難しそうですよね。業界内での認識の異なる用語に対する対処
CBDに関する専門用語については、認識の異なる場合が頻繁にあるように感じます。このような場合、どのように説明するかが非常に難しい一方で、消費者が知りたい情報といえるのではと考えています。
解決策を一緒に考えてください笑
色々と解決策は考えていて、社内でも議論を進めていますが、、、同時にアイデア募集中です!
情報の公平性の観点からも理想は自治的に進められていくことだとは思いますが、どこかが資本を投じて、主体性をもって進めることが少なくとも初期においては必要になると思います。
そのプラットフォームが情報の信頼性と網羅性が高まり、こんな風になると嬉しいなという妄想
CBDの初心者がまず初めに訪れて基礎知識を身に着ける場所になる。
商品説明の際にこの定義に沿ってCBDブロードスペクトラムと分類しています。といったように消費者に対して説明するうえでの参照元になる。
この情報プラットフォームの発展に貢献することによってCBDコミュニティへの帰属意識を高められる。
まとめ
こんなプラットフォームがあったらいいなーと思いながら細々と活動していますが、時間もお金も根性もたりないので、我こそはという方がいれば協力していただけると嬉しいです。
私の知らないところでできてました!ってなったら一番うれしいです!(人任せ、笑)
編集後記
偉そうなことを言いながら、行動力も知識も経験も心許ない若輩者ですが、CBD市場を盛り上げようと尽力されている皆様のお力になれればとたまーには思うことがあるので、ぜひ今後ともよろしくお願いします!!
また、複雑な理由からCBD業界特有の課題は数多くあると感じますが、少し俯瞰して、他の業界や他国の事例を見てみると、解決策のヒントとなる試みや、成功例を見つけられることが多いように感じています。
CBD市場をよくしたいと考えられている皆様と一緒に長期的な目線で、全体最適解を考えていけるようなそんな雰囲気が醸成されつつあるなーと強く感じるとともに、その雰囲気づくり、CBD市場の発展においてCBD部さんの影響力、貢献は非常に大きいなーと尊敬するばかりです。
引き続きお付き合いのほどよろしくお願いします