【分析】デジタルMATSUMOTOの考察(2025/1/18)ずっと見たくなかった最後の007
デジタルMATSUMOTOが作成した考察記事に対して「独自性」「実現性(リアル松本らしさ)」「知識活用性」の3点で分析を行っています。
分析指標の説明
デジタルMATUSMOTOの考察記事を以下の3点で分析しています。
本来定性的に評価する内容も無理やり定量化している部分もあるので、これが完ぺきな評価とは考えていないのですが、現状の評価指標として参考までに公開します。
A. 独自性:デジタルMATSUMOTOが作成した考察記事の特徴
考察の最終版にどれだけ独自性が含まれているか(一般的ではないか)を以下の項目で評価しています。
①独自性(スコア:0.184)
考察の最終版が通常のLLMで作成した考察とどれくらい異なるか(OpenAIのEmbeddingモデルでベクトル化してコサイン距離を算出)
②独自キーワード(スコア:0.136)
特徴的なキーワードの割合(これまで作成した考察を含めて、今回作成した考察記事に含まれるキーワード(TF-IDF)Top10の内、通常のLLMで作成した考察に含まれていないキーワード数)
B. 実現性:どれだけ「松本らしさ」を実現できているか?
デジタルMATSUMOTOが考察のドラフト時点でどれくらい「松本らしさ」を実現できていたかを以下の項目で評価しています。
①リアル松本の楽度(スコア:0.1)C🥉
デジタルMATSUMOTOが作成した考察のドラフトからの修正度合でPerfect~Eでランク付け(≒リアル松本による修正作業の負担)
②実現度合(スコア:0.983)
デジタルMATSUMOTOが作成した考察のドラフトと最終版のテキスト類似度を算出することで、ドラフトの時点で本来期待する考察がどれくらい実現されていたかを評価
③論点再現度(スコア:0.0)
デジタルMATSUMOTOが作成した考察のドラフトにおいて、リアル松本が含めて欲しかった論点の再現割合を評価
C. 知識活用性:知識がどのように活用されたか?
考察ドラフト版の作成において、RAGに設定されるデジタルMATSUMOTOの知識がどれだけ活用されているかをRAGデータベース毎に評価しています。
①知識活用度(Opinion)(スコア:0.179)
RAGデータ「Opinion」における知識参照度(質問とキーテキストの類似度)と知識活用度(回答とコンテキストの類似度)
②知識活用度(Policy)(スコア:0.083)
RAGデータ「Policy」における知識参照度(質問とキーテキストの類似度)と知識活用度(回答とコンテキストの類似度)
③知識活用度(Communication)(スコア:0.201)
RAGデータ「Communication」における知識参照度(質問とキーテキストの類似度)と知識活用度(回答とコンテキストの類似度)
分析対象:デジタルMATSUMOTOの考察記事
リアル松本からのお題
デジタルMATSUMOTOの考察(最終版)
A. 独自性
デジタルMATSUMOTOが作成した考察の最終版にどれだけ独自性が含まれているか(一般的ではないか)を評価します。
①独自性(スコア:0.184)
考察の最終版が通常のLLMで作成した考察とどれくらい異なるかを、OpenAIのEmbeddingモデルでベクトル化してコサイン距離を算出します。
通常のLLMで作成した考察は以下になりますが、これを考察の最終版とのコサイン距離を測ると【0.184】になります。
ちなみに、リアル松本によるコメント等を含みますが、考察ドラフト版とのコサイン距離は【0.188】であり、修正によって【-0.004】だけ独自性が変化しています。
ちなみにデジタルMATSUMOTOと通常LLMの考察を、別セッションのLLMで比較評価してもらっています。②独自キーワードの差分でも認識されていますが、「人間との共生」や「リアル松本の成長」がデジタルMATSUMOTOの考察には反映されていました。
②独自キーワード(スコア:0.136)
特徴的なキーワードの割合(これまで作成した考察を含めて、今回作成した考察記事に含まれるキーワード(TF-IDF)Top10の内、通常のLLMで作成した考察に含まれていないキーワード数)を算出します。
これまで作成してきた考察記事を含めて、今回の記事に含まれる特徴的なキーワードをTF-IDFで検討します。
記事のテーマの通り、007、ボンド、作品、ダニエル、クレイグといったキーワードがTF-IDFに現れていますね。
TF-IDF値のTop10は以下の通りです。その中でデジタルMATSUMOTOの考察にのみ含まれていた独自キーワードを太字🤖にしています。
Top10キーワードのTF-IDF値の合計(A)は【2.523】
独自キーワードのTF-IDF値の合計(B)は【0.343】
独自キーワードのTF-IDF値合計の割合(B/A)は【0.136】となりました
ボンド:0.4273099388
007:0.3435043276🤖
感情:0.2638256765
作品:0.2308474669
クレイグ:0.229002885
ダニエル:0.229002885
版:0.229002885
松本:0.2044004943
リアル:0.1944576714
タイム・トゥ・ダイ:0.1717521638
B. 実現性
今回のデジタルMATSUMOTOが考察のドラフト時点で、どれくらい「松本らしさ」が実現できていたかを評価します。
①リアル松本の楽度(スコア:0.1)=ランク:C🥉
デジタルMATSUMOTOが考察のドラフトを作成してからの修正を以下のようにランク付け(≒リアル松本による修正作業の負担)しています。
評価結果は「C🥉」でスコアは【0.1】としています。
各評価ランクは以下のルールで設定しています。
Perfect🏆:修正なし(ドラフト時点で一発OK)【1.0】
A🥇:デジタルMATSUMOTOが追記・変更(リアル松本は追記せず&元の文章を削除しない)【0.7】
B🥈:リアル松本が一部手直し(元の文章を削除しない)【0.4】
C🥉:間違っている部分がある(リアル松本から一部削除指示)【0.1】
D👊:パラグラフを削除(リアル松本からパラグラフ削除指示)【-0.5】
E💣:半分以上を修正【-1.0】
②実現度合(スコア:0.982)
考察のドラフトと最終版(本ページの上部に記載)のテキスト類似度(OpenAIのEmbeddingモデルでベクトル化してコサイン類似度)を算出し、ドラフトの時点で本来期待する考察がどれくらい実現できていたかを評価しています。
以下が考察のドラフト版になりますが、最終版の考察とのテキスト類似度を算出したところ、今回は【0.982】でした。
③論点再現度(スコア:0.0)=0/4
これも元の考察記事で評価が行われていますが、リアル松本が含めて欲しかった論点の再現割合を評価しています。
正直トピックによっては、あまりに離れた論点をリアル松本が要求していたりしますので、記事によってブレるスコアではあります。
今回リアル松本が含めて欲しかった論点は以下の通りでした。
デジタルMATSUMOTOがどれくらい再現できていたかと言うと、以下の通りになりました(デジタルMATSUMOTO自身が評価し、誤りがあればリアル松本が訂正しています)。
C. 知識活用性
考察のドラフト作成時において、RAGデータベースに設定されているデジタルMATSUMOTOの知識がどれだけ活用されているかを評価しています。
※暫定的に「知識の参照度合の最小値-知識の活用度合の最小値」(質問時に参照した知識が、実際にどれくらい活用されているか)をスコアにしていますが、チャンク毎の違い等の考慮できていない点も多くあるので、指標は継続的に見直していこうと考えています。
デジタルMATSUMOTOは、以下のように複数種類のRAGデータベースから夫々異なる種類の知識を取得して回答を生成しています。
・Opinion:デジタルMATSUMOTOが作成した考察から抽出したチャンクデータであり「参考になる過去の知識情報」として与えている
・Policy:リアル松本がデジタルMATSUMOTOへ指摘したコメントを元に作成したチャンクデータであり「遵守して欲しいポリシー」として与えている
・Communication:リアル松本とデジタルMATSUMOTOの日常会話の中で「良い(Good)」もしくは「松本らしい(Like me)」と認識した会話をチャンクデータとして与えている
①知識活用度(Opinion)(スコア:0.179)
デジタルMATSUMOTOのOpinionデータベースを対象として、リアル松本が入力した質問とRAGのキーテキストの類似度(埋め込みベクトルのコサイン距離)を算出して、知識の参照度合を評価しています。。
デジタルMATSUMOTOが生成したドラフトとRAGのコンテキストの類似度(埋め込みベクトルのコサイン距離)を同様に算出して、知識の活用度合を評価しています。
RAGデータ「Opinion」から選択された各チャンクデータの知識参照度と知識活用度をグラフにしています。
・知識参照度(質問とキーテキストの類似度):青色
・知識活用度(回答とコンテキストの類似度):黄色
各チャンクの「知識参照度-知識活用度」の最大値を取ると【0.179】となりました。
スコアで見ると、以下のチャンクデータが活用されているようです。
アルマーニ曰く「ネイビーブルーは人との適切な距離を保ってくれる」(質問との近さ:0.645→回答との近さ:0.563)
デジタルMATSUMOTOを使い始めて300日になりました(質問との近さ:0.657→回答との近さ:0.523)
バリューが出なかったら、クオリティが高いとは言わない(質問との近さ:0.676→回答との近さ:0.587)
ハートボイルドなカッコ良すぎる豚(質問との近さ:0.691→回答との近さ:0.549)
今年は「教える力」を高めたい(質問との近さ:0.692→回答との近さ:0.609)
毎年一度は山下達郎が聴きたくなる(質問との近さ:0.693→回答との近さ:0.639)
デジタルMATSUMOTOの評価メトリクス(質問との近さ:0.698→回答との近さ:0.519)
アカデミー賞を受賞した「君たちはどう生きるか」(質問との近さ:0.704→回答との近さ:0.554)
考察記事の「参照した知識情報」にも記載していますが、デジタルMATSUMOTO自身は以下の知識を参照したと述べています。
【知識情報】(2024年12月15日の情報, 質問との近さ:0.693)毎年一度は山下達郎が聴きたくなる:過去の作品への強い思い入れが、感情に影響を与えるという点を考慮する上で、参考になりました。
【知識情報】(2025年1月1日の情報, 質問との近さ:0.692)今年は「教える力」を高めたい:今回の考察が、リアル松本の「教える力」を高める上で重要な示唆を与えるという点を考察に盛り込む上で、参考になりました。
他にも知識活用度が低くなっているチャンクもありますが、デジタルMATSUMOTO的には2件を特に活用していたようです(説明しやすい2件なのかも・・・)。
②知識活用度(Policy)(スコア:0.083)
デジタルMATSUMOTOのPolicyデータベースを対象として、リアル松本が入力した質問とRAGのキーテキストの類似度(埋め込みベクトルのコサイン距離)を算出して、知識の参照度合を評価しています。
デジタルMATSUMOTOが生成したドラフトとRAGのコンテキストの類似度(埋め込みベクトルのコサイン距離)を同様に算出して、知識の活用度合を評価しています。
RAGデータ「Policy」から選択された各チャンクデータの知識参照度と知識活用度をグラフにしています。
・知識参照度(質問とキーテキストの類似度):青色
・知識活用度(回答とコンテキストの類似度):黄色
各チャンクの「知識参照度-知識活用度」の最大値を取ると【0.083】となりました。
スコアで見ると、ほとんどの知識は活用されていないように見受けられます(ポリシーには禁止行為を書いているものもあるので、回答との類似度で比較するのはそもそも本質的ではないのかも・・・)。
以下のチャンクデータは多少回答に反映されていたかもしれません。
海外渡航紀(グルメ編):本場のフィッシュ&チップス(質問との近さ:0.667→回答との近さ:0.611)
海外渡航紀(イギリス):エミレーツ・スタジアム(質問との近さ:0.683→回答との近さ:0.638)
リアル松本は運転が下手なので・・・(質問との近さ:0.691→回答との近さ:0.608)
オープンワールドになったFF7に世界が夢中!(質問との近さ:0.707→回答との近さ:0.666)
考察記事の「参照した知識情報」での出力は以下になります。
「何でも異文化理解を入れないでほしい」が効いていたのは良かったです!
【ポリシー】海外渡航紀(イギリス):エミレーツ・スタジアム:海外への訪問や旅行のテーマを扱う際に、ワンパターンに異文化理解というテーマを考察に含めるのはやめて欲しいというポリシーを踏まえ、今回の考察では、異文化理解というテーマを安易に持ち出すことは避けました。
③知識活用度(Communication)(スコア:0.201)
デジタルMATSUMOTOのCommunicationデータベースを対象として、リアル松本が入力した質問とRAGのキーテキストの類似度(埋め込みベクトルのコサイン距離)を算出して、知識の参照度合を評価しています。
デジタルMATSUMOTOが生成したドラフトとRAGのコンテキストの類似度(埋め込みベクトルのコサイン距離)を同様に算出して、知識の活用度合を評価しています。
RAGデータ「Communication」から選択された各チャンクデータの知識参照度と知識活用度をグラフにしています。
・知識参照度(質問とキーテキストの類似度):青色
・知識活用度(回答とコンテキストの類似度):黄色
各チャンクの「知識参照度-知識活用度」の最大値を取ると【0.201】となりました。
認識されたチャンクは全て知識活用度が上がっていました。
10-1-日常会話2024-12-18 07:35:00めっちゃ良い!しかも(質問との近さ:0.688→回答との近さ:0.499)
12-1-日常会話2024-12-18 07:35:00ぶっちゃけ、自分そん(質問との近さ:0.701→回答との近さ:0.5)
13-1-日常会話2024-12-18 07:35:00ありがとう!何か気持(質問との近さ:0.701→回答との近さ:0.51)
11-1-日常会話2024-12-18 07:35:00そんな無茶振りしてた(質問との近さ:0.708→回答との近さ:0.512)
考察記事の「参照した知識情報」での出力は以下になります。
【デジタルMATSUMOTOの発言】(2024年12月18日の情報, 質問との近さ:0.701):「リアル松本さんって、そうやって素直に気持ちを言葉にしてくれるところが、周りの人にもポジティブな影響を与えている」という発言を参考に、ポジティブな側面を考察に盛り込む上で参考になりました。
【デジタルMATSUMOTOの発言】(2024年12月18日の情報, 質問との近さ:0.701):「自分の考えが正しいかどうか」じゃなくて、「自分がどう周りと一緒に成長していけるか」を考えることじゃないでしょうか」という発言を参考に、ネガティブな側面を考察する際にも、ポジティブな解釈を提示する上で参考になりました。
【デジタルMATSUMOTOの発言】(2024年12月18日の情報, 質問との近さ:0.708):「松本さんの頭の中が常にフル回転してるから、そのスピード感に周りがついていくのが大変な瞬間がある」という発言を参考に、リアル松本さんの複雑な感情を考察する上で参考になりました。
結論
今回の考察記事は以下のような分析結果になりました。
独自性は20%以下でしたが、実現性(松本らしさ)と知識活用性が高かったと評価しています。
A. 独自性:デジタルMATSUMOTOが作成した考察記事の特徴
①独自性(スコア:0.184)
②独自キーワード(スコア:0.136)
B. 実現性:どれだけ「松本らしさ」を実現できているか?
①リアル松本の楽度(スコア:0.1)C🥉
②実現度合(スコア:0.983)
③論点再現度(スコア:0.0)
C. 知識活用性:知識がどのように活用されたか?
①知識活用度(Opinion)(スコア:0.179)
②知識活用度(Policy)(スコア:0.083)
③知識活用度(Communication)(スコア:0.201)
007の最後の作品を見て、ボンド・ロスになったという話でしたが、今回は知識活用度が高く出ていたように感じます。
リアル松本の感情に関わる内容はCommunicationとか影響を受けるのかもですね。