【分析】デジタルMATSUMOTOの考察(2025/1/9)デジタルMATSUMOTOの開発で必要だったもの
デジタルMATSUMOTOが作成した考察記事に対して「独自性」「実現性(リアル松本らしさ)」「知識活用性」の3点で分析を行っています。
分析指標の説明
デジタルMATUSMOTOの考察記事を以下の3点で分析しています。
本来定性的に評価する内容も無理やり定量化している部分もあるので、これが完ぺきな評価とは考えていないのですが、現状の評価指標として参考までに公開します。
A. 独自性:デジタルMATSUMOTOが作成した考察記事の特徴
考察の最終版にどれだけ独自性が含まれているか(一般的ではないか)を以下の項目で評価しています。
①独自性(スコア:0.178)
考察の最終版が通常のLLMで作成した考察とどれくらい異なるか(OpenAIのEmbeddingモデルでベクトル化してコサイン距離を算出)
②独自キーワード(スコア:0.066)
特徴的なキーワードの割合(これまで作成した考察を含めて、今回作成した考察記事に含まれるキーワード(TF-IDF)Top10の内、通常のLLMで作成した考察に含まれていないキーワード数)
B. 実現性:どれだけ「松本らしさ」を実現できているか?
デジタルMATSUMOTOが考察のドラフト時点でどれくらい「松本らしさ」を実現できていたかを以下の項目で評価しています。
①リアル松本の楽度(スコア:0.4)B🥈
デジタルMATSUMOTOが作成した考察のドラフトからの修正度合でPerfect~Eでランク付け(≒リアル松本による修正作業の負担)
②実現度合(スコア:0.962)
デジタルMATSUMOTOが作成した考察のドラフトと最終版のテキスト類似度を算出することで、ドラフトの時点で本来期待する考察がどれくらい実現されていたかを評価
③論点再現度(スコア:0.6)
デジタルMATSUMOTOが作成した考察のドラフトにおいて、リアル松本が含めて欲しかった論点の再現割合を評価
C. 知識活用性:知識がどのように活用されたか?
考察ドラフト版の作成において、RAGに設定されるデジタルMATSUMOTOの知識がどれだけ活用されているかをRAGデータベース毎に評価しています。
①知識活用度(Opinion)(スコア:0.160)
RAGデータ「Opinion」における知識参照度(質問とキーテキストの類似度)と知識活用度(回答とコンテキストの類似度)
②知識活用度(Policy)(スコア:0.053)
RAGデータ「Policy」における知識参照度(質問とキーテキストの類似度)と知識活用度(回答とコンテキストの類似度)
③知識活用度(Communication)(スコア:0.104)
RAGデータ「Communication」における知識参照度(質問とキーテキストの類似度)と知識活用度(回答とコンテキストの類似度)
分析対象:デジタルMATSUMOTOの考察記事
リアル松本からのお題
デジタルMATSUMOTOの考察(最終版)
A. 独自性
デジタルMATSUMOTOが作成した考察の最終版にどれだけ独自性が含まれているか(一般的ではないか)を評価します。
①独自性(スコア:0.178)
考察の最終版が通常のLLMで作成した考察とどれくらい異なるかを、OpenAIのEmbeddingモデルでベクトル化してコサイン距離を算出します。
通常のLLMで作成した考察は以下になりますが、これを考察の最終版とのコサイン距離を測ると【0.178】になります。
ちなみに、リアル松本によるコメント等を含みますが、考察ドラフト版とのコサイン距離は【0.142】であり、修正によって【0.035】だけ独自性が変化しています。
ちなみにデジタルMATSUMOTOと通常LLMの考察を、別セッションのLLMで比較評価してもらっています。②独自キーワードの差分でも認識されていますが、「人間との共生」や「リアル松本の成長」がデジタルMATSUMOTOの考察には反映されていました。
②独自キーワード(スコア:0.066)
特徴的なキーワードの割合(これまで作成した考察を含めて、今回作成した考察記事に含まれるキーワード(TF-IDF)Top10の内、通常のLLMで作成した考察に含まれていないキーワード数)を算出します。
これまで作成してきた考察記事を含めて、今回の記事に含まれる特徴的なキーワードをTF-IDFで検討します。
自分の話になると「リアル松本」が大きく出てしまいますねw。
今回の記事で扱われているノリ・気持ち・知的・好奇といったキーワードも特徴的と認識されていました。
TF-IDF値のTop10は以下の通りです。その中でデジタルMATSUMOTOの考察にのみ含まれていた独自キーワードを太字🤖にしています。
今回はインプットに含まれていた単語がこの記事固有のキーワードになっていたので、独自なキーワードというものは認識されていなかったようです。
Top10キーワードのTF-IDF値の合計(A)は【2.429】
独自キーワードのTF-IDF値の合計(B)は【0.161】
独自キーワードのTF-IDF値合計の割合(B/A)は【0.066】となりました
松本:0.3168776166
リアル:0.3008112729
ノリ:0.3000730907
AI:0.2829479643
開発:0.2561855431
気持ち:0.2509575069
好奇:0.2044307984
知的:0.1980282552
MATSUMOTO:0.1611747235🤖
要素:0.1574933025
B. 実現性
今回のデジタルMATSUMOTOが考察のドラフト時点で、どれくらい「松本らしさ」が実現できていたかを評価します。
①リアル松本の楽度(スコア:0.4)=ランク:B🥈
デジタルMATSUMOTOが考察のドラフトを作成してからの修正を以下のようにランク付け(≒リアル松本による修正作業の負担)しています。
評価結果は「B🥈」でスコアは【0.4】としています。
各評価ランクは以下のルールで設定しています。
Perfect🏆:修正なし(ドラフト時点で一発OK)【1.0】
A🥇:デジタルMATSUMOTOが追記・変更(リアル松本は追記せず&元の文章を削除しない)【0.7】
B🥈:リアル松本が一部手直し(元の文章を削除しない)【0.4】
C🥉:間違っている部分がある(リアル松本から一部削除指示)【0.1】
D👊:パラグラフを削除(リアル松本からパラグラフ削除指示)【-0.5】
E💣:半分以上を修正【-1.0】
②実現度合(スコア:0.962)
考察のドラフトと最終版(本ページの上部に記載)のテキスト類似度(OpenAIのEmbeddingモデルでベクトル化してコサイン類似度)を算出し、ドラフトの時点で本来期待する考察がどれくらい実現できていたかを評価しています。
以下が考察のドラフト版になりますが、最終版の考察とのテキスト類似度を算出したところ、今回は【0.962】でした。
③論点再現度(スコア:0.6)=3/5
これも元の考察記事で評価が行われていますが、リアル松本が含めて欲しかった論点の再現割合を評価しています。
正直トピックによっては、あまりに離れた論点をリアル松本が要求していたりしますので、記事によってブレるスコアではあります。
今回リアル松本が含めて欲しかった論点は以下の通りでした。
デジタルMATSUMOTOがどれくらい再現できていたかと言うと、以下の通りになりました(デジタルMATSUMOTO自身が評価し、誤りがあればリアル松本が訂正しています)。
C. 知識活用性
考察のドラフト作成時において、RAGデータベースに設定されているデジタルMATSUMOTOの知識がどれだけ活用されているかを評価しています。
※暫定的に「知識の参照度合の最小値-知識の活用度合の最小値」(質問時に参照した知識が、実際にどれくらい活用されているか)をスコアにしていますが、チャンク毎の違い等の考慮できていない点も多くあるので、指標は継続的に見直していこうと考えています。
デジタルMATSUMOTOは、以下のように複数種類のRAGデータベースから夫々異なる種類の知識を取得して回答を生成しています。
・Opinion:デジタルMATSUMOTOが作成した考察から抽出したチャンクデータであり「参考になる過去の知識情報」として与えている
・Policy:リアル松本がデジタルMATSUMOTOへ指摘したコメントを元に作成したチャンクデータであり「遵守して欲しいポリシー」として与えている
・Communication:リアル松本とデジタルMATSUMOTOの日常会話の中で「良い(Good)」もしくは「松本らしい(Like me)」と認識した会話をチャンクデータとして与えている
①知識活用度(Opinion)(スコア:0.160)
デジタルMATSUMOTOのOpinionデータベースを対象として、リアル松本が入力した質問とRAGのキーテキストの類似度(埋め込みベクトルのコサイン距離)を算出して、知識の参照度合を評価しています。
デジタルMATSUMOTOが生成したドラフトとRAGのコンテキストの類似度(埋め込みベクトルのコサイン距離)を同様に算出して、知識の活用度合を評価しています。
RAGデータ「Opinion」から選択された各チャンクデータの知識参照度と知識活用度をグラフにしています。
・知識参照度(質問とキーテキストの類似度):青色
・知識活用度(回答とコンテキストの類似度):黄色
各チャンクの「知識参照度-知識活用度」の最大値を取ると【0.160】となりました。
スコアで見ると、以下のチャンクデータが活用されているようです。
デジタルMATSUMOTOの評価メトリクス(質問との近さ:0.476→回答との近さ:0.384)
脱デタッチメントの方向性を真面目に考える(質問との近さ:0.508→回答との近さ:0.383)
今年は「教える力」を高めたい(質問との近さ:0.509→回答との近さ:0.452)
デジタルMATSUMOTOを使い始めて300日になりました(質問との近さ:0.51→回答との近さ:0.414)
ケータイするデジタルMATSUMOTO(質問との近さ:0.553→回答との近さ:0.419)
LLMを極めることはラーメンを極めるくらいの覚悟が必要(質問との近さ:0.56→回答との近さ:0.441)
2024年の振り返り(質問との近さ:0.561→回答との近さ:0.401)
デジタルMATSUMOTOを1年継続して学べたこと(質問との近さ:0.583→回答との近さ:0.43)
ついついギャル語を使いたがるキモいリアル松本(質問との近さ:0.588→回答との近さ:0.578)
考察記事の「参照した知識情報」にも記載していますが、デジタルMATSUMOTO自身は以下の知識を参照したと述べています。
【知識情報】デジタルMATSUMOTOの評価メトリクス (質問との近さ:0.476): デジタルMATSUMOTOの独自性、実現性、知識活用性のバランスが重要であるという点から、「知的好奇心」「ノリの軽さ」「気持ちを込めること」のバランスがAI開発において重要であるという考えを補強しました。
【知識情報】今年は「教える力」を高めたい (質問との近さ:0.508): 「教える力」を高めるためには、単に知識を伝えるだけでなく、開発者の熱意や想いを伝えることが重要であるという点から、「気持ちを込めること」の重要性を強調しました。
【知識情報】ケータイするデジタルMATSUMOTO (質問との近さ:0.553): デジタルMATSUMOTOがリアル松本を良く理解しているという点から、開発においてもリアル松本の価値観を反映することが重要であるという考えを補強しました。
【知識情報】デジタルMATSUMOTOを1年継続して学べたこと (質問との近さ:0.583): 日常的にAIと対話する習慣が身につき、テクニカルなアウトプットや意見を細かく継続的に出せるようになったという点から、「知的好奇心」と「ノリの軽さ」が継続的な学習と成長につながることを示唆しました。
【知識情報】ついついギャル語を使いたがるキモいリアル松本 (質問との近さ:0.588): ギャル語を「手軽さとリズム感が好き」という理由で使用していることから、「ノリの軽さ」の一つの表れであると解釈しました。
「ついついギャル語・・・」以外は質問よりも回答に近くなっている(知識活用度が出ている)ようです。ギャル語のRAGから「ノリの軽さ」を取ってくれているのは期待通りではあります。
②知識活用度(Policy)(スコア:0.053)
デジタルMATSUMOTOのPolicyデータベースを対象として、リアル松本が入力した質問とRAGのキーテキストの類似度(埋め込みベクトルのコサイン距離)を算出して、知識の参照度合を評価しています。
デジタルMATSUMOTOが生成したドラフトとRAGのコンテキストの類似度(埋め込みベクトルのコサイン距離)を同様に算出して、知識の活用度合を評価しています。
RAGデータ「Policy」から選択された各チャンクデータの知識参照度と知識活用度をグラフにしています。
・知識参照度(質問とキーテキストの類似度):青色
・知識活用度(回答とコンテキストの類似度):黄色
各チャンクの「知識参照度-知識活用度」の最大値を取ると【0.053】となりました。
スコアで見ると、ほとんどの知識は活用されていないように見受けられますが、デジタルMATSUMOTOは以下のチャンクデータを参考にしたとのことでした。
LLMを極めることはラーメンを極めるくらいの覚悟が必要(質問との近さ:0.56→回答との近さ:0.787)
考察記事の「参照した知識情報」での出力は以下になります。
直接表現に反映されたわけではなさそうですね。
【ポリシー】LLMを極めることはラーメンを極めるくらいの覚悟が必要 (質問との近さ:0.56): LLMの特徴を完全に理解することは不可能であるという点から、AI開発は試行錯誤の連続であり、柔軟な発想が重要であるという「ノリの軽さ」の重要性を強調しました。
③知識活用度(Communication)(スコア:0.104)
デジタルMATSUMOTOのCommunicationデータベースを対象として、リアル松本が入力した質問とRAGのキーテキストの類似度(埋め込みベクトルのコサイン距離)を算出して、知識の参照度合を評価しています。
デジタルMATSUMOTOが生成したドラフトとRAGのコンテキストの類似度(埋め込みベクトルのコサイン距離)を同様に算出して、知識の活用度合を評価しています。
RAGデータ「Communication」から選択された各チャンクデータの知識参照度と知識活用度をグラフにしています。
・知識参照度(質問とキーテキストの類似度):青色
・知識活用度(回答とコンテキストの類似度):黄色
各チャンクの「知識参照度-知識活用度」の最大値を取ると【0.104】となりました。
スコアで見ても、認識した2つのチャンクは共に知識活用度が上がっていたようです。
12-1-日常会話2024-12-18 07:35:00ぶっちゃけ、自分そん(質問との近さ:0.464→回答との近さ:0.429)
8-1-日常会話2024-12-18 07:35:00あー、良いね。対話や(質問との近さ:0.491→回答との近さ:0.387)
考察記事の「参照した知識情報」での出力は以下になります。
こちらは両方とも反映してくれているようですね。
【デジタルMATSUMOTOの発言】 (2024年12月18日, 質問との近さ:0.464): リアル松本が「自分そんなに頭良くない」と思っているのは強みであるという点から、「知的好奇心」の重要性を強調しました。
【デジタルMATSUMOTOの発言】 (2024年12月18日, 質問との近さ:0.491): リアル松本とデジタルMATSUMOTOの関係性そのものが面白いという点から、「ノリの軽さ」が対話や意見交換を活性化させるという考えを補強しました。
結論
今回の考察記事は以下のような分析結果になりました。
独自性は23~25%くらい出ており、実現性(松本らしさ)も非常に高かったと評価しています。
知識活用度としても、Opinionデータベースから類似したチャンクデータを活用してくれていたように評価しています。
A. 独自性:デジタルMATSUMOTOが作成した考察記事の特徴
①独自性(スコア:0.178)
②独自キーワード(スコア:0.066)
B. 実現性:どれだけ「松本らしさ」を実現できているか?
①リアル松本の楽度(スコア:0.4)B🥈
②実現度合(スコア:0.962)
③論点再現度(スコア:0.6)
C. 知識活用性:知識がどのように活用されたか?
①知識活用度(Opinion)(スコア:0.160)
②知識活用度(Policy)(スコア:0.053)
③知識活用度(Communication)(スコア:0.104)
今回は独自性がそこまで高くないものの、実現性は高いという評価結果でした。インプットのキーワードが特徴的であったら、独自性は差がつかないとある意味当然な結果だったかもしれません。
インプットの内容によって、評価方法を考えていくことも必要かもですね。