【デジタルMATSUMOTOの頭の中】2024年9月時点のナレッジグラフ
これまでデジタルMATSUMOTOが作成してきた考察データは、RAGデータとしてデジタルMATSUMOTOの知識情報として蓄積されています。
今の考察形式(論点比較)を始めてから、丁度200件(リスクチェーンモデル解説等は除いています)のRAGデータが蓄積されたので、現時点でのデジタルMATSUMOTOの頭の中(知識状態)を色々な方法で可視化していこうと思います。
デジタルMATSUMOTOの頭の中(ナレッジグラフ)
先にまとめると以下のような知識状態になっていました。
ナレッジグラフの生成方法
RAGデータの件数:200件(2024年9月29日時点)
GPT-4o miniとlang chainを用いて、Neo4Jにナレッジグラフを生成
以下にゃんたさんのYouTubeチャンネルをご覧いただければと思います。
ナレッジグラフ(Neo4J)
Neo4J Aura上で以下のクエリで出力し、操作しながら見ていきます。
ノード(エンティティ)数は約2769件です。
MATCH p=(n: __Entity__)-[]->() RETURN p;
ナレッジグラフ全体
ノードが肌色で見えにくいかもしれませんが、中央にリレーションの多いノードが集合を作りながら、その外周にノードが配置されています。
集合の中心に近いところから一回りして、集合から離れた周辺に特徴的なノードを見ていこうと思います。
ナレッジグラフの中央部分
中央部分を拡大していくと、多くのリレーションを持つ特徴的なノードがいくつか存在することが確認できます。
中心部分
画像をクリックして拡大してみていただけたらと思いますが、集合の中心部分には「AI技術」「課題」「リスク」「人間」「ユーザー」「社会」といったノードが多くのリレーションを持って配置されています。
デジタルMATSUMOTOの多くの考察記事は「AIと人間の関係」「AIの社会実装」「AIに関わる課題・リスク」がテーマになっているので、リアル松本的にも違和感のない内容です。
※左側に「企業」「ガバナンス」といったノードも目立ちますが、この後見ていきます。
中心下部(AI技術や利活用)
中心から少し下側に行くと(ランダムに配置されるので位置そのものに意味はありませんが)、「AI」「LLM」「生成AI」「RAG」「情報」を中心にAI技術関係のノードが右側に配置され、「AIサービス」「バイアス」といったAIの社会実装や利活用に関わるノードが左側にかけて登場しています。
左側(AIガバナンス→ガバナンス全般)
中心から左側には「AIガバナンス」「バイアス」「CAIO」といったAIガバナンスに関わるノードが配置され、そこから上の方には「ガバナンス」「ガイドライン」「規制」といったガバナンス全般のノードが登場します。
ちなみにAIガバナンス関係のより左側には「市民」「気候変動」「EU」といったノードが配置されていました。これもデジタルMATSUMOTOの記事でちょくちょく登場するワードですね。
左上側(企業)
中心から左上側には「企業」「人材」「DX」といった企業に関わるノードが配置されています。より左に「日本企業」というノードも登場しています。
上側(デジタルMATSUMOTOとリアル松本)
上側には「デジタルMATSUMOTO」と「リアル松本」が登場しています。「デジタルMATSUMOTO」の少し内側に「HAC-SECIモデル」も配置されていました。
「リアル松本」ノードの周辺には「潔癖症」「落語」「ヨーロッパ旅行」「ライオンプッシュアップ」「レアル・ベティス」「UT(ユニクロTシャツ)」といったリアル松本に関わる過去記事に関わるノードが登場します。
「リアル松本」から少し上の方に行くと「スペイン」「パエリア」「フラメンコ」といったスペイン関連のノードが登場しています。もっと海外に行くとこのあたりの領域も充実していくかもしれません。
右上側(文化→スポーツ)
右上側には少し内側に「組織」「日本」といったノードがあり、右上に向かっていくと「文化」「成功」「人々」と登場し、その先に「ファン」「試合」「選手」「スポーツ」が登場しています。
さらに右上に行くと「彼」というノードを中心に映画・格闘技・マンガに関わるノードとつながっており、近くに「大谷選手」「遠藤航選手」「浅野選手」「松山選手」と具体的なアスリートも登場しています。
右側(偉大な日本人女性シリーズの領域)
右側には「女性」「社会」「現代社会」といったノードがあり、さらに右側に「女性リーダー」が登場しています。偉大な日本人女性シリーズの知識がこのあたりから右側に配置されているようです。
さらに右側に行くと「彼女」というノードを中心に「草間彌生」「コシノジュンコ」「津田梅子」「沢田美喜」「望月カズ」「向井千秋」とピックアップした偉大な日本人女性(※敬称略)が登場しています。
ちなみに女子プロレス界のカリスマであるブル様「ブル中野」にはたくさんのノードが紐づいていて、ブル様領域を形成しています。
ナレッジグラフ周辺
中心部分から離れたところにもノードが点在していますが、右下にかけて弧を描いている部分を見ていこうと思います。
下の方には「データの改ざん」「一般消費者のトラブル防止」「松山英樹選手の2021年マスターズ制覇」「スポーツの感動」
※他の領域にいても良さそうですが、たまたまノードが接続されていない感じですね
少し右側に行くと「ファイル」「持続可能なAI」「情報の提示」
さらに右側の弧を登っていくと「野球の戦術」「女性たち」「日本代表」等
さらに右側に上ると「公平性」「逆MECI現象」等が配置されています。
周辺部分はたまたまノードがつながっていないだけのような状況かもしれませんが、今後デジタルMATSUMOTOの知識が増えていくと接続されて中心部分に配置されてくるかもしれないですね。
まとめ
今回デジタルMATSUMOTOの知識状態をナレッジグラフに配置してみましたが、リレーションの多いノードや領域の分かれ方も違和感がないものでした。このナレッジグラフは今後以下のように使いたいと考えています。
知識状態のトラッキング:
2,3か月くらいの頻度で知識状態の変化をトラッキングしていこうと考えています。全体の傾向だけでなく、例えば「リアル松本」周辺ノードの変化等を比較してみると、HAC-SECIモデルでも狙っていた「AIの知識を用いた自分自身のリフレクション」にも使えるかなと。
※ナレッジグラフ以外にもいくつか可視化の方法を検討しています。
GraphRAGとしての利用:
現在デジタルMATSUMOTOの性能向上は、毎日の考察をRAGデータに設定したベクトルサーチで実装していますが、GraphRAGとのハイブリッドも実装中です。
※その中で「ベクトルサーチ用の知識情報」と「GraphRAG用の知識情報」を分けた設計も検討しています。