トポロジカルデータ解析による特許解析
私がここ2年ほど心身を捧げた物性物理学において、トポロジカル物質は非常に注目を集めています。これは、「トポロジカル」という名の通りトポロジー(位相幾何学)と物質科学の学際分野、すなわち、トポロジカルに特徴づけられた電子状態に起因する新規物性開拓を目指すものです。
トポロジーは「連続変形に対する不変性」に関する数学の概念ですが、これは今や物性物理に限らず、あらゆる領域において当初予想を超えた広範な基盤を与えることが期待されています。ひとつの例として、近年のデータサイエンスにおける応用が挙げられます。
「トポロジカルデータ解析」では、データの全体構造を捉えるトポロジーを用いて、膨大な情報の背後にある本質的な特徴を取り出すものです。連続的な変形を許すトポロジーにおいては、複雑なビッグデータを変形させてシンプルな表現に変換し、その後に待ち受ける統計やAIを用いた解析の効率を高めることができます。
ここで、たくさんのデータの点が散らばった座標空間を思い浮かべてみます。このデータの点群が形作る穴や分岐の構造はある種の情報を含んでいることは容易にわかります。例えば、このデータがスマホのGPS情報ならば、空白域は障害域エリアを表します。また、ホモロジーの考え方を導入すれば、データの形作る図形の特徴は「種類ごとに分類された穴の数」として記述することができます。さらに、データの穴を定量的に捉える、たとえば、データ点を球とみなしてその半径を変えてみます。このとき、穴がどのように持続するかを調べる手法を「パーシステントホモロジー」と呼びます。球とみなしたデータ点の大きさの変化は、マルチスケールの解析に対応しています。
「パーシステントホモロジー」はスケールを変えて解析をする必要がある場合には用いられます。具体的には、物質中の原子の立体配置を調べる(単結晶とアモルファスの分類など)に用いられています。しかし、この手法が使えるのはデータの次元数が10次元程度にまで限られています。というのは、点群における穴の有無を調べるための計算量が膨大となってしまうためです。そのため、高次元のデータ、たとえば細胞遺伝子発現状況やword2vecで得られた点群などに対しては、データの点群のつながり方を可視化する「Mapper」という手法が使われます。
タイトルにある特許情報解析にも、この「Mapper」が用いられます。様々な企業が取った特許の変遷をこの手法で解析すると、時系列を追って企業の戦略がどう変化するかを調べることができます。以下の図はその例です。中央のネットワークは中心から周囲に行くほど時間が経過しています。中央から分岐する枝は、時間とともに業界や企業ごとに異なる特許戦略が採用されてきたことを示します。特に独自性の高い特許戦略は、長い枝で示されていることがわかります。このように、トポロジカルデータ解析を用いた特許解析によって、企業の戦略を可視化することができるというわけです。
トポロジカルデータ解析はあくまでデータの記述手法ですから、特定の分野に限ることなく用いることができます。また、これに機械学習を組み合わせた手法も開発されています。データの「形」を適切に捉えることで、データの背後にある現象の本質に迫ることができる、その意味で新たな「データ駆動科学」がここにはあると言えるでしょう。
【参考文献】
Research Policy
Volume 52, Issue 8, October 2023, 104821
この記事が気に入ったらサポートをしてみませんか?