見出し画像

【内容一部公開】第一人者による入門書、待望の翻訳!――近刊『トポロジカルデータ解析』

2024年11月下旬発行の新刊書籍、『トポロジカルデータ解析』のご紹介です。
本書は、当分野の第一人者であるグンナー・カールソン(Gunnar Carlsson)らによる入門書の翻訳書です。
同書の一部を、発行に先駆けて公開します。



***

まえがき

(前略)

トポロジカルデータ解析(topological data analysis, TDA)のアイディアを一言でいえば、グラフや単体複体といった組合せ論の概念を用いて位相空間をモデル化したように、これらを使ってデータから有用なモデルをつくろう、ということである。この分野はこの20年間で急速に発展してきている。本書ではその理論を述べるとともに、さまざまな応用例を紹介しよう。

(中略)

データサイエンスでTDAが活用されれば、トポロジーの分野も刺激を受けて面白い有用な発展が期待できるだろう。したがって、TDAの手法が標準的な代数トポロジーやホモトピー理論とどのような関係にあるかを見ることは有用である。以下にいくつか重要なものを挙げる。

  • パーシステントホモロジーは、半順序集合Rを用いて定められた図式の研究といえる。それ以外の図式についても研究が行われており、その中のいくつかはジグザグパーシステンスや多次元パーシステンスで利用されている。TDAの研究が拡大、深化するにつれ、より多くの洗練された図式が利用され、データ集合内のより詳細な情報を引き出せるようになるだろう。したがって、さまざまな図式に対して不変量の構成を研究することは有用である。

  • TDAは独立した点集合のサンプルを解析するため、TDAのみで解析可能な空間の次元はあまり高くできず、大抵の場合は5以下である。10次元の空間を忠実に表現するのに必要な点の数は、仮に各次元ごとに10点の解像度が必要とすると、少なく見積もって10^10個である。これは非常に大きな数であるから、たとえば50次元のホモロジーなど使い物になりそうにない。そう考えると、より洗練された不安定ホモトピー不変量(たとえばカップ積やマッセイ積など)を調べるのは有望だろう。たとえば、カップ積はCarlsson&Filippenko(2020)で重要な働きをしている。

  • 代数トポロジーとホモトピー理論に関しては、とても面白い問題として、基底空間Bへの参照写像をもった空間のトポロジーの問題がある。これはパラメータ付きトポロジーとよばれるものである。このとき、すべての写像は参照写像と矛盾してはならない。基底を伴った空間の圏は、絶対的な場合(つまり、参照写像のない通常の位相空間の場合)よりも豊富な不変量をもっている。このアイディアを基に、逃避問題の研究が行われたり (Carlsson and Filippenko 2020)、基底上のデータサイエンスといった概念や、パラメータ付きトポロジカルデータ解析といった概念が提案されたりしており(Nelson 2020)、これらの概念は反復的データ解析手法に有用な枠組みであると明らかになっている。この場合の安定でない不変量の研究はとくに豊かであり、より一層注目する必要がある。

  • 必ずしもトポロジカルではないが定性的な空間Xの不変量を調べたいときがよくある。たとえば、空間の角や端を検知したい場合などである。こういった問題の解決手段の一つとして、Xを基に調べたい性質を反映した空間を構成し、それからホモロジーのようなトポロジカルな手法を用いて解析する方法がある。この考え方のすばらしい一例として、サイモン・ドナルドソンによる滑らかな4次元多様体のトポロジーの研究がある。この研究では、滑らかな4次元多様体にあるモジュライ空間を組み合わせることで、多様体のトポロジーを調べられることが示された (Donaldson 1984)。こういった手法は、本来トポロジーと直接関係ないような形の違いを識別する問題に使える。

本書の目的は、トポロジカルデータ解析の考え方をデータサイエンティストとトポロジーの研究者の双方に紹介することである。そのため、トポロジー一般、とくにホモロジーに関する技術的な詳細はかなり省略したが、本書で学んだ読者なら、必要に応じて自分で深く勉強することができるだろう。本書を読んで、双方の研究者らが、このエキサイティングな知的発展に参加したいと感じることを望む。

(後略)

訳者あとがき

本書は、Gunnar CarlssonとMikael Vejdemo-Johansson による “Topological Data Analysis with Applications”の日本語訳である。

ネット書店や原著出版社のホームページなどで原著の表紙を見てみれば、この本のタイトルのうち “with Applications” の 2 語だけが赤字であることに気づくだろう。このことからわかるように、この本の売りは「応用」である。実際トポロジカルデータ解析の書籍は和洋含め何冊か出ているが、この本ほど多くの応用例を示している本は他にない。しかも,その分野は物理学、化学、社会科学、画像分析、ロボット工学など多岐に及び、内容は現在の最先端のものとなっている。著者達は,トポロジカルデータ解析の分野で20年間トップを走り続けてきた研究者である。その彼らが、数学者とデータ科学者に向けて、トポロジカルデータ解析の現在の到達点を素描してみせたのが本書である。

(後略)

***

スタンフォード大学 名誉教授 Gunnar Carlsson(原著)
ニューヨーク市立大学 Mikael Vejdemo-Johansson(原著)
京都大学 平岡裕章(監訳)
岐阜大学 一宮尚志(共訳)
東北大学 吉脇理雄(共訳)

第一人者による入門書、待望の翻訳!
 必要な数学の基礎理論から始めて、多数の具体例と合わせて学んでいくことで、トポロジカルデータ解析(TDA)の手法を確かに理解することができます。
そして、画像解析、化合物分析、材料科学、ウィルス進化、時系列解析、機械学習、ロボット工学、宇宙、政治など、多方面での応用例を知ることで、自身が応用していく際のヒントを得ることができます。
 
TDAを学びたい、データ解析や応用数学や位相幾何学に関わる大学院生や研究者、データ解析のエンジニアにおすすめの一冊です。
 
[原著]Topological Data Analysis with Applications (Cambridge University Press)

【目次】
第I部 背景
 第1章 イントロダクション

  1.1 概観
  1.2 定性的な性質の実際の例
   1.2.1 糖尿病のデータとクラスタリング
   1.2.2 周期運動
   1.2.3 曲線と形状の認識

 第2章 データ
  2.1 データ行列とスプレッドシート
  2.2 非類似度行列と距離
  2.3 カテゴリカルデータと文字列
  2.4 テキスト
  2.5 グラフデータ
  2.6 画像
  2.7 時系列
  2.8 点群データの密度推定

第II部 理論
 第3章 トポロジー

  3.1 歴史
  3.2 定性的な性質と定量的な性質
   3.2.1 トポロジカルな性質
   3.2.2 連続写像と同相写像
   3.2.3 距離空間
   3.2.4 ホモトピーとホモトピー同値
   3.2.5 同値関係
   3.2.6 商と積を用いた,位相空間と写像の構成
   3.2.7 単体複体
   3.2.8 連結情報
   3.2.9 「硬さ」という特徴
   3.2.10 「柔らかさ」という特徴
  3.3 鎖複体とホモロジー
   3.3.1 ベッチ数
   3.3.2 鎖複体
   3.3.3 ホモロジー群
   3.3.4 余鎖とコホモロジー
   3.3.5 キルヒホッフの法則
   3.3.6 鎖写像
   3.3.7 鎖ホモトピー
   3.3.8 特異ホモロジー
   3.3.9 関手性
   3.3.10 間接的な計算手法
   3.3.11 関手性の重要性

 第4章 データの形状
  4.1 0次元のトポロジー:最短距離法
  4.2 脈体の構成とソフトクラスタリング
  4.3 点群データに対する複体
   4.3.1 チェック複体
   4.3.2 ヴィートリス‐リップス複体
   4.3.3 アルファ複体
   4.3.4 ウィットネス複体
   4.3.5 マッパー
  4.4 パーシステンス
   4.4.1 フィルトレーション付き単体複体
   4.4.2 オイラー標数曲線
  4.5 パーシステンスベクトル空間の代数学
   4.5.1 パーシステントホモロジー
   4.5.2 アーベル群とベクトル空間の直系
   4.5.3 ベクトル空間の直系の分類
   4.5.4 バーコード
   4.5.5 パーシステンスとトポロジーにおけるノイズ
   4.5.6 パーシステントコホモロジー
  4.6 パーシステンスと特徴の局所性
  4.7 ホモトピー不変でない形状の認識
   4.7.1 写像的パーシステンス
   4.7.2 接複体
   4.7.3 点群に対する写像的パーシステンス
  4.8 ジグザグパーシステンス
  4.9 多次元パーシステンス

 第5章 バーコードの空間上の構造
  5.1 バーコード空間における距離
  5.2 バーコード空間の座標化と特徴生成
   5.2.1 対称多項式
   5.2.2 パーシステンスランドスケープ
   5.2.3 パーシステンスイメージ
  5.3 B_∞上の分布

第III部 応用
 第6章 ケース・スタディ

  6.1 マンフォードの自然画像データ
  6.2 化合物データベース
  6.3 ウイルス進化
  6.4 時系列
   6.4.1 固有位相座標
   6.4.2 モーションキャプチャーとインデックス関数
   6.4.3 移動窓上のパーシステントホモロジー
  6.5 センサー被覆と回避
   6.5.1 被覆問題
   6.5.2 逃避問題
  6.6 ベクトル化の方法と機械学習
   6.6.1 関数による要約
   6.6.2 ベクトル化の応用例
  6.7 ケージング把持
  6.8 コズミックウェブの構造
  6.9 政治
  6.10 非晶質固体
  6.11 感染症


この記事が気に入ったらサポートをしてみませんか?