
用語についての違和感
単に私が最近の統計学の動向に疎いだけなのであるが、違和感を覚える用語がいくつかある。それについて調べてみたい。
(1) 機械学習
これは、statistical machine learningのこと。データに牽引される(data-driven)方法で、線形等の構造をデータに無理矢理に当てはめようとしない、ということのようだ。しかし、なぜ「機械」という言葉が入ってくるのだろうか。「学習」という言葉も。機械に学習させようというのであろうか。
(2) 教師なし学習
これは、unsupervised learningのこと。これは、「y」がない分析ということなのだろうか。「外的基準がない」ということと同義か。しかし、「教師なし」という訳語は誰が考えたのだろうか。
(3) 偽陽性率
これは、FDR(False Discovery Rate)の訳のようだ。検査薬を想定しているような訳し方なので違和感がある。陽性とか、陰性とか、偽陽性とかいうのであろうか。
(4) データサイエンス
意味不明の言葉。「データ科学」、「データ学」という訳語を当ててみてもそのことは変わらない。そもそも「データ」を扱わないサイエンスなどないのではないか。
「並び替え検定:データサイエンスの基本」という項が、『データサイエンスのための統計学入門・第2版』(オライリー・ジャパン)にあった。この部分をよく読んでみようと思う。