見出し画像

用語についての違和感

 単に私が最近の統計学の動向に疎いだけなのであるが、違和感を覚える用語がいくつかある。それについて調べてみたい。




(1) 機械学習

 これは、statistical machine learningのこと。データに牽引される(data-driven)方法で、線形等の構造をデータに無理矢理に当てはめようとしない、ということのようだ。しかし、なぜ「機械」という言葉が入ってくるのだろうか。「学習」という言葉も。機械に学習させようというのであろうか。

(2) 教師なし学習

  これは、unsupervised learningのこと。これは、「y」がない分析ということなのだろうか。「外的基準がない」ということと同義か。しかし、「教師なし」という訳語は誰が考えたのだろうか。

(3) 偽陽性率

 これは、FDR(False Discovery Rate)の訳のようだ。検査薬を想定しているような訳し方なので違和感がある。陽性とか、陰性とか、偽陽性とかいうのであろうか。
 

(4) データサイエンス

 意味不明の言葉。「データ科学」、「データ学」という訳語を当ててみてもそのことは変わらない。そもそも「データ」を扱わないサイエンスなどないのではないか。
 「並び替え検定:データサイエンスの基本」という項が、『データサイエンスのための統計学入門・第2版』(オライリー・ジャパン)にあった。この部分をよく読んでみようと思う。