マガジンのカバー画像

Rによる二次的データの分析

51
社会的データについてRStudioを使ってグラフを作成したり統計学的分析をおこないます。
運営しているクリエイター

#統計学

Rをつかう単純な計算のための備忘録

 Rを使い始めた頃に参照していたものの1つは『データ解析環境「R」』(工学社発行)という本であった。著者は、舟尾暢男・高浪洋平の2氏。本に書き込みをしながら読んだ。有意義な本であった。  まず、その本に書き込んだメモを見ながら、Rの使い方を復習してみようと思う。そうすることで、しばらく使わないでいたあとにまごつかないようにすることができるだろう。  別の本(注)も、昔真剣に取り組んだことがある。その本の巻末に「補遺 RとS-PLUSの備忘録」というものがあり、これも復習してみ

『データサイエンスのための統計学入門』(オライリー・ジャパン)の翻訳の誤り

 『データサイエンスのための統計学入門 第2版』は、副題が「予測、分類、統計モデリング、統計的機械学習とR/Pythonプログラミング」となっている。原著が「Practical Statistics for Data Scientists」であることからもわかるように、内容が、データを扱うサイエンティストにとってたいへんに実用的なものであり、統計分析の有用な手引き書になっている。しかし、よく読んでみると、意味の通らないところなどが各所に見られる。 「作業割り当ての判断」とコ

誤訳・悪訳の病理

 「式を用いた統計推論の対象、仮説検定、p値、t検定その他」という表現があった(注1)。なぜここに「対象」と言う言葉が出てくるのか不思議に思った。原文を見ると、「the subject of formal statistical inference」という主語から始まっており、これを「式を用いた統計推論の対象」と訳しているようだ。  原文では、主語のあとにダッシュ記号が続き、「仮説検定、p値、t検定その他」となって、これは例示である。  「式を用いた統計推論の対象」という訳は

対応分析のcaパッケージを初めて使ったのは2009年のことだった。

Package ‘ca’ Michael Greenacre 著、藤本 一男氏訳の本がオーム社から出ている。 『データサイエンスのための統計学入門・第2版』(黒川利明氏訳、オライリー・ジャパン)の第7章の「コレスポンデンス分析」でも、caパッケージが使われている。翻訳の誤りが各所にある。 library(ca).tbl <- matrix(c(12593,20650,23579,9256,9117,30032,7387,3088,4884,5968,3243,2004,

中間桁における0から9までの数字の頻度が実験データ捏造の証拠となるか?

統計的機械学習

 「収入に対する(抵当権を除いた)債務支払い比dtiと、収入に対するローン支払い比payment_inc_ratioの2つの予測変数だけの非常に単純なモデルを考える。」と書いてある(注1)。これでは意味が分からない。「抵当権を除いた」ということがどう意味なのだろうか思って原文を調べてみると、抵当権ではなく「住宅ローン」であった。「収入に対する(住宅ローンを除いた)債務支払い比」ということであれば理解できる。 newloan <- loan200[1, 2:3, drop=F

用語についての違和感

 単に私が最近の統計学の動向に疎いだけなのであるが、違和感を覚える用語がいくつかある。それについて調べてみたい。 (1) 機械学習  これは、statistical machine learningのこと。データに牽引される(data-driven)方法で、線形等の構造をデータに無理矢理に当てはめようとしない、ということのようだ。しかし、なぜ「機械」という言葉が入ってくるのだろうか。「学習」という言葉も。機械に学習させようというのであろうか。 (2) 教師なし学習  

正常な偶然変動の範囲とは

 「正常な偶然変動の範囲を超えていること」という表現に出会った(注1)。原文は「beyond the range of normal chance variation」であった。  「偶然」とは何なのか考えてみた。少し前から私が関心を持っているスピノザは、『エチカ』(岩波文庫)のなかで「自然のうちには一つとして偶然なものがなく、すべては一定の仕方で存在し・作用するように神の本性の必然性から決定されている」(第1部定理29、畠中尚志氏訳)と書いている。統計学の確率論的世界観とス