マガジンのカバー画像

Rによる二次的データの分析

51
社会的データについてRStudioを使ってグラフを作成したり統計学的分析をおこないます。
運営しているクリエイター

記事一覧

固定された記事

Rをつかう単純な計算のための備忘録

 Rを使い始めた頃に参照していたものの1つは『データ解析環境「R」』(工学社発行)という本であった。著者は、舟尾暢男・高浪洋平の2氏。本に書き込みをしながら読んだ。有意義な本であった。  まず、その本に書き込んだメモを見ながら、Rの使い方を復習してみようと思う。そうすることで、しばらく使わないでいたあとにまごつかないようにすることができるだろう。  別の本(注)も、昔真剣に取り組んだことがある。その本の巻末に「補遺 RとS-PLUSの備忘録」というものがあり、これも復習してみ

『データサイエンスのための統計学入門』(オライリー・ジャパン)の翻訳の誤り

 『データサイエンスのための統計学入門 第2版』は、副題が「予測、分類、統計モデリング、統計的機械学習とR/Pythonプログラミング」となっている。原著が「Practical Statistics for Data Scientists」であることからもわかるように、内容が、データを扱うサイエンティストにとってたいへんに実用的なものであり、統計分析の有用な手引き書になっている。しかし、よく読んでみると、意味の通らないところなどが各所に見られる。 「作業割り当ての判断」とコ

『データサイエンスのための統計学入門』と「say」

 「カイ二乗検定:リサンプリング方式」の項目を読んでみた。  訳書129ページに、リサンプリングのアルゴリズムの説明(注1)の中で、1から3までのステップがあり、4番目に「2から3のステップを1,000回繰り返す」とある。なぜ1,000回なのかと疑問に思った。その回数にどのような意味があるのかと思って英文を確認してみると、「say」という単語が省略されて訳されてることがわかった。  「2から3のステップを、たとえば、1,000回繰り返す」ということであった。  訳書の次の

誤訳・悪訳の病理

 「式を用いた統計推論の対象、仮説検定、p値、t検定その他」という表現があった(注1)。なぜここに「対象」と言う言葉が出てくるのか不思議に思った。原文を見ると、「the subject of formal statistical inference」という主語から始まっており、これを「式を用いた統計推論の対象」と訳しているようだ。  原文では、主語のあとにダッシュ記号が続き、「仮説検定、p値、t検定その他」となって、これは例示である。  「式を用いた統計推論の対象」という訳は

北九州市長選挙出口調査の年代別得票率を対応分析によって再分析

2023年2月5日に北九州市長選の投票が行われ、出口調査に基づいて西日本新聞が各候補の年代別得票率を帯グラフで示しています。しかし、2月7日に発行された同紙の記事に掲載された帯グラフには、重要な情報が欠落しています。この帯グラフにおいて、パーセントを計算する際の分母として用いられた各年代の回答者総数が示されていません。 そのため、年代による差がどの部分で統計的に有意なのかが判断できません。例えば、武内和久候補の得票率が10代と20代で差があるかどうかを確認するためには、10

世論調査における政党支持と回答者の世帯年収との関係について(その1)

読売新聞社のウェブサイトに下記のタイトルの記事があった。そこでは、世論調査における各政党の政党支持率が回答者の世帯年収との関係で取りあげられていた。 「維新の支持層は、低所得者」本当か?<上>  (2022年6月17日付け) 「維新の支持層は、低所得者」本当か?<下>(2022年6月18日付け) この2つの記事について書いてみようと思う。なお、以下の本文中のグラフは、記事で公表されているデータから筆者が作成したものであり、内容に間違いがある場合には筆者の責任である。 1

世論調査における政党支持と回答者の世帯年収との関係について(その2)

「その1」に続いて、読売新聞社の世論調査について取りあげる。 調査回答者の世帯年収6分類別人数 第1層:200万円未満 第2層:200万〜400万円未満 第3層:400万〜600万円未満 第4層:600万〜800万円未満 第5層:800万〜1000万円未満 第6層:1000千万円以上 読売新聞記事では、第1層と第2層を「低年収層」と仮定している。 回答者の年齢構成 回答者における年齢と世帯年収との関係 記事では、年齢と世帯年収との関係は明らかにされていない。そのた

オッズ比と相対リスクの使い分けについて

日本疫学会の「疫学用語の基礎知識」というウェブサイトに、オッズ比についての説明がある。 そこでは、「コホート研究での累積罹患率(罹患率)のオッズ比と症例対照研究での曝露率のオッズ比がある」と書かれてある。 コホート(コーホート)研究は、罹患を取りあげのに対して、後ろ向き研究としての症例対照研究は、曝露を取りあげるという説明である。 ここで使われている「罹患」は、一般的には、特定の状態の発現と捉えることができるであろう。 「曝露」とは、一般的には「リスク(と想定される)

自転車用ヘルメットの着用は死亡事故を減らせるか?

いつも基本的に、自転車に乗るときにはヘルメットを着用するようにしてきている。しかし、自分で気づいていることは、ヘルメットを着用していないときの方がスピードを出さず、安全により注意しているということだ。 最後に触れるが、いつもヘルメットを着用している人は、着用しない場合にいつもより慎重になるという研究結果もある。つまり、ヘルメットを着用しているときには、頭部が保護されているという安心感からスピードを上げるなどの行為をおこない、リスクを増大させるということである。心理学はこれを

北九州市長選挙(2023年2月5日)

1. 選挙管理委員会資料 北九州市長選挙開票結了速報 2. モザイク図の作成 3. モザイク図の解釈 どの区でも1位は「イメージ戦略」で成功したといわれる武内和久候補——コンサルティング会社代表取締役で2019(平成31)年4月の福岡県知事選挙では落選した——であった。彼が今回最も強かったのは小倉北区だったようだ。逆に言うと、相対的に弱かったのは門司区(と若松区)であった。武内和久候補の公約は「100万都市の復活」と「稼げる街」というものであった。選挙戦をどのような組

+5

モザイク図と対応分析のグラフとで見てみる北九州市長選挙の結果

対応分析のcaパッケージを初めて使ったのは2009年のことだった。

Package ‘ca’ Michael Greenacre 著、藤本 一男氏訳の本がオーム社から出ている。 『データサイエンスのための統計学入門・第2版』(黒川利明氏訳、オライリー・ジャパン)の第7章の「コレスポンデンス分析」でも、caパッケージが使われている。翻訳の誤りが各所にある。 library(ca).tbl <- matrix(c(12593,20650,23579,9256,9117,30032,7387,3088,4884,5968,3243,2004,

1737市町村(両対数グラフ)

data <- data0[1:1737,]library(ggplot2)ggplot()+geom_abline(intercept = 11.003,slope = -1.655,color="blue",linetype=2)+ geom_hline(yintercept=100,linetype=2,color="green",size=0.3)+ geom_point(data=data,aes(y=rank,x=pop,col="red"))+ theme_

小さな間違い発見

B.エベリット『RとS-PLUSによる多変量解析』(シュプリンガー・ジャパン) $${y_n}$$となるべき所が、$${y_q}$$となっていた。 訳書168ページの「コラム8.1:重回帰モデル」の本文1行目。 「目的変数$${y}$$の観測値を$${y_{1},y_{2}, . . . , y_{q}, }$$また$${q}$$個の説明変数$${x_1,x_2, . . . , x_q}$$の観測値を$${x_{i1}}$$, $${x_{i2}}$$, $${. .