マガジンのカバー画像

Rによる二次的データの分析

51
社会的データについてRStudioを使ってグラフを作成したり統計学的分析をおこないます。
運営しているクリエイター

#R

Rをつかう単純な計算のための備忘録

 Rを使い始めた頃に参照していたものの1つは『データ解析環境「R」』(工学社発行)という本であった。著者は、舟尾暢男・高浪洋平の2氏。本に書き込みをしながら読んだ。有意義な本であった。  まず、その本に書き込んだメモを見ながら、Rの使い方を復習してみようと思う。そうすることで、しばらく使わないでいたあとにまごつかないようにすることができるだろう。  別の本(注)も、昔真剣に取り組んだことがある。その本の巻末に「補遺 RとS-PLUSの備忘録」というものがあり、これも復習してみ

『データサイエンスのための統計学入門』(オライリー・ジャパン)の翻訳の誤り

 『データサイエンスのための統計学入門 第2版』は、副題が「予測、分類、統計モデリング、統計的機械学習とR/Pythonプログラミング」となっている。原著が「Practical Statistics for Data Scientists」であることからもわかるように、内容が、データを扱うサイエンティストにとってたいへんに実用的なものであり、統計分析の有用な手引き書になっている。しかし、よく読んでみると、意味の通らないところなどが各所に見られる。 「作業割り当ての判断」とコ

統計量の標本分布

『データサイエンスのための統計学入門・第2版』(オライリー・ジャパン)を読んでいる。訳書の63ページに以下のような文がある。  原文は、前後を含めて引用すると以下の通り。ファクタ化するのは、income$typeであって、データフレームincomeの全体ではない。  データフレームをバインドすることと、そのバインドされたデータフレームの1項目(変数名はtypeである)をファクタに型変換することとは別のことである。訳文では、「型変換」という語が使われているが、typeという

QQプロット

 『データサイエンスのための統計学入門・第2版』(オライリー・ジャパン)の75ページに以下のような文章がある。ピンとこないところがあるので調べてみた。 「QQプロットではz値を低いものから高いものに並べ、値のz値をy軸に、値の順位の正規分布に対応する分位数をx軸にとる。データは正規化されるので、平均値から標準偏差単位でどのくらい離れているかがわかる。」   原文は以下の通り。  翻訳では、「データは正規化されるので」となっているが、「データは正規化されているので」でない

新型コロナ死亡者数のグラフ

データの出所: https://covid19.mhlw.go.jp/public/opendata/deaths_cumulative_daily.csv library(readr)death_total <- read_csv("https://covid19.mhlw.go.jp/public/opendata/deaths_cumulative_daily.csv")dat <- death_total[,c(1,2)]colnames(dat)[2] <- "

ggplot2によるグラフの作成

2020年5月9日以降 データの出所: https://covid19.mhlw.go.jp/public/opendata/deaths_cumulative_daily.csv library(readr)death_total <- read_csv("https://covid19.mhlw.go.jp/public/opendata/deaths_cumulative_daily.csv")dat <- death_total[,c(1,2)]colnames(