Pythonで統計_アーカイブ

Python初心者の研究者です。 Pythonで統計解析をやり始めましたので、その備忘…

Pythonで統計_アーカイブ

Python初心者の研究者です。 Pythonで統計解析をやり始めましたので、その備忘録としてアーカイブします。 自分用コピペライブラリーのつもりですが、誰かの参考になれば幸いです。 投稿記事内で誤りがあればご指摘ください。

最近の記事

箱ひげ図に多重比較検定の結果を描画

(1)はじめに多重比較検定の結果を箱ひげ図に描画します。これを自動化できるとどれだけ楽か・・・ 参考にしたのは以下のサイト。最高です。がこのサイトでは、3群のデータから2群ずつ取り出し、マン-ホイットニー検定を実施しているので、多重比較検定バージョンにしました。 https://rowannicholls.github.io/python/graphs/ax_based/boxplots_significance.html (2)全体コードimport pandas as

    • Pythonで箱ひげ図

      (1)はじめにPythonで箱ひげ図を描きます。最終的には、前回の多重比較検定の結果と併せて、箱ひげ図に有意差検定の結果を描画できるようにします。 (2)全体コードimport pandas as pdimport matplotlib.pyplot as pltdf = pd.read_csv("iris.csv")#箱ひげ図を描画するために、データを加工。#dfのvariety列から'Setosa','Versicolor','Virginica'のsepal.len

      • Pythonで多重比較検定

        (1)はじめにPythonで多重比較検定を行ないます。多重比較検定の前にクラスカル・ウォリス検定を行ない、p<0.05を確認します。 (2)全体コードimport pandas as pdfrom scipy import statsdf = pd.read_csv("iris.csv")df.head()#クラスカル・ウォリス検定s,p = stats.kruskal(df["sepal.length"], df["sepal.width"], df["petal.le

        • Pythonでべき乗回帰(Power Regression)

          (1)べき乗回帰を行なう今回はべき乗回帰(Power Regression)の計算と図の作成をしたいと思います。簡単に計算できるパッケージはなさそうですね。使用頻度が高い分析方法ではないからでしょうかね。 (2)使うデータいつもどおりのirisデータだと、ちょっと変な感じになりましたので、以下のようなデータを用意しました。(noteって表はつくれないんですかね。csvからコピペすると図になってしまう…) (3)べき乗回帰とは。べき乗回帰(Power Regression)

        箱ひげ図に多重比較検定の結果を描画

          Pythonで単回帰分析

          (1)単回帰分析を行なう今回は単回帰分析と図の作成をしたいと思います。以前、scipyのstatsを用いたので、今回はsklearnで行なってみます。 (2)使うデータいつもどおりirisデータです。 (3)実際に計算してみる。import pandas as pdimport numpy as npfrom sklearn.linear_model import LinearRegressionimport matplotlib.pyplot as pltdf = pd

          Pythonで相関行列・偏相関行列(2)

          (1)偏相関行列を計算する 今回は偏相関行列の計算と図の作成をしたいと思います。 (2)使うデータ いつもどおりirisデータです。 (3)コードの紹介の前に 相関係数の計算は、Pandasを使えば簡単に算出できます。しかし、偏相関行列の計算は、普段使うようなライブラリではできません(たとえば、scipy、statsmodels、scikit-learnといった、よく使うライブラリには、偏相関行列を計算する機能がないようです)。  偏相関行列を計算できるライブラリを検索す

          Pythonで相関行列・偏相関行列(2)

          Pythonで相関行列・偏相関行列(1)

          (1)相関行列を計算する 統計解析の第1歩が続いていますが、まだ第1歩です。今回は相関行列の計算と図の作成をしたいと思います。次回は偏相関行列です。 (2)使うデータ いつもどおりirisデータです。 (3)相関行列を計算する。 相関行列今回のコードはこちらです。 import pandas as pdimport matplotlib.pyplot as pltdf = pd.read_csv('iris.csv')#相関行列の計算x = df.corr(method

          Pythonで相関行列・偏相関行列(1)

          Pythonでバブルチャートを描く

          (1)バブルチャートを描く。 グラフの作成に関するアーカイブです。今回はバブルチャートになります。 (2)使うデータ いつもどおりirisデータです。 (3)実際に描いてみる 今回のコードはこちらです。 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdf = pd.read_csv('iris.csv')#x軸y軸の範囲を指定plt.xticks(np.arange(4, 9, 1

          Pythonでバブルチャートを描く

          Pythonで散布図を描く。

          (1)散布図を描く。 グラフの作成に関するアーカイブです。今回は散布図になります。 (2)使うデータ いつもどおりirisデータです。 (3)実際に描いてみる 今回のコードはこちらです。 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom scipy import statsdf = pd.read_csv('iris.csv')print(df)print(df.descri

          Pythonで散布図を描く。

          複数のグラフを1つの図として描く

          (1)グラフを並べて、1つの図として描く グラフの作成に関するアーカイブが続きます。今回はグラフを並べて描く方法です。これまでに紹介したヒストグラムを例に紹介します。 (2)使うデータ いつもどおりirisデータです。 (3)Matplotlibの考え方 Matplotlibの公式HPに大変わかりやすい図がありましたので、引用いたします。  この図にあるとおり、あらゆる項目を指定することで、大変きれいなグラフを描くことができます。この図にある考え方のうち、今回は、plt

          複数のグラフを1つの図として描く

          Pythonでヒストグラム(3)

          (1)ヒストグラムをきれいに描く 前回の続きです。ヒストグラムは最終回です。  今回は、前回の最後に作成したパレート図に、頻度を打ち込む方法をアーカイブします。案外、この方法は調べても出てこなかったりするので、便利では?と思います。Excelだと簡単にできるのに、Pythonだと若干めんどくさい処理です。  あと、ついでに正規性の検定をして、その結果をグラフ中に打ち込んでいます。なんか盛りだくさんになってしまいました。 (2)使うデータ これまでと同じく、irisデータを使

          Pythonでヒストグラム(3)

          Pythonでヒストグラム(2)

          (1)ヒストグラムをきれいに描く 前回の続きです。 (2)使うデータ これまでと同じく、irisデータを使います。 (3)実際に計算してみる 今回のコードは下記のとおりです。前半は前回と同じです。追加した部分を紹介します。  その前に、私は毎回print(df)やdf.describeでデータの確認をしています。これは癖をつけることをおすすめします。どのデータを使っているのか?古いデータを指定していないか?といったミスを減らすことにつながります。 では、今回のコードの説明

          Pythonでヒストグラム(2)

          Pythonでヒストグラム(1)

          (1)データのグラフ化 前回は基本統計量を算出しました。ここで紹介しているものの他にも、重要な統計量はあります。ただ、統計量を算出するだけではつまらないので、データのグラフ化についてアーカイブします。  今回は、ヒストグラムを作成します。実は基本統計量を確認する方法として、ヒストグラムは大変重要なものになります。 (2)使うデータ 前回と同じく、irisデータを使います。 (3)実際に計算してみる 前回と同じく、irisデータを使います。今回のコードは下記のとおりです。こ

          Pythonでヒストグラム(1)

          Pythonで基本統計量 ~分散・尖度・歪度~

          (1)前回からの続き 前回は、基本統計量として平均、標準偏差、最小、最大等を算出しました。今回はPandasのdescriveでは算出できない分散・尖度・歪度を算出したいと思います。  分散・尖度・歪度の意味は下記のとおりです。 ・分散  分布のひろがりを表す統計量。 ・尖度(せんど)、歪度(わいど)  分布が正規分布からどれだけ尖っているかを表す統計量。0の場合、正規分布になります。 (2)使うデータ 前回と同じく、irisデータを使います。 (3)実際に計算してみる

          Pythonで基本統計量 ~分散・尖度・歪度~

          Pythonで統計(備忘録)

           初心者Pythonユーザーの研究者です。  Pythonは世界中で使われていて、ちょっと検索すると様々なコードが公開されています。Python初心者の私は、公開されているコードをコピペさせてもらっています。ありがとうございます。  しかし、Web上にあるコードをそのままコピペしても上手く動かないことが結構あり、困ることもあります。コピペで上手くいったもの、自分で調整して上手くいったものの両方をアーカイブして、自分用のコピペライブラリーを作ろうと思います。

          Pythonで統計(備忘録)

          Pythonで基本統計量 ~データ分析の第1歩~

          (0)作業環境・Python3.9.4 ・Spyder ・Anaconda3 (1)データの特徴を確認 データの特徴に応じて統計解析の手法が異なります。そのため、データを分析する際には、データのサイズ(個数)や平均、標準偏差、最大、最小といったデータの特徴を確認することが重要です。これらは基本統計量と呼ばれます。(基本統計量の詳細な解説は統計の本やWebをみてください。)  もちろん、基本統計量はExcelのデータ分析やRでも確認することができますが、ここではPythonを

          Pythonで基本統計量 ~データ分析の第1歩~