二次元データの数値的要約です。先にこれについてやる前に散布図について軽く述べます。 二次元データ(Xi, Yi)を平面の上にプロットしたものが散布図です。 (散布図の例) 二つの変数間の関係を相関関係と呼ぶ。特に直線的な傾きがある時、相関があると言う。正の傾きであれば正の相関を持ち, 負の傾きであれば負の相関と呼ぶ。 共分散二次元データ(Xi, Yi)の共分散をCovとすると次のように書ける。 共分散は二つのデータの関係性の強さを表してい
ここでは一次元数値的要約について書いていく。 平均 各データからの距離が最小となる点(値) 。各データをXk (k=1,2,・・n)とすると平均値νは 平均値は必ずしも標本の代表値ではない。そのことを注意する必要がある。 例えば、クラスAとクラスBには人がそれぞれ40人いるとする。それぞれのテストの平均点は70点と50点であった。こう見ると、全体的にA組の方が優秀であると思い込みがちである。しかし、A組では全員が70点を取っていてB組では20人が100点残り
こんにちは。この記事では学校で学んだことについて整理するために書いています。 といっても自分が大事だと思ったことを書いているだけです。教科書のように丁寧に書いているわけではないのであしからず。また, 間違っているところなどあったら遠慮なくいってください。 データ科学とは データを入力として何らかの意思決定の出力をプロセスを数理的に扱う学問。 (例) 来週のアイスの仕入れ量を決めたい。多すぎても少なすぎてもダメ。先週の売り上げと気温のデータから仕入れ量を予想したい。