マガジンのカバー画像

統計問題雑談

23
統計の問題をネタに雑談します。
運営しているクリエイター

2023年9月の記事一覧

(1):単純集計は統計の第一歩でしょ。

分析の第一歩としての単純集計いろんな教科書に書いてあると思うのでしつこく繰り返さないけど、実際にデータを収集したら、変数ごとに単純集計して、度数分布表やヒストグラムを作るのはデータ分析の基本だね。 どうしてかというと、こういう作業の中で、外れ値が見つかったり、明らかに異常な値が見つかったり、記入漏れが見つかったりするので、そういうのをどう扱ったらいいかを考えることができるから。もしそういう値がなかったら、安心して次の分析に移れるからね。 ついでに書いておくと、外れ値は単純

統計ネタひとり雑談(目次ページ)

Cover Photo by Martin Martz on Unsplash Psychological Statistics問1:平均、分散 問2:2変数の関係 問3:偏相関係数 問4:記述統計用語 問5:信頼区間の解釈 問6:信頼区間の計算 問7:相関係数の検定 問8、問9:分散分析 問10:統計分析の注意点 雑談なし。 より過去の出題問題 (22年度2学期 問6など)推測統計用語

(10):要するに参加者は何人か。それが「行数」だ。

HADを使いましょう「心理学統計法」の試験問題で、ある意味で、もっともこの科目らしい問題です。分散分析のF値(近似値)を、選択肢から選ぶ問題なのですが、数値を電卓で計算してそこにたどり着くのはけっこう大変です。できないわけではありません。電卓でもやろうと思えばできるんです。ただ、それなりに面倒だからやりたくないだけです。 だったらExcelでもいいんでしょ? という感じもしますが、だめです。いえ、「対応のない」場合はできるんですが、「対応のある」場合ができないんです。だから

(9):有意=少なくとも相関係数は0じゃないらしい。だから?

相関係数の有意性検定よくある間違いとして、入門書に書いてありそうなやつは、「相関係数が有意だから、強い相関がある!」ってやつですね。これは誤り。だって、有意になったと言うことは(ごく普通の、いわゆる「無相関検定」の場合)、「少なくとも相関係数が0だとは言えないよね」くらいの結論しか示していないわけで、「強い相関」なんて一言も言ってくれない。 あと、サンプルサイズが大きくなれば、$${r=0.15}$$みたいな小さい係数でも有意になりますからね。$${r=0.15}$$って、

(8):信頼区間を求める問題

計算式は暗記すれば簡単…信頼区間を求める式は、基本となる形を暗記すれば簡単ですね。一般的には、 標本統計量 ± 臨界値 × 標準誤差推定値 という形をとります。ん? 見たことない? それは、教科書に書かれている計算式を、かなり一般的な言葉に書き換えているからかもしれません。でも、こういう「骨組み」で覚えたほうが、応用が利くはずです。 ①標本統計量 信頼区間を求めたい統計量ですね。平均値についてなのか、比率についてなのか、あるいは分散についてなのか。統計学の教科書によく出て

(7):計算された信頼区間(実現値)をどう解釈するのか

難しいです。はい。(2回目)こんな問題、簡単じゃん!と思える人は、以下は読まなくていいです。 定義ではなく解釈の問題 この問題がぱっと見難しいのは、私がこれを「定義」の問題だと勘違いしているからかもしれません。この問題は、信頼区間の定義をたずねているのではなく、信頼区間の解釈をたずねています。ここに実は大きな、そしてとても本質的な問題が含まれています。 何それ、ちんぷんかんぷん。と思われた方は、以下をお読みになるともっとわからなくなる可能性があります。ごめんなさい。 定

(6):用語の意味を問う問題(推測統計編)

難しいです。はい。推測統計の用語って難しいです。使われている単語ひとつひとつは、それなりに耳にしたことがあるものなんだけど、「説明して?」とか言われると5秒くらいフリーズした後に、「えーっとね…」と言ったきり、笑ってごまかす自信があります。どんな自信なんだか。 7章からがこの教科書の本番「心理学統計法」の教科書で、第7章から急に訳が分からなくなった、という人はいません? それ、正しい感覚だと思います。この章から、推測統計の話になります。推測統計って何か、などを短く語ってしま

(5):2つの変数の関係を表す指標たち

シミュレーションしてみましょう理屈はともかく、Excelでシミュレーションして、それぞれの指標の振舞いを観察してみましょう。まずは、質的変数どうしの関連指標から。 カイ二乗値とクラメールのVを計算してみる図に示したような簡単なクロス表で、カイ二乗値とクラメールのVを計算してみます。 出身地と麺類の好みを10人に聞いた どこかで聞いたような設定ですね。 いちおう説明すると、黄色い背景のセルが観測値で、10人に「どこ出身か」(A=関東、B=関西)、「うどん派かそば派か」(X

(4):尺度水準

統計科目の問題と言えばこれ、みたいなこの変数は何尺度か、みたいに、尺度水準を答える問題が、過去に3回出題されています。他の科目でも同様の問題が出されたことがあり、統計科目の問題としては定番の一つでしょう。 どの教科書でも、4つの「尺度水準」について説明されていますが、問題としてよく見るのは、数字で表されているけれども名義尺度あるいは順序尺度、というやつが多いように思います。郵便番号などが前者の例、商品レビューの星の数などが後者の例ですね。後者の場合、記号で代替しようと思えばで

(3)補足:偏相関係数計算シートを作ってみた

偏相関係数を求める計算式偏相関係数について取り上げている統計法の教科書はそれほど多くありません。放送大学の教科書では、「心理学統計法 ‘21」がはじめてかもしれません。とはいえ、 相関があるように見えても、第三の要因が影響していて、実は何も関連がなかったということもあるから、注意しましょうね! みたいな議論は重要で、他の教科書でも行われています。これを、「偏相関係数」という指標を用いて表そうとしているわけです。 偏相関係数は次の式で求められます。 $$ r_{xy\cdot

(3):偏相関係数~三角関係恐るべし

「偏」の字って、ちょっとイメージが悪い「えー、それって偏見!」と、「偏」の字が言ったかどうかは知らないが、日常生活で、「偏見」以外にこの「偏」の字をあまりつかわないね。でも数学が好きなら思いつくものがあって、それは「偏微分」。そう、あの$${\partial x}$$とかいう、恐ろし気な記号がでてくるやつね。この記号を見て「恐ろし気」とか言っている時点で偏見丸出しなんだけど、そもそも「偏」ってどういう意味なのかな? 漢字辞典なんかを調べると、「かたよった」みたいな意味が出て

(2):統計用語とその意味に関する問題(記述統計編)

知ってるつもりに要注意教科書を読んでいると、「なんとなく知っている用語」は、つい読み飛ばしがちだったりしません? 今回の問題になっている用語も、ついよく似た別の用語とごっちゃにしてしまいがちです。 「靴のサイズは?」と聞かれたら「25㎝」とか答えるのが普通で、「スニーカーだけで10足はある」とか答えたらヘンでしょ。「数じゃなくて、サイズを聞いてるんですけど~」となる。ていう感じの覚え方はどう? 「知ってるつもり」の話題に戻ると、運動生理学の科目で「呼吸」とか出てきて「知って

(1)続き:分散を計算するぞ

分散を電卓計算するぞ①練習用データで平均を求める 次のデータ(n=5)を使いましょう。分散を計算するには、まず平均を求めないといけないので、やりましょう。合計してn(=5)で割ります。 練習用データ=$${ 1, 6, 7, 10, 14}$$ 電卓のキーを示すとこんな感じ。途中、「=」を押した時に、合計「38」が表示されます。 実際の操作は、電卓によって、ひょっとしたら違いがあるかもしれないので、自分が使っている電卓の説明書を確認しよう。 電卓アプリはカッコとか使えて

(1):平均と分散

平均と分散は手計算できるよね?この科目の試験では、ほぼ同じ問題が毎回出されているので、「平均と分散くらいは、計算できるよね」というか、「それくらいは電卓でちゃんとやってよね」ということだろう。n=5なので、落ち着いて電卓で計算すれば楽勝なのである。 もしかして、平均の計算の仕方がわからない? 平均はOKだけど分散が不安? 2乗の計算がめんどくさい? そうですね、電卓使い慣れないと2乗して合計するって、それなりに面倒かもね。 標本分散だよ 地味に強調しておきたいのは、ここ