F-nameのブログ

はてなダイアリーから移行し、更に独自ドメイン化しました。

標本に基づく推測統計(2):統計的検定(社会統計学入門第5回)

何となく統計の考え方が身についたかも。勿論きちんと勉強しなければいけないけれど。

 

統計的推定。母数を推測する手続。検定。母集団に対して仮説を立てた上で、真かどうかを判定する。標本統計量からは厳密に出来ない。標本比率が30%の場合。最初に母数を特定した仮説を立てて、帰無仮説。否定することを棄却という。その上で新たに立てられるのを対立仮説。採択されると母比率が30%以外になる。標本分布においてめったに起こらないのを境界という。境界を超えているなら帰無仮説が正しいという仮説を否定する。対立仮説を採択する。めったに起こらないという基準を有意水準という。有意水準5%。20回に1回誤って棄却される意。5%のことが多い。仮説が正しいと母数が定まる。標本分布において棄却域、α域。標本統計量が含まれない場合は帰無仮説は棄却されない。しかし正しいと証明された訳ではない。検定で証明できるのは特定の母数の可能性があるかないか。棄却されないのは可能性があるということ。
比率の検定。TVで番組Aを。視聴率が20%に。15%の結果。期待したより視聴率が低かった。母集団の一部の人達が対象なので、誤差の範囲。どちらが妥当か。視聴率が20%という帰無仮説を。母比率が20%。対立仮説は20%ではない。帰無仮説は棄却されない?棄却され対立仮説が正しいと、20%ではない。標本分布。正規分布に近似。分布の分散は。標本分布の平均は0.2。標本サイズは600。標本の95%が出現。帰無仮説の想定内。有意水準を5%とする。95%が正しい帰無仮説を。正規分布の両側95%の可能性。分布の平均を0.2。標本率は16.8%から。結果は95%。視聴率15%という標本データ。発生確率が低いのは問題なので帰無仮説を棄却。対立仮説を採用。事前の期待より低いというのが妥当。それを行う際には比率を標準正規分布を利用する手順で。z検定。母比率が20%。0.168から0.232まで。実際の標本データの比率は15%。棄却域に。手順。特定の母数を帰無仮説に。対立仮説を。手順2。有意水準を設定。5%など。手順3。どのような確率分布に従うか。正規分布など。境界の値を確認。限界値。標準正規分布表を利用する。有意水準α。5%となる箇所が。分布のどの位置にあるか、zの値が。帰無仮説で設定した母数。標本の実現範囲。範囲の外は帰無仮説において想定されづらい、5%以下。手順4。実際の調査に基づく標本データが。検定統計量。算出には差をとり標準誤差で割る。検定統計量zを。標本比率。手順5。仮説の判定。検定統計量が限界値を超えているかで。標本データに基づく検定統計量が限界値を超えていない場合は棄却しない。限界値の外側に。棄却域に。標本は想定外なので帰無仮説を棄却、20%ではないという対立仮説が採用される。市民の賛成や反対の意識調査。賛成と反対が同数か。市民全体の賛成率は50%。500人を対象とした標本調査。検定統計量zの値。有意水準を5%とすると、母集団における賛成率が50%でないとは言えない。推測では誤差の範囲を超えているとは言えない。対立仮説。特定の値以外。場合によっては特定の値より大きいまたは小さい、方向を限定。両側検定。片側検定。帰無仮説は変わりがない。比率の検定はどちらでも行える。どちらの検定を行うかにより限界値が異なる。標準正規分布表。両側検定の場合と片側検定の場合。視聴率データの事例。対立仮説を20%より低い、とする。母比率より低い。片側検定で注意したいのは、限定の理由の説明が必要。
小さな規模の標本で、t検定。平均値の検定を。標本データが大きければ正規分布を利用した検定を行える。自由度。標本に含まれる個々人の値の範囲。平均値の検定での自由度。31人の標本データ。自由度30のt分布。限定を行う時の限界値の違い。有意水準を5%として両側検定。確率分布表の中のt分布表。自由度30。有意水準の値。0.05。交差する箇所にあるのが限界値。500人の標本に基づいて平均値の検定。標本サイズが大きい場合。∞として扱う。1.96は標準と同じ。正規分布に近づく。t分布でも正規分布でも変わりない。t検定。架空のデータ。睡眠時間の調査。調査対象は30人の標本。睡眠時間の標本統計量は平均が450分。比較基準となる。検定の手順は。手順1。帰無仮説として設定。平均480分。対立仮説。両側検定を。480分ではない。標本の平均は450分というのは結果論。方向が特定できないのなら。手順3。確率分布と限界値を確認。t分布。標本サイズが30なので自由度は29。限界値は?手順4。実際の検定統計量。母平均との差。手順5。仮説の判定。自由度29のt分布。両端には棄却される領域が。帰無仮説を棄却することができないので、対立仮説を否定。平均は480分でないとはいえない。睡眠時間。標本平均や分散、標準偏差は同じ。自由度は60なので限界値は異なる。標準誤差にも標本サイズが関わる。検定統計量。限界値を超えている。帰無仮説を棄却できる。全く同じ統計量でも結論が異なる。
比率や平均値の検定。実質的意味が見出しづらい?2つ以上の変数を扱う場合の展開。男性と女性の差が0であるという帰無仮説。男女の差があるという対立仮説を採択される。性別という変数で。両変数が関係する。グループによる平均値の差の検定。様々な検定で使う値は異なるが、論理は同じ。少しずつ身につける。

 

社会統計学入門 (放送大学教材)

社会統計学入門 (放送大学教材)