F-nameのブログ

はてなダイアリーから移行し、更に独自ドメイン化しました。

標本に基づく推測統計(1):統計的推定(社会統計学入門第4回)

母集団の推定は知っておかないとトリックに騙される場合がある。

林拓也。標本に基づく推測統計、統計的推定。社会調査の計測からの値、比率や平均などは該当した人の実態を表す。ただし社会調査の結果は回答者に限定して解釈するだけでなく、結果を元により広い人々の対象として。全世帯の傾向を表すとされる。テレビ視聴率。一部分の世帯の調査の結果。全世帯の傾向として。対象の全部の世帯が何万もある場合、600の世帯の調査で考えるのは違和感が?所定の手続きにより社会調査を実施するとある程度は可能に。推測統計について。
調査が実施される際にはどのような対象の想定を。視聴率では全世帯。集合体全体を母集団という。実際の調査では対象の中から一部を取り出しデータを収集する。600世帯。母集団から抽出される一部分は標本、サンプル。抽出する。大多数の調査は一部分である標本についてのみ調査を。母集団と標本の関係。母集団に含まれる個体。一部分を標本として抽出。標本抽出、サンプリング。標本を対象とし調査が行われ、そのデータに基づく統計分析で値が得られたとして、推測するのが統計分析。仮説の検定。平均など。値を検定。その値に基づいて推定するのが推定統計。母集団の値を推定、仮説を検定。母数。母比率π、母平均、母分散など。標本における値。統計量と呼ぶ。標本比率、標本平均、標本分散など。母比率を推測。母集団から標本を抽出する統計量は標本抽出毎に異なる可能性がある。母集団の13枚のスペードのカードの母平均は7。13枚のカードから標本を抽出した4枚を。標本平均は2.5になることがある。標本平均は7になることもあるが。元の母平均は唯一の値として定まるが。標本平均は異なることが頻繁に。13枚から4枚を抽出するカードの組み合わせは715通り。標本平均の分布。1個の黒丸が標本1つ。標本平均の最小値は平均2.5。図の左端。最大値は標本平均11.5。右端。中央には標本平均が7。標本に関する統計量がその抽出ごとにバラける様子は分布として表せる。標本分布。標本平均の分布は中央部の出現度数が高く、左右対照の山形に。標本分布の平均が母平均と一致するのが特性。715パターンの標本平均の平均は7になる。元の母集団の平均、13枚の平均も7。1つの母集団からの標本平均は様々だが。標本平均の典型的な値は母平均と同じ値である。1つの標本を対象として社会調査は行われる。標本分布が直接観測されることはない。通常は母数も分かっていない。このような場合でも標本分布の特性を使って母平均を推定することが可能。母集団とする時に中身がわからない、母平均が分からないとする。4枚の標本平均が7。典型的な標本と考える。標本平均をそのまま母平均の推定値とする。標本統計量を推定するのを点推定。実際の例。睡眠時間の平均は7時間14分。抽出された回答者は4840人。標本の平均が7時間14分。母集団の推定。標本統計量が点推定値となるのは比率の場合も同様。ある番組の視聴率が15%。標本が抽出された母集団も15%と推測。標本分布が根拠に。不変推定量。母数を推定する望ましい特性の1つ。点推定について注意点。推定された母数ただ1つだけが母集団の値とは限らない。13枚のカード。0から12まで。母平均は6。4枚のカードを抽出してその標本平均が7。その数は36パターン。母平均7の場合は1から13。標本平均7になる度数は43パターン。他の母平均からも標本平均7になる可能性がないわけではない。0から12の場合。点推定の考えではなく母数がどの範囲にあるかを推定。区間推定の考え方。不変推定量。分散については注意が必要。分散は連続変数に対する散らばりの指標。標本統計量に基づいて母分散の推定の式。母平均μが分かっているならば母分散Σの二乗が推定される。偏差を二乗。それらの総和を。偏差二乗の平均が母分散の推定値。不変推定量といえる。ただし母平均μが分かっていることは稀。母平均がわからない場合に分散を。母平均の代わりに標本平均を用いる。偏差二乗和が異なる標本の場合が。母平均の代わりに標本平均を用いる。偏差二乗和を計算。非常に大きな違いも出てくる。偏差二乗和が小さくなる。個体数で割ると。不変推定量となるような式が別に立てられる。N-1で割る。標本を抽出して用いる社会調査では。不偏分散とも。
正規分布と区間推定。標本分布が分かれば。標本の出現範囲を確率的に把握。母数がどの範囲にあるかを推定出来る。標本分布の出現範囲。中央部分の範囲。標本平均6から8。355個。49.7%の標本が。4から10には679個。全体の95%。判断の基準を特定の確率で区切る場合は慣習的に95%を。出現範囲の95%の外側は7から抽出された可能性が低いと。調査に因る睡眠時間は7時間14分。分単位では434分。2つの標本分布を。曲線は433分である母集団の分布。前標本の95%。範囲が計算される根拠。実際の調査で得られたデータを照らし合わせる。母平均433の95%の出現範囲にある。標本平均434分の標本は433分から得られる可能性がある。別の母平均を想定。母平均が425分である母集団から抽出された分布。出現範囲の中に434分は含まれていない。標本平均434分は425分から得られる確率が非常に低い。データの標本分布は分かっていない。標本平均の分布が正規分布と仮定している。推定を行う場合は正規分布に従うと。標本サイズが大きければ正規分布に近似する。この特性を利用してどの範囲の標本分布かを。母数の推測に利用されるのは幾つかの種類が。
正規分布の特性。正規分布を表す曲線。分布は平均値を中心に。平均値から特定の値までを面積で示すことが出来る。1標準偏差Σまで。発生確率は標準正規分布表で調べられる。平均を0、標準偏差を1としたZ得点を。標準偏差の何倍離れているか。平均プラス1標準偏差。Zの値として1.0を見る、右の列にある領域比率。Zが1.0の場合。発生確率を。0からプラス1の範囲に約30%が、大きい方向と小さい方向。両方を合わせた場合は両側の値を。平均0から両方に1標準偏差離れている場合。0.6827。68%が含まれる。実用上に標本が出現する場合。標本分布全体の95%を発生確率として。領域比率が95%に相当するところを探す。0,9500に相当するZの値を。領域比率。高い方向と低い方向の双方。両側95%の出現。1.96倍離れた。正規分布の特性を前提として標準偏差がわかれば標本平均の出現範囲を推定できる。その分布の平均は母平均と一致する。分布の標準偏差。母平均からどの程度離れたかの指標に。標準誤差。

 

社会統計学入門 (放送大学教材)

社会統計学入門 (放送大学教材)

  • 作者:拓也, 林
  • 発売日: 2018/03/01
  • メディア: 単行本