F-nameのブログ

はてなダイアリーから移行し、更に独自ドメイン化しました。

データの基礎集計(2)(社会統計学入門第3回)

統計のトリックに惑わされないことが必要。初歩の統計理論は必須かもしれない。

 

度数分布を統計量で記述。代表値。散らばる具合を。質的変動指数。パーセンタイル。
分布の中心を表す代表値。色々な変数の分布の中心を表す。離散変数であっても連続変数であっても、変数にはそれぞれの分布が。身長などの変数。中心または典型。最頻値、中央値、平均値。最頻値。ある変数の中でも最も観測される頻度が高い。最終学歴についての度数分布表。出現頻度。最頻値は高校卒。基本的に離散変数の分析で。連続変数の場合にはあまりない。度数がほぼ同じ値が複数現れるケースに注意。最頻値は分布の中心を上手く捉えることが出来ない。中心が2箇所ある、ということになってしまう。中央値。観測された値を並べて丁度真ん中の値。親しい友人の数のデータ。丁度真ん中がない場合は、真ん中にくる2つの値の中間の値を。値を大きさの順で並べるので、連続関数の場合のみ。何百もあると探すのが大変。累積度数分布表を用いる。50%の人。平均値。観測された値の総和を、値の総個数で割って得られる値。全ての値を計算に取り込む。分母は総個数。分子。個別の観測値。対象者の通し番号。Σ。指定された値を合計する。Σの下と上。何番目から何番目まで足し合わせる。注意点。平均値は産出にあたり計算が必要。連続変数においてしか求められない。極端な値についての問題。いちじく外れた値を外れ値という。平均値に影響する。分布の中心を表す値として妥当ではない。値の高い方や低い方に密集すると言った、分布に偏りが在る在る場合には、中心値が妥当。
散布の比。離散変数の散らばりを表す指標。それぞれのカテゴリーの中の値の数を判断。国籍についての度数分布表。比率の問題。散らばりが大きい、多様性に富む。多様性が少ない。多様性指数d。質的変動指数IQV。カテゴリーの数と比率。カテゴリーの比率の2乗を足し合わせる。1からそれを引く。0が最小値。カテゴリーの数に左右される。欠点を補うのが質的変動指数。最大値が1、最小値が0になるようにしている。連続変数の散らばりの算出。分散と標準偏差。平均値からどれだけ離れているか。平均から離れているほど散らばりが大きいとみなす。偏差。分散。分子。それぞれのケースの偏差。平均値からどれほど離れているかを計算。偏差を二乗して足し合わせる。分母で1を引いているのは、標準データを想定している。分散は二乗しているので√を取る。標準偏差。それぞれの値が平均からどの程度離れているのかの標準の値を得られる。個別のデータがどこに位置するのかを計算できる。分布における位置を表す。分布のどこにあるか。パーセンタイル。60%など。60パーセンタイル。60%の人が含まれる。累積度数分布表。より厳密な方法もある。四分位数。z得点。相対的な位置づけを考慮しながら比較することが出来る。標準化。
それぞれの統計量の色彩は異なる。状況に応じて正しい分析を。

 

社会統計学入門 (放送大学教材)

社会統計学入門 (放送大学教材)