F-nameのブログ

はてなダイアリーから移行し、更に独自ドメイン化しました。

📊統計の心得: 変数分布から標準偏差まで📈(ヘルスリサーチの方法論第10回その3) #放送大学講義録

量的変数を扱うのには慎重である必要があるだろう。まあ質的変数も同様だけど。

 

-----講義録始め------

 

これまで、統計を用いた研究の目的は、関連性を明らかにすることだと述べてきました。しかし、関連性を検討する前に、変数の集団における分布の特徴を理解する必要があります。分布とは、ある事象が空間的あるいは時間的範囲にどのように存在するかを示すものです。これは、例えば、変数がどれほど散らばっているのかを示すものです。変数によっては、その分布の見方が異なります。

変数分布の確認は、度数分布という表やヒストグラム、つまり度数を棒グラフで示したものを使用して開始します。図10の2に示した度数分布表とヒストグラムをご覧ください。度数分布表では、実際の度数の他、全体の度数や、対象者数に対するパーセントも表示するのが一般的です。これを参考に、値の広がりや最も頻繁に出現する値、そしてその分布が正規分布に近いのかを評価します。

質的変数の例として、年齢が挙げられますが、度数分布だけで良い場合もあります。しかし、量的変数の場合、度数だけでの取り扱いは効率的ではありません。そこで、代表値やばらつきを見ることになります。代表値としては平均値、中央値、最頻値が挙げられ、特に量的変数では平均値を多用します。平均値には算術平均が一般的で、これは全データの合計をデータ数で割ったものです。ただし、外れ値があると平均が大きく変わる可能性があるため、事前に度数分布やヒストグラムを参照し、外れ値を確認し修正することが必要です。これをデータクリーニングと呼びます。

中央値はデータを昇順に並べた時の中央の値を示し、ばらつきはデータの平均値や中央値からの偏差の程度を示します。このばらつきは標準偏差という指標で数値化されることが多く、英語では"standard deviation"と呼ばれ、略して"sd"やギリシャ文字の"σ"で表記されることもあります。