ーーーー講義録始めーーーー
このような行列形式のデータから関心を持つ情報を引き出すことが、統計分析の役割です。
例えば、ある意見に対する賛成率や反対率を知りたい場合、500人分のデータ中の「賛否」という変数について、縦方向に集計しながら賛成や反対の人数を数える作業が必要です。ただし、この作業は分析者が手作業で行う必要はなく、データがパソコンに入力されていれば、統計ソフトウェアを利用して効率的に集計・計算できます。
たとえば、500人分のデータを集計した結果、以下のような分布になったと仮定します:
- 賛成:225人
- 反対:150人
- 中立:125人
各回答の比率は、人数を全体(500人)で割ることで計算されます。具体的には、賛成の割合は225 ÷ 500 = 0.45、つまり45%です。同様に計算すると、反対の割合は30%、中立の割合は25%となります。この結果から、全体の約半数がその意見に賛意を示していることが分かります。
次に、性別による賛否の違いに関心を持つ場合を考えます。この場合、「賛否」の分布を性別ごとに集計します。
結果として、以下のような傾向が確認できたとします:
- 男性:反対の回答が43%で最も多い。
- 女性:賛成の回答が48%で最も多い。
さらに、女性は男性と比べて「賛成」と「中立」の比率が高く、「反対」の比率が低いことも確認されます。この結果は、「性別」と「賛否」という2つの変数の間に関連があることを示しています。ここでいう「関連」とは、一方の変数の値によって、他方の変数の値の分布が異なる状態を指します。この例では、性別(男性または女性)が賛否の比率に影響を与えていることが関連性の証拠です。
一方で、変数間に関連がない場合とは、一方の変数の値にかかわらず、他方の変数の値の分布が一定である状態を指します。たとえば、男性と女性の間で賛否の比率がまったく同じ場合には、性別と賛否の間には関連がないと判断できます。
さらに、この調査データでは、他の変数同士の関連性も分析可能です。たとえば、「年齢」と「賛否」の関連を分析する場合、年齢をグループ(20代、30代、40代など)に分け、それぞれの賛成率や反対率を計算して比較することで、年齢による賛否の違いを確認できます。
統計分析を応用すると、3つ以上の変数を同時に考慮することも可能です。たとえば、「性別」「職業」「賛否」の3つの変数に着目した場合、以下のような複雑な関連性を調べることができます:
- 男性に限定した場合の職業と賛否の関連性
- 女性に限定した場合の職業と賛否の関連性
このように、統計分析を活用することで、より詳細で多角的な洞察を得ることが可能になります。