F-nameのブログ

はてなダイアリーから移行し、更に独自ドメイン化しました。

連続変数間の関連(1):ピアソンの積率相関係数(社会統計学入門第9回)

いきなり難関だったけれど何とかついてこれた。本当は高校数学の復習というか学習をしないと統計学は分からないのだろうけれど。

 

田辺俊介。連続変数間の関連。離散変数間の関連に対して。2つの連続変数を。その間にどのような関連があるか、図にして表す散布図。強さを示すピアソンの積率相関係数について。
2つの変数の関連を図と形で示す散布図。相関図。2つの離散変数間の関連をクロス図で。架空例。社員10名の年齢と年収。架空データ10ケース。AさんからJさんまで。平均年齢、平均収入、年齢の分散や標準偏差などの情報が。統計量を並べてもその2つの変数の関連は見えてこない。関連を図に変えることで把握するのが散布図、相関図というグラフ。1つの変数をX軸、もう一つの変数をy軸。2つの連続変数を点で。プロットする。具体的には10人分のデータを散布図に。AからJまでの。散布図を見ることで2つの変数にどのような関連があるか大づかみに把握できる。全体として見る。年齢が上がれば年収が上昇する傾向。散布図からの関係。明らかになる関係の中で典型例を。2変数の関連。4つの図。変数Xが増えればYも増える。正の相関。あるいは逆に1つの変数が増えることでもう一つの変数が減る。負の相関。一貫した関連がない。影響がない、バラバラに散らばっている。XとYが無相関。点が曲線状に。曲線相関。関係式は取り上げないが、相関係数があるもの以外にも発見が可能。2つの変数の関連。具体的には直線的な関係を線形関係と呼ぶ。リニアな関係と呼ぶことも。相関係数や回帰分析の中でも最も単純なもの。単回帰分析を使うのか適切かどうかを確認するにも散布図を作る必要がある。線形かどうかの確認を。明確に曲線的な関連がある場合では分析しても当てにならない。相関係数や線形単回帰分析では適切に扱えない。
相関係数。原理やその仕組。相関係数とは何か?線形関係がある2つの連続変数の関連について強さを指し示す係数。正式にはピアソンの積率相関係数と呼ばれる。ピアソンが発明。一般に相関係数と書かれている場合はピアソンの積率相関係数のことを指すことが多い。ピアソンの積率相関係数を相関係数と今回は呼ぶ。2つの連続変数に何らかの関連があるかを分析。明確な曲線的関係では相関係数を計算してもほぼ0になる。ピアソンの積率相関係数について考え方と算出方法を。それを計算するのに必要な用語の復習を。偏差。個々のケースから平均を引いたもの。2つの連続変数のそれぞれの偏差を掛け合わせる。偏差積と呼ぶ。それを合計し修正する共分散。個々の値から変数の平均値を引いた偏差について散布図を作り直す。どこにプロットされるかで偏差積がプラスになるかマイナスになるか。第一象限。XとYの偏差が両方ともプラス。図表の左下、第三象限。XとYの値が共にマイナス。偏差積がプラスに。左上と右下。偏差積がマイナスに。第二象限。年齢の偏差がマイナス、収入の偏差がプラス。掛け合わせてマイナス。右下の第四象限。年齢の偏差はプラス、年収の偏差はマイナス。掛け合わせて負の値に。散布図の全体として、第一象限や第三象限が多ければ、偏差積和はプラスの方向に。第二象限や第四象限に多ければ偏差積和はマイナスの方向に。正の関連や負の関連。偏差積和の性質を利用することで線形関係の強さと方向を示す共分散が。計算過程。それぞれのケースで偏差を計算。偏差を1ケースことに掛け合わせる。偏差が共に正の場合と負の場合、偏差積は正の値に。第一象限や第三象限は偏差積が正に。偏差が正や負の場合は偏差積が負に。足し合わせることで偏差積が。しかし偏差積はケースが多いほど多くなる。偏差積を係数で割った値が共分散。計算の過程や考え方について。線形の関連がまったくない場合は0。関連があるほど絶対値が大きくなる。プラスの相関やマイナスの相関。元の変数の測定の単位により共分散は異なる。様々な単位を使った場合は強い弱いを比較することは出来ない。日本とアメリカの比較。円やドル、そもそも単位が違う。共分散自体の値によりどちらが関連が強いかを比較することが出来ない。そのために用いるのは積率相関係数。
積率相関係数。共分散を使ってすぐに計算が出来る。共分散の値をXとYの標準偏差で補正する。分子には共分散。Xの標準偏差とYの標準偏差をかけ合わせたものを分母に。基本的な考えは同じ。共分散の部分を散らばりで補正。どんな値のものでもマイナス1からプラス1の間に。確認を。相関係数はマイナスの方向に大きいほど負の相関が強い。プラスでは正の相関が強い。仮にマイナス1になれば完全な負の相関。0に近いほど関連が弱く。0だと完全無相関となる。相関係数にも統計的な基準は存在しない。しかしプラス・マイナス0.7以上であれば強い相関があるとされることが多い。0.5程度で相関がある、0.3程度で弱い相関がある、とされる。対象によっても強い弱いの意味は異なる。あくまで目安。
営業成績とボーナスにプラス0.7の相関があるからと言って弱い強いは分からない。飲み会の出席とボーナスでは?仮に0.5でもこの場合は充分に問題がある強い相関とされるかもしれない。実質的意味合いは値により判断できない。
相関係数の検定方法。標本データから。統計的検定を。2変数には全く関連がないという帰無仮説を。今までの仮説検定の方法と考え方は同じ理屈。帰無仮説を設定。母相関が0。統計的独立の状態。それからデータとの乖離を考える。相関係数の独立性の検定。帰無仮説は2変数の母集団の相関係数が0。母集団の相関係数。対立仮説。ρイコールNOT0。限界値。検定は幾つかの方法が。t分布。ケース数が0。両側検定で有意水準を0.5とした場合、t値は限界値に。確率分布の何処にあるか。相関係数は0.67。検定統計量が限界値を越えているか。限界値を超えている場合は帰無仮説を棄却して対立仮説を採用。越えていないと帰無仮説を棄却しない。限界値とt値。検定統計量が限界値を超えているので対立仮説を採択。年齢と収入の関係は何らかの関連がある。ρが0ではないかの一点のみ。検定により有意であったとしても相関係数が強いとは限らない。あくまで無相関ではないと確率的に判断。検定統計量。t分布を用いる相関係数の統計的検定の方法。t分布の確率分布とした相関係数。母集団において相関係数が0ならば絶対値も小さくなりやすい。0から大きくずれているほど、標本の相関係数の絶対値は大きくなる。式の分子の部分。散らばりは偏差の数に、データ数に大きく依存。相関係数の絶対値の値も散らばりに影響。2つの影響を分母で補正。
相関係数を使う際の注意。あくまで線形を前提にしている。明確な曲線関係がある場合は非常に小さい値に。外れ値の問題。外れ値の影響を受ける統計量を前提にしているので外れ値の影響を受ける。11人の相関係数ではほぼ0となる場合もある。外れ値として外す必要がある。ケースとして外すことが出来ない場合は?正社員とアルバイトが混じっている場合。雇用状態別にグループ分けすれば相関がある場合も。分割相関。相関係数が大きいことが因果関係を示すわけではない。因果関係の必要条件ではあるが十分条件ではない。時間順は相関関係と無関係。あくまで理論的に考えて論証する必要がある。

 

社会統計学入門 (放送大学教材)

社会統計学入門 (放送大学教材)

 

 

 

日本人は右傾化したのか: データ分析で実像を読み解く

日本人は右傾化したのか: データ分析で実像を読み解く