最小二乗法というのはよく出来ているなあと改めて感じた。
田辺俊介。回帰分析の基礎。簡単に説明すれば、独立変数を利用して従属変数がどれだけ説明されるか、予測可能かを。今回は単回帰分析という簡単なもの。2つの連続変数を。従属変数と独立変数を。独立変数を1つだけ用いることで重回帰分析と対比して。
回帰分析という統計手法。連続変数同士の関係を。席率相関変数と対比。独立変数から従属変数を予測説明。予測とはどのような形で?基本的には数式で。式の中身を詳しく。左辺のYに山形の記号。ハット。ワイハット、Yの予測値。式の右側。定数。独立変数Xの値が0。回帰係数。独立変数Xの値が1増加した時にYの変化量。独立変数の値を入れる。回帰係数d。プラスとマイナスの場合の双方が含まれる。式は定数Aを切片とした直線の式に。第9回でも用いた架空例を用いて具体的に。AからJのデータを散布図に。黒いひし形のような。10名のデータを用いて年齢から年収額を予測する回帰分析。Yの予測値。回帰式。式で言えば定数に当たる。年齢という独立変数が0の場合の予測値。回帰係数。年齢が1単位増える時に年収の予測値の増加分。年齢が1歳上がると年収がそれだけ上がる。回帰式をXとYの座標軸に記す。予測値は直線を表す式。係数Aについては切片。直線の傾き。統計の用語として回帰直線と呼ぶ。プラスの印。Yの予測値を示す。Yハットは全て直線上に。予測値は全て。回帰直線上ではXが1増えるとYが9.91上がる。年齢が30歳から31歳に。年収の予測値は9.91万上がる。日本版総合社会調査という全国データの02年度版。1週間あたりの労働時間を独立変数と。対象者は20歳から60歳未満の有業者。男性と女性は違うので男女を別々に回帰分析を。男性ではYの予測値は定数が470.7万。1週間あたりの労働時間が0では。労働時間が1.3万上昇する。40時間では約523万。女性の場合は別の回帰係数が。回帰式。1週間あたりの労働時間は0である場合は-22万円。有業者が対象なので0なのは意味を成さない。回帰係数の大きさは労働時間が1時間増加するごとに年収が6.9万増える。回帰係数の大きさを比較。年収が増加する量が大きい。予測だが女性の方が時間給で働くパートで働く人が多く時間で反映されることが多い。男性の多くは正社員が多く時間と給料の関係が強くない。回帰分析とはどのような分析かを。
予測の原理。どのように予測式を導くか。回帰式で計算される予測値はあくまで予測。実際のデータと同じとは限らない、一定の誤差が伴う。できるだけ少ない推定をするのが望ましい。誤差を最小にするための推定法。最小二乗法という方法。OLS。基本原理は予測値と実測値の値の差を最も小さくするというもの。予測値と実測値の差を残差と。残差というものを3つのケースについて。最小二乗法とは各ケースの予測と実測値のズレを二乗してその合計が最も小さくなるように推定。残差の平方和が合計値。残差平方和を最小にする。最小二乗法に基づき推定の。微分法を用いる。詳細は省略して最終的な式を説明。回帰係数を予測する推定するための式。偏差積和を割る。席率相関変数の時に説明した共分散を用いることも。係数についてはXが0の時のYの値と等しい。当てはめてYの平均値から引いて定数を求める。実際の計算手順。分子の部分に相当するのは偏差や偏差積和。年齢の偏差は平均を引いて求める。年収の偏差を掛け合わせて偏差積を。偏差積を合計して偏差積和を求める。共分散の計算と同じ。式の分母に相当する部分。独立変数の偏差平方和。偏差平方。その二乗。偏差平方を合計したものが偏差平方和。それにより偏差積和を割る。回帰係数が求まる。後は式に。
回帰係数の統計的検定。標本データから計算した場合は統計的検定を行うことが出来る。回帰係数dの検定。線形の変化があるかどうかを。回帰係数とは従属変数に対する独立変数の影響力を。統計的効果と呼ぶ。独立変数の効果の有無を検定する。回帰係数の母数。βに関する帰無仮説はβ=0。=NOT0。標本分布はt分布に従う。t値というものを計算。複雑な式だが詳しく。式の分子。d-母集団の回帰係数。帰無仮説では0と仮定。分母は標準誤差。やや複雑。残差平方和を用いることで推定。
非線形モデルも知っておいて欲しい。