F-nameのブログ

はてなダイアリーから移行し、更に独自ドメイン化しました。

社会調査のデータと統計分析の考え方(社会統計学入門第1回)

大学では統計学を殆ど学ばなかったので、きちんと体系的に学ぶべきなのだろう。

 

林拓也。人間の行動や心理や経済自然現象を数量的に把握するために統計学が。幅広く応用されている。社会統計学の分析の結果、記事などを通じて。ある家庭における経済力と進学率の関係。保護者の年収。子供の高校卒業後の各進路。大学などへの進学や就職。4年制大学への進学率。保護者の年収と比例。年収200万未満の場合は28%。1200万円以上は62%。就職。35.9%と5.4%。年収が高くなるほど大学などへ進学。進学機会が経済力に左右されている社会状況。具体的dataを根拠として。子供の教育機会の現状。生活に関する様々な実態調査、内閣の支持率などの世論調査。マーケティング調査。膨大な数や種類の社会調査が行われている。研究者のdataを二次的に利用する仕組み。データ・アーカイブの仕組みも整いつつある。情報技術の発達。dataの集計がしやすく。集計されたdataを取り込む。国勢調査が5年毎に。総務省統計局の。ホームページやDownload。個人が特定されないよう慎重な処理が。一握りの専門家には限られない時代。多くの人がアクセスを。受け取る側にも相当の技量が求められる。統計的知識が無い状態では充分な理解が出来ない。数値の羅列。何から手を付ければ良いか途方に暮れてしまう。統計データ時代が身近なものになったとしても分析結果を読み取れなければ専門家の分析に頼るしか無い。質問紙調査法を。統計手法。多数の人々の実態を。社会の人に還元され広く知られることに意義がある。調査の意義を著しく損なう。統計データを十二分に活用を。統計分析について基礎的な考え方や手法を。
分析を行う対象のdataがどのように得られるか。社会調査による。様々な種類の方法が。アンケートという調査。調査票を構成する質問。性別は?現在どのような仕事を?質問番号ごとに個別の質問が。調査対象者や回答者。それぞれの質問に回答。回答の仕方については選択肢が用意されていることが多い。性別については男性と女性。どちらかを選ぶように。ある意見に対する賛否を。賛成や反対、どちらでもない。質問によっては自由回答も。仕事に対し具体的内容を。自由回答の場合にもそのままではなく似たような回答をひとまとめに。学校の先生という回答と生徒の教育。教員という区分にくくられる。回答者1人に質問の分だけの回答データが。質問の数×回答者の数、のdataを分析対象とする。大量のdataは整理した形でまとめておかないと効率よく引き出せない。形式のデータセットとしてまとめられる。2つの異なる時点において300人から。時点1に調査が、集団Aに属し賛成と。次の行。時点1に調査が。集団Aに。反対と回答。それぞれの行を横方向にして回答者の情報を。それぞれ300人ずつ。合計600人が縦方向に。dataを構成する要素として変数と値について。変数とは対象、回答者により属性が異なるもの。時点集団意見への賛否がそれぞれ変数に相当。値とは変数を構成する複数の数値など。時点という変数、1と2という値。意見に対する賛否という変数。3つの値が。数量だけではなく質的なものも含まれる。質問紙調査法。統計分析の基本用語を。行列形式のdataから取り出す。賛成率や反対率。賛成の人数や反対の人数を数える。調査者自らが行う必要はなく。ソフトを使っても良い。賛成270人、反対140人。合計人数600人で割る。賛成率は0.45。反対率は23%。中立は32%。半数近くが賛意を。変数の値の分布を時点1時点2について集計。賛成反対中立。時点1では賛成50%など。時点1から時点2の変化として賛成率反対率が低下。その分だけ中立の比率が上昇している。時点と賛否という2つの変数の間に関連がある。関連とは他方の変数の分布が異なる、変化するということ。変数の間に関連がない場合、一方の変数の値によらず他方の変数が一定。賛否の比率が変わらない場合など。賛成反対中立の比率。集団A。集団B。集団C。集団Aは賛成率が高い。集団Cは反対率が高い。集団という変数と賛否という変数の関連が見いだされる。更に応用を。3つの変数と同時に考慮。より複雑な関連分析も出来る。dataからの一連の分析。ポイント。変数の値がどのように分布しているか。集団ごとの賛否。賛否という変数の分布。回答数が多いという基準で。集団Aでは賛成。回答の散らばりの程度。集団Aはばらつきが小さい。分布の状態を表すために統計量が。調査から得られたdataから計測される数値。賛成や反対の比率。分布の状態を。分布の散らばりを。dataの統計量に基づいて母集団という全体集団の状況を推定。集団全体から一部を抽出する。抽出された調査対象は標本、サンプルと呼ばれる。600人のデータ。母集団の状態を推定。データを得られていない人も含めた状況を推測。複数の変数の間にどのような関連があるか。時点と賛否の関連。集団と賛否の関連。何らかの数値で表せる。関連の大きさを比較することが出来る。関連について範囲を超えて集団全体、母集団についても関連があるか推測も出来る。何らかの観点に絞って結論を提示することを目的。社会調査データ。統計分析。圧縮した形で取り出す。一見して難しく見えるかもしれないが。効率的な情報の提供を目指している。様々な情報なdataを得やすくなっている。多いので読み取ることに精一杯。加工提示するのが社会党系の過程。分析者や人々の関心がある場合、賛成率や反対率を示すことが出来る。時点や集団の差異に関心がある場合も。縮約された結果を読み解くことで重要な材料を有効に活用できる。様々な統計量は一種の言語。共通基盤として。社会について議論を。様々な分析手法や意味するところ、導出方法について。
全体の構成。各回の概要。3つのポイントと連動。変数の値の分布。第2回と第3回。分布状態を捉える為の技法や統計量。変数の種類や特性。区分。様々な分析手法や統計量を使い分けるのに必要。度数分布表。図示するためにグラフを。第三者に視覚的に訴える為の。分布の状態を表す統計量。平均値という統計量。分布の中心を表す。散布度。分散や標準偏差。母集団の推測の原理。第4回と第5回。調査のdataから得られたものを解釈するための推測統計の考え方と応用を。多くの社会調査では一部の人々、標本を取り出して回答情報を。標本のdataは母集団の一部に留まる。標本のdataは必然的に誤差を含む。推測統計ではその誤差が生じる確率を把握した上で、母集団に関する仮説がどうか。推定。検定。仮説について判定。分析手法に対応した形で様々な検定手法を。z検定、t検定など。基本的考え方を。変数間の関連。第6回から第10回。2つの変数間の。扱う変数の種類により手法が異なる。時点という変数と。複数の変数を扱う検定。係数。dataでの平均の差が誤差の範囲を超えるか。z検定やt検定。クロス集計。関連の有無をカイ二乗検定で。関連が。クラマーのk係数。席率相関係数。t検定の手続。回帰分析。関連性は回帰係数として表される。t検定。第11回から第14回。回帰分析の応用的手法を。重回帰分析。分散分析。ロジスティック回帰分析。社会科学の研究では非常に多く利用。社会現象が何故生じるかを。その要因は複数であり多様であることが。2つの関連だけでは無理。計算手段が複雑だったり注意事項が多かったりもする。第15回。まとめと注意点。社会統計学の多変量解析の基本の紹介。
科目の指針。元のデータを加工し圧縮したものの一部。誤った情報が独り歩きすることも。計測手段や意味するところの理解を。自分自身で統計量を計算する例題を。受講にあたっては√計算の出来る電卓を。手計算ではなく専用のソフトウェアが必要。しかし基礎知識なしには望ましくない。体験してみると朧気ながら学ぶことが出来る。手計算が大事。積み重ねも重要。それ以前に学習した事項が前提になっている。必ず復習を。忘れていたことがあれば前に戻る。一回戻る着実な歩みが必要。飛び道具を使いこなせるにはそれが肝要。

 

社会統計学入門 (放送大学教材)

社会統計学入門 (放送大学教材)