F-nameのブログ

はてなダイアリーから移行し、更に独自ドメイン化しました。

学習2 -オペラント条件づけと強化スケジュール(比較認知科学第2回)

心理学の内容に近い(というか心理学自体がよくわかっていないけど)かもしれないと感じる。日常の行動を説明できるのはなかなか凄いと思う。

 

藤田和生。様々な動物の心の働き。新しいヒト観を。学習の続き。オペラント条件付けと強化スケジュール。人以外の動物の心の働きを。新しい人観を。オペラント条件付けとは?学習の基本原理。強化スケジュールという環境要因。
オペラント条件付けとは?行動の2つのタイプのうちの反射行動。オペラント行動。環境側の環境が整うと。弁別刺激。車の運転はオペラント行動。青が弁別刺激。踏まないでおこうと思えば出来る。オペラント反応の機会の提供。反応の変化に強く影響される。反射行動との違い。アクセルを踏むのは前進するから。ガス欠ならアクセルを踏まない。強化刺激。オペラント行動は弁別刺激とオペラント反応と強化刺激で記述。3項目随伴性。オペラント行動の単位。ソーンダイク。動物で確かめる。猫などを問題箱に閉じ込める。刺激で外に出られるように。最初の内は動物は闇雲に手を出したり。偶然に脱出に成功。無駄な時間はどんどん減っていく。あっという間に仕掛けを外す。快は強められて学習が進む。効果の学習。試行錯誤。ある環境下で行動が強められたりするのをオペラント条件付けと。個体は反応から引き出そうとする道具として。道具的条件付け。我々は日常的に使っている。おやつを与えたり、叱ったり。オペラント条件付けは飴と鞭の原理。日常生活では間違って使われ問題行動の原因にも。スキナーにより整理され体系的な知識に。
強化と消去。オペラント条件付けの要件は。反応の変化が生じること。古典的条件づけと対象的。反応結果により反応は強化されたり。オペラント強化。対して反応が弱められることを罰と呼ぶ。環境変化が無くなると元に戻る。反応強度の復帰を消去と呼ぶ。強化と消去はゲームセンターでコインを入れてからのレバー押しなどが。試しに動作しているのがもともとの強さ。操作が稼働し操ることが出来る。操作は強化される。夢中で時間が切れて動作が無効に。操作は消去され元のレベルに戻る。周りにはオペラント条件付けが溢れている。食事映画なども関係。
刺激性制御。オペラント条件付けでは環境側の必要条件、弁別刺激が存在している時に。反応は主体にゆだねられる。提示すると個体が自発するように促される。制御の要因の1つに。弁別刺激により反応の自発が制御されることを刺激性制御と。信号に従ったり挨拶をしたり。実は弁別刺激による制御を受けた行動。条件付けられたオペラント反応は極めて高い確率で。弁別刺激が条件刺激になり反応を誘発するように見えることも。赤のれんを見ると無意識にくぐってしまったり。誤用であることは明確。オペラント行動で反射行動ではない。意思があれば止められる。
オペラント反応の結果、反応が強められる。事象には様々なものが。色々なタイプの強化や罰が。オペラント反応の結果として提示すると強められるのを報酬と。正の強化子。正の強化。おすわりが出来た時におやつを。結果として提示すると弱める強化刺激は負の強化刺激、罰子。負の強化子。キツく叱ったり。反応の結果として刺激を奪い取ったりすると効果は逆になる。遅延されると反応は弱められる。負の罰。食事を片付けると吠えることをしなくなる。負の強化子がなくなったり送られたり。負の強化。そっと隠れる。間際らしいが罰のことではない。強められる。罰はすぐに減少される。そのため教育現場で罰を使ってしまいがち。実際場面で罰を使用するには可能な限り避けるべき。罰は学習者を身体的心理的に傷付ける。倫理的に問題。学習という面では幾つもの理由が。罰は何かをさせないようにするには有効だが、行動をするように導くのかは有効でない。罰は繰り返すとその効果が弱くなることが多い。同じ効果を上げるには強くしなければならない。倫理面から弱いところから始めると慣れてしまう。罰が来なかったとき、学習者には悪いことをしなければ来なかったのかそもそも罰がなかったか分からない。罰の存在には弁別刺激が伴っていることが多く、弁別刺激に限られることが。隠れてコソコソとする可能性がある。罰は学習者に様々な好ましくない反応を。イヌであれば自分の尻尾を追いかけたり。望ましい行動の出現を妨害する。学習者は罰を避けるために仕掛けを壊したり訓練者を攻撃したり。解決策として。罰の使用には充分な注意が必要。
強化刺激。動物には生まれつき強化刺激になる刺激がある。空腹時の食物など正の強化刺激を。適度な強さの光音などの感覚刺激も。圧迫や強い痛みなど。負の強化刺激。生まれつき効力を持つのを一時成長化刺激と呼ぶ。対して一時成長化刺激がやってくることを示す。代わりとして効果を。条件性強化刺激。支えている一次性強化刺激があるときだけ。チャイムはお腹が空いたときだけ。お金のように交換可能なら無関係に。汎用条件性強化刺激。商品券など。強化力は強くて集めることが目標になることも。お金が社会問題になる原因に。古典的条件づけと同様に刺激汎化の現象がある。笛を吹いておすわりしておやつを。典型的なオペラント条件付け。違う音色の笛。でもイヌは同じ反応を。一般化する。刺激汎化。オペラント条件付けにおいても大切な役割を。増えの鳴り方は毎回違う。声を合図に使うとさらに変化が大きい。限定されると応用が効かないので少し曖昧に。しかし区別が必要な時は2つの弁別刺激のもとで効果を変える。笛A笛B。笛Bに対して棒を持ってくるようにするなど。分化強化。弁別。古典的条件づけと言葉は同じ。オペラント弁別。随意的行動を変える強力な学習の手段。しかし非常に大きな弱点も。反応を確実に起こす手段がない。自発的に反応するのが条件。これでは学習が限定される。めったにない反応を作るには。行動形成と呼ばれる様々なテクニックが。誘発法。形成したいオペラント反応に似た反応がある場合。弁別刺激を提示して。イヌのおすわり。おすわりと言いながら手を動かす。顔はそれを追って上を向き座る。わざわざ褒めておやつを出す。条件性強化刺激になっていると、おやつがないときにも訓練が出来る。合図としておすわりをするようになる。反応を誘発して誘発法を。成形法。学習させたい反応を手や足を取り形づくりオペラント反応を。後で助けを減らす。物理的手段でおすわりの姿勢を。次第に物理的介助を少なくする。学習者と関係が良い場合は。模範提示法。学習者の前でモデルが演じる。模倣するように促し行動が出たら強化する。一般にヒト以外では模倣するのが難しい。逐次接近法。学習者が持っている行動のレパートリーの中から選び出して強化して目標の行動に近づける。テレビを見たらご褒美を。何度か繰り返すとTVの方を見るように。基準を上げて近づいたときだけ褒美を。これが出来れば更に基準を上げてTVの前に行ったときだけ。立ち上がる行為。電源ボタンを押す行為を。のぞみのものに。上手にするには幾つかのコツが。1つ前の行動を消去する。そうすると学習は探索的な行動を始める。ボタンを強く押したり角度を変えたり。電源がつくと行動の変異が。適した行動を選ぶ。対象となる行為を確実に強化するのが大切。遅れると別の行為が。確実な条件性強化刺激。褒めるなど。ご褒美を。条件性強化刺激は何でも構わない。イヌの訓練にはおもちゃがよく用いられる。
強化スケジュール。オペラント反応が1回で反応が1回。毎回強化されなくても維持される。強化スケジュール。オペラント反応の出現パターンを変える要因。オペラント反応を連続強化。時折強化するのを部分強化。間欠強化。無限に考えられるが4つが基本強化スケジュールと。FRスケジュール。反応が累積した時に1回の強化が。反応の休み時間。数が多いほど長く。休み時間に反応が始まり。中止と連続作業。完全なものは少ないが、ポイントサービスや自販機にコインを入れる行為。変動刺激強化。VRスケジュール。反応が平均して定められた回数を。それは一定していない。パチンコなどのギャンブル。当たりがいつ出るか予想がつかない。反応休止がほとんど無く一定のペースで効果が。消去されにくく矛盾するようだが極めて強固に。消去抵抗が高い。変動費率スケジュール。長い間維持。消去するのは大変。ギャンブルがやめられない一因。子どものしつけ。買い物で何かが欲しいとねだると何度か買い与える。ただをこねるのは親を訓練している。時々は報酬が手に入る学習機会に。拒否を。固定感覚強化。FIスケジュール。前回から一定期間経過した後の最初に。直後には反応は出ないが次第に反応が出現する。次第に加速。強化が出るとしばらくは止む。バスの来る方向を見る。変動感覚強化。VIスケジュール。強化直後から一定のゆっくりのペースで反応が。日常ではいつ来るか分からないバスの方向を見る。もっと設定された間隔が長いのは雨乞い。関係はないがでたらめに雨は降るので偶然に。オペラント行動は因果関係が無くても時折強化されることで。縁起をかついだりする非科学的行動。生贄や人柱などの宗教刺激も偶発的なオペラント強化。
随意的に。環境刺激の元で反応が自発され環境の変化の対応で強められたり。飴と鞭。性質を幾つか。強化刺激の使用と罰。出現パターンを制御する要因。

 

比較認知科学 (放送大学教材)

比較認知科学 (放送大学教材)