Instrumentelles Konditionieren II

Professur für Allgemeine Psychologie Vorlesung im WS 2011/12 Lernen und Gedächtnis Instrumentelles Konditionieren II Prof. Dr. Thomas Goschke

Überblick Thorndikes Gesetz des Effekts Skinners Forschung zum operanten Konditionieren Shaping und Verhaltenssequenzen Was wird beim O.K. gelernt? Arten von Verstärkern Verstärkungspläne Generalisierung und Diskrimination Abbau unerwünschter Verhaltensweisen und Bestrafung Flucht- und Vermeidungstraining Anwendungsbeispiele klassischer Lerntheorien

Generalisierung und Diskrimination

Reizgeneralisierung Guttman & Kalish (1956) Trainierten Tauben, auf eine beleuchtete Taste zu picken Picken auf Licht einer bestimmten Wellenlänge wurde mit Futter belohnt Transferphase: Licht anderer Wellenlänge beleuchtet

Generalisierung als Suche nach ähnlichen Effekten Generalisierung spiegelt die erwartete Wahrscheinlichkeit, dass die gleiche Reaktion auf zwei verschiedene Reize die gleiche Konsequenz haben wird

Differenzielles Training und Generalisierungsgradienten (Jenkins & Harrison 1960) Nichtdifferenzielles Training Tauben wurden nach variablem Intervallplan trainiert, auf eine beleuchtete Scheibe zu picken, wenn ein 1000-Hz Ton dargeboten wurde Löschungsphase: Töne anderer Frequenz oder kein Ton 3 0 N o. 7 0 N o. 7 1 Differenzielles Training Durchgänge mit beleuchteter Scheibe und 1000 Hz Ton Verstärkung Durchgänge mit beleuchteter Scheibe ohne Ton Keine Verstärkung 5 0 4 0 3 0 N o. 8 N o. 5 2 N o. 5 4 N o. 5 8 N o. 6 0 2 0 N o. 7 2 2 0 1 0 1 0 S 0 300 450 670 1000 1500 2250 3500 N o F r e q u e n z i n Z y k l e n p r o S e k u n d e T o n e S D 0 300 450 670 100 0 150 0 225 0 350 0 N o T o n e F r e q u e n z i n Z y k l e n p r o S e k u n d e

Reizdiskrimination (Jenkins & Harrison, 1962) Standardtraining: 1000-Hz-Ton auf Taste picken Verstärkung Diskriminationstraining: Zusätzlich 950-Hz-Ton keine Verstärkung Gluck, Mercado and Myers (2008) Copyright 2008 by Worth Publishers

Negative Generalisierungsgradienten (Terrace 1972) Tauben wurden trainiert, bei Licht auf Scheibe zu picken, erhielten aber keine Verstärkung, wenn das Licht gelb-rot (570nm) war Testphase: Licht unterschiedlicher Wellenlänge

Spences (1937) Theorie des Diskriminationslernens Verstärkung in Anwesenheit eines Reizes positiver Generalisierungsgradient Keine Verstärkung negative Generalisierungsgradient Peak Shift Verhalten ist Kombination positiver und negativer G.-Gradienten

Relationales Lernen Anwendung von Spence s Theorie auf Auswahl zwischen zwei Reizen: Training, zwischen Reizen von 160 und 256 cm 2 zu diskriminieren Test: Tier bekommt Wahl zwischen Reizen von 256 und 409 cm 2 Tiere wählen meist Reiz von 409 cm 2 Steht in Einklang mit Spence-Theorie Alternative Erklärung: Tiere lernen die Relation zwischen den Reizen ( Wähle den größeren Reiz )

Relationales Lernen (Lawrence & DeRivera, 1954) Karten in unterschiedlichen Grauschattierungen (1= weiß; 7 = schwarz) Ratten wurden trainiert, sich nach rechts zu drehen, wenn obere Karte heller war sich nach links zu drehen, wenn obere Karte dunkler war Ratten drehten sich nach links Ratten drehten sich nach rechts Tiere haben die relationale Information gelernt!

Abbau unerwünschter Verhaltensweisen: Löschung und Bestrafung

Arten von Verstärkern Verhaltenskonsequenz Reiz erscheint nach Reaktion Angenehm Positive Verstärkung (Belohnung) Unangenehm Bestrafung 1. Art Reiz verschwindet nach Reaktion Bestrafung 2. Art Negative Verstärkung (Flucht / Vermeidung) Reiz (Verhaltenskonsequenz) Reiz erscheint nach Reaktion Angenehm Futter, Lob, Geld Unangenehm Schmerz, Tadel Reiz verschwindet nach Reaktion Futter, Lob, Geld wird entzogen Schmerz, Tadel hört auf

Abbau unerwünschter Verhaltensweisen 3 Möglichkeiten: Bestrafung des unerwünschten Verhaltens Löschung: die das Verhalten aufrechterhaltenden Verstärker entziehen Alternativverhalten aufbauen, das das unerwünschte Verhalten ablöst Bestrafung kann sehr wirksam sein: Eine einzige Lernerfahrung kann Verhalten eliminieren (z.b. heiße Herdplatte)

Mittlere Anzahl von Reaktionen Bestrafung und Zeitverzögerung 1.Phase: Ratten wurden trainiert, Hebel zu drücken, um Futter zu bekommen 2. Phase: Auf 50% der Hebeldrücke folgt ein Elektroschock sofort, nach 7,5 oder nach 30 Sekunden (Kontrollgruppe: gleiche viele Schocks, aber kein Zusammenhang zu den Reaktionen) 80 70 60 50 40 30 20 10 0 0 7,5 30 Kontrolle Camp, Raymond & Curch, 1967

Ausmaß der Unterdrückung (%) Intensität der Bestrafung Unterdrückung eines Verhaltens (Hebeldrücken) steigt mit Intensität der Bestrafung 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,15 0,5 2 Stärke des Schocks (ma) Church, 1969

Kontingenz der Bestrafung Vortraining: Ratten lernten, Hebel zu drücken, um Futter zu bekommen Phase 1: Experimentalgruppe: Elektroschocks unabhängig vom Verhalten Kontrollgruppe: Nur Belohnung Phase 2: Beide Gruppen erhalten nur Belohnung Phase 3: Beide Gruppen erhalten reaktionskontingente Schocks Church, 1969

Reaktionsrate (% der Baseline) Kontingenz der Bestrafung Nicht Erneutes Kontingente Training Bestrafung (Belohnung) 140 120 Kontingente Bestrafung 100 80 60 40 Kontrollgruppe (keine Schocks in Phase 1) Exp.-gruppe Schocks in Phase 1) 20 0 Bestrafung war nur wirksam, wenn sie kontingent auf das Verhalten folgt Erfahrung nicht-kontingenter Bestrafung verhinderte späteres Lernen einer reaktions-kontingenten Bestrafung ( vgl. erlernte Hilflosigkeit)

Konsequenzen nicht-kontingenter Bestrafung: Erlernte Hilflosigkeit Exp. von Overmier & Seligman (1967) / Maier & Seligman (1976) mit Hunden Phase 1: Experimentgruppe: Glockenton -> unausweichlicher Stromstoß Kontrollgruppe: Konnten Schock durch eigenes Verhalten vermeiden Phase 2: Beide Gruppen Vermeidungstraining Stromstoss wurde durch Ton angekündigt; Tiere konnten Stromstoss durch Sprung über eine Barriere vermeiden Ergebnis: Kontrolltiere lernten schnell die Vermeidungsreaktion Tiere der Experimentalgruppe zeigten Anzeichen von Furcht, aber machten keine Anstalten, dem Schock zu entfliehen Erlernte Hilflosigkeit : Erfahrung, dass Bestrafung nicht durch eigenes Verhalten beeinflusst werden kann, erschwert Erwerb und/oder Ausführung instrumenteller Reaktionen Tiere lernen, dass eigenes Verhalten keinen Effekt hat

Konsequenzen nicht-kontingenter Bestrafung: Erlernte Hilflosigkeit

Erlernte Hilflosigkeit bei Menschen Hiroto (1974) Phase 1: unangenehme laute Geräusche Gruppe 1: Töne weder vermeidbar noch kontrollierbar Kontrollgruppe 2: Töne nicht vermeidbar; per Knopfdruck abstellbar Kontrollgruppe 3: keine Vorbehandlung Phase 2: Ton wurde durch 5 sec. Lichtsignal angekündigt und konnte durch Schieberegler abgestellt werden A.V: Latenzzeit für das Lernen Abstell-Reaktion Ergebnis: Gruppe 1 lernte langsamer als Gruppe 2 und 3 Interpretation: Erfahrung der Unkontrollierbarkeit hat drei Effekte: (1) motivationales Defizit (keine Anstrengung zu fliehen) (2) kognitives Defizit (verzögertes Lernen) (3) emotionales Defizit (Apathie, Depression )

Bestrafung und Verhaltensalternativen Unterdrückung eines Verhaltens durch Bestrafung ist sehr viel effektiver, wenn der Organismus eine alternative Verhaltensmöglichkeit hat Dies gilt insbesondere, wenn alternatives Verhalten zu Belohnung führt Anzrin & Holz (1966): Phase 1: Tauben lernten, auf einen Schalter zu picken, um Futter zu erhalten Phase 2: Auf Picken folgte Schock - Gruppe A: Taube konnte auf anderen Schalter picken - Gruppe B: Nur ein Schalter Ergebnis: Tauben in Gruppe A zeigten stärkere Unterdrückung des Pickens auf den ursprünglichen Schalter

Reaktionen / min. Bestrafung und Verhaltensalternativen 300 250 200 150 100 50 0 0 20 40 60 80 Bestrafungsintensität (V) Alternative Reaktion verfügbar keine alternative Reaktion verfügbar

Negative Folgen von Bestrafung Bestrafung kann unter bestimmten Bedingungen zur Unterdrückung von jeglichem Verhalten führen Beziehung zwischen Bestrafendem und Bestraftem leidet (kann Ärger, Aggression und Täuschungsverhalten erzeugen) falsche Vorbildfunktion: Kinder könnten lernen, dass Bestrafung (Aggression) ein angemessenes Mittel zur Konfliktlösung ist Bestrafung unterdrückt oft lediglich Verhalten (Performanz); hohe Wahrscheinlichkeit, dass unerwünschtes Verhalten wieder gezeigt wird, sobald keine Bestrafung mehr erwartet wird Wenn Bestrafung, sollte stets erwünschtes Alternativverhalten ermöglicht und verstärkt werden

Abbau unerwünschten Verhaltens durch Löschung Die das unerwünschte Verhalten aufrecht erhaltenden Bedingungen (Verstärker) identifizieren Entzug eben dieser Verstärker Beispiel: Kind erhält durch ständiges Stören mehr Aufmerksamkeit Löschung ist besonders effektiv, wenn gleichzeitig Alternativverhalten positiv verstärkt wird

Negative Verstärkung: Flucht- und Vermeidungsverhalten

Negative Verstärkung Verhalten kann verstärkt / aufrechterhalten werden, weil es Bestrafung vermeidet Exp. von Solomon & Wynne (1953): Hunde in Käfig mit Stahlgitter als Boden Licht aus 10 Sek. Hund springt Elektroschock über Barriere in sicheren Käfig Licht aus Hund springt über Barriere in sicheren Käfig

Negative Verstärkung und Vermeidungsverhalten Vermeidungsverhalten kann sehr löschungsresistent sein Auch wenn kein Schock mehr gegeben wird, springen Hunde weiter (mitunter 200 mal) über Barriere (Solomon, Kamin, & Wynne, 1953) Latenz des Vermeidungsverhaltens nimmt sogar weiter ab Warum wird Vermeidungsverhalten nicht gelöscht wird, obwohl die Tiere nie mehr einen Schock erhalten? Vermeidungsverhalten verhindert, dass die Hunde lernen, dass die Kontingenz zwischen Licht und Schock gar nicht mehr besteht Erklärt die Aufrechterhaltung von Vermeidungsverhalten bei phobischen Ängsten (z.b. soziale Angst; Flugangst)

Negative Verstärkung und Vermeidungsverhalten Wie kann Vermeidungsverhalten gelöscht werden? (1) Bestrafung (z.b. Schock) wird erteilt, obwohl das Vermeidungsverhalten gezeigt wird Organismus lernt, dass es keine Kontingenz zwischen Verhalten und Bestrafung gibt (2) Verhindern, dass das Vermeidungsverhalten ausgeführt wird Baum (1969): Vermeidungstraining (Ton Schock Flucht) Danach wurden Ratten daran gehindert, beim Ton in sicheren Teil des Käfigs zu flüchten Nach kurzer Zeit hatten Ratten gelernt, dass es keine Kontingenz mehr zwischen Ton und Schock gab Klinische Anwendung: Reizkonfrontationstherapie bei Phobien

Zwei-Prozess-Theorie des Vermeidungslernens (Mowrer, 1947) 1. Phase: Klassisches Konditionieren CS (Ton) US (Schock) UR (Angst) CS (Ton) CR (Angst) 2. Phase: Operantes Konditionieren Angstreaktion ist mit wahrnehmbaren inneren Reizen verbunden (z.b. Veränderung der Herzrate, Atmung, etc.) Vermeidungsreaktion Ton aus Angstreduktion (Vermeidungsreaktion wird als Fluchtreaktion (vor dem angstauslösenden CS) uminterpretiert)

Probleme der Zweifaktorentheorie I Phase 1: Klassisches Konditionieren Wenn konditionierte Angst die Vermeidungsreaktion auslöst (bzw. Angstreduktion der Verstärker ist), sollte Angst umso größer sein, je stärker Vermeidungsreaktion ist Aber: Vermeidungsverhalten tritt auch auf, wenn CS keine Anzeichen von Furcht mehr auslöst (z.b. Kamin, Brimer, & Black, 1963) Nachdem Vermeidungsreaktion gelernt wurde, verschwinden oft Anzeichen von Angst (z.b. Solomon & Wynne, 1953) Alternative Erklärung: Gelernt wird nicht CS-CR-Assoziation (Ton-Furcht), sondern CS-US- Assoziation (Ton-Schock) CS (Ton) Antizipation des US (Schock) Vermeidungsreaktion wird durch Antizipation des US ausgelöst

Probleme der Zweifaktorentheorie II Phase 2: Operantes Konditionieren Zweifaktorentheorie: Elimination des CS und damit verbundene Angstreduktion soll verstärkend sein Aber: Elimination des CS ist gar nicht nötig für Vermeidungslernen Kamin (1956): Tiere lernen Vermeidungsverhalten, auch wenn der CS nach dem Vermeidungsverhalten andauerte

Probleme der Zweifaktorentheorie II Sidmans (1953, 1966): Freie operante Vermeidung Schock kommt ohne Warnung (kein äußerer CS) Tier kann Schock für 30 Sekunden aufschieben, indem es Hebel drückt Tiere lernen, Schock komplett zu vermeiden, indem sie Hebel rechtzeitig drücken Vermeidungsverhalten obwohl kein CS durch das Verhalten eliminiert wird (a) Wenn das Individuum nicht reagiert, wird alle 5 Sekunden ein Schock verabreicht. a) Elektroschocks Reaktionen Zeit (Sekunden) 0 20 40 60 80 100 30 Sekunden 30 Sekunden (b) Jede Reaktion verschiebt den nächsten Schock um 30 Sekunden. b) Elektroschocks Reaktionen Zeit (Sekunden) 0 20 40 60 80 100

Schlussfolgerung und alternative kognitive Erklärung Lebewesen lernen Kontingenzen zwischen CS, Reaktionen und Verhaltenskonsequenzen Dies ermöglicht es, negative Konsequenzen zu antizipieren und Verhalten auszuwählen, dass negative Konsequenzen vermeidet

Kontiguität vs. Kontingenz: Instrumentelles Konditionieren als kausale Inferenz

Zeitliche Kontiguität Dickinson et al. (1992): Kürzere Abstand zwischen Verhalten und Verstärkung effektivere Konditionierung

Effekte der Verzögerung zwischen Reaktion und Konsequenz auf die Lerngeschwindigkeit Schlinger & Blakely, 1994 Gluck, Mercado and Myers: Learning and Memory. 2008 by Worth Publishers

Abergläubisches Verhalten Skinner (1948): Tauben erhielten alle 15 s Futterkörner Futtergabe war völlig unabhängig vom Verhalten (fixer Intervall-Plan) Viele Tiere zeigten mitunter bizarre Verhaltensweisen (Z.B. mehrmals gegen den Uhrzeigersinn drehen) Tauben verhielten sich so, als ob sie glaubten, dass sie durch ihr Verhalten die Verstärkergabe kontrollieren konnten Erklärung: vor jeder Verstärkung zeigen Tiere zufällig irgendein Verhalten, dessen Wahrscheinlichkeit durch die Verstärkung erhöht wird Dies erhöht die Wahrscheinlichkeit, dass dieses Verhalten (zufälligerweise) erneut vor der Verstärkergabe auftritt weitere Verstärkung Im Lauf der Zeit können sich so komplexe Verhaltensmuster bilden (analog zu natürlicher Selektion )

Abergläubisches Verhalten: Folgestudien und Reinterpretation Staddon & Simmelhag (1971): Verstärker Verstärker Interimsverhalten Endverhalten Diverse Verhaltensweise (Picken, Drehen etc.), für die das Lebewesen angeborene Disposition hat, wenn kein Verstärker erwartet wird Antizipatorische Reaktionen (z.b. Picken in der Nähe des Futterspenders) Verhalten ist weniger abergläubisch, sondern Anpassung an zeitliche Struktur des Verstärkungsplans

Abergläubisches Verhalten: Einschränkungen Staddon & Simmelhag (1971): nach nicht-kontingenter Verstärkung zeigten Tauben (wie von Skinner beschrieben) alle möglichen Verhaltensweisen unmittelbar vor der Verstärkung zeigten Tauben antizipatorische Reaktionen (insb. Picken in Erwartung des Futters) Verhalten ist also viel weniger abergläubisch, sondern Anpassung an zeitliche Struktur des Verstärkungsplans Reine Kontiguität reicht normalerweise nicht aus, um Verhalten zu verstärken, sondern Organismen lernen Kontingenzen zwischen Verhalten und Verstärkern

Kontiguität vs. Kontingenz Hammon et al. (1980): Ratten wurden trainiert, Hebel zu drücken, um Futter zu erhalten Reaktion innerhalb 1 s 5% Chance eines Verstärkers 5% Chance eines Verstärkers nach 1 s egal ob Reaktion oder nicht Wie Phase 1 Wie Phase 2

Instrumentelles Konditionieren als kausale Inferenz Wasserman (1990) Vpn konnten Taste drücken Dies führte manchmal dazu, dass Licht aufleuchtete UV1: p(licht Taste) = 0; 0.25; 0.5; 0.75; 1.0 UV2: p(licht keine Taste) = 0; 0.25; 0.5; 0.75; 1.0 vgl. Rescorla-Wagner- Theorie des klassischen Konditionierens! (O = Outcome; R = Response)

Allgemeinere Schlussfolgerungen Organismen lernen kausale Regularitäten, die es ermöglichen, Effekte des eigenen Verhalten zu antizipieren Dies ermöglicht es Organismen, sich adaptiv ( rational ) zu verhalten = Verhalten zu selektieren, dass positive Konsequenzen hat und negative Konsequenzen zu vermeiden Adaptives Verhalten muss nicht auf bewusster Überlegung oder Einsicht in die relevanten Kontingenzen beruhen Relativ einfache assoziative Mechanismen können Verhalten erzeugen, das rational und zielgerichtet erscheint

Biologische Einschränkungen beim operanten Konditionieren

Biologische Einschränkungen beim operanten Konditionieren: Instinktive Drift Breland & Breland (1961): Trainierten Waschbären, Holzmünzen aufzuheben und in einen Behälter zu legen Tiere zeigten nach kurzer Zeit nicht verstärkte Verhaltensweisen (z.b. Waschen der Münzen) machte Trainingsprogramm zunichte Entspricht artspezifischem Verhalten bei der Nahrungssuche Analoge Ergebnisse für andere Spezies Wie beim Klassischen Konditionieren wird Effizienz des Lernens durch biologische Lernbereitschaften beeinflusst Breland, K. & Breland, M. (1961) The misbehavior of organisms. American Psychologist, 16, 681-684.

Biologische Einschränkungen beim operanten Konditionieren: Autoshaping Brown & Jenkins (1968): Tauben wurden trainiert, aus Futterspender zu fressen Im Abstand von durchschnittlich 60 Sek. leuchtete Reaktionstaste für 8 Sek. Auf; danach wurde Futter präsentiert Obwohl Futtergabe unabhängig vom Verhalten erfolgte, begannen Tauben, auf die beleuchtete Taste zu picken

Biologische Einschränkungen beim operanten Konditionieren: Reizmerkmale Organismen sind biologisch prädisponiert, bestimmte Reize als bedeutsam zu betrachten und andere zu ignorieren Foree & LoLordo (1973): Trainierten Tauben mit kombiniertem CS (Licht + Ton) Wenn Verstärker Futter war, wurde Verhalten durch Licht kontrolliert Wenn Verstärker Schock war, wurde Verhalten durch Ton kontrolliert Interpretation Visuelle Information ist in natürlicher Umwelt kritisch, um Futter zu identifizieren Geräusche signalisieren oft Gefahr

Biologische Einschränkungen beim operanten Konditionieren: Reaktionsmerkmale Shettleworth (1975): Hamster zeigten bestimmtes Verhalten, wenn sie hungrig waren Auf Hinterbeine aufrichten (open rear) An Wänden kratzen (scrabbling) Graben (digging) Andere Verhaltensweisen traten nicht häufiger auf Waschen; kratzen; markieren Experiment: Hamster wurden für unterschiedliche Verhaltensweisen mit Futter belohnt Tiere sind biologisch prädisponiert, bestimmte Reaktions-Verstärker Assoziationen besser zu lernen als andere Mittlere Zeit, die die verstärkte Reaktion innerhalb 120 sek ausgeführt wurde