DIE FILES DÜRFEN NUR FÜR DEN EIGENEN GEBRAUCH BENUTZT WERDEN. DAS COPYRIGHT LIEGT BEIM JEWEILIGEN AUTOR.

Weitere Files findest du auf www.semestra.ch/files DIE FILES DÜRFEN NUR FÜR DEN EIGENEN GEBRAUCH BENUTZT WERDEN. DAS COPYRIGHT LIEGT BEIM JEWEILIGEN AUTOR.

Universität Zürich / Pädagogisches Institut Fachbereich PP II (Professor Dr. K. Reusser) Proseminar Lerntheorien (Dr. F. Staub) WS 02/03 Daniel Wagner (d.wagner@freesurf.ch) Frank Renold (f.renold@access.unizh.ch) Operantes Konditionieren 1. Überblick Die Theorie des operanten Konditionierens liegt in der Tradition des Behaviorismus und geht auf den amerikanischen Lernpsychologen B. F. Skinner (1904-1991) zurück. Da die Anthropologie dieser Tradition vom Materialismus geprägt ist, wird menschliches Verhalten auch hier wesentlich mechanistisch gedeutet. Im Gegensatz zur klassischen Konditionierung (J. B. Watson, 1878-1958), die noch von einer weitgehenden Determinierung des Menschen ausgeht, zeichnet sich jedoch im Konzept der operanten bzw. instrumentellen Konditionierung eine ansatzweise Öffnung hin zu einer subjektiven Mitwirkung ab. Verhalten wird nicht mehr nur von vorangehenden Reizen gesteuert, sondern von nachfolgenden Konsequenzen (Reaktionen), die nach einer positiven oder negativen Bewertung gleichsam als eine Art Erinnerung am handelnden Subjekt kleben. Im Gegensatz zu Thorndike (1874-1949), der glaubte, dass gelerntes Verhalten instrumentell zur Erreichung einer angestrebten Belohnung diene (adaptiver Hedonismus), wollte Skinner - stark beeinflusst von Watsons objektivem Behaviorismus - von inneren, das Verhalten steuernden Motiven nichts wissen. Gemäss seiner Position soll der Lernprozess auf folgenden Zusammenhang beschränkt werden: Verhalten wirkt sich auf die Umwelt aus. Verändert sich die Umwelt infolge des Verhaltens, so ändert sich auch das Verhalten - dadurch kommt Lernen zustande. Vorgeschichte aktiv CS US reaktiv Orientierungsreaktion Beispiel (Pawlow 1849-1936) US: (unkond. Reiz) = Futter : Hund (Organismus) reagiert mit Speichelsekretion CS: Ein vorerst neutraler Reiz (Glocke) löst lediglich eine Orientierungsreaktion aus. In konsistenter Darbietung mit dem US übernimmt er aber bald dessen Funktion und wird so zu einem konditionierten Reiz (CS). Klassische Konditionierung CS Assoziation Der (Hund) wird durch einen vorausgehenden Impuls (CS) zu einer Reaktion (Speichelsekretion) bewogen. Zeitachse Operante Konditionierung Assoziation / Kontingenz Der (Kind), gekoppelt an ein vorausgegangenes (od.: wieder anzustrebendes) Ereignis (>), wird zur Wiederholung eines bestimmten Verhaltens (>der Mutter helfen) motiviert. Vorgeschichte aktiv wird zum reaktiv UW Beispiel (Kind, das belohnt wird) : Kind (Organismus) hilft der Mutter beim Kochen. UW: Mutter (Umwelt) belohnt das Kind unerwarteterweise mit einem Schokoladenriegel. : Kind bewertet die Reaktion der Mutter als ein positives Ereignis, das es wieder anzustreben gilt ().

2. Das Paradigma der operanten Konditionierung Es besteht aus folgenden Teilen: a) Verhaltenskontingenzen b) c) diskriminierende Reize Im Folgenden sollen sie genauer beschrieben werden. a) Verhaltenskontingenz Eine Kontingenz kennzeichnet eine Beziehung vom Typ wenn X dann Y UW So bezeichnet man eine konsistente (verlässliche) Beziehung zwischen einer Handlung (Reizbedingungen) und einer darauf folgenden Reaktion als eine Verhaltenskontingenz. b) und Bestrafung Ein ist ein bedeutsames Ereignis, das die Auftretenswahrscheinlichkeit einer vorangegangenen Verhaltensweise (siehe oben) erhöht. Seine Definition ist somit empirischer Natur. Bestrafung dagegen hat eine gegenteilige Wirkung, nämlich das Verschwinden einer bestimmten Verhaltensweise. Typ Wirkweise Beispiel positiver negativer konditionierter führt zu einem Anstieg der Auftretenswahrscheinlichkeit eines Verhaltens, wenn er zu einer Situation hinzutritt geeignet, um eine bestimmte neue Reaktion hervorzurufen oder eine bereits länger bestehende zu stabilisieren. führt zu einem Anstieg der Auftretenswahrscheinlichkeit eines Verhaltens, wenn er aus einer Situation herausgenommen wird. geeignet, um unerwünschtes Verhalten abzugewöhnen neutrale Reize können, gepaart mit einem, deren Funktion übernehmen Ein unmotiviertes Kind wird - nachdem es sich schweren Herzens dazu bewegen liess, bei der Gartenarbeit mitzuhelfen - von der Mutter mit einem Batzen belohnt. Dies führt dazu, dass das Kind das nächste Mal auf dieselbe Bitte der Mutter sofort positiv reagiert. Ein an den Sicherheitsgurt gekoppelter Alarm dient als negativer : Sein störendes Geräusch hört erst auf, wenn der Fahrer sich angeschnallt hat. Ein Lehrer verteilt seinen Schülern für genau definierte Verhaltensweisen Belohnungen in Form von Gutscheinen. Diese konditionierten können später für eine Reihe von Belohnungen und Privilegien eingetauscht werden. Bestrafung ist die Verabreichung eines aversiven Reizes oder das Entfernen eines positiven s und dadurch von einem negativen zu unterscheiden, dass ihm nicht ausgewichen werden kann führt zu einem relativ schnellen Verschwinden eines unerwünschten Verhaltens Die heisse Herdplatte anzufassen, erzeugt Schmerzen, die die vorausgehende Handlung bestrafen. Es ist weniger wahrscheinlich, dass das Kind erneut auf die Platte fasst, wenn es sich wieder beim Herd aufhält. Eigenschaften und Anwendungsmöglichkeiten von n Wenn man genauer betrachtet, lassen sich eine Reihe interessanter und komplexer Eigenschaften entdecken. Sie können zum Beispiel: - die Wirkung erst allmählich (von schwach zu stark) entwickeln - eher durch Erfahrung gelernt werden - eher biologisch determiniert sein (primärer, z.b. Nahrung) - eher in Aktivitäten bestehen - oder eher materieller Natur sein Eine bevorzugte Aktivität kann zur Verstärkung einer weniger geschätzten dienen (z.b. kann ein vorangehendes Stillsitzen und Zuhören von Kindern an ein nachfolgendes Herumrennen und Schreien gekoppelt werden). Wirksamkeit: Die Wahrscheinlichkeit, dass operantes Konditionieren auftritt, ist dann am grössten, wenn der als unmittelbare Konsequenz einer Handlung auftritt. Bei Menschen jedoch kann operantes Konditionieren auch ohne unmittelbares Auftreten des s erfolgen, da sie in ihrem Bewusstsein eine kausale, kontingente Beziehung zwischen einem Verhalten und dessen späterer Konsequenz entdecken können. 2

Generalisierter konditionierter : Menschliches Verhalten und Lernen wird zu einem grossen Teil von konditionierten n (Geld, Titel, Lob, Medaillen, verschiedenste Statussymbole) beeinflusst. Kontrolliert ein solcher (z.b. Geld) einen grossen Bereich von Reaktionen, so nennt man ihn einen generalisierten konditionierten. Shaping: Wenn die Leistungen einer Person derart niedrig sind, dass scheinbar kaum verstärkt werden kann, so muss das gewünschte Verhalten durch sukzessive Annäherung (shaping)ausgeformt werden. Zu Beginn werden die elementarsten Ansätze der erwünschten Leistung verstärkt. Tritt ein Element dann regelmässig auf, werden von diesem nur Reaktionen verstärkt, die dem Zielverhalten schon ähnlicher sehen. Unerwünschtes Verhalten wird jetzt konsequent ignoriert. Chaining: Eine andere Methode, zu einem gewünschten Verhalten zu kommen, ist die Kettenbildung von konditionierten n. Im Unterschied zum Shaping muss hier nicht neues Verhalten geformt werden, sondern ein neuer Handlungsverlauf. Dabei erhält in einem ersten Schritt nur das gewünschte Zielverhalten einen primären. In einem nächsten Schritt wird dann das Zielverhalten zu einem konditionierten für den unmittelbar vorher zu erfolgenden Verhaltensschritt. Auf diese Weise wird der Kette rückwärts ein Glied nach dem anderen zugefügt, bis der gewünschte Ausgangspunkt erreicht wird. Verstärkungsmuster: Wirkung und Löschwiderstand eines s sind entscheidend vom Verabreichungsmuster abhängig: Bei kontinuierlicher Verstärkung (Quoten- oder Intervallplan) ist die Wirkung schnell, doch beim Ausbleiben des s der Löschwiderstand entsprechend gering. Werden jedoch intermittierend (Intervallplan) dargeboten, so verhält es sich genau umgekehrt: die Verstärkung erfolgt langsamer und weniger intensiv, doch der Löschwiderstand ist umso grösser. c) Diskriminierende Reize Diskriminative oder diskriminierende Reize (DR) sind zuverlässige Vorzeichen für das Auftreten, oder allfällige Nichtauftreten von bestimmten n. Sie führen nicht kausal als Auslöser zu einem Verhalten, geben dem Organismus aber die Bühne frei, das Verhalten zu zeigen. Gute Beispiele dafür sind Hinweisschilder in öffentlichen Räumen. Ein Raucherzone-Schild an der Uni erhöht die Auftretenswahrscheinlichkeit des s nicht-nach-draussen-verwiesen-werden für den Raucher massgebend, und wirkt so als Prädiktor, als diskriminativer Reiz um sich eine Zigarette anzuzünden. Der Anblick des Getränkeautomaten wird zum zuverlässigen Vorzeichen, dass ich durch Münzeinwurf zum Besitzer eines Getränkes werde. Kurz und gut: Wir lernen nicht nur was wir tun sollen, sondern auch wann wir es tun sollen. Der diskriminierende Reiz vervollständigt das 3-stufige Bild der operanten Konditionierung: Er gibt die Bühne frei für eine operante Aktion, die das Auftreten eines s als Konsequenz hervorruft. DR signalisiert die Möglichkeit von Verstärkung Organismen lernen schnell, solche Vorzeichen zu deuten und agieren dementsprechend. Dies ermöglicht die Untersuchung im Labor: Eine Taube die auf eine Scheibe pickt erhält Futter, aber nur wenn ein grünes Lämpchen an ist. Das grüne Lämpchen ist der positive diskriminative Reiz. Es führt nicht kausal zum Scheibenpicken, zeigt der Taube aber an, dass sie durch ihre operante Aktion mit grosser Wahrscheinlichkeit den Futter bekommen auslöst. Schon nach kurzer Zeit pickt die Taube nur noch bei leuchtendem grünen Lämpchen. Das Nichtansein des grünen Lämpchens nennt man den negativen diskriminativen Reiz. Er führt zum Nichtpicken. Das Verhalten steht jetzt unter Reizkontrolle. 3. Versuch einer Grenzbestimmung Die Lerntheorie des operanten Konditionierens geht davon aus, dass menschliches Verhalten von wertneutralen Assoziationsketten bestimmt wird. In Anlehnung an die empirische Naturwissenschaft, wo Naturgesetze physikalische Wechselwirkungen (Assoziationen) beschreiben, sollen auch im Bereich des menschlichen Verhaltens und Lernens Konstanten gefunden werden, welche Kontrolle und Vorhersage ermöglichen. Kausalitäten werden auf motivationale Kräfte reduziert, die biologisch bedingt sind. Damit wird auch die grosse Bedeutung des Tierversuches als Untersuchungsmethode verständlich, denn menschliches und tierisches Verhalten lassen sich unter einem solchen Paradigma direkt vergleichen. Mensch und Tier werden also primär von natürlichen Bedürfnissen und Trieben geleitet. Ob aber auch bei Tieren von Hedonismus gesprochen werden darf, hängt wohl davon ab, inwieweit man auch ihnen ein Bewusstsein zuspricht. Im Bewusstsein selbst meinen wir dann auch ein begrenzendes Element für die Wirksamkeit behavioristi- 3

scher Lernmethoden zu sehen. Gerade der Vergleich in der Anwendbarkeit zwischen Mensch und Tier stützt unserer Meinung nach diese These. Im Gegensatz zu den Tieren, die sich - wenn überhaupt - scheinbar nur nach klassischer oder operanter Weise konditionieren lassen (Dressur), ist dies beim Menschen nicht so klar. Bei ihm lässt sich neben einer biologisch-körperlichen auch eine kognitive Entwicklung beobachten, die aber nicht zwangsläufig parallel mit jener einhergehen muss. Vielleicht kann im frühen Kindheitsalter am ehesten von einem Parallelismus die Rede sein, da hier die Abhängigkeit kognitiver Fähigkeiten von der körperlichen Entwicklung noch am offensichtlichsten ist. Obwohl leicht zu beobachten ist, dass der Mensch in allen Altersstadien auf behavioristische Methoden gut anspricht (z.b. in der Werbung), lässt sich ebenfalls dokumentieren, dass menschliches Bewusstsein - auch schon bei kleinen Kindern - evaluativ steuernd in das Handeln eingreift. Spielen nun tatsächlich subjektive Evaluationen für Entscheide des täglichen Lebens eine Rolle, so stellt sich die Frage, nach welchen Kriterien und Normen solches geschieht. Ja oder Nein sind dann nicht mehr einfach zwei gleichwertige, neutrale Entscheide, sondern das Eine wird dem Andern bewusst vorgezogen oder hintangestellt. Damit würde folglich der Mensch - entgegen der oben genannten Annahme - nicht von wertneutralen Assoziationsketten gelenkt, sondern von werthaften subjektiven Entscheiden. Eine weitere Implikation dieses Denkens wäre, dass selbst unbewusstes Verhalten von festen Wertmassstäben gelenkt sein könnte, der Unterschied bestünde lediglich darin, dass (noch) nicht subjektiv darüber befunden werden kann. Damit liesse sich die These formulieren, dass Leben generell nicht von wertneutralen Wechselwirkungen gelenkt wird, sondern von werthafter Information. Dies wiederum würde implizieren, dass je bewusster ein Mensch Information verarbeitet, er desto weniger auf Konditionierungsformen anspräche, aber sich umso mehr von seinen Überzeugungen leiten liesse. 4. Anwendung Operante Konditionierung wird in pädagogischen Situationen angewandt, indem mit bewusstem Reaktionsverhalten (was auch Ignoranz einschliesst) die zukünftige Auftretenswahrscheinlichkeit von operantem Verhalten erhöht, oder verringert wird. Wie oben besprochen geht die Theorie des operanten Konditionierens, im Gegensatz zur klassischen Konditionierung, nicht von (wert-)neutralen Reizen aus, die bewusst mit einem Response (Reaktionsverhalten) verbunden werden können, sondern lässt die Konsequenzen aus operantem, willkürlichem Verhalten des Organismus als oder aversiven Reiz aufnehmen, worauf er mehr oder weniger bewusst sein zukünftiges Verhalten auslegt. Diese Belastung des klassischen Reizes mit subjektiven Werten führt im pragmatischen Einsatz von Methoden rund um die operante Konditionierung zu erheblichen Schwierigkeiten. Reagiert ein Trainer auf (für ihn) unerwünschtes Verhalten mit einer Schelte (aversiver Reiz), will er damit das Verhalten in Zukunft zum Verschwinden bringen. Der Organismus hingegen kann diese bewusste Schelte, oder sogar Schläge, durchaus als Aufmerksamkeit oder sogar Zuwendung erleben, was somit das Verhalten nach und nach verstärkt. Solche Missverständnisse können sich gegenseitig verstärken (der Trainer reagiert je länger, desto agressiver), was zu vertrackten Sackgasse-Situationen im Lernumfeld führen kann. Die Gefahr des Auftretens solcher Wertdifferenzen scheint uns bei der Anwendung von aversiven Reizen (Bestrafung von Unerwünschtem) bedeutend grösser als beim Einsatz von bewusster Verstärkung (Belohnung von Erwünschtem). Zusätzlich scheinen möglichst unkonditionierte (also unmittelbare) eindeutiger in ihrer Wertbedeutung als abstraktere, konditionierte, und eignen sich somit besser zum Einsatz im Lernumfeld. Ausserdem hat unserer Meinung nach die soziale Homogenität und Stabilität der Lernumgebung einen grossen Einfluss auf den Erfolg und die Lerngeschwindigkeit beim Einsatz von operanter Konditionierung. Je homogener und stabiler die Rollen mit sozialen Funktionen verknüpft sind, umso effizienter wirkt sich die Lernmethode aus. Mit der Entstehung und Zuweisung von Werten zu Verhaltensstrukturen hat sich die Lerntheorie der operanten Konditionierung nicht befasst, was ihr in der Folge Kritik eingebracht und zur Weiterentwicklung in Richtung kognitiver Lerntheorie verholfen hat. Literatur Zimbardo, P.G. (1995). Operantes Konditionieren. In P. Zimbardo (Hrsg.), Psychologie (S. 278-289). Berlin: Springer 4