Psicología del Aprendizaje
Tema 4 Principios básicos del
Condicionamiento Operante.
Segunda parte
Procedimientos básicos del
Condicionamiento Operante
El estudio de la conducta se ve
dificultado ya que esta es
Un proceso dinámico y
modificable en el tiempo
Resultado de muchas variables que interrelacionan y
que pueden incluso no estar presentes en el
momento de su análisis
Procesos conductuales reproducibles
Son fenómenos conductuales que
Tienen un patrón temporal identificable bajo condiciones objetivamente especificadas
Son reproducibles en diferentes individuos
Su comprensión depende de
Las relaciones entre los eventos que los configuran
Las condiciones bajo las cuales ocurren
Importancia del término contingencia
Contingencia
Relación de dependencia funcional entre dos componentes de un condicionamiento
Se establece cuando
Uno de los componentes correlaciona con el otro
Contingencia positiva
Una respuesta es seguida
de una consecuencia
Contingencia negativa
Una respuesta elimina o
previene la aparición de
una consecuencia
Procedimientos fundamentales
Contingencia positiva
Naturaleza apetitiva
Refuerzo positivo
La conducta provoca consecuencias positivas
La conducta aumenta
Naturaleza aversiva
Castigo positivo
La conducta provoca consecuencias negativas
La conducta disminuye
Contingencia negativa
Naturaleza apetitiva
Entrenamiento de Omisión
La conducta provoca la omisión de algo bueno
Reforzamiento diferencial de
otras conductas
La conducta disminuye
Naturaleza aversiva
Reforzamiento negativo
La conducta provoca la omisión de algo malo
Entrenamiento de
escape y evitación
La conducta aumenta
Destinados a aumentar conductas
Reforzamiento positivo
Entrenamiento de
recompensa
La consecuencia apetitiva se
presenta de forma contingente a
una respuesta
Provoca
Un aumento de la fuerza
de la respuesta
Cuando el sujeto emite la
conducta se presenta una
consecuencia apetitiva
Estas consecuencias pueden ser
Reforzadores primarios: Comida, sexo,.etc
Reforzadores secundarios: Elogios, dinero, etc
Ejemplo
Uso de comida
como EI para el
reforzamiento
Para que surja efecto el
animal tiene que estar
motivado a conseguirla
Esto se consigue mediante
la privación previa de
alimento
La motivación vendrá dada por el
porcentaje de peso que ha perdido
el animal respecto a su peso
comiendo por libre (ej 5% menos)
Se debe tener en cuenta
El hecho de que en el
repertorio natural del
animal exista la
respuesta que se
quiere medir
Si no se trata de una conducta habitual en su
medio natural ej. presión de una palanca
Se puede recurrir al
Moldeamiento o Método de aproximaciones sucesivas
Reforzar respuestas o conductas que se
vayan aproximando a la respuesta final que
queremos medir
Dejar de reforzarlas (extinción) según se van
consiguiendo respuestas más parecidas a nuestro
objetivo
Escape y evitación
Procedimiento de
escape
Se elimina o detiene un evento aversivo como
resultado de una respuesta operante
Por lo tanto
La fuerza de la conducta o respuesta aumenta
Procedimiento de
evitación
La respuesta impide que se presente el
evento de naturaleza aversiva
En laboratorio
Es habitual que estos dos procedimientos
funcionen de manera conjunta
Ejemplo
Si al presionar una palanca se
detiene una descarga en un
primer momento el animal
presionará la palanca cuando
nota la descarga para
detenerla : escape
Una vez aprendido este
comportamiento, la
presionará
continuamente para que
la descarga no llegue :
evitación
Son procesos conocidos como de
reforzamiento negativo
En ambos casos la contingencia
negativa da lugar al
fortalecimiento de la conducta
Destinados a disminuir conductas
Castigo o castigo positivo
Procedimiento en el cual
se aplica una
consecuencia aversiva
de forma contingente
La consecuencia aversiva se
presenta cuando el sujeto
emite la respuesta operante
En el análisis funcional
de la conducta
El castigo se define por su función
Esto implica
Cuando el castigo no tiene efectos
en la conducta se considera que
este no ha ocurrido
Se debe señalar que
Para poder
castigar una
respuesta antes
ha tenido que ser
reforzada
Por lo tanto
El castigo consiste en la disminución
de una respuesta previamente
reforzada debido a la imposición de
una contingencia de tipo aversivo
sobre dicha respuesta
Entrenamiento de omisión
o castigo negativo
Tiene como
resultado
Una disminución en
la fuerza de la
respuesta
Eliminando o
previniendo una
consecuencia apetitiva
de forma contingente a
la respuesta o conducta
Es decir
Si un sujeto emite la
respuesta operante
La consecuencia será la NO presentación
de un evento apetitivo que se presentaría
en circunstancias similares si no se
produjese dicha conducta
Los eventos o
circunstancias eliminadas
en el castigo negativo se
asume que son
reforzantes
Efectos colaterales
de los
procedimientos
aversivos
Se desaconsejan por
Razones éticas
Tienen efectos colaterales
La estimulación aversiva puede tener a su vez efectos emocionales
Estos efectos aunque en un primer momento eliminan la conducta indeseable
No impiden su reactivación en un
futuro cuando se disipan
La estimulación aversiva puede
asociarse con otros estímulos
presentes en esa situación
Dando lugar a que se inhiban
otras conductas que sí son
deseables
Tanto personas como animales al ser
castigados asocian el castigo más con quién lo
ejecuta que con la conducta realizada
Esto puede dar lugar a evitación y
rechazo hacia esa persona más que
a un cambio de conducta
Extinción en el reforzamiento positivo
Es el procedimiento mediante el
cual una respuesta que previamente
se reforzaba, se deja de reforzar
Es decir: Se deja de presentar la
consecuencia que le seguía al ser
emitida
Es por tanto
Tanto el
procedimiento como
el proceso que da
lugar a la
disminución de la
frecuencia o
intensidad de la
respuesta
Causada por
ausencia del
reforzador
Lleva a una disminución gradual de la ejecución
Pero no elimina la respuesta de forma absoluta
Recuperación espontánea
Recuperación de la respuesta por
el paso del tiempo sin que el sujeto
sea expuesto a sesiones de
extinción
Efectos en los primeros ensayos
Estallido de extinción
Aumento de la tasa de respuesta los primeros
ensayos en los que no se presenta el reforzador
Aumento en la variabilidad
de la respuesta
Explicación adaptativa
La variación conductual aumenta las probabilidades de entrar de nuevo en
contacto con el reforzador o con otras posibles fuentes de reforzamiento
Consecuencias
Respuestas emocionales incondicionadas y frustración
Evolutivamente
La selección natural parece haber favorecido que los organismos repitan las
conductas que funcionaron en el pasado haciendo que el rango de respuestas ante
la extinción aumente y se intensifique.
En laboratorio
Si el procedimiento es
lo suficientemente
largo
La tasa de respuesta suele volver al nivel
registrado antes de que la conducta fuese
reforzada
Se considera a la tasa de
respuesta durante la sesión
de extinción
El ïndice de la resistencia a la extinción
Efecto del sobreentrenamiento en la extinción
Contraintuitivamente
Cuando una respuesta ha sido reforzada en múltiples ocasiones
Muestra menor resistencia a la extinción
Más acusada aún si en la fase de
condicionamiento se utilizó un programa de
reforzamiento continuo
La resistencia
a la extinción
Aumenta si se
utiliza un
programa de
reforzamiento
parcial o
intermitente
Reforzamiento
parcial
Es el resultado de dos
procesos básicos:
reforzamiento y
discriminación
Se debe a que la
discriminación entre el
reforzamiento y la
extinción es mejor si el
programa es de
reforzamiento continuo
Es decir
Es más fácil discriminar la diferencia entre un programa con una
tasa estable y alta de reforzamiento en el que el reforzamiento no
existe (extinción), que entre un programa de tasa baja e
intermitente de reforzamiento y la extinción
También influye la
generalización de la
situación de
reforzamiento
intermitente a la de
extinción
Dando lugar
A una mayor
resistencia al cambio
en los programas de
reforzamiento
intermitente
Por lo tanto
Los factores de discriminación y generalización anularían el efecto producido por la mayor tasa de
reforzamiento de los programas continuos
Otras variables que influyen en la
persistencia de la respuesta
Magnitud del
reforzador
Si la magnitud de la recompensa durante la
adquisición es alta y continua la resistencia a
la extinción disminuye
Inmediatez de la
recompensa
Si la demora en la presentación
del reforzador es baja
La resistencia a la
extinción es mayor
La respuesta que ocurre como resultado de la
extinción es muy diferente al olvido
Extinción
Una respuesta
anteriormente reforzada ya
no produce reforzamiento
Pero
La disponibilidad
de emitir la
respuesta sigue
disponible
Olvido
La disminución de la
respuesta ocurre debido al
paso del tiempo
La posibilidad de emitir la
respuesta no está presente
La extinción no revierte lo
ocurrido durante la
adquisición
Sino que implica un aprendizaje
nuevo que se superpone al
anterior
Esto se puede probar mediante los fenómenos
Recuperación espontánea
Renovación
Recuperación de la respuesta
extinguida en un contexto diferente
Restauración
Se da cuando se vuelve a situar a
los sujetos en el contexto
original de la extinción
Restablecimiento
Proceso en el que después de
extinguida la respuesta el
sujeto es expuesto de forma no
contingente al reforzador, lo
que provoca la reaparición de la
respuesta sin que esta de lugar
al reforzador
Fenómenos del condicionamiento operante
Conducta supersticiosa
Skinner
"experimento
de
superstición"
Demostró parte de las consecuencias que el reforzamiento accidental tiene en el proceso de aprendizaje
Reforzamiento accidental
o adventicio
Si una respuesta ocurre cuando se entrega el reforzador esa conducta es reforzada
Staddon y Simmelhag
En un registro de conductas más minucioso
Encontraron dos categorías de respuestas
Conductas de ínterin
Actividades del animal que tenían lugar
en el medio del intervalo a falta de
tiempo para el reforzador
Conductas terminales
Las que ocurren al final del intervalo y
próximas en el tiempo a la aparición del
reforzador
Observaron que
El patrón de respuestas no variaba de forma significativa
entre los individuos
Argumentando que
No es el reforzamiento accidental lo que origina un aumento en la frecuencia de las conductas de ínterin
Sino que estas conductas son simplemente respuestas que se emiten de forma innata cuando la prob. de reforzamiento es baja
Por otro lado
La entrega del EI parecía solo influir en las respuestas terminales
Y su aparición no estaría
relacionada con un reforzamiento
accidental
Por lo tanto se podría pensar que determinadas conductas
supersticiosas pueden explicarse por
El
reforzamiento
accidental
propuesto por
Skinner
Mecanismos asociados a conductas innatas
relacionadas con la manera en que se relaciona el
paso del tiempo y la aparición de reforzadores en
ambientes naturales
En humanos
Herrstein
Diferenció la forma en que se adquieren las supersticiones humanas entre
Supersticiones idiosincráticas
Motivadas por la experiencia propia anterior con situaciones de reforzamiento
Supersticiones sociales típicas
mantenidas en el tiempo
Residuo de contingencias de
reforzamiento previas no efectivas pero
de gran relevancia en su momento
Suele darse en
situaciones
En las que no hay ningún control sobre las consecuencias de las acciones
(EJ. juegos de azar)
En el deporte
La deriva instintiva
y el concepto de
relevancia o
pertinencia
En el CO existen situaciones en las
que se observan relaciones de
pertinencia o relevancia entre
respuestas y reforzadores
Hay respuestas que son más
difíciles de condicionar
cuando se utilizan ciertos
tipos de reforzamientos
Thorndike
Señaló la facilidad o dificultad para
condicionar determinadas respuestas
Pertinencia
Se refiere a que algunas
respuestas se relacionarían de
modo natural con el reforzador
como consecuencia de la historia
evolutiva del animal
Por lo que serán más fáciles de condicionar que otras
dependiendo del reforzador usado
Breland
Observaron que
Ciertas respuestas naturales se presentaban compitiendo con las respuestas requeridas por el entrenador
Deriva instintiva
Cambios en la cantidad y calidad de la recompensa
El contraste conductual
Se basa en el hecho de que la efectividad de un reforzador para controlar una conducta
Puede verse modificada por la experiencia previa
con el mismo reforzador cuando éste es de una
magnitud o calidad diferente
Es un fenómeno relacionado con la motivación
Experimentos de
Mellgren
Los efectos de la
recompensa dependen de la
experiencia previa con otras
recompensas y NO de su
valor absoluto
Experimento
Fase 1. Al final de una carrera a los
grupos A y B se les dio 2 bolitas de
comida. Grupos C y D recibían 22
bolitas por el mismo recorrido
Fase 2.
Grupo A recibe 2 bolitas de comida
Grupo B pasa a recibir 22
Grupo C se mantiene en 22
Grupo D rebaja a 2 bolitas de comida
Resultados
Los grupos a los que no se les varió la cantidad de comida mostraron la misma velocidad
Los que aumentaron la cantidad de comida aumentaron la velocidad
Contraste conductual positivo
Los que pasaron a una recompensa menor disminuyeron significativamente su velocidad
Contraste conductual negativo
Se ha propuesto que el
fenómeno del contraste
puede depender del estado
afectivo previo
Por lo tanto
La sensibilidad de un individuo hacia la ganancia o pérdida de
recompensas también dependería del estado emocional en
que se encuentre
Efectos de la
demora del
reforzador
Procedimiento
de marcado
Una respuesta es difícil de
reforzar cuando la entrega de la
recompensa se demora en el
tiempo y viceversa
Demora del
Reforzamiento
Ocurre cuando
existe un periodo
de tiempo entre
La respuesta
que da lugar
al reforzador
La entrega
posterior del
mismo
En función de las
circunstancias puede
Disminuir o aumentar la conducta
No modificarla respecto al
reforzamiento no demorado
El mismo valor de demora puede tener diferentes
efectos en función de otros parámetros
Tanto de dicha
demora como de
las condiciones del
mantenimiento del
reforzamiento
Se debe obtener una línea base de
respuesta estable a partir de la
cual poder observar los efectos de
la presentación demorada del
reforzador
Cuando la línea base es estable y se impone una demora
Normalmente
Esta da lugar a una reducción de la respuesta
En ocasiones
En un primer momento incluso puede ocurrir un aumento
Se trata de un proceso dinámico resultado de
las acciones directas o indirectas de distintas
variables de la conducta
Evitable mediante
Procedimiento
de marcado
Consiste en marcar
la respuesta
haciendo que esta
pueda diferenciarse
de otros eventos
que ocurren durante
el periodo de
demora
La presentación de un
estímulo contingente a
la respuesta
La convierte en un evento significativo
Experimento
Si los animales pasaban por el brazo lateral negro recibían comida en la caja de meta
Recorrido: Caja de salida / Caja de elección / Brazo lateral negro y blanco / Caja de demora / Caja de meta
Grupo marcado o
experimental
En el momento en que elegían por qué brazo pasar eran trasladados a la caja de demora
Grupo control
Se les dejaba pasar libremente sin demora
Resultado
Los sujetos marcados mostraron
un mayor número de elecciones
correctas a lo largo de los ensayos
Explicación
La manipulación de los animales posterior a la respuesta de elección provoca
Un marcado de la respuesta de elección en la memoria de los sujetos
Esto aumenta la probabilidad de
Una recuperación de la respuesta cuando los sujetos reciben la recompensa después de la demora
Devaluación del
reforzador
Procedimiento
Consiste en
Demuestra que
Se aprenden asociaciones entre
La consecuencia en un CO
La respuesta
Asociar al reforzador que se está utilizando un estímulo o evento de naturaleza contraria
EJ. asociar comida con una sustancia que provoque malestar estomacal
Experimento
En una caja de CO con dos palancas
1era fase
Cualquiera de las dos
palancas dará acceso a la
comida
Palanca A :
sabor naranja
Palanca B :
sabor fresa
Los animales
presionan
indistintamente
2da fase
La comida tipo B se
empareja fuera de la caja
con una sustancia aversiva
3era fase
Los animales
vuelven a la caja
de CO
Resultado
La RO de la palanca B disminuye
Aun cuando presionar la palanca nunca
ha sido contingente al estímulo
aversivo
Experimento
1 era fase
Los animales podían
Tirar de una cadena:
obtención de agua
azucarada
Presión de una palanca:
obtención de comida
2da fase
Sin estar disponibles
ni la palanca ni la
comida
Es decir : de forma
NO contingente
Se le suministró al grupo experimental
la comida y agua + una sustancia
aversiva para provocar malestar
estomacal
Resultado
Los sujetos que habían recibido
malestar presionaron mucho
menos los mecanismos para
acceder a los reforzadores
Por lo tanto
Habían aprendido acerca de
las consecuencias de su
conducta durante el CO
Sin embargo
En determinadas ocasiones la
ejecución de una respuesta
instrumental puede llegar a
automatizarse si se entrena o
practica de forma masiva
Algunos autores
diferencian entre
La acción instrumental
Respuestas que son
modificadas por el valor de
sus consecuencias
Hábitos de conducta
Respuestas cuya ejecución
no depende del valor actual
del reforzador
En laboratorio
Se ha demostrado que
La extensión de un
entrenamiento puede hacer que
una conducta se automatice
Y que no sea controlada por el valor de las consecuencias
Tomando forma de hábito
Experimento
Dos grupos de ratas presionan palancas utlizando como reforzador bolitas de sacaroso
Grupo A limitado a 100 respuestas reforzadas
Grupo B 500 respuestas reforzadas
Se provoca malestar estomacal
a la mitad de los animales
Resultado
La devaluación del reforzador solo tuvo
un efecto claro en animales con
entrenamiento corto
Demostrando que
La práctica prolongada da lugar a
una ejecución de la conducta mucho
más rígida y menos deliberada
No dependiendo tanto de las
consecuencias de la misma
Esto explica que
Determinadas conductas compulsivas dependan de mecanismos
de aprendizaje diferentes a los que se dan durante la adquisición
de la conducta
La controlabilidad de las
consecuencias aversivas
El efecto de indefensión aprendida
Seligman
Descubrió que
Cuando los animales son sometidos a situaciones en las que tienen poco o ningún control
Desarrollan una reacción emocional en la que manifiestan
Un comportamiento pasivo ante dichas circunstancias o circunstancias parecidas
Se cree que esta reacción es similar a la depresión humana
Experimentos
1era fase. Fase de
preexposición al
entrenamiento
escape / evitación
Grupo Control
Si se emite la respuesta
requerida se detiene o impide
la presentación de la descarga
Grupo Experimental
Recibía las mismas descargas que el grupo control
pero su conducta no tenía consecuencias sobre las
descargas
Segundo grupo Control
Confinado en la misma situación no recibía descargas en esta fase
2da fase
Fase de aprendizaje
Todos los grupos fueron sometidos a varios ensayos de entrenamiento escape / evitación
Resultado
El grupo
experimental
(descargas
inescapables en la
1era fase) mostraba
un aprendizaje
escape / evitación
mucho más lento
No había diferencias entre los grupos sometidos a descargas escapables y los que no recibieron descarga en la preexposición
Conclusiones
El entrenamiento previo con
descargas inescapables generaba la
expectativa de que la conducta no
tenía ningún efecto sobre las
consecuencias aversivas
experimentadas
Aprendían que la aparición de
las descargas era
independiente de su conducta
Esta explicación del fenómeno se conoce como
Hipótesis de la indefensión aprendida
Sugirió que
El mejor
tratamiento para
la indefensión es
Ubicar al sujeto en una
situación en la que no
fuese posible fallar
Ello generará de nuevo la
expectativa de que la conducta
toma control sobre las
consecuencias
La indefensión aprendida se puede,
de alguna manera, prevenir
Inmunización
Proceso que se desarrolla cuando un sujeto tiene una primera experiencia con descargas escapables
Que bloquea el desarrollo de la indefensión
aprendida cuando se presentan posteriormente
descargas inescapables