Condicionamiento Operante: Definición, Historia, Componentes Y Mas.

El condicionamiento operante (a veces referido como acondicionamiento instrumental) es un método de aprendizaje que ocurre a través de recompensas y castigos por comportamiento.

Por ejemplo, cuando una rata de laboratorio presiona un botón azul, recibe una bolita de comida como recompensa, pero cuando presiona el botón rojo recibe una leve descarga eléctrica, como resultado, aprende a presionar el botón azul pero evita el botón rojo.

Pero el condicionamiento operante no es solo algo que tiene lugar en entornos experimentales mientras se entrenan animales de laboratorio, también juega un papel importante en el aprendizaje diario, el refuerzo y el castigo tienen lugar casi todos los días en entornos naturales, así como en entornos más estructurados, como el aula o las sesiones de terapia.

¿Que es el condicionamiento operante?

condicionamiento operante

Se puede definir como un proceso que intenta modificar el comportamiento mediante el uso de refuerzo positivo y negativo. A través de ello, un individuo hace una asociación entre un comportamiento particular y una consecuencia.

Ejemplo 1: Padres que premian las calificaciones excelentes de un niño con dulces o algún otro premio.
Ejemplo 2: Un maestro de escuela otorga puntos a aquellos estudiantes que son más tranquilos y de buen comportamiento, los estudiantes finalmente se dan cuenta de que cuando voluntariamente se vuelven más silenciosos y se comportan mejor, ganan más puntos.
Ejemplo 3: Una forma de refuerzo (como comida) se le da a un animal cada vez que el animal (por ejemplo, un león hambriento) presiona una palanca.

Historia del condicionamiento operante

El condicionamiento operante fue acuñado por el conductista B.F. Skinner, que es la razón por la que de vez en cuando puedes escuchar que se lo conoce como condicionamiento skinneriano. Como conductista, creía que no era realmente necesario mirar los pensamientos y las motivaciones internas para explicar el comportamiento, en cambio sugirió, deberíamos mirar solo las causas externas y observables del comportamiento humano.

Durante la primera parte del siglo XX, el conductismo se convirtió en una fuerza importante dentro de la psicología, las ideas de John B. Watson dominaron esta escuela de pensamiento desde el principio, se centró en los principios del condicionamiento clásico, una vez famoso sugiriendo que podía tomar a cualquier persona independientemente de sus antecedentes y entrenarlos para que sea lo que él elija.

Cuando los primeros conductistas habían centrado sus intereses en el aprendizaje asociativo, Skinner estaba más interesado en cómo las consecuencias de las acciones de las personas influían en su comportamiento, usó el término operante para referirse a cualquier “comportamiento activo que opera sobre el medio ambiente para generar consecuencias”. En otras palabras, la teoría explica cómo adquirimos el rango de conductas aprendidas que exhibimos todos los días.

Su teoría fue fuertemente influenciada por el trabajo del psicólogo Edward Thorndike, que había propuesto lo que llamó la ley del efecto, de acuerdo con este principio, es más probable que se repitan las acciones que siguen los resultados deseables, mientras que las medidas seguidas por resultados indeseables tienen menos probabilidades de repetirse.

El condicionamiento operante se basa en una premisa bastante simple: las acciones que son seguidas por el refuerzo se fortalecerán y es más probable que vuelvan a ocurrir en el futuro. Si cuenta una historia divertida en clase y todo el mundo se ríe, probablemente sea más probable que vuelva a contar esa historia en el futuro, si levanta la mano para hacer una pregunta y su profesor alaba su comportamiento educado, será más probable que levante la mano la próxima vez que tenga una pregunta o comentario.

Debido a que el comportamiento fue seguido por un refuerzo o un resultado deseable, las acciones anteriores se fortalecen. Por el contrario, las acciones que resultan en castigo o consecuencias indeseables se debilitarán y es menos probable que vuelvan a ocurrir en el futuro, si vuelves a contar la misma historia en otra clase, pero esta vez nadie se ríe, es menos probable que vuelvas a repetir la historia en el futuro, si gritas una respuesta en clase y tu profesor te regaña, es menos probable que vuelvas a interrumpir la clase.

Componentes del condicionamiento operante

componentes del condicionamiento operante

Hay varios conceptos clave en el condicionamiento operante.

Refuerzo

El refuerzo es cualquier evento que fortalece o aumenta el comportamiento que sigue. Es el primer paso fundamental para el aprendizaje de condicionamiento operante, ya que actúan como estímulos para aumentar la tasa o probabilidad de las respuestas que siguen, después de numerosos experimentos realizados por varios psicólogos y conductistas a lo largo de la historia, ha sido evidente que las respuestas reforzadas aumentan en la tasa mientras que las respuestas no reforzadas disminuyen en la tasa. Hay dos tipos de reforzadores:

Refuerzo positivo

Es la provisión de una recompensa u otro beneficio después de una acción deseable, esto alienta a una persona o animal a repetir un comportamiento particular en el futuro, con la esperanza de que el refuerzo se repita.

Algunos ejemplos de refuerzos positivos incluyen:

  • Un dentista le da a un niño una calcomanía después de que permanece tranquilo durante un chequeo dental, se alentará al niño a comportarse bien en la práctica del dentista en el futuro, esperando que reciba más pegatinas.
  • Recompensar a un perro con un tratamiento después de que haya completado con éxito una maniobra de entrenamiento cuando ensaye para una exposición canina.
  • En algunos tribunales de alimentos, los contenedores de basura operados electrónicamente contienen un sensor y un parlante, cuando el contenedor detecta que una persona vacia residuos en el receptáculo, el altavoz emite una voz grabada que agradece al usuario por usar el contenedor, en lugar de elegir dejar su basura. Esta apreciación puede llevar al usuario a buscar la gratificación de nuevo mediante el uso de la papelera en el futuro.

Refuerzo negativo

Es la eliminación de un estímulo indeseable o incómodo de una situación, tales refuerzos pueden implicar el cese del castigo cuando el comportamiento de una persona se ajusta a una demanda. Para evitar futuros castigos, un individuo puede cambiar su comportamiento. Por ejemplo:

  • A una niña que pelea regularmente con su hermana, sus padres le dicen que la castigarán los días en que se porte mal. En los días cuando la niña cambia su comportamiento, el castigo se levanta, y ella aprende un acto más amistoso hacia su hermana.
  • Una persona que sube a un baño caliente se quema y sale rápidamente del agua. Posteriormente, aprenden a esperar a que el baño se enfríe antes de ingresar al agua para evitar quemarse nuevamente.
  • Un hombre asiste a un concierto de música, la banda es incómodamente ruidosa y él sale de la sala de conciertos para encontrar un ambiente más tranquilo. En el futuro, rechaza las invitaciones para ver bandas para evitar la música fuerte, que funcionaba como un refuerzo negativo.

Castigo

El castigo es completamente opuesto al refuerzo, en contraste con el concepto anterior, el castigo se refiere al fenómeno en el que se presenta un estímulo al organismo después de que se haya respondido a un cierto comportamiento, disminuye la tasa de repetición del mismo comportamiento.

Castigo positivo

Es un estímulo impuesto a una persona cuando se comporta de una manera particular. Con el tiempo, la persona aprende a evitar el castigo positivo al alterar su comportamiento. Ejemplos:

  • Un niño es enviado a su habitación cuando es descortés con su madre, él quiere jugar con sus juguetes y comienza a ser más educado con sus padres.
  • Un proveedor de servicios de Internet limita el uso de los usuarios a una cantidad determinada de datos, después de lo cual la velocidad de Internet del usuario se reduce drásticamente durante el resto del mes, los usuarios aprenden a evitar velocidades lentas de descarga al usar menos de su asignación de datos.
  • Un convicto incumple las reglas de una prisión, él se coloca en confinamiento solitario como una forma de castigo positivo, y finalmente elige seguir las reglas para evitar un mayor aislamiento.

Castigo negativo

Es la eliminación de un beneficio o privilegio en respuesta a un comportamiento indeseable, una persona quiere retener los beneficios de los que disfrutaba anteriormente, y evita el comportamiento que puede conducir a la revocación de sus derechos. Ejemplos:

  • A un niño se le impide asistir a un partido de fútbol después de no poder limpiar su habitación, la amenaza de nuevos castigos los lleva a completar sus tareas asignadas.
  • El dueño de un perro le grita a su mascota después de que huye en un parque. El perro, que quiere evitar ser gritado, aprende a permanecer cerca de su dueño mientras está en el parque.
  • Un hombre se esfuerza los ojos después de leer sin sus gafas, aunque no le gusta usar gafas, las usa para evitar forzar la vista.

Programas de refuerzo

El refuerzo no es necesariamente un proceso directo y hay una serie de factores que pueden influir en la rapidez y la capacidad de aprender cosas nuevas. Skinner descubrió que cuando y con qué frecuencia se reforzaban los comportamientos desempeñaba un papel en la velocidad y la fuerza de la adquisición. En otras palabras, el momento y la frecuencia del refuerzo influyeron en cómo se aprendieron nuevos comportamientos y cómo se modificaron los comportamientos antiguos.

Skinner identificó varios programas diferentes de refuerzo que afectan el proceso de acondicionamiento operante:

  • El refuerzo continuo implica la entrega de un refuerzo cada vez que ocurre una respuesta, el aprendizaje tiende a ocurrir con relativa rapidez, sin embargo, la tasa de respuesta es bastante baja. La extinción también ocurre muy rápidamente una vez que se detiene el refuerzo.
  • Los programas de relación fija son un tipo de refuerzo parcial, las respuestas se refuerzan solo después de que se haya producido un número específico de respuestas. Esto generalmente conduce a una tasa de respuesta bastante estable.
  • Los programas de intervalo fijo son otra forma de refuerzo parcial, el refuerzo ocurre solo después de que ha transcurrido un cierto intervalo de tiempo. Las tasas de respuesta permanecen bastante estables y comienzan a aumentar a medida que el tiempo de refuerzo se acerca, pero se desaceleran inmediatamente después de que se ha entregado el refuerzo.
  • Los programas de relación variable también son un tipo de refuerzo parcial que implican un comportamiento reforzado después de un número variado de respuestas, esto conduce a una tasa de respuesta alta y tasas de extinción lentas.
  • Los programas de intervalos variables son la forma final de refuerzo parcial descrito por Skinner, este cronograma implica entregar refuerzo después de que ha transcurrido un tiempo variable. Esto también tiende a conducir a una tasa de respuesta rápida y una tasa de extinción lenta.

Factores que alteran la efectividad del refuerzo y el castigo

La efectividad del refuerzo y el castigo se puede cambiar de varias maneras.

Saciedad / Privación

La efectividad de un estímulo positivo o “apetitivo” se reducirá si el individuo ha recibido suficiente de ese estímulo para satisfacer su apetito, el efecto opuesto ocurrirá si el individuo se ve privado de ese estímulo: la eficacia de una consecuencia aumentará. Si alguien no tiene hambre, la comida no será un reforzador eficaz del comportamiento.

Inmediatez

Una consecuencia inmediata es más efectiva que una consecuencia retrasada. Si se le da a un perro un regalo por “sentarse” de inmediato, el perro aprenderá más rápido que si el tratamiento se administra más tarde.

Contingencia

Para ser más efectivo, el refuerzo debe ocurrir consistentemente después de las respuestas y no en otros momentos, el aprendizaje puede ser más lento si el refuerzo es intermitente, es decir, si se siguen solo algunos casos de la misma respuesta, pero las respuestas reforzadas intermitentemente son mucho más lentas para extinguir que las respuestas que siempre se han reforzado.

Tamaño

El tamaño o la cantidad de un estímulo a menudo afecta su potencia como reforzador, los seres humanos y los animales participan en una especie de análisis de “costo-beneficio”. Una pequeña cantidad de comida puede no “valer” una presión de palanca para una rata.

La mayoría de estos factores cumplen funciones biológicas. Por ejemplo, el proceso de saciedad ayuda al organismo a mantener un ambiente interno estable (homeostasis), cuando un organismo ha sido privado de azúcar, por ejemplo, el sabor del azúcar es un reforzador altamente efectivo. Sin embargo, cuando el nivel de azúcar en la sangre del organismo alcanza o excede un nivel óptimo, el sabor del azúcar se vuelve menos efectivo, quizás incluso aversivo.

La ley del efecto

Thorndike se dio cuenta no solo de que los estímulos y las respuestas estaban asociados, sino también que el comportamiento podía modificarse por las consecuencias, utilizó estos hallazgos para publicar su ahora famosa teoría de la “ley del efecto”, la cual es más probable que se repitan las conductas seguidas de las consecuencias satisfactorias para el organismo, y es menos probable que se repitan las conductas seguidas de consecuencias desagradables.

Esencialmente, si un organismo hace algo que produce un resultado deseado, es más probable que el organismo lo repita, si un organismo hace algo que no produce el resultado deseado, es menos probable que el organismo lo vuelva a hacer.

De acuerdo con esta ley, los comportamientos se modifican por sus consecuencias, y esta relación básica estímulo-respuesta puede ser aprendida por la persona o el animal operante, una vez que se establece la asociación entre el comportamiento y las consecuencias, se refuerza la respuesta y la asociación es la única responsable de la ocurrencia de ese comportamiento. Thorndike postuló que el aprendizaje era simplemente un cambio en el comportamiento como resultado de una consecuencia, y que si una acción traía una recompensa, se estampaba en la mente y estaba disponible para recordarlo más tarde.

Desde una edad temprana, aprendemos qué acciones son beneficiosas y cuáles son perjudiciales a través de un proceso de prueba y error. Por ejemplo, un niño pequeño juega con su amigo en el patio y juguetonamente empuja a su amigo fuera del columpio, quien cae al suelo y comienza a llorar, y luego se niega a jugar con el por el resto del día. Las acciones del niño (empujar a su amiga) son informadas por sus consecuencias (su amiga se niega a jugar con ella) y aprende a no repetir esa acción si quiere seguir jugando con su amigo.

Si bien esta teoría no explica la totalidad del comportamiento humano, se ha aplicado a casi todos los sectores de la vida humana, pero particularmente a la educación y la psicología.

Diferencias entre el condicionamiento clásico y el operante

Una de las formas más simples de recordar las diferencias entre el condicionamiento clásico y el operante es centrarse en si el comportamiento es involuntario o voluntario.

El condicionamiento clásico implica asociar una respuesta involuntaria y un estímulo, mientras que el condicionamiento operante se trata de asociar un comportamiento voluntario y una consecuencia

En el condicionamiento operante, el alumno también se ve recompensado con incentivos, mientras que el condicionamiento clásico no implica tales incentivos. Además, recuerde que el clásico es pasivo por parte del alumno, mientras que el operante requiere que el alumno participe activamente y realice algún tipo de acción para ser recompensado o castigado.

Para que el condicionamiento operante funcione, el sujeto primero debe mostrar un comportamiento que luego puede ser recompensado o castigado. El condicionamiento clásico, por otro lado, implica formar una asociación con algún tipo de evento que ya ocurre naturalmente.

Deja un comentario