Condicionamiento y evolución: una aproximación computacional

June 7, 2017 | Autor: José E Burgos | Categoría: Evolution, Artificial Neural Networks, Pavlovian conditioning, Operant Conditioning
Share Embed


Descripción

Germán Gutiérrez · Mauricio R. Papini editores

DEPARTAMENTO DE PSICOLOGÍA

Bogotá D. C. 2 0 11

catalogación en la publicación universidad nacional de colombia Darwin y las ciencias del comportamiento. Editores: Germán Gutiérrez y Mauricio R. Papini. – Bogotá: Universidad Nacional de Colombia. Facultad de Ciencias Humanas, Departamento de Psicología. Colegio Colombiano de Psicólogos. 2011, 562 pp. Incluye referencias bibliográficas ISBN : 978-958-719-702-0 1. Darwin, Charles Robert, 1809-1882 - Crítica e interpretación 2. Psicología evolutiva 3. Psicología comparada 4. Evolución 5. Conducta animal I. Gutiérrez Domínguez, Germán Antonio, 1965-, ed. II. Papini, Mauricio R., ed. CDD-21 155.7 / 2010

Universidad Nacional de Colombia Facultad de Ciencias Humanas Departamento de Psicología Colegio Colombiano de Psicólogos © 2011, editores Germán Gutiérrez Mauricio R. Papini © 2011, varios autores © 2011, Universidad Nacional de Colombia Bogotá D. C. © 2011, Colegio Colombiano de Psicólogos Preparación editorial

Centro Editorial, Facultad de Ciencias Humanas Universidad Nacional de Colombia, sede Bogotá Diseño ∙ Diana Murcia Diagramación ∙ Endir Roa Basto Imagen de cubierta ∙ Darwin fotografiado en 1881 por los señores Elliott y Frye. Las imágenes que acompañan esta obra fueron tomadas en su mayoría del libro What Mr. Darwin Saw in his Voyage Round the World in the Ship "Beagle", editado por Harper & Brother, publishers (Nueva York, 1880).

Impreso por Javegraf Impreso en Colombia Prohibida la reproducción total o parcial por cualquier medio, sin la autorización escrita del titular de los derechos patrimoniales.

Contenido

Introducción .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

13

Primera parte

contexto biográfico germán gutiérrez · aristóbulo pérez · alejandro segura Charles Darwin: el naturalista que cambió la historia de la vida . . . . . . . . . . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

19

michael ruse Naturaleza y estructura del argumento en El origen de las especies . . . . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

43

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

61

.

.

.

.

.

.

.

.

.

.

.

.

73

Continuidad (y discontinuidad) mental (y neural)

.

.

.

.

.

.

.

.

.

.

99

.

.

.

.

.

.

.

.

.

.

115

.

.

.

.

.

.

.

137

rubén ardila Darwin, El origen de las especies y la psicología, 150 años después

.

.

.

miguel andrés puentes · germán gutiérrez Darwin, Wallace y las facultades mentales humanas . . . . . . . .

.

.

.

.

.

.

.

Segunda parte

legado teórico y áreas de influencia mauricio r. papini

r. nicolle matthews · michael domjan Selección sexual: competencia de esperma, sistemas de apareamiento y aprendizaje . .

.

.

.

claudio erik de la o-rodríguez · bibiana montoya Biología del comportamiento animal: la etología como un puente en el estudio del comportamiento .

brenton g. cooper De Darwin a la neuroetología: el papel de la selección sexual en la evolución de la complejidad acústica del canto de las aves . . . . . . . . . . . . . . .

.

.

.

.

.

159

olga restrepo-forero Estudios darwinistas: estados del arte y construcción del campo . . . . . . .

.

.

.

.

.

.

.

.

.

185

Desigualdad, felicidad y la economía evolucionista

.

.

.

.

.

.

.

.

219

Pensar la evolución: desafíos cognitivos en el aprendizaje y la enseñanza de conceptos biológicos. . . . . . . . . . .

.

.

.

.

245

.

.

.

.

.

.

iván d. hernández u.

jorge larreamendy-joerns · mario córdoba

Tercera parte

conducta, desarrollo y sistema nervioso john c. malone · james r. cerri · john e. r. staddon Darwin y la psicología

.

.

.

.

.

.

.

.

.

273

Evolución del aprendizaje: avances y controversias

.

.

.

.

.

.

.

.

313

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

esteban freidin · alba elizabeth mustaca

josé e. burgos · beatriz h. robayo Condicionamiento y evolución: una aproximación computacional

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

337

Evolución, desarrollo y comportamiento

.

.

.

.

.

.

.

.

.

.

.

.

.

.

363

.

.

.

.

.

.

.

.

.

.

.

.

.

.

393

.

.

.

.

.

415

.

.

.

leonardo a. ortega

sonia carrillo Lecciones de amor parental: una perspectiva evolucionista

.

.

.

.

.

.

laura andrea león anhuamán · fernando cárdenas p. Encefalización y procesos humanos .

.

.

.

.

.

.

.

.

.

.

.

Cuarta parte

cognición, lenguaje y cultura gema martín-ordás · josep call Luces y sombras en el pensamiento de Darwin en relación con la evolución cognitiva de las especies . . . . . . . . .

.

.

.

.

431

irene m. pepperberg La evolución del lenguaje desde una perspectiva aviar

.

.

.

.

.

.

451

.

.

.

.

.

.

475

Selección natural, el comportamiento social y la cultura

.

.

.

.

.

491

alejandro rosas El proyecto de explicación darwinista del comportamiento moral . . . . . . .

.

.

.

.

.

.

.

.

.

pablo páramo diana armida platas neri · bibiana montoya · jairo muñoz-delgado Consideraciones acerca de la evolución de la cultura en primates . . . . . . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

505

Los autores

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

523

Índice de nombres.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

539

Índice de materias .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

543

Índice de lugares

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

559

.

.

.

.

Condicionamiento y evolución: una aproximación computacional José E. Burgos · Beatriz H. Robayo CEIC, Universidad de Guadalajara, México

L

a relación entre aprendizaje y evolución por selección natural con herencia genética (evolución, de ahora en adelante) ha sido objeto de numerosas discusiones en biología y psicología (v. gr., Baldwin, 1896; Bitterman, 1965; Bolles, 1970; Bolles & Beecher, 1988; Domjan, 2005; Hollis, 1997; Moore, 2003; Morgan, 1894; Plotkin, 1988; Romanes, 1884; Rozin & Kalat, 1971; Skinner, 1966, 1981, 1984; Tierney, 1986; Weber & Depew, 2003; Weisman & Dodd, 1980). Tales discusiones han girado en torno al supuesto de que el aprendizaje puede ser adaptativo, es decir, aumentar el éxito reproductivo del individuo que aprende y, en esa medida, afectar la evolución. El presente artículo reexamina una aproximación a este supuesto originalmente propuesta por Burgos (1997). La aproximación se ubica en el ámbito de la llamada neuroetología computacional. Según Cliff (2003), la neuroetología computacional es «el intento de analizar los principios computacionales subyacentes a la generación de conducta en animales y en agentes autónomos artificiales», estos últimos definidos como entidades «simuladas… que operan en mundos virtuales» (p. 737). Se trata, 337

· burgos y robayo ·

pues, de un ámbito fuertemente interdisciplinario, donde se busca sintetizar conocimiento de la neurociencia y la etología. Tal síntesis involucra el uso de modelos matemáticos para realizar simulaciones digitales de las relaciones entre la estructura y funcionamiento del sistema nervioso, así como su papel en la conducta adaptativa y la evolución. La simulación digital es una herramienta de investigación común en ciencia moderna (Casti, 1997). Esta herramienta resulta indispensable en neuroetología computacional (de allí el término computacional) por al menos tres razones. Primero, las simulaciones digitales son substitutos convenientes de experimentos que serían prácticamente imposibles de realizar con sistemas biológicos naturales, debido a su gran complejidad (Taylor & Jefferson, 1994). Segundo, permiten estudiar fenómenos posibles, como medio para entender mejor fenómenos actuales (Dawkins, 1982; Emmeche, 1991). Tercero, permiten caracterizar la dinámica de modelos analíticamente poco tratables que nacen de un intento por describir y explicar sistemas complejos (Sober, 1992). La aproximación que describiremos en este artículo combina dos tipos de modelos matemáticos, a saber: un modelo de redes neurales y un algoritmo genético. Este tipo de combinación ya ha sido propuesto por otros (v. gr., Ackley & Littman, 1992; Hinton & Nowlan, 1987; Keesing & Stork, 1991; Mühlenbein & Kindermann, 1989; Nolfi, Elman & Parisi, 1990), lo que lo convierte en una forma estándar de investigación en neuroetología computacional. La contribución principal de la presente aproximación reside en su énfasis sobre el condicionamiento como una posible fuerza guiadora de la evolución. Este énfasis tiene ramificaciones que exploraremos a lo largo del artículo. La primera sección describe los aspectos básicos del modelo de redes neurales. La segunda trata sobre el algoritmo genético e incluye una simulación simple. Concluiremos con comentarios sobre algunas de las limitaciones de la aproximación, así como posibles implicaciones y futuras direcciones.

El modelo de redes neurales y la distinción operante-respondiente Los fundamentos neurocientíficos del modelo de redes neurales, así como las ecuaciones y fenómenos conductuales que ha logrado simular, han sido descritos en detalle con anterioridad, razón por la que no serán desarrollados en este contexto (v. gr., Burgos, 2003, 2005, 2007; Burgos & Donahoe, 2000; Burgos, Flores, García, Díaz & Cruz, 338

· Condicionamiento y evolución...

2008; Burgos & Murillo-Rodríguez, 2007; Donahoe & Burgos, 2000; Donahoe, Burgos & Palmer, 1993; Donahoe & Palmer, 1994; Donahoe, Palmer & Burgos, 1997a, 1997b). Esta sección se limitará a describir sus aspectos más básicos, para aclarar su papel en el marco de la presente aproximación. El modelo fue concebido como una explicación neural unificada de fenómenos básicos de condicionamiento operante y respondiente, que parte de algunos hallazgos sobre los correlatos neurobiológicos (tanto neuroanatómicos como neurofisiológicos) de ambos tipos de condicionamiento. Antes de aclarar en qué sentido el modelo permite tal explicación, es preciso elaborar la suposición de que el condicionamiento puede ser adaptativo y, en esa medida, afectar la evolución. Si el condicionamiento es un tipo de aprendizaje, tal suposición no es más que un corolario de la antedicha conjetura general de que el aprendizaje puede ser adaptativo. En el caso del condicionamiento, esta conjetura se elabora de la siguiente forma. Aprender a responder de manera condicionada a ciertas contingencias de reforzamiento puede incrementar el éxito reproductivo. Así, las estructuras anatómicas que posibiliten el condicionamiento se repetirán (con modificaciones) en los descendientes de los individuos que se condicionan, gracias a que tales estructuras dependen de la síntesis de proteínas y, por tanto, del genotipo. Los individuos que no se condicionan tendrán un menor éxito reproductivo y, en consecuencia, sus estructuras se repetirán con menor frecuencia, en la medida en que hayan interferido con el condicionamiento. Ello resultará en una población de individuos cuya mayoría se condiciona, quizás mejor que sus progenitores, en virtud de poseer ciertas estructuras anatómicas. Los individuos, a su vez, tendrán un mayor éxito reproductivo en la medida en que su medio ambiente sea suficientemente semejante al de sus progenitores, y así sucesivamente. A primera vista, esta conjetura parece plausible. Sin embargo, conlleva un problema aún no resuelto en teoría del condicionamiento, a saber: la distinción operante-respondiente. Se trata del problema de en qué se diferencian y cómo se relacionan el condicionamiento operante y el condicionamiento respondiente. El problema ha sido discutido desde los inicios de la investigación en condicionamiento operante (Konorski & Miller, 1937a, 1937b; Skinner, 1935, 1937), manteniéndose por más de medio siglo (v. gr., Bolles, 1972; Bindra, 1972; Henton & Iversen 1978; Hearst, 1975; Hineline, 1986; Pear & Eldridge, 1984; Rehfeldt & Hayes, 1998; Rescorla & Solomon, 1967). No obstante, ninguno de estos escritos investiga las implicaciones del problema para las relaciones entre

339

· burgos y robayo · 340

condicionamiento y evolución, así como tampoco otras discusiones sobre estas relaciones lo han tomado en cuenta. Tales relaciones, entonces, sufren de un vacío teórico que no permite responder interrogantes planteados por la conjetura. En particular, cabe preguntar cuáles son las contribuciones relativas del condicionamiento operante y respondiente a la conducta adaptativa. ¿Contribuyen por igual o de manera diferencial? ¿Lo hacen de manera independiente o conjunta? Si lo hacen de manera conjunta, ¿cómo interactúan? ¿Es la evolución de un tipo de condicionamiento necesaria y/o suficiente para la evolución del otro tipo? Estas y otras preguntas no pueden ser cabalmente respondidas en ausencia de una solución al problema de los dos tipos de condicionamiento. Intentos de solución, por supuesto, no han faltado. Sin embargo, sus categorías básicas de análisis (a saber, expectativas, asociaciones, representaciones, estímulos, respuestas) han sido diseñadas para evitar toda consideración anatómica o fisiológica. De hecho, casi todas esas categorías (excepto las relativas a reflejos incondicionados) se refieren a rasgos adquiridos (ya sean conductuales, como reflejos condicionados; o mentales, como asociaciones, representaciones y expectativas). A menos que supongamos que tales rasgos son heredados genéticamente, suposición rechazada por la biología contemporánea, no es posible relacionarlos de manera inteligible con la herencia genética, es decir, la gran distancia entre esos rasgos y el genotipo impide una relación explícita con la herencia genética, relación que es crucial en la teoría de la evolución. El presente modelo, por el contrario, fue construido tomando en cuenta ciertos aspectos anatómicos y fisiológicos, relativos a algunos de los correlatos neurobiológicos del condicionamiento (v. gr., el papel de sistemas dopaminérgicos e hipocampales). Tales aspectos constituyen un nivel intermedio de análisis entre aquellos rasgos y el genotipo. De este modo, la solución del modelo al problema de la distinción operanterespondiente permite una relación un tanto más explícita con la herencia genética y, en esta medida, con la teoría de la evolución. El modelo consiste en dos submodelos: neurocomputacional y reticular (o de redes propiamente dicho). El submodelo neurocomputacional es la parte estrictamente matemática, y es una interpretación neural de los niveles celular, sináptico y microanatómico de organización de sistemas nerviosos. El submodelo reticular es una clasificación de los tipos de unidades que pueden constituir una red y algunas pautas generales sobre cómo conectarlas. Este submodelo es una interpretación neural del nivel de organización neuroanatómico grueso.

Conexión de entrada excitadora Excitadoras Entradas Inhibitorias

j

· Condicionamiento y evolución...

Submodelo neurocomputacional Al igual que la gran mayoría de los modelos de redes neurales, el submodelo neurocomputacional consta de dos funciones o reglas: una regla de activación y una regla de aprendizaje. Estas reglas describen el funcionamiento de una unidad procesadora neural, la unidad básica de análisis funcional y estructural de una red neural. La figura 1 muestra una unidad genérica, denotada como j. La unidad se puede interpretar neurobiológicamente como una población relativamente pequeña de neuronas.

exc j,t Regla de activación

a j,t

inhj,t Conexión de entrada inhibitoria

figura 1. Representación genérica de la unidad neural de procesamiento, que constituye la unidad estructural y funcional básica de una red neural en este modelo. La unidad, denotada como j, recibe señales de entrada de otras unidades que pueden ser excitadoras o inhibitorias. Las señales excitadoras e inhibitorias son procesadas por separado. Este procesamiento resulta en una cantidad de excitación (excj,t) y una cantidad de inhibición (inhj,t) de j en un momento t. Estas cantidades son entonces utilizadas por la regla de activación para determinar el estado de activación de j en t (aj,t). Las señales de entrada afectan a aj,t mediante conexiones cuya fuerza se representa numéricamente por un peso que cambia en el tiempo según la regla de aprendizaje.

La unidad recibe señales de entrada (de otras unidades de la red), las procesa de acuerdo con la regla de activación, y retorna una señal de salida (aj,t) que representa el nivel de activación de j en un momento temporal t (una unidad discreta de duración indefinida). Las señales de entrada determinan aj,t mediante conexiones que pueden interpretarse como sinapsis, cuya fuerza se indica numéricamente mediante pesos y cuya dinámica depende de la regla de aprendizaje. En este tipo de modelo, entonces, el aprendizaje se define como cambio de pesos en el tiempo, de acuerdo con una regla de aprendizaje. 341

· burgos y robayo ·

La unidad procesa entradas excitadoras (exc) e inhibitorias (inh) de manera separada, semejante a otro modelo (Fukushima, 1975). Prácticamente toda la investigación realizada con el presente modelo ha usado redes constituidas solo por unidades excitadoras, razón por la que el papel de unidades inhibitorias en la simulación de fenómenos de condicionamiento con este modelo permanece ampliamente inexplorado. Al respecto, bastará con decir que la distinción entre excitación e inhibición en este modelo no adquiere la forma usual de una distinción entre valores positivos y negativos, respectivamente. Todas las activaciones y pesos en este modelo son números reales entre 0 y 1, lo que permite interpretaciones neurobiológicas en términos de probabilidades o proporciones (v. gr., una activación se puede interpretar como la proporción de neuronas de una población que disparan un potencial de acción; y un peso, como la proporción de receptores pos-sinápticos controlados por un proceso presináptico). Para nuestros propósitos presentes, una característica crucial de ambas reglas es que ninguna de sus categorías básicas de análisis (i. e., unidad, activación, conexión y peso) corresponde a aquellas que típicamente se usan para describir y explicar fenómenos de condicionamiento (i. e., estímulo, respuesta, asociación, representación, etc.). En consecuencia, el submodelo neurocomputacional no hace distinción teórica alguna entre condicionamiento operante y respondiente. En particular, la regla de aprendizaje es la misma para los pesos de todas las conexiones, independientemente de cualquier distinción que se haga entre condicionamiento operante y condicionamiento respondiente. La regla postula un solo tipo de aprendizaje que no es ni operante ni respondiente, por lo que el modelo tampoco reduce un tipo de aprendizaje al otro. Si el lector necesita un nombre para el tipo de aprendizaje que la regla postula, podríamos llamarlo no supervisado o por reforzamiento, aunque la presente regla difiere en varios aspectos importantes de aquellas así nombradas (v. gr., Sutton, 1991).

Dimensiones conductuales de la distinción operante-respondiente Lo anterior significa que el modelo no hace la distinción operanterespondiente al nivel del submodelo neurocomputacional, y no que el modelo no haga distinción teórica alguna. La distinción posee dimensiones conductuales que resultan legítimas en virtud de su carácter observacional y operacional. Por tanto, deberían ser respetadas por cualquier solución al problema de los dos tipos de condicionamiento. 342

· Condicionamiento y evolución...

Tales dimensiones comprenden al menos dos distinciones que giran en torno a la forma de ocurrencia de estímulos biológicamente significativos (E*), tales como comida, agua y choques eléctricos, y sus efectos inmediatos sobre la respuesta que se desea condicionar (los choques eléctricos y otros estímulos que funcionan como aversivos plantean problemas especiales que dejaremos de lado; bastará con decir, al respecto, que el presente modelo no hace una distinción fundamental entre estímulos apetitivos y estímulos aversivos, aunque queda por aclarar si el modelo puede simular fenómenos como el castigo y la evitación). Respecto a la forma de ocurrencia, resulta común distinguir entre dos tipos básicos de contingencia de reforzamiento. En una contingencia respondiente, a E* se le denomina estímulo incondicionado (EI), y su ocurrencia depende, no de la respuesta que se desea condicionar, sino de un estímulo sensorial exteroceptivo, usualmente llamado estímulo condicionado (EC), por ejemplo, una luz, un tono o un ruido. En una contingencia operante, por el contrario, a E* se le denomina reforzador primario (o recompensa) y su ocurrencia depende de la respuesta que se desea condicionar. Respecto a los efectos inmediatos de E*, resulta común distinguir entre provocación y emisión. La provocación, comúnmente conocida como reflejo incondicionado, se considera típica del condicionamiento respondiente. Esta consiste en la ocurrencia relativamente constante de la respuesta que se desea condicionar (R*), previamente al condicionamiento y en presencia de E*. La emisión, por su parte, se considera como típica del condicionamiento operante, y consiste en la ocurrencia ocasional de la respuesta que se desea condicionar, previamente al condicionamiento e independientemente de E*. El modelo aquí descrito respeta estas distinciones y las hace corresponder con algunas de las categorías del modelo. Estas, sin embargo, se restringen al submodelo reticular. Así, el modelo identifica dos niveles de análisis teórico: el neurocomputacional —ya descrito— y el nivel de la red o sistema neural —que describimos a continuación en términos del submodelo reticular—. Tal identificación difiere de las teorías usuales del aprendizaje, que identifican un nivel único de análisis teórico, el nivel del «aprendizaje» o de «procesos» (sean mentales o conductuales).

El submodelo reticular El submodelo reticular especifica una clasificación de los tipos de unidades que pueden constituir una red neural y algunas pautas para conectarlas. Tal especificación constituye un nivel de análisis teórico más 343

Capa oculta

Capa de entrada

sa

· burgos y robayo ·

E

Capa de salida

ma

R R*

ca1 E*

vta Subred sensorial

Subred motora

Unidad de entrada (activada mediante un protocolo de entrenamiento).

Unidad oculta o de salida (activada mediante la regla de activación).

Conexión variable (fuerza representada por un peso que cambia según la regla de aprendizaje).

Conexión fija máximamente fuerte.

Activación de entrada (sensorial primaria).

Activación de salida (motora primaria).

Señal de discrepancia difusa (dt en la regla de aprendizaje).

Amplificación de la señal ca1 por la señal vta.

figura 2. Un ejemplo de red neural artificial descrita por el submodelo reticular. Las unidades se organizan en capa de entrada, capa oculta y capa de salida. Las unidades también pueden clasificarse en sensoriales y motoras. Las sensoriales son las unidades de entrada (E y E*), la unidad sensorial-asociativa (sa) y la unidad ca1. Las motoras son las unidades motor-asociativas (ma), vta y de salida (R y R*). Activaciones de E representan estímulos sensoriales exteroceptivos típicamente usados como EC en condicionamiento respondiente y como estímulos discriminativos en condicionamiento operante. Activaciones de E* representan estímulos biológicamente significativos típicamente usados como EI en condicionamiento respondiente y reforzadores primarios en condicionamiento operante. Las activaciones de salida representan las respuestas del sistema. Activaciones de R* por E* representan reflejos incondicionados. Activaciones de R* por E mediante sa y ma representan reflejos condicionados, que solo pueden ocurrir luego de exponer la red a un protocolo de entrenamiento que simule una contingencia de reforzamiento respondiente. R no puede ser activada por E*, lo que representa un aspecto de las respuestas emitidas. R solo puede ser activada por E mediante sa y ma. Ello puede ocurrir luego de un protocolo de entrenamiento del mismo tipo. 344

· Condicionamiento y evolución...

inclusivo, en el sentido de que una red neural consta de múltiples realizaciones conectadas del submodelo neurocomputacional. La figura 2 muestra un ejemplo. La red es mucho más pequeña que las usadas en investigaciones previas con este modelo, por lo que no puede simular algunos de los fenómenos de condicionamiento que han sido reportados en otra literatura sobre este modelo. Sin embargo, bastará para explicar los aspectos básicos del submodelo reticular. Todas las unidades de la red son excitadoras, y pueden ser clasificadas en capas de entrada, capas ocultas y capas de salida, donde las activaciones se propagan de las entradas a las salidas. Las unidades también pueden clasificarse en dos tipos: sensoriales y motoras. Las unidades sensoriales son las de entrada (E y E*), sensorial-asociativas (sa) y ca1 (Cornu Ammon 1, el área hipocampal). Las entradas representan poblaciones neuronales en corteza sensorial primaria. Las unidades motoras son las motor-asociativas (ma), vta (área ventro-tegmental, el núcleo dopaminérgico) y las salidas (R y R*). La forma de conectar las unidades (E-sa, sa-ca1, sa-ma, ma-vta, ma-R, ma-R*) es consistente con la forma general en que se conectan neuronas en muchos sistemas nerviosos. La diferencia entre las unidades sensoriales y motoras es la fuente de una señal que modula los cambios de los pesos de sus respectivas conexiones, según la regla de aprendizaje. La señal que modula los cambios de pesos en las conexiones sensoriales (entrada-sa, sa-ca1) surge de ca1. La señal que modula los cambios de pesos en las conexiones motoras (sa-ma, ma-vta, ma-salida) surge de vta. Las unidades de entrada se dividen en E y E*. Sus activaciones dependen, no de la regla de activación, ya que no son unidades procesadoras propiamente dichas, sino de un protocolo de entrenamiento que simula un arreglo o procedimiento de contingencia, en el cual las activaciones de entrada son asignadas directamente por el simulador, en lugar de calcularse mediante la regla de activación. Activaciones de E simulan los efectos sensoriales primarios de estímulos exteroceptivos típicamente usados como EC en contingencias respondientes, y como estímulos discriminativos (o delta) en contingencias operantes (v. gr., luces, tonos, ruidos, etc.). Activaciones de E*, por su parte, simulan los efectos sensoriales primarios de estímulos típicamente usados como EI en contingencias respondientes, y reforzadores primarios en contingencias operantes (v. gr., comida, agua, choques eléctricos, etc.). Ocasionalmente nos referiremos a estas activaciones como «estímulos», pero solo como una abreviación conveniente, y no como una tesis sobre la naturaleza última de estos.

345

· burgos y robayo ·

Las activaciones de R y R* simulan las respuestas del sistema. Ocasionalmente nos referiremos a estas activaciones como respuestas, pero, de nuevo, solo como una abreviación conveniente, y no como una tesis sobre la naturaleza última de las respuestas. La diferencia entre R y R* es que R*, al igual que vta, también recibe una conexión directa, fija y máximamente fuerte de E*, así como una conexión variable inicialmente débil proveniente de ma. Por lo tanto, R*, como vta, se puede activar de dos maneras. Si la activación de E* en un momento t es mayor que 0, entonces la activación de R* será igual a la de E*. Esta forma de activar R* simula una respuesta incondicionada. Si no, R* será activada por ma mediante la regla de activación, lo cual simula una respuesta condicionada. A diferencia de R*, R recibe sólo una conexión variable inicialmente débil de ma. Por lo tanto, R puede ser activada solo por ma mediante la regla de activación.

Interpretación neural de dimensiones conductuales Las dos formas de activar R y R* en el modelo proveen la base para una interpretación neural de una de las dimensiones conductuales de la distinción operante-respondiente, a saber, la distinción entre provocación y emisión. La relación de provocación (reflejo incondicionado) se interpreta como la activación de R* por E*. La relación de emisión consta de al menos dos aspectos. Uno es la incapacidad del reforzador primario de provocar la respuesta que se desea condicionar, al menos de la misma manera en la que un EI provoca una respuesta incondicionada. El modelo interpreta tal incapacidad en términos de un nivel de activación cercano a cero en presencia de activaciones de E*, en una red neural no entrenada (i. e., con pesos iniciales cercanos a cero). El otro aspecto de la emisión es la ocurrencia inicial poco frecuente y aparentemente espontánea de instancias del tipo de respuesta que se desea condicionar mediante una contingencia operante, previa al condicionamiento. Este fenómeno no puede ser simulado por la red de la figura 2. La razón principal es que las técnicas que explotan el fenómeno para instaurar respuestas en condicionamiento operante son demasiado variables. En una técnica, por ejemplo, se espera que la respuesta deseada (v. gr., presión de palanca en ratas o picoteo de tecla en palomas) ocurra para instaurar la contingencia operante. Cuando esto no funciona, se acude al moldeamiento por aproximaciones sucesivas, que suele ocurrir de muchas formas diferentes. Si este procedimiento no resulta, se usan técnicas más desesperadas, como colocar piezas de comida cerca del sujeto. Estas técnicas son usualmente precedidas por un entrenamiento en el dispensador del reforzador primario, que también se puede realizar de muchas maneras 346

· Condicionamiento y evolución...

distintas. Todo esto dificulta una caracterización experimental cabal de la naturaleza y condiciones de ocurrencia del fenómeno, caracterización que es indispensable para una interpretación en términos del modelo. Sin embargo, hay una técnica más uniforme y, por tanto, controlable (aun cuando también está usualmente precedida por un entrenamiento en el dispensador): el automoldeamiento (Brown y Jenkins, 1968). El aspecto crucial de este fenómeno es la adquisición de respuestas bajo una contingencia respondiente sin ser provocadas por el reforzador primario. Este aspecto, esencial en el condicionamiento operante, es simulado por el presente modelo, así como también el automantenimiento positivo y negativo, al menos, en sus formas más elementales (Burgos, 2007). El modelo no simula la aparente espontaneidad de las respuestas operantes, ni su carácter esquelético, aunque sí su carácter dirigido. La otra dimensión conductual de la distinción-operante respondiente es el uso de dos tipos de contingencias de reforzamiento, dimensión que también puede ser interpretada neuralmente en términos del submodelo reticular. Una contingencia respondiente se interpreta como una activación de E* contingente a una activación de E. En una simulación típica, el protocolo de entrenamiento consta de varios ensayos en los que E se activa con el nivel máximo (1.0) por un número de momentos temporales (que simulan la duración de un EC), y E* se activa con el nivel máximo en el último momento de E. Este protocolo simula un procedimiento respondiente anterógrado demorado. Este procedimiento induce un aumento en los pesos de todas las conexiones variables. Ello, a su vez, permite que E active tanto R como R*, a través de sa y ma. Cuando la activación de R por E es suficientemente alta para satisfacer un criterio de respuesta (v. gr., una activación de 0.5 o más), el modelo puede simular una contingencia operante intermitente discriminativa, mediante un protocolo en el cual E* se activa en el último momento de E, solo si la activación de R cumple con dicho criterio. Este protocolo puede incrementar y mantener las activaciones de R y R* en niveles cercanos al máximo. Así, el modelo simula condicionamiento respondiente y un aspecto cercano al condicionamiento operante (el automoldeamiento), usando una misma regla de aprendizaje para ambos, pero respetando sus dimensiones conductuales al nivel de la red.

La solución del modelo al problema de la distinción operante-respondiente Según el modelo, entonces, la distinción operante-respondiente se refiere solo a dos tipos de relaciones estímulo-respuesta (interpretadas en 347

· burgos y robayo ·

el modelo como dos tipos de relaciones entrada-salida), dos tipos de contingencias de reforzamiento (interpretadas en el modelo como dos tipos de protocolos de entrenamiento de redes neurales) y dos tipos de efectos de esas contingencias (interpretadas en el modelo como incrementos en las activaciones de R y R*, resultantes de los distintos tipos de protocolo). Estas distinciones se hacen al nivel de la red neural. Al nivel neurocomputacional, el modelo no distingue entre dos tipos de aprendizaje. El condicionamiento operante, entonces, se interpreta en el modelo como un incremento en la activación R resultante de un protocolo de entrenamiento que simula una contingencia operante. El condicionamiento respondiente se interpreta como un incremento en la activación R* resultante de un protocolo de entrenamiento que simula una contingencia respondiente. El mismo tipo de aprendizaje subyace a ambos condicionamientos, y allí reside la relación teóricamente crucial que, según el modelo, se da entre ellos. Esta solución toma en cuenta aspectos anatómicos y fisiológicos mediadores del condicionamiento. Ello permite salvar un poco más la distancia entre fenotipo conductual adquirido y genotipo, en la medida en que tales aspectos son más cercanos a la síntesis de proteínas. Por supuesto, el modelo no incluye interpretación alguna de la síntesis de proteínas o su relación con esos aspectos. Por tanto, las interpretaciones neurales de esos aspectos en el modelo están aún muy lejos de salvar toda distancia entre fenotipos conductuales adquiridos y genotipos. Sin embargo, consideramos que llenan más vacíos que las categorías puramente mentales y conductuales que usualmente se encuentran en teoría del condicionamiento. Esto, como lo mostraremos en la siguiente sección, facilita una relación con la teoría de la evolución que resulta un tanto más inteligible y respeta el rechazo de la herencia genética de rasgos conductuales adquiridos.

El algoritmo genético En esta sección, describiremos un miembro de la familia de modelos denominada genéricamente algoritmos genéticos que, combinado con el modelo de redes neurales, hace posible la relación antedicha. Para ello, comenzaremos con una interpretación del fenotipo, seguida por el algoritmo genético propiamente dicho, constituido por interpretaciones del genotipo, desarrollo, selección y reproducción con herencia genética.

348

· Condicionamiento y evolución...

Interpretación del fenotipo En la presente aproximación, el fenotipo se interpreta como el conjunto de características estructurales y funcionales del sistema simulado, en este caso, una red neural artificial. Por ejemplo, la red que se muestra en la figura 2 consiste estructuralmente en unidades de distintos tipos conectadas de una cierta manera. Funcionalmente, consiste en las activaciones particulares de sus unidades, así como en los pesos particulares de sus conexiones en momentos temporales sucesivos. Esta temporalidad hace que las características funcionales sean dinámicas. Las formas mismas de determinación de activaciones y pesos, según las reglas de activación y aprendizaje del submodelo neurocomputacional, también son características fenotípicas funcionales. Este funcionamiento incluye lo que hemos definido en referencia a estos sistemas como aprendizaje (cambio de pesos) y conducta (relaciones entre activaciones de entrada y activaciones de salida). En particular, la conducta condicionada —interpretada como activaciones de R y R* por E, resultantes de la exposición a protocolos de entrenamiento que simulan contingencias de reforzamiento— es un rasgo fenotípico adquirido y, por tanto, no heredable genéticamente. Visión global del algoritmo genético Un algoritmo genético es un modelo matemático de evolución por selección con herencia genética (Holland, 1975). Hay varios tipos de algoritmos genéticos, dependiendo del proceso evolutivo que se desee simular, pero todos constan de tres componentes principales: (1) una estructura que representa un genotipo y codifica valores de variables que determinan rasgos fenotípicos, (2) una función de aptitud que simula la selección natural y (3) un esquema de generación de nuevos genotipos que simula la reproducción y herencia genética. El resto del artículo lo dedicaremos a resumir los distintos componentes. La figura 3 representa la forma básica del algoritmo genético como un ciclo de tres etapas. La primera etapa simula el desarrollo neural, definido como la conversión de una población de genotipos (representados por líneas horizontales) en una población de fenotipos estructurales (representados por redes neurales del tipo que ya hemos descrito). En este ciclo, la variación, materia prima de la selección natural, se interpreta en términos de diferencias individuales genotípicas (representadas por líneas de distintos patrones) y fenotípicas.

349

Genotipos

Fenotipos

· burgos y robayo ·

Desarrollo

Selección

Condicionamiento

Fenotipos

figura 3. El ciclo básico del algoritmo genético consta de tres etapas: desarrollo neural, condicionamiento y selección/reproducción. El desarrollo neural es la conversión de los genotipos en redes neurales (fenotipos estructurales), donde los genotipos se representan como cadenas de bits (los distintos patrones de las líneas representan diferencias entre los genotipos). Esta conversión se caracteriza matemáticamente como una transformación de sistema binario a sistema decimal. En el condicionamiento, las redes son expuestas a una contingencia de reforzamiento, lo que genera un conjunto de fenotipos conductuales (activaciones de salida en presencia de activaciones de entradas tipo E: la abscisa de los gráficos representa el número de ensayos de entrenamiento, y la ordenada el nivel de activación de salida en presencia de activaciones de entrada de tipo E). Estos fenotipos definen una regla de aptitud que se usa para seleccionar redes para su reproducción, según un esquema de torneo, lo que resulta en una nueva población de genotipos.

La segunda etapa es la del condicionamiento de las redes resultantes de la primera etapa, mediante una exposición relativamente prolongada a ciertas contingencias de reforzamiento, operantes o respondientes. El resultado de esta etapa es un conjunto de fenotipos funcionales estables o asintóticos, interpretados como las activaciones de salida de cada red individual durante la exposición a las contingencias. Estas relaciones son representadas en la figura como funciones cuya variable independiente es el tiempo de exposición a las contingencias (v. gr., número de ensayos) y cuya variable dependiente es la activación de salida en presencia de ciertas activaciones de entrada. La tercera etapa es la aplicación de una regla 350

· Condicionamiento y evolución...

de selección de individuos para su reproducción, lo cual resulta en una nueva población de genotipos. El ciclo se puede repetir cuantas veces se desee (v. gr., hasta obtener una población estable). Cada ciclo origina una población que, vista en el tiempo, representa una generación de individuos. La primera generación fundadora es la condición inicial y está constituida por genotipos aleatorios. Las etapas de desarrollo y condicionamiento corresponden a lo que en biología se denomina ontogenia, es decir, un conjunto de procesos que ocurren durante la vida de un organismo individual. La tercera etapa modela la transición fundamental de la ontogenia a la filogenia: el origen de nuevos individuos a partir de la reproducción diferencial y fenotipodependiente de otros individuos ya existentes. En ese sentido, se puede decir que los nuevos individuos «descienden» de sus progenitores. Descendientes y progenitores se asemejarán en algunos aspectos pero no en otros. Ello significa que los descendientes son versiones modificadas de sus progenitores. La filogenia, entonces, se interpreta en este algoritmo como una secuencia de generaciones que representa un linaje de individuos enlazados por una relación de «descendencia con modificación», para expresarlo en términos darwinianos. Pasemos ahora a elaborar algunos detalles de este esquema básico, empezando con el genotipo.

Interpretación del genotipo En la literatura sobre algoritmos genéticos se tiende a usar el término cromosoma para designar lo que aquí llamamos genotipo. Sin embargo, el término cromosoma es equívoco, ya que en biología molecular denota solo una parte del genotipo de un organismo, y lo que se busca denotar con el término en algoritmos genéticos es más bien la totalidad de la estructura codificadora de un individuo artificial. Esta totalidad corresponde más a la carga genética total de un individuo natural, que puede consistir en varios cromosomas. Por ello, preferimos el término genotipo. En un algoritmo genético, un genotipo se interpreta como una cadena de dígitos binarios o bits, donde una posición de un bit representa un locus y el valor particular del bit (0 o 1) representa un alelo. Un gen, entonces, se interpreta como un alelo particular en un locus particular. Cada bit, pues, representa un gen. Esta forma de representar genes es común en genética de poblaciones. El genotipo se divide en fragmentos (subconjuntos) de bits. Cada fragmento codifica en sistema binario un valor particular de una variable cuantitativa que puede ser entera o real, y determina, mediante un modelo de desarrollo (ver más adelante), un 351

· burgos y robayo · 352

cierto rasgo fenotípico. La parte matemática crucial aquí es la transformación de bits a números decimales, ya sean enteros o reales. En la presente aproximación, el genotipo codifica valores de variables numéricas enteras que determinan rasgos fenotípicos estructurales. A diferencia de la mayoría de los genotipos usados en modelos híbridos de redes neurales y algoritmos genéticos, el genotipo —en nuestra aproximación— no codifica rasgos fenotípicos estructurales específicos de una red neural, por cuanto ello se distanciaría demasiado de la tesis central de la biología que estamos intentando respetar. La razón se relaciona con el hecho de que el submodelo reticular es lo suficientemente abierto como para permitir un sinfín de redes que mantienen el mismo patrón básico de conectividad. La red de la figura 2, entonces, es solo un ejemplo entre muchos posibles. Una red podría tener dos o más unidades E conectadas a dos o más unidades sa, dos o más capas de unidades sa, y así sucesivamente. Asimismo, las unidades de una capa pueden estar conectadas solo a algunas unidades de la siguiente capa. De este modo, el submodelo simula diferencias individuales en fenotipos estructurales. Cabe también explicitar nuestra suposición de que las redes neurales usadas en esta aproximación simulan sistemas nerviosos maduros, es decir, productos finales de un proceso de desarrollo embrionario. Considérense ahora los rasgos fenotípicos estructurales de una red neural artificial, como los números de unidades de distintos tipos y el número de conexiones. La estrategia en la mayoría de los modelos híbridos de algoritmos genéticos y redes neurales es codificar directamente tales rasgos en el genotipo. Sin embargo, en organismos naturales maduros, tales rasgos (o al menos muchos de ellos, si no la mayoría) son adquiridos, porque son el resultado de un proceso de desarrollo embrionario que continúa luego del nacimiento. En la gran mayoría de las especies, por ejemplo, se siguen produciendo nuevas neuronas y sinapsis por un tiempo (en algunos casos, años) posterior al nacimiento. En este sentido, los rasgos son adquiridos. Por ende, codificarlos en el genotipo, tal y como lo hacen esos algoritmos, implica una herencia genética de caracteres adquiridos. Aunado a esto, está el hecho de que el cerebro de un organismo tiende a ser mucho mayor que la capacidad codificadora de su genotipo. Además, el número total de neuronas de un organismo también depende de la muerte neuronal, la cual transcurre durante toda la vida de un individuo y, en este sentido, es un rasgo igualmente adquirido (o, más bien, perdido). Por estas razones, la codificación genética directa de rasgos neuroanátomicos resulta muy poco plausible.

· Condicionamiento y evolución...

Con el objeto de evitar estos problemas y ser más coherentes con un rechazo de la herencia genética de caracteres adquiridos, el genotipo, en nuestra aproximación, solo codifica valores de variables globales que, si bien determinan rasgos estructurales particulares, lo hacen de manera muy indirecta. Por ejemplo, se codifica el número máximo posible de unidades de cierto tipo en lugar del número final, la probabilidad de que una unidad sea excitadora o inhibidora, la probabilidad de que dos unidades de cierto tipo se conecten en lugar de conexiones particulares, y así sucesivamente. La gran mayoría de los parámetros que se codifican en el genotipo, de hecho, son probabilidades. Esto hace que la determinación del fenotipo estructural (la arquitectura de las redes neurales resultantes) sea estocástica.

El modelo de desarrollo neural La red que se muestra en la figura 2, así como muchas otras usadas en investigación previa con el modelo, fue creada (literalmente) por los autores. Ello no deja de ser una abstracción con un fuerte sabor creacionista que disminuye significativamente la plausibilidad de la aproximación. Para aumentar su plausibilidad, la aproximación incluye un modelo de desarrollo embrionario del sistema nervioso, basado en las fases genéricas de dicho desarrollo tal y como son descritas en la literatura sobre desarrollo neuronal, a saber: proliferación, migración, diferenciación, sinaptogénesis y muerte neuronal. La proliferación consiste en la producción de nuevas neuronas (o, más precisamente, neuroblastos, que son neuronas inmaduras o indiferenciadas) mediante mitosis. En el modelo, la proliferación depende de un parámetro codificado genéticamente que representa la probabilidad de producir una nueva unidad indiferenciada en un momento dado. Una vez que se tiene un grupo de unidades indiferenciadas, la migración simula el movimiento de unidades de sus capas de origen a sus capas de destino, siguiendo una interpretación del modelo de la unidad radial propuesto por Rakic (2002). El parámetro principal codificado genéticamente para esta fase es la probabilidad de que una unidad migre. El resultado neto es un conjunto de unidades indiferenciadas organizadas en capas. Durante la diferenciación, las unidades adquieren sus características particulares, que incluyen su carácter excitador o inhibitorio, así como los parámetros libres de activación y aprendizaje (que son específicos de la unidad). La sinaptogénesis consiste en la formación de las conexiones, sobre la base de probabilidades de conectar distintos tipos de unidades de una capa a otra, probabilidades que son codificadas en el genotipo. Los pesos iniciales de las conexiones resultantes se asignan según una regla 353

· burgos y robayo ·

hebbiana de aprendizaje, donde el peso es igual al producto de las activaciones pre- y possinápticas. En caso de que las unidades presinápticas sean unidades de entrada, estas se activan para simular la estimulación ambiental del individuo en desarrollo. De este modo, el modelo de desarrollo simula la formación actividad-dependiente de sinapsis, la cual se ha observado extensamente en vertebrados. Finalmente, la muerte neuronal se simula mediante un procedimiento de eliminación de unidades de entrada que no se conectan a unidad sa alguna, unidades ocultas que no reciben ni envían conexiones a otras unidades en la red, y unidades de salida que no reciben conexión alguna. El resultado neto es una red neural con características estructurales particulares del tipo que hemos descrito. Ninguna de estas características es codificada en el genotipo. Más bien, son un resultado local de valores de variables globales, en su mayoría estocásticas, que determinan una clase indeterminada de redes neurales. Este modelo, pues, constituye un puente teórico que hace más explícita la relación entre los rasgos conductuales adquiridos de una red y el genotipo. Ello no solo logra salvar un poco más la distancia entre unos y otro, sino que también es coherente con un rechazo de la herencia genética de rasgos conductuales adquiridos. En este sentido, la presente aproximación es un avance significativo hacia una teorización plausible de la relación entre condicionamiento y evolución, respecto a las aproximaciones tradicionales al condicionamiento —que solo consideran rasgos fenotípicos adquiridos, sean mentales o conductuales—.

Interpretación de la selección y reproducción La última etapa del ciclo que se muestra en la figura 3 es una interpretación de la selección y reproducción con herencia genética. La selección se interpreta como la aplicación de una función o regla de aptitud a rasgos fenotípicos de interés, con el objeto de elegir individuos para que se reproduzcan. En el presente algoritmo genético, esta función se define solo en términos de los rasgos conductuales, en particular, las activaciones de salida en presencia de ciertas activaciones de entrada, luego de una exposición prolongada a ciertas contingencias de reforzamiento. Más precisamente, la aptitud individual en este algoritmo es igual a la activación de salida promedio de una red neural en el momento temporal inmediatamente anterior a la activación de E*, durante 25 ensayos de prueba posteriores a la exposición a las contingencias de reforzamiento. La selección de individuos para su reproducción se determina según un procedimiento de torneo con un ganador. Este procedimiento 354

· Condicionamiento y evolución...

consiste en elegir aleatoriamente un porcentaje pequeño de individuos (v. gr., 0.05) de la población y comparar sus aptitudes. El individuo más apto (con la mayor activación promedio de salida) es considerado como el ganador del torneo y seleccionado para darle una oportunidad de reproducción. Tal selección es lo que en la presente aproximación simula la selección natural dependiente de conducta condicionada. Todos los participantes del torneo son luego devueltos a la población y se repite el proceso hasta que se obtenga un cierto número deseado de oportunidades de reproducción (v. gr., 100). De este modo, un mismo individuo puede ganar varios torneos y, así, tener varias oportunidades de reproducción, lo que le permite tener varios descendientes. Una vez obtenido un conjunto de oportunidades de reproducción, esta se simula como una secuencia de ensayos de emparejamiento que consiste en seleccionar al azar dos oportunidades de reproducción que involucren individuos diferentes (para así simular la reproducción sexual, en lugar de la asexual). Los genotipos de los dos individuos seleccionados, entonces, se combinan según una estrategia de entrecruzamiento de dos puntos. Esta estrategia consiste en escoger al azar dos divisiones de un par de genes (las mismas en ambos genotipos) e intercambiar los segmentos medios con una cierta probabilidad de entrecruzamiento, que por lo general es alta (v. gr., 0.8), para así formar dos nuevos genotipos. Se realiza entonces una fase de mutación que consiste en cambiar el alelo de cada gen con una probabilidad baja (v. gr., 0.001). Esta estrategia es típica de los algoritmos genéticos, e implica que la variación genotípica se debe mucho más a la recombinación genética que a las mutaciones. Las mutaciones en estos algoritmos juegan un papel relativamente insignificante. En todo caso, el procedimiento se itera hasta que se obtenga una población deseada de nuevos genotipos, para así iniciar la siguiente generación. El resultado neto es una nueva población de genotipos de los cuales se desarrolla una nueva población de redes neurales que son expuestas a ciertas contingencias de reforzamiento (que pueden o no ser semejantes a las de generaciones anteriores), y así se inicia otro ciclo como el mostrado en la figura 3.

Una simulación Las primeras simulaciones realizadas con el algoritmo genético aquí descrito muestran que funciona como se esperaría, al menos, en lo concerniente a la evolución del condicionamiento respondiente (Burgos, 1997). Esto quiere decir que si la aptitud se define en términos de la activación condicionada —(en presencia de activaciones de unidades E) de sus 355

· burgos y robayo ·

unidades de salida R* (figura 2) bajo una contingencia EC-EI anterógrada demorada que permanece de una generación a otra—, la aptitud poblacional promedio aumenta significativamente luego de 25 generaciones más o menos. La implicación para la vida natural es que el condicionamiento respondiente es un rasgo fenotípico que puede influir en el éxito reproductivo y, por tanto, en la evolución, sin ser heredado genéticamente. Sin embargo, las redes en esas simulaciones solo podían tener unidades de tipo R* como salidas, por cuanto el genotipo no codificaba variable alguna para unidades de salida tipo R. Por tanto, las redes no podían simular condicionamiento operante, ni siquiera automoldeamiento y automantenimiento, fenómenos que pueden verse como una transición del condicionamiento respondiente al operante. Se plantea, entonces, la pregunta de si el algoritmo genético puede simular la evolución de estos fenómenos, como un paso hacia la simulación de la evolución del condicionamiento operante.

Aptitud Promedio

1.00

0.75

0.50

0.25

0.00

0

100

Generación !

figura 4. Resultados de una simulación de la evolución del automoldeamiento y automantenimiento. La simulación consistió en 100 generaciones de 100 individuos cada una. Las redes de cada generación fueron expuestas a un protocolo de entrenamiento que consistió en 100 apareamientos EC-EI, donde el EC se definió como la activación máxima de unidades de entrada tipo E por siete momentos, y el EI como la activación máxima de la unidad tipo E* en el último momento del EC. La aptitud se definió como la activación promedio de salida de unidades tipo R en el penúltimo momento de 25 ensayos de prueba. El éxito reproductivo de las redes, entonces, dependió directamente del grado en el cual mostraban automoldeamiento y automantenimiento.

356

· Condicionamiento y evolución...

Para responder esta pregunta, el genotipo fue extendido con fragmentos codificadores de variables relativas a unidades R, de tal manera que una red pueda tenerlas. El nuevo genotipo se usó para realizar una simulación que consistió en 100 generaciones de 100 individuos cada una. Cada red de cada generación fue expuesta a una contingencia respondiente que consistió en 100 ensayos EC-EI, donde el EC era la activación de unidades E (figura 2) por siete momentos temporales, y el EI la activación máxima de E* en el séptimo momento de la activación de E. A diferencia de simulaciones previas, la aptitud se definió solo en términos de las activaciones R promedio durante 25 ensayos de prueba. El resultado básico se muestra en la figura 4, en términos de la aptitud promedio en función de la generación. Como puede apreciarse, la aptitud promedio aumentó significativamente de la primera generación (0) a la última (100), debido a la selección de redes para su reproducción solo con base en sus activaciones R. El algoritmo logra así simular la evolución del automoldeamiento y automantenimiento positivo, lo que significa un paso hacia la simulación de la evolución del condicionamiento operante.

Reflexiones finales Quedan, por supuesto, muchas preguntas sin responder. ¿Puede el algoritmo genético simular el condicionamiento operante propiamente dicho? ¿Es la evolución del condicionamiento respondiente necesaria y/o suficiente para la evolución del automoldeamiento, automantenimiento positivo y condicionamiento operante? ¿Qué fenotipos estructurales resultan de la evolución de cada tipo de condicionamiento? Desgraciadamente, las limitaciones de espacio nos obligan a posponer estas y otras preguntas. Por lo pronto, concluimos este escrito reconociendo que la presente aproximación dista mucho de ser una teoría completa de la evolución del condicionamiento. La aproximación es solo un paso muy corto hacia tal teoría. Faltarían muchos más, aunque no podemos saber cuántos o cuán largos, ya que no tenemos idea de cómo sería esa teoría, ni siquiera si es viable. A pesar de esto, consideramos que la aproximación es un avance en la teoría de las relaciones entre aprendizaje y evolución, respecto a otras teorías del condicionamiento. Sus limitaciones más agudas, como en cualquier otra aproximación de esta índole, surgen de la abstracción considerable que involucra. Una 357

· burgos y robayo ·

abstracción importante es la implicación de que los ambientes naturales están constituidos por los tipos de relaciones temporales y estadísticas que se estudian en investigación experimental en condicionamiento. Los etólogos tienden a ver esta implicación con recelo, considerándola como ecológicamente inválida, sin embargo, la implicación ha sido de una gran utilidad teórica, y su supuesta invalidez ecológica permanece sin demostración científica contundente. De cualquier modo, y a riesgo de afirmar lo obvio, no debe olvidarse que la aproximación consiste en modelos matemáticos, que nos obligan a abstraer, en aras de la claridad, la precisión, la coherencia y el detalle. Justamente, ello es parte integral del objetivo de todo modelo matemático: elegir unos pocos factores que supuestamente juegan un papel central en el fenómeno de interés. Esta estrategia es tan común en ciencia que sería superfluo mencionarla si el fenómeno de interés fuera tan simple como los que se estudian en física o química. Sin embargo, la evolución del condicionamiento es un fenómeno mucho más complejo, lo cual nos hace recordar que la ciencia es solo un esbozo muy sucinto de la realidad.

Referencias Ackley, D., & Littman, M. (1992). Interactions between learning and evolution. En C. G. Langton, C. Taylor, J. D. Farmer, & S. Rasmussen (Eds.). Artificial Life II, Proceedings of the Workshop on Artificial Life (pp. 487-509). Redwood City, CA: Addison-Wesley. Baldwin, J. M. (1896). A new factor in evolution. American Naturalist, 30, 441-451. Bindra D. (1972). A unified account of classical and operant training. En A. H. Black & W. F. Prokasy (Eds.). Classical conditioning II: Current research and theory (pp. 453-481). New York: Appleton-Century-Crofts. Bitterman, M. E. (1965). Phyletic differences in learning. American Psychologist, 20, 396-410. Bolles, R. C. (1970). Species-specific defense reactions and avoidance learning. Psychological Review, 77, 32-48. Bolles, R. C., & Beecher, M. D. (Eds.) (1988). Evolution and learning. Hillsdale, NJ: Lawrence Erlbaum. Brown, P. L., & Jenkins, H. M. (1968). Auto-shaping of the pigeon’s keypeck. Journal of the Experimental Analysis of Behavior, 11, 1-8. Burgos, J. E. (1997). Evolving artificial neural networks in Pavlovian environments. En J. W. Donahoe & V. P. Dorsel (Eds.). Neural-network models of cognition: Biobehavioral foundations (pp. 58-79). Amsterdam: Elsevier. 358

· Condicionamiento y evolución...

Burgos, J. E. (2003). Theoretical note: Simulating latent inhibition with selection neural networks. Behavioural Processes, 62, 183-192. Burgos, J. E. (2005). Theoretical note: the  C/T  ratio  in artificial neural networks. Behavioural Processes, 69, 249-256. Burgos, J. E. (2007). Autoshaping and automaintenance: A neural-network approach. Journal of the Experimental Analysis of Behavior, 88, 115-130. Burgos, J. E., & Donahoe, J. W. (2000). Structure and function in selectionism: Implications for complex behavior. En J. Leslie & D. Blackman (Eds.). Issues in experimental and applied analyses of human behavior (pp. 39-57). Reno: Context Press. Burgos, J. E., Flores, C., García, Ó., Díaz, C., & Cruz, Y. (2008). A simultaneous procedure facilitates acquisition under an optimal interstimulus interval in artificial neural networks and rats. Behavioural Processes, 78, 302-309. Burgos, J. E., & Murillo-Rodríguez, E. (2007). Neural-network simulations of two context-dependence phenomena. Behavioural Processes, 75, 242-249. Bolles, R.C. (1972). Reinforcement, expectancy and learning. Psychological Review, 79, 394-409. Casti, J. L. (1997). Would-be worlds: How simulation is changing the frontiers of science. New York: Wiley. Cliff, D. (2003). Neuroethology, computational. En M.A. Arbib (Ed.). The Handbook of Brain Theory and Neural Networks (2nd ed., pp. 737-741). Cambridge, MA: MIT Press. Dawkins, R. (1982). The extended phenotype. Oxford University Press. Domjan, M. (2005). Pavlovian conditioning: A functional perspective. Annual Review of Psychology, 56, 179-206. Donahoe, J. W., & Burgos, J. E. (2000). Behavior analysis and revaluation. Journal of the Experimental Analysis of Behavior, 74, 331-346. Donahoe, J. W., Burgos, J. E., & Palmer, D. C. (1993). A selectionist approach to reinforcement. Journal of the Experimental Analysis of Behavior, 60, 17-40. Donahoe, J. W., & Palmer, D. C. (1994). Learning and complex behavior. Boston: Allyn & Bacon. Donahoe, J. W., Palmer, D. C., & Burgos, J. E. (1997a). The S-R issue: Its status in behavior analysis and in Donahoe and Palmer’s Learning and Complex Behavior. Journal of the Experimental Analysis of Behavior, 67, 193-211. Donahoe, J. W., Palmer, D. C., & Burgos, J. E. (1997b). The unit of selection: What do reinforcers reinforce? Journal of the Experimental Analysis of Behavior, 67, 259-273.

359

· burgos y robayo · 360

Emmeche, C. (1991). The garden in the machine: The emerging science of Artificial Life. Traducido del francés por S. Sampson (1994). Princeton, NJ: Princeton University Press. Fukushima, K. (1975). Cognitron: A self-organizing multilayered neural network. Biological Cybernetics, 20, 121-136. Hearst, E. (1975). Pavlovian conditioning and directed movements. En G. H. Bower (Ed.). The psychology of learning and motivation (vol. 9, pp. 215-262). New York: Academic Press. Henton, W. W., & Iversen, I. H. (1978). Classical Conditioning and Operant Conditioning. New York: Springer-Verlag. Hineline, P. N. (1986). Re-tuning the operant-respondent distinction. En T. Thompson & M. D. Zeiler (Eds.). Analysis and integration of behavioral units (pp. 55-79). Hillsdale, NJ: Erlbaum. Hinton, G. E., & Nowlan, S. J. (1987). How learning can guide evolution. Complex Systems, 1, 495-502. Holland, J. H. (1975). Adaptation in natural and artificial systems. Ann Arbor: The University of Michigan Press. Hollis, K. L. (1997). Contemporary research on Pavlovian conditioning. A «new» functional analysis. American Psychologist, 52, 956-965. Keesing, R., & Stork, D. G. (1991). Evolution and learning in neural networks: The number and distribution of learning trials affect the rate of evolution. En R. P. Lippman, J. E. Moody, & D. S. Touretzky (Eds.). Advances in neural information processing systems, vol. 3 (pp. 804-810). San Mateo, CA: Morgan Kaufmann. Konorski, J., & Miller, S. (1937a). On two types of conditioned reflex. Journal of General Psychology, 16, 264-272. Konorski, J., & Miller, S. (1937b). Further remarks on two types of conditioned reflex. Journal of General Psychology, 17, 405-407. Moore, B. (2003). The evolution of learning. Biological Reviews, 79, 301-335. Morgan, C. L. (1894). An Introduction to Comparative Psychology. London: Walter Scott. Mühlenbein, H., & Kindermann, J. (1989). Dynamics of evolution and learning: Towards genetic neural networks. En J. Pfeiffer (Ed.). Connectionism in perspective (pp. 173-198). Amsterdam: North-Holland. Nolfi, S., Elman, J. L., & Parisi, D. (1990). Learning and evolution in neural networks. CRL Technical Report 9019, Center for Research in Language, University of California, San Diego. Pear, J. J., & Eldridge, G. D. (1984). The operant-respondent distinction: Future directions. Journal of the Experimental Analysis of Behavior, 42, 453-467. Plotkin, H. C. (1988). Learning and evolution. En H. C. Plotkin (Ed.). The role of behavior in evolution (pp. 133-164). Cambridge, MA: M.I.T. Press.

· Condicionamiento y evolución...

Rakic, P. (2002). Intrinsic and extrinsic determinants of neocortical parcellation: A radial unit model. En M. H. Johnson, Y. Munakata & R. O. Gilmore (Eds.). Brain development and cognition: A Reader (2nd ed., pp. 83-100). Malden, MA: Blackwell. Rehfeldt, R. A., & Hayes, L. J. (1998). The operant-respondent distinction revisited: Toward an understanding of stimulus equivalence. The Psychological Record, 48, 187-210. Rescorla, R. A., & Solomon, R. L. (1967). Two-process learning theory: Relationships between Pavlovian conditioning and instrumental learning. Psychological Review, 74, 151-182. Romanes, G. J. (1884). Mental evolution in animals. New York: Appleton. Rozin, P., & Kalat, J. W. (1971). Specific hungers and poison avoidance as adaptive specializations of learning. Psychological Review, 78, 459-486. Skinner, B. F. (1935). Two types of conditioned reflex and a pseudo-type. The Journal of General Psychology, 12, 66-77. Skinner, B. F. (1937). Two types of conditioned reflex: A reply to Konorski and Miller. The Journal of General Psychology, 16, 272-279. Skinner, B. F. (1966). The ontogeny and phylogeny of behavior. Science, 153, 1203-1213. Skinner, B. F. (1981). Selection by consequences. Science, 213, 501-504. Skinner, B. F. (1984). The evolution of behavior. Journal of the Experimental Analysis of Behavior, 41, 217-221. Sober, E. (1992). Learning from functionalism - Prospects for a strong Artificial Life. En C. G. Langton, C. Taylor, J. D. Farmer, y S. Rasmussen (Eds.). Artificial Life II, Proceedings of the Workshop on Artificial Life (pp. 749765). Redwood City, CA: Addison-Wesley. Sutton, R. S. (1991). Reinforcement learning architectures for animats. En J. A. Meyer & S. W. Wilson (Eds.). From animals to animats: Proceedings of the First International Conference on Simulation of Adaptive Behavior (pp. 288-296). Cambridge, MA: MIT Press. Taylor, C., & Jefferson, D. (1994). Artificial life as a tool for biological inquiry. Artificial Life, 1, 1-13. Tierney, A. J. (1986). The evolution of learned and innate behavior: Contributions from genetics and neurobiology to a theory of behavioral evolution. Animal Learning & Behavior, 14, 339-348. Weber, B. H., & Depew, D. J. (Eds.) (2003). Evolution and learning: The Baldwin effect reconsidered. Cambridge, MA: MIT Press. Weisman, R. G., & Dodd, P. W. D. (1980). Classical conditioning and evolution. En M. R. Denny (Ed.). Comparative psychology: An evolutionary analysis of animal behavior (pp. 64-83). New York: Wiley.

361

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.