Está en la página 1de 16

Gestalt :: textos

inicio índice temático + textos

El Enigma de los Fenómenos Gestálticos


Steven Lehar

2003. El Mundo en tu Cabeza. Una Visión Gestáltica del Mecanismo de la Experiencia Consciente.

Un renacimiento de la Gestalt
Las leyes de Wertheimer sobre la agrupación perceptual
Emergencia
Reificación
Multiestabilidad
Invariancia
Anclaje cerebral
Percepción amodal
Percepción fuera del campo visual
Dar sentido a los fenómenos gestálticos
Consideraciones de factibilidad

Un Renacimiento de la Gestalt
En la literatura contemporánea, la teoría de la Gestalt se asocia principalmente con una serie de
ilusiones visuales, así como con las leyes de agrupación perceptiva de Wertheimer. Sin embargo, hoy
en día se discuten poco los principios fundamentales del procesamiento visual revelados por esas
ilusiones y leyes de agrupación de la Gestalt. De hecho, las propiedades de la percepción identificadas
por la teoría de la Gestalt siguen siendo tan misteriosas hoy en día en términos computacionales
como lo fueron cuando se introdujeron originalmente hace casi un siglo.

El declive general de la popularidad de la teoría de la Gestalt en psicología se debió a varias razones,


a partir de la década de 1950. La primera y más grave fue el fracaso de la teoría de la Gestalt a la hora
de proponer un mecanismo computacional viable que diera cuenta de la naturaleza global de la
percepción y de las propiedades de emergencia y reificación. El segundo fue el perfeccionamiento de
la técnica de registro de una sola célula, que desplazó el énfasis teórico de las teorías de campo de
los aspectos completos de la percepción a las teorías puntuales de la respuesta neuronal. La
objetividad de las mediciones eléctricas directas del sistema nervioso ofrece seguridad y comodidad,
ya que este enfoque evita las espinosas cuestiones filosóficas inherentes al estudio de la experiencia
consciente. Por último, la teoría de la Gestalt recibió otro golpe con el notable éxito de la
computadora digital, un dispositivo cuyos principios operativos representan el polo opuesto a la
forma de pensar de la Gestalt, al dividir cada problema computacional en una secuencia de pasos
sencillos que se calculan cada uno de ellos de forma aislada del problema en su conjunto. En la época
de los primeros movimientos de la inteligencia artificial, el problema de la visión se consideraba
prácticamente resuelto, hasta el punto de que los investigadores que trabajaban en el reconocimiento
visual consideraron innecesario emular los sistemas de visión biológicos, y se propusieron reinventar
el procesamiento visual desde el principio utilizando la computación digital. Han sido necesarias
décadas de experiencia con la computadora digital para revelar las limitaciones fundamentales de la
estrategia atomística plasmada en ese paradigma de computación y, por tanto, para que se aprecie
de nuevo la notable capacidad plasmada en los sistemas de visión biológicos, incluso los de los
animales más simples. Ha llegado el momento de revisar la teoría de la Gestalt y de reevaluar sus
conclusiones a la luz de esta nueva perspectiva.

Las Leyes de Wertheimer sobre la Agrupación Perceptual


Las leyes de Wertheimer sobre la agrupación perceptual ﴾Wertheimer, 1923﴿, algunas de las cuales se
ilustran en la Fig. 3.1, demuestran el aspecto holístico de la percepción que es difícil de explicar en
términos del modelo atomístico del procesamiento neural. En la Fig. 3.1 A, los puntos se separan
espontáneamente en dos grupos basados en su similitud de forma y tamaño, demostrando así el
principio de agrupación perceptiva por similitud. También se observa una agrupación similar entre
elementos que son similares en color o movimiento o textura. Aunque es bastante sencillo definir las
reglas para una segmentación perceptiva de este tipo en cualquier caso particular, esas reglas no se
generalizan fácilmente a otros casos. La figura 3.IB muestra la agrupación por proximidad, aunque la
proximidad requerida para la agrupación perceptiva no se define en términos absolutos, sino en
términos de algún tipo de proximidad relativa de una forma que también es difícil de expresar en
leyes explícitas. La figura 3.1C muestra la agrupación por "buena continuación": es decir, los puntos
que se perciben a lo largo de una trayectoria continua se perciben como una entidad separada,
distinta de los demás puntos de la figura. La figura 3.1 D muestra la agrupación por cierre, es decir,
los puntos se segregan perceptivamente en función de su tendencia a delimitar formas cerradas. La
figura 3.1E muestra la agrupación por simetría. Esta figura se construyó reproduciendo una
disposición irregular de puntos en una simetría cuádruple alrededor de un centro. La figura 3.1F
muestra el mismo patrón básico, esta vez replicado en una disposición periódica, demostrando así la
ley Gestalt de la periodicidad.

Las propiedades del estímulo reflejadas en estas leyes de agrupación muestran cualidades
configurativas globales que son difíciles de definir algorítmicamente. El hecho de que estas
organizaciones perceptivas se experimenten de forma inmediata, estén fuera del alcance del análisis o
la intervención cognitiva y sean independientes de la experiencia visual pasada del individuo sugiere
que representan interacciones espaciales de bajo nivel entre los elementos de la percepción que
proporcionan pruebas concretas de la naturaleza del algoritmo computacional de la visión natural. Sin
embargo, a pesar de la naturaleza aparentemente de ley de estos fenómenos, las leyes exactas que
hay detrás de ellos siguen siendo esquivas, sobre todo porque esas leyes aparecen de una forma que
es difícil de expresar en la forma reduccionista familiar para el análisis científico. Se han identificado
muchas más leyes Gestalt de agrupación perceptiva, todas ellas con esta misma naturaleza holística
esquiva. Es necesario idear un nuevo formalismo para expresar estos aspectos holísticos de la
computación perceptiva con el fin de cuantificar las propiedades de la transformación perceptiva.
A. Similaridad

B. Continuidad

C. Buena Continuación

D. Cierre

E. Simetría

F. Periodicidad

Figura 3.1 ‐ Ejemplos de algunas de las leyes de Wertheimer sobre la agrupación perceptiva: ﴾A﴿ similitud, ﴾B﴿ proximidad,
© buena continuación, ﴾D﴿ cierre, ﴾E﴿ simetría y ﴾F﴿ periodicidad. Aunque estas agrupaciones se experimentan de forma
preatencional, es difícil concebir reglas explícitas que predigan la percepción de agrupación para figuras arbitrarias.

Emergencia
La propiedad general más significativa de la percepción identificada por la teoría de la Gestalt fue un
aspecto holístico, o global, de la percepción en el que la configuración global de un estímulo se
percibe a menudo en ausencia de sus características locales. La figura 3.2 muestra una imagen familiar
en los círculos de la visión, que revela el principio de la emergencia de la forma más convincente. Para
quienes no hayan visto nunca esta imagen, aparece inicialmente como un patrón aleatorio de formas
irregulares. Se observa una notable transformación en esta percepción en cuanto se reconoce que el
sujeto de la imagen es un perro dálmata a la luz del sol, a la sombra de los árboles que sobresalen
por encima. Los contornos del perro están definidos por un gran número de alineaciones
aparentemente casuales de bordes irregulares. Lo más destacable de esta percepción es que el perro
se percibe de forma tan vívida a pesar de que falta gran parte de su perímetro. Además, los bordes
visuales que forman parte del perímetro del perro son localmente indistinguibles de otros bordes
menos significativos. Por lo tanto, cualquier porción local de esta imagen no contiene la información
necesaria para distinguir los bordes significativos de los insignificantes. Esta figura revela, por tanto,
un tipo de procesamiento diferente del enfoque atomístico sugerido por la teoría de la detección de
rasgos, ya que en esta imagen los rasgos globales se detectan como un todo, y no como un conjunto
de partes locales. No se ha ideado ningún algoritmo computacional que pueda manejar el nivel de
ambigüedad visual presente en la imagen del perro.

Fig. 3.2 La imagen del perro es familiar en los círculos de visión, ya que demuestra el principio de emergencia en la
percepción. Las regiones locales de esta imagen no contienen suficiente información para distinguir los contornos de
forma significativa de los bordes ruidosos insignificantes. En cuanto se reconoce la imagen como la de un perro bajo el sol
moteado de los árboles, los contornos del perro surgen perceptualmente, rellenando los bordes visuales incluso en las
regiones en las que no hay bordes en la entrada.

En su discusión sobre la imagen del perro, Marr ﴾1982, pp. 100‐101﴿ sugirió que esta imagen
representa un caso especial de influencia descendente, que sólo tiene una importancia secundaria en
el procesamiento visual temprano. Sin embargo, la imagen del perro simplemente revela de forma
exagerada un principio de procesamiento visual que se encuentra en todo el reconocimiento visual.
La única razón por la que esta ambigüedad no es tan evidente es que el reconocimiento suele
producirse tan rápidamente que todo lo que experimentamos conscientemente es la percepción final,
claramente segmentada en figura y fondo. Sin embargo, la ambigüedad de las imágenes más
comunes puede revelarse observando puntos seleccionados al azar en fotografías de escenas
naturales seleccionadas al azar a través de una pantalla de reducción, es decir, una pequeña abertura
en una hoja opaca colocada sobre la fotografía para revelar sólo una porción local de la imagen a la
vez. Al ver a través de la pantalla de reducción, es imposible distinguir los bordes significantes de la
forma en la imagen de los bordes insignificantes o espurios, como las líneas de textura en la hierba,
los árboles o los patrones de la tela, o los bordes debidos a las sombras proyectadas o a las sombras
anexas, los reflejos especulares, etc. Si es imposible identificar los bordes significantes de la forma que
definen el perímetro de los objetos, entonces es imposible reconocer esos objetos con el tipo de
algoritmo determinista sugerido por Marr. Este problema es bien conocido en el campo de los
algoritmos de reconocimiento de imágenes artificiales que comienzan con la detección local de
bordes. El hecho de que incluso un observador humano no pueda identificar los bordes significativos
de la forma a través de una pantalla de reducción indica que no es la elección de la representación de
las características lo que falta en los algoritmos digitales, sino que la información de la importancia
global simplemente no está disponible en el contexto local, incluso bajo el escrutinio del sistema
visual humano completo. Esto, a su vez, demuestra que debe haber algún tipo de proceso global en el
reconocimiento visual, que opere en la imagen como un todo, en lugar de hacerlo de forma
fragmentada a partir de características locales. El principio de emergencia se observa habitualmente
en un entorno natural de árboles y arbustos, cuya maraña irregular de ramas y hojas no ofrece un
perímetro sólido sobre el que pueda operar con fiabilidad un algoritmo de detección de rasgos y, sin
embargo, las configuraciones globales de estos objetos son fácilmente percibidas tanto por los seres
humanos como por simples animales.

El principio de emergencia, a veces expresado como el lema platónico "El todo es más que la mera
suma de sus partes", sugiere algún tipo de proceso místico mágico por el que la estructura perceptiva
aparece de la nada. Sin embargo, Wolfgang Kohler ﴾1924﴿ argumentó que no hay magia en la
emergencia; el principio de la emergencia se ve en muchos sistemas físicos, incluyendo la forma en
que la carga eléctrica se distribuye a través de un conductor, o el agua busca su propio nivel en un
recipiente. Quizá el ejemplo Gestalt más conocido de emergencia en un sistema físico sea la pompa
de jabón ﴾Koffka, 1935﴿. La forma esférica de una pompa de jabón no está codificada en forma de
plantilla esférica o de código matemático abstracto, sino que la forma emerge de la acción paralela
de innumerables fuerzas locales de tensión superficial que actúan al unísono. Este concepto se
demuestra con mayor claridad en la computadora de burbuja de jabón, en la que un bucle cerrado de
alambre se dobla en una forma tridimensional arbitraria y luego se sumerge en agua jabonosa para
formar una superficie de burbuja. Las fuerzas de la tensión superficial hacen que la superficie de la
burbuja se repliegue sobre sí misma, lo que da como resultado, en equilibrio, una superficie que
calcula automáticamente la superficie mínima para el perímetro dado. En casos sencillos, esta
superficie mínima también puede derivarse analíticamente, pero para perímetros más complejos o de
forma irregular el problema puede no tener una solución de forma cerrada. Sin embargo, la
computadora de burbujas resuelve este problema para prácticamente cualquier perímetro de forma
instantánea, y el tiempo requerido para el cálculo es esencialmente independiente de la forma exacta
del perímetro.

Un principio emergente similar se observa en la interpolación de curvas spline. En la época de la


construcción de barcos de madera, las curvas suaves del casco se calculaban doblando splines de
madera flexibles alrededor de espigas clavadas en el suelo del astillero en puntos de referencia
discretos que se localizaban escalando las mediciones de los planos de dibujo. La spline calcula su
curvatura globalmente suave mediante una relajación paralela de las múltiples fuerzas de rigidez
activas en todos los puntos de la longitud de la spline simultáneamente.

triángulo de Kanizsa
gusano volumétrico de Tse

esfera con pinchos de Idesawa

"monstruo marino" de Tse

Fig. 3.3. Estas ilusiones ponen de manifiesto la función constructiva o generativa de la percepción, ya que el percepto
codifica una información espacial más explícita que el estímulo retiniano en el que se basa el percepto.

Hay dos rasgos que caracterizan a los fenómenos emergentes: el paralelismo y la dinámica. El aspecto
paralelo de la emergencia es el hecho de que múltiples fuerzas diminutas actúan sobre el sistema al
unísono, y los sistemas más emergentes son también continuos, o de tipo campo, como en el caso de
la burbuja de jabón, cuya superficie y las fuerzas que actúan en ella definen esencialmente un
continuo. Muchos fenómenos ondulatorios también muestran el aspecto continuo de la emergencia,
por ejemplo, los patrones de difracción y la holografía, cuyos patrones finales dependen de la
contribución total de todos sus elementos. El aspecto dinámico de la emergencia se refleja en el
hecho de que el estado global final no se calcula en una sola pasada, sino de forma continua, como
una relajación hacia el equilibrio en un modelo de sistema dinámico. En otras palabras, las fuerzas que
actúan sobre el sistema inducen un cambio en la configuración del sistema, y ese cambio modifica a
su vez las fuerzas que actúan sobre el sistema. Por lo tanto, la configuración del sistema y las fuerzas
que lo impulsan cambian continuamente en el tiempo hasta que se alcanza el equilibrio, momento en
el que el sistema permanece en un estado de equilibrio dinámico; es decir, su estado estático oculta
un equilibrio dinámico de fuerzas listo para volver a ponerse en movimiento en cuanto se rompa el
equilibrio. En las simulaciones por ordenador, el sistema emergente debe cuantificarse en elementos
discretos, cuya evolución dinámica se simula en pasos de tiempo discretos, en los que se supone que
las fuerzas que actúan sobre el sistema son constantes durante un intervalo de tiempo muy corto. Al
final de ese intervalo, la nueva configuración del sistema se utiliza para calcular las nuevas fuerzas
para el siguiente intervalo de tiempo, y el cálculo se repite a través de tantas iteraciones como sea
necesario para alcanzar el equilibrio. Las simulaciones por ordenador de fenómenos emergentes,
incluso tan simples como la superficie de una burbuja, pueden ser muy costosas desde el punto de
vista computacional, e inevitablemente sufren de defectos debidos a la cuantización en el espacio y el
tiempo. Así, muchos problemas que se consideran matemática o computacionalmente intratables son
en realidad perfectamente computables, dado el mecanismo dinámico analógico adecuado para
realizar el cálculo por emergencia. La teoría de la Gestalt sugiere que los cálculos de la percepción
visual tienen este carácter emergente.

Reificación
La figura de Kanizsa ﴾Kanizsa, 1979﴿, mostrada en la Fig. 3.3A, es una de las ilusiones más conocidas
introducidas por la teoría de la Gestalt. En esta figura la configuración triangular no sólo se reconoce
como presente en la imagen, sino que ese triángulo se rellena perceptualmente, produciendo bordes
visuales en lugares donde no hay bordes presentes en la entrada. Además, el triángulo ilusorio se
rellena con un blanco más brillante que el fondo blanco de la figura. Finalmente, la figura produce
una segmentación perceptual en profundidad, con los tres rasgos de Pac‐Man apareciendo como
círculos completos, completándose amodalmente detrás de un triángulo blanco ocluido. En trabajos
más recientes, Tse ﴾1998, 1999﴿ amplió este concepto con un conjunto de ilusiones aún más
sofisticadas, como las que se muestran en las figuras 3.3B a 3.3D, en las que la percepción ilusoria
toma la forma de un volumen tridimensional. Estas figuras demuestran que el sistema visual realiza
una reificación* perceptiva, un relleno de una entidad perceptiva más completa y explícita basada en
una entrada visual menos completa. La reificación espacial de un estímulo bidimensional en un sólido
percepto tridimensional también se observa en la imagen del perro de la Fig. 3.2, donde la forma del
perro sale de la imagen con una pendiente tridimensional específica definida perceptualmente en
cada punto del lomo del perro. La identificación de este aspecto generativo o constructivo de la
percepción fue uno de los logros más significativos de la teoría de la Gestalt.

* Reificar: considerar algo abstracto como algo material.

A. cubo de Necker
B. ilusión de las caras y el jarrón de Rubin

Fig. 3.4. Estas ilusiones revelan la multiestabilidad de la percepción, lo que a su vez demuestra que la visión no es un
proceso secuencial que va de la entrada a la percepción, sino que es más bien un sistema dinámico cuyos estados de
equilibrio representan la percepción final.

Multiestabilidad
La multiestabilidad en la percepción es una prueba directa de la multiestabilidad en el cerebro. Un
ejemplo familiar de multiestabilidad en la percepción es el cubo de Necker, mostrado en la Fig. 3.4A.
La visualización prolongada de este estímulo da lugar a inversiones espontáneas, en las que se
observa que todo el concepto se invierte en profundidad. Las inversiones pueden controlarse un poco
fijándose en uno u otro vértice interno, que tiende a convertirse en una percepción de vértice
convexo. En esta inversión, se observa que todos los puntos del percepto se desplazan a un lugar
diferente en profundidad. La figura 3.4B muestra la famosa ilusión de las caras y el jarrón introducida
por Rubin ﴾1958﴿, en la que se percibe que el contorno pertenece siempre al objeto u objetos del
primer plano. Ejemplos aún más convincentes de la multiestabilidad son las pinturas surrealistas de
Salvador Dalí y los grabados de Escher, en los que se ven regiones grandes y complejas de la imagen
que se invierten perceptualmente, perdiendo todo parecido con su aspecto anterior ﴾Attneave, 1971﴿.
El significado para las teorías del procesamiento visual es que la percepción no puede considerarse
simplemente como un procesamiento de alimentación hacia adelante realizado en la entrada visual
para producir una salida perceptiva, como a veces se caracteriza en los modelos computacionales de
la visión, sino que la percepción debe implicar algún tipo de proceso dinámico cuyos estados estables
representen la percepción final. Las inversiones espontáneas en estas ilusiones demuestran que el
proceso perceptivo está activo continuamente, y existe en un estado de equilibrio dinámico cuya
aparente estabilidad o carácter estático al ver un estímulo no ambiguo es algo ilusorio.

Invariancia
Un punto central de la teoría de la Gestalt fue la cuestión de la invariancia: cómo el carácter
estructural esencial de un objeto se reconoce inmediatamente y sin esfuerzo cuando se presenta en
una gran variedad de aspectos y condiciones de visión diferentes. Por ejemplo, las estructuras
representadas en la Fig. 3.5A se reconocen inmediatamente como la misma forma esencial,
independientemente de la traslación, la rotación y la escala. Estas formas se distinguen
inmediatamente de las formas de la Fig. 3.5B, que están construidas con los mismos elementos
básicos. El reconocimiento también parece invariable a las distorsiones debidas a la perspectiva y a la
deformación elástica, como se ve en la Fig. 3.5C, y la forma estructural se reconoce incluso cuando se
construye con diferentes elementos de bajo nivel, como se muestra en la Fig. 3.5D. No sólo se
reconocen todas estas formas a pesar de estas diversas distorsiones, sino que percibimos la propia
distorsión con la misma claridad que la forma que distorsiona. Por ejemplo, para cada una de las
distorsiones elásticas o de perspectiva mostradas en la Fig. 3.5C, podemos predecir cómo afectaría
esa misma distorsión a la forma de un cubo o una pirámide a los que se aplicara. La invariancia en la
percepción es un principio general que se observa también en diferentes modalidades ‐por ejemplo,
en la percepción del color y el brillo, donde el color de un objeto se juzga generalmente
independiente del color de la luz que incide sobre él. La nieve se percibe como blanca incluso cuando
se ve al atardecer, ya que el lado orientado al sol es sensiblemente amarillo o naranja, mientras que el
lado alejado del sol es realmente azul por la iluminación difusa del cielo. A los artistas les cuesta
mucho aprender a representar estos colores fotográficamente tal y como aparecen en el estímulo
visual, a diferencia de cómo aparecen perceptualmente, que es como los pintan más a menudo los
niños y los aficionados, que tienden a pintar la nieve de blanco. La invariancia también se observa en
otras modalidades sensoriales. En la modalidad auditiva, las melodías se reconocen
independientemente del tono absoluto de la música que las lleva, y las palabras se reconocen
independientemente de las voces que las forman.

A. La forma estructural básica de un objeto simple se reconoce inmediatamente independientemente de la rotación, la


traslación y la escala, como se ve en este ejemplo que se distingue fácilmente de...
B. formas similares compuestas por diferentes configuraciones de los mismos elementos básicos.

C. El reconocimiento también se produce con independencia de la perspectiva o de las deformaciones elásticas, y...

D. con independencia de las características de los bordes o elementos de textura de bajo nivel de los que se compone el
estímulo.

Fig. 3.5

La sencillez preatencional con la que se manejan estas invariancias en el reconocimiento visual sugiere
que la invariancia es fundamental para la representación visual. Sin embargo, es difícil imaginar cómo
puede lograrse computacionalmente esa invariancia en un sistema de reconocimiento, salvo
proporcionando detectores sensibles a todas las variaciones posibles del estímulo y conectándolos
todos a un único nodo de respuesta de reconocimiento. Este enfoque conduce a una explosión
combinatoria en el número de detectores necesarios. Por ejemplo, un detector visual ajustado para
responder a un carácter concreto, como la letra "E", puede definirse como una plantilla con la forma
de la letra "E" que se escanea electrónicamente por toda la escena visual buscando su característica
"E" en cada ubicación espacial. Para que la respuesta sea invariante a la rotación y a la escala, el
detector tendría que ser escaneado en todas las orientaciones posibles y en una serie de escalas
espaciales. Pero el escaneo tendría que tener en cuenta no sólo cada una de estas variaciones
individuales, sino también cada combinación de esas variaciones, por ejemplo, para reconocer una
letra que está girada y trasladada y escalada en cierto grado. El problema se vuelve rápidamente
intratable incluso para un número relativamente pequeño de variaciones de características. Además,
la reificación perceptiva observada en la Fig. 3.3 sugiere que la forma reconocida se reifica en el
contexto de la entrada parcial que le da origen, de una manera que es difícil de explicar en términos
de neurofisiología convencional. Se han propuesto teorías de reconocimiento basadas en rasgos, en
las que primero se detectan los elementos locales y luego la configuración de esos elementos da
lugar al reconocimiento de la forma global. El problema de este enfoque puede verse en la Fig. 3.5D,
en la que se reconoce la misma estructura aunque esté compuesta por diferentes rasgos elementales.
La invariancia en la percepción y el reconocimiento es uno de los enigmas más profundos de la visión
natural, y no es posible realizar ningún progreso real en la comprensión del procesamiento visual sin
tener en cuenta la invariancia como una propiedad fundamental del sistema.

Anclaje Cerebral
El examen fenomenológico del mundo visual muestra que éste gira en relación con nuestra cabeza
percibida a medida que nuestra cabeza gira en relación con el mundo. Además, los objetos del
mundo percibido se mueven de forma coherente con respecto al fondo, manteniendo su integridad
perceptiva como objetos discretos, incluso cuando desaparecen momentáneamente detrás de objetos
ocluidos en primer plano. Si asumimos que la percepción estructural del mundo está representada
por un patrón espacial de activación de algún tipo en el tejido del cerebro, esto sugiere que la
representación interna de los objetos y superficies externas no está anclada al tejido del cerebro,
como sugieren los conceptos actuales de representación neural, sino que es libre de rotar
coherentemente en relación con el sustrato neural, como sugiere la teoría de campo de Kohler ﴾Kohler
y Held, 1947﴿. En otras palabras, la imagen perceptiva del mundo puede moverse en relación con el
sustrato de representación, y los patrones discretos de la estructura perceptiva pueden moverse en
relación con ese fondo manteniendo su integridad perceptiva y su identidad reconocida, como las
palabras que se desplazan por la serie de bombillas de una marquesina de cine antigua.

Esta cuestión del anclaje del cerebro es tan problemática que a menudo se cita como argumento en
contra de la representación isomórfica, porque es difícil concebir que la sólida percepción espacial del
mundo circundante tenga que reconstruirse de nuevo con toda su riqueza de detalles espaciales con
cada giro de la cabeza o parpadeo de los ojos. Sin embargo, el hecho de que esta reconstrucción se
produzca puede verificarse fenomenológicamente, siempre que reconozcamos la verdad del realismo
indirecto. Por tanto, también esta propiedad debe expresarse en los modelos de representación
visual.

Percepción Amodal
Hay otro aspecto de la percepción cuya importancia fue reconocida por la teoría de la Gestalt pero
que recibe poca mención en la literatura contemporánea. Se trata del fenómeno de la percepción
amodal ﴾Michotte, Thines y Crabbe, 1991﴿, o la percepción de la estructura espacial que no está
asociada a ninguna modalidad sensorial en particular. Por ejemplo, un libro que está sobre una mesa
se percibe como si estuviera sobre un tablero completo cuya superficie es continua bajo el libro y
cuyo color y textura superficial se experimentan perceptualmente como continuos bajo el libro,
aunque no haya ningún estímulo sensorial correspondiente a la parte ocluida de esa superficie. Las
caras traseras ocultas de los objetos también se perciben de forma amodal, como observaron Gibson
﴾Reed, 1988﴿ y los gestaltistas ﴾Kanizsa 1979; Arnheim, 1969a, p. 86﴿. Por ejemplo, una esfera no se
percibe como el hemisferio que presenta su superficie visible, sino que se experimenta como una
esfera completa, aunque el perceptor sea consciente de que la superficie posterior está oculta a la
vista. Del mismo modo, un objeto parcialmente ocluido por un objeto en primer plano se percibe
como completo detrás del oclusor. Estos fenómenos indican que es posible percibir la estructura
espacial en ausencia de estimulación física.

Una de las razones por las que la percepción amodal se ha pasado por alto tan fácilmente es que la
naturaleza de la percepción amodal es tan insensible e insustancial que es probable que se confunda
con una abstracción puramente cognitiva. De hecho, en el capítulo 9 sostengo que el concepto
amodal es intermedio entre la percepción y la cognición, teniendo la definición espacial claramente
definida de la primera y el carácter insensible de la segunda. La definición espacial del concepto
amodal puede ser revelada por un proceso que llamo morfomímesis. Si uno se coloca delante de un
pilar, es posible indicar con la palma de la mano la ubicación y orientación aproximadas de la
superficie trasera oculta del pilar en diferentes puntos de muestra con un barrido de las palmas,
incluso para un pilar artificial construido como una fachada hueca, con una cara frontal curva pero sin
cara trasera. La capacidad de realizar este tipo de mímica manual confirma la existencia de una
representación espacial de alta resolución y totalmente reificada de la forma del pilar en su cerebro,
que codifica la misma información que una réplica espacial completa, o modelo interno del pilar,
incluidas sus superficies traseras ocultas.

Percepción Fuera del Campo Visual


La experiencia de la percepción sugiere que el espacio visual incluye una percepción del mundo fuera
del campo visual, incluido el mundo detrás de la cabeza. En otras palabras, la cabeza se trata como un
oclusor del mundo detrás de la cabeza, y la percepción final es de un espacio esférico que rodea al
cuerpo, del que sólo una parte corresponde al campo visual. Las partes del mundo visual que se
encuentran actualmente fuera del campo visual se experimentan de forma amodal, es decir, en
ausencia de una impresión vívida de color y detalle visual. Sin embargo, el mundo detrás de la cabeza
se experimenta como una estructura espacial, como puede demostrarse con un paso hacia atrás. Un
paso ﴾ya sea hacia delante o hacia atrás﴿ requiere un conocimiento preciso de la altura y la orientación
del suelo en el punto de contacto. Esto se pone de manifiesto cada vez que un paso encuentra un
cambio inesperado en la altura u orientación de la superficie, incluso de tan sólo uno o dos
centímetros, lo que inevitablemente provoca un tropiezo. Por lo tanto, un paso hacia atrás sin un
tropiezo es como una morfomímesis de pisada, en el sentido de que indica que el pisador tiene
conocimiento de estos parámetros dentro de una o dos pulgadas. Tanto Gibson ﴾Reed 1988﴿ como los
gestaltistas ﴾Kanizsa, 1979; Tampieri, 1956; Atmeave y Farrar, 1977; Arnheim, 1969a, p. 86﴿ apreciaron
plenamente la importancia de este aspecto de la percepción amodal.

Dar Sentido a los Fenómenos Gestálticos


No es de extrañar que, ante este formidable conjunto de propiedades tan enigmáticas, las teorías de
la visión se hayan limitado generalmente a modelos simplistas de aspectos aislados del problema de
forma fragmentaria. Sin embargo, esto no justifica en absoluto el hecho de que las propiedades
gestálticas de la percepción, descubiertas e identificadas hace casi un siglo, sean tan poco discutidas
en la literatura contemporánea. El hecho de que no hayamos encontrado una explicación
neurofisiológica para los fenómenos de la Gestalt no sugiere que no exista tal explicación, sino que
debemos estar buscándola en los lugares equivocados. La naturaleza enigmática de los fenómenos de
la Gestalt pone de manifiesto la importancia de la búsqueda de un mecanismo computacional que
presente estas mismas propiedades. De hecho, cualquier modelo que falle al abordar los fenómenos
Gestalt de la percepción es peor que no tener ningún modelo, ya que es una desviación de los
verdaderos problemas de la percepción.

El enfoque analítico habitual de dividir un problema complejo en piezas más simples sólo es válido
cuando esas piezas son funcionalmente independientes. Un modelo de un sistema emergente debe
tener en cuenta la naturaleza global del proceso y debe modelar todos los componentes relevantes
que contribuyen al estado emergente. En el caso de la percepción visual, se trata de una empresa
formidable, ya que los diversos aspectos gestálticos de la percepción, la emergencia, la reificación, la
multiestabilidad, la invariancia, el anclaje cerebral, la percepción amodal, etc., no son módulos
separables que deban modelarse individualmente, sino que son diferentes aspectos de un único
mecanismo dinámico unificado. No hay ninguna evidencia en el comportamiento de una célula
neuronal aislada que dé alguna pista sobre cómo se consiguen estas propiedades globales. Entonces,
¿cómo vamos a empezar a modelar estas propiedades en ausencia de un paradigma computacional
viable que proporcione los bloques de construcción de un modelo de procesamiento visual?

Aquí es donde el enfoque de modelación de la percepción puede ser valioso. Incluso en ausencia de
un mecanismo computacional, es posible proporcionar un modelo perceptual cuantitativo que
describa las propiedades dinámicas de la percepción tal y como se observa fenomenalmente. Se trata
de una solución provisional, ya que en última instancia también habrá que identificar el mecanismo
neurofisiológico. Sin embargo, el modelo perceptual sirve para limitar la búsqueda de un mecanismo
neural que presente esas mismas propiedades. La belleza del enfoque de la modelación de la
percepción es que incluso en ausencia de un mecanismo neurofisiológico especifico con las
propiedades requeridas, un modelo perceptual puede ser diseñado con cualquier propiedad que se
requiera para dar cuenta de los fenómenos observados, sin tener en cuenta la plausibilidad
neurofisiológica o la eficiencia computacional, solo la precisión de la percepción.

Por ejemplo, la emergencia y la reificación espacial pueden incorporarse en el modelo perceptual


especificando que la superficie tridimensional y el volumen del percepto emergen en el colector
perceptual por la acción colectiva de innumerables fuerzas locales de forma análoga a la formación
de la superficie de una burbuja, y esas fuerzas locales pueden describirse con respecto a sus efectos
en la representación perceptual tal como se observa fenomenalmente, en contraposición a su
instanciación física en el cerebro. Este concepto se desarrolla en el siguiente capítulo. La
multiestabilidad se relaciona así con la emergencia, porque también sugiere un proceso dinámico que
procede al equilibrio, pero con la condición de que no tiene por qué haber un solo estado de
equilibrio, sino que puede haber muchos, y las inversiones espontáneas observadas en el cubo de
Necker sugieren algún tipo de habituación o proceso dinámico de agotamiento y recuperación, que
desestabiliza cualquier estado perceptivo que haya estado activo durante demasiado tiempo.

Para dar cuenta de la percepción amodal, debe definirse otro estado en el colector perceptual para
representar volúmenes de materia sólida en ausencia de una sensación visual. Así, la percepción de
una esfera se representaría como una cara frontal hemisférica visible, y esta percepción estimularía a
su vez la aparición de un volumen esférico invisible en el colector perceptual correspondiente a la
percepción amodal de la esfera completa. Del mismo modo, un cilindro como un pilar se percibe
como completo a pesar de que sólo es visible su superficie frontal. Por tanto, la estructura amodal
representa el objeto como un todo en un formato que es independiente de cualquier modalidad
sensorial concreta. Esto permite que una variedad de estímulos sensoriales contribuya a una única
percepción espacial, como demostró Galli ﴾1932﴿, quien demostró que un estímulo de movimiento
estroboscópico compuesto por diferentes modalidades sensoriales, como la luz y el sonido, o la luz y
el contacto, se percibe como un único objeto en movimiento.

La cuestión del anclaje cerebral, tan problemática en un modelo de red neuronal, se aborda en el
modelo perceptual afirmando que el patrón espacial de la percepción volumétrica no está anclado a
la matriz perceptiva, sino que puede girar y trasladarse libremente dentro de ella. Por ejemplo,
cuando giramos la cabeza, la experiencia subjetiva sugiere que la imagen del mundo en la
representación perceptiva gira libremente con respecto al sustrato representacional, de modo que la
imagen del mundo en el espacio perceptivo permanece bloqueada en las coordenadas del mundo
externo incluso cuando la sustancia del cerebro gira a su alrededor, del mismo modo que la imagen
en la matriz de fotosensores de una cámara de vídeo permanece orientada al mundo fuera de la
cámara cuando ésta se desplaza por una escena. Cualquiera que sea la realidad neurofisiológica que
hay detrás de esta actuación, éstas son las propiedades de la experiencia de la percepción y, por
tanto, deben quedar reflejadas en el modelo perceptual.

La propiedad de invariancia también puede expresarse en el modelo perceptual. Por ejemplo, la


invariancia de la rotación puede cuantificarse proponiendo que la estructura espacial de un objeto
percibido y su orientación se codifiquen como variables separables. Esto permitiría que la
representación estructural se actualizara progresivamente a partir de vistas sucesivas de un objeto
que está rotando a través de un rango de orientaciones. Sin embargo, la propiedad de invariancia de
la rotación no significa que la forma codificada no tenga una orientación definida, sino que la forma
percibida se presenta a la conciencia con la orientación y la velocidad de rotación que se percibe
actualmente que posee el objeto externo. En otras palabras, cuando se ve un objeto que gira, como
una persona que da una voltereta, o una patinadora que gira sobre su eje vertical, cada parte de ese
estímulo visual se utiliza para actualizar la parte correspondiente de la percepción interna, incluso
cuando esa percepción gira dentro del colector perceptivo para permanecer en sincronía con la
rotación del objeto externo. Así, por ejemplo, las características del cuerpo de la patinadora se
construyen a partir de las vistas de cara completa, media cara y perfil que se observan mientras la
patinadora gira, y esas características siguen percibiéndose de forma amodal cuando la patinadora
gira alejándose del espectador, y se espera que vuelvan a aparecer con las mismas características
cuando la patinadora completa su giro. La propiedad de invariancia de traslación puede cuantificarse
de forma similar en la representación, proponiendo que la representación estructural puede
actualizarse a partir de un estímulo que se traslada a través de la superficie sensorial, para actualizar
una efigie perceptiva que se traduce con respecto al colector representacional. Esta propiedad es
necesaria para explicar la constancia estructural del mundo percibido a medida que se desplaza por
delante de un perceptor que camina a través de una escena, con cada elemento de esa escena
siguiendo las líneas de perspectiva curvas sugeridas en la Fig. 2.1, expandiéndose hacia fuera desde
un punto por delante, y colapsando de nuevo a un punto por detrás, como se vería en una
representación cinematográfica de dibujos animados de esa figura. Sin embargo, el reconocimiento
de la forma característica de un objeto permanece constante a través de estos giros de su imagen
perceptiva. Esta propiedad de invariancia también puede expresarse en un modelo perceptual, como
se describe en el capítulo 6.

La invariancia fundamental de dicha representación ofrece una explicación para otra propiedad de la
percepción visual, a saber, el modo en que se observa que las impresiones individuales dejadas por
cada sacadde* visual aparecen fenomenalmente en el lugar apropiado dentro del marco global del
espacio visual dependiendo de la dirección de la mirada. Por ejemplo, cuando miramos hacia arriba, la
imagen retiniana se utiliza para actualizar nuestra percepción del cielo, mientras que cuando miramos
hacia abajo, esa misma imagen actualiza nuestra percepción del suelo. Esta propiedad puede
cuantificarse en el modelo perceptual proponiendo que la imagen sensorial de la retina se proyecte
en el colector perceptual en una dirección que tenga en cuenta la dirección actual de la mirada. La
percepción del entorno circundante sirve, por tanto, como una especie de memoria intermedia
tridimensional expresada en coordenadas globales, que acumula la información recogida en sucesivas
sacadas visuales y mantiene una imagen de ese entorno externo en la orientación adecuada en
relación con un modelo espacial del cuerpo, compensando las rotaciones o traslaciones del cuerpo a
través del mundo. Las partes del entorno que no han sido actualizadas recientemente se desvanecen
gradualmente de la memoria perceptiva, razón por la cual es fácil darse un golpe en la cabeza
después de agacharse durante algún tiempo bajo una estantería colgante, o por qué es posible
avanzar con seguridad sólo unos pocos pasos después de cerrar los ojos al caminar.

*saccade: Pequeños movimientos bruscos y rápidos de ambos ojos.

Consideraciones de Factibilidad
Los estudios neurofisiológicos del córtex que utilizan registros unicelulares podrían parecer
inconsistentes con la representación no anclada sugerida por la fenomenología. Sin embargo, se
puede argumentar a favor del valor adaptativo de una representación neural del mundo externo que
podría liberarse del tejido del sustrato sensorial o cortical para fijarse en las coordenadas más
significativas del mundo externo, si se pudiera concebir un mecanismo plausible para lograr esta útil
propiedad. La cuestión es, por tanto, si tenemos suficientes conocimientos sobre la teoría de los
sistemas de procesamiento de la información como para emitir un juicio sobre la factibilidad de una
representación de la estructura espacial invariable por la rotación. La historia de la psicología está
repleta de ejemplos de argumentos de verosimilitud basados en la limitada tecnología de la época
que fueron posteriormente invalidados por la aparición de nuevas tecnologías. Los extraordinarios
logros de la tecnología moderna, especialmente en el campo de los sistemas de procesamiento de
información, podrían parecer justificar nuestra confianza para juzgar la factibilidad de los algoritmos
de procesamiento propuestos. Sin embargo, a pesar de las notables capacidades de las computadoras
modernas, sigue habiendo ciertas clases de problemas que parecen estar fundamentalmente más allá
de la capacidad de la computadora digital. De hecho, los mismos problemas que resultan más difíciles
de abordar para la computadora, como la extracción de la estructura espacial de una escena visual,
especialmente en presencia de sombras adheridas, sombras proyectadas, reflejos especulares,
oclusiones y distorsiones de la perspectiva, así como los problemas de navegación en un entorno
natural, definido por formas irregulares y fragmentadas, etc., son problemas que manejan
rutinariamente los sistemas de visión biológicos, incluso los de animales más simples. Por otro lado,
los problemas que resuelven fácilmente las computadoras, como la recuperación perfecta de grandes
cantidades de datos sin sentido, la memoria perfecta durante períodos indefinidos, la detección de la
más mínima variación en datos idénticos y la repetición exacta de los cálculos más complejos, son
problemas extraordinariamente difíciles para la inteligencia biológica, incluso la de los animales más
complejos.

Por lo tanto, es seguro concluir que los principios computacionales de la visión biológica son
fundamentalmente diferentes de los de la computación digital. Por lo tanto, los argumentos de
factibilidad basados en los conceptos contemporáneos de lo que es computable no son aplicables a
la visión biológica. De hecho, este es el argumento más fuerte para un enfoque de modelación de la
percepción con el fin de cuantificar las propiedades computacionales de la transformación perceptual
sin estar sesgados por nuestras nociones preconcebidas de factibilidad computacional basadas en
una tecnología informática que es fundamentalmente diferente a la computación biológica.

Steven Lehar: Doctorado ﴾1994﴿ Sistemas cognitivos y neuronales Becario de investigación en oftalmología, Universidad de
Harvard Posdoctorado en el Instituto de Investigación Ocular Schepens. Ex profesor de psicología cognitiva en el Salem
State College. Soy un investigador independiente con una novedosa teoría de la mente y el cerebro, inspirada en las
propiedades observadas de la percepción. Estas observaciones se ven confirmadas por algunas anomalías peculiares en la
perspectiva fenoménica. Las implicaciones de estas observaciones son que los supuestos fundacionales de la neurociencia
están fundamentalmente equivocados, y que habrá que formular un paradigma alternativo de neurocomputación para dar
cuenta de las propiedades de la conciencia y la percepción.

Made with Bear ʕ•ᴥ•ʔ

También podría gustarte