Está en la página 1de 418

Juicio bajo incertidumbre:

Heurísticas y prejuicios
Editado por

Daniel Kahneman
Universidad de British Columbia

Paul Slovic
Investigación sobre Decisión
Una Rama de Perceptronics, Inc.
Eugene, Oregon

Amos Tversky
Universidad de Stanford

Cambridge University Press

Cambridge
New York New Rochelle Melbourne
Sydney
2

Publicado por el Sindicato de Prensa de la Universidad de Cambridge


The Pitt Building, Trumpington Street, Cambridge CB2 1RP
32 East 57th Street, New York, NY 10022, USA
10 Stamford Road, Oakleigh, Melbourne 3166, Australia

© Cambridge University Press 1982

Primera Publicación 1982


Reimpreso 1982, 1983 (dos veces), 1984, 1985 (2 veces), 1986, 1987

Impreso en los Estados Unidos de América

Catalogación de la Biblioteca del Congreso en Datos de Publicación


Entrada principal bajo el título:

Juicio bajo incertidumbre

Bibliografía: p.

Incluye índice.

1. Juicio. I. Kahneman, Daniel, 1934-


II. Slovic, Paul, 1938 -II.Tversky, Amos.
BF441.J8 153.4’6 81-10042
ISBN 0 521 24064 6 pastas duras AACR2
ISBN 0 521 28414 7 edición en rústica
3

Contenido

Lista de contribuyentes página 6


Prefacio 7

Parte I: Introducción
1 Juicio bajo incertidumbre: Heurísticas y prejuicios 9
Amos Tversky y Daniel Kahneman

Parte II: Representatividad


2 Creencia en la ley de los números pequeños 24
Amos Tversky y Daniel Kahneman
3 Probabilidad subjetiva: Un juicio de representatividad 32
Daniel Kahneman y Amos Tversky
4 Sobre la psicología de la predicción 43
Daniel Kahneman y Amos Tversky
5 Estudios de representatividad 59
Maya Bar-Hillel
6 Juicios de y por representatividad 71
Amos Tversky y Daniel Kahneman

Parte III: Casualidad y atribución


7 Inducción popular: La información no es necesariamente informativa 84
Richard E. Nisbett, Eugene Borgida, Rick Crandall y Harvey Reed
8 Esquemas causales en juicios bajo incertidumbre 97
Amos Tversky y Daniel Kahneman
9 Defectos en el proceso de atribución: Sobre los orígenes y mantenimiento 107
de evaluaciones sociales erróneas
10 Impacto probatorio de valoraciones base 124
Amos Tversky y Daniel Kahneman

Parte IV: Disponibilidad


11 Disponibilidad: Una heurística para juzgar la frecuencia y la probabilidad 132
Amos Tversky y Daniel Kahneman
12 Tendencias egocéntricas en la disponibilidad y la atribución 143
Michael Ross y Fiore Sicoly
13 La disponibilidad de prejuicios en la percepción social y la interacción 153
Shelley E. Taylor
14 La simulación heurística 163
Daniel Kahneman y Amos Trvesky

Parte V: Co-variación y control


15 Evaluación informal de la co-variación: Juicios basados en datos versus 171
juicios basados en teoría
Dennis L. Jennings, Teresa M. Amabile y Lee Ross
4

16 La ilusión del control 187


Ellen J. Langer
17 Los resultados de las pruebas son lo que usted piensa que son 194
Loren J. Chapman y Jean Chapman
18 Razonamiento probabilístico en la medicina clínica: Problemas y 203
oportunidades
David M. Eddy
19 Aprendizaje desde la experiencia y de las reglas sub-óptimas en la
toma de decisiones 219
Hillel J. Einhorn

Parte VI: Exceso de confianza


20 Sobre-confianza en juicios de estudio de casos 232
Stuart Oskamp
21 Un Reporte de progreso sobre el entrenamiento de asesores de
probabilidad 238
Marc Alpert y Howard Raiffa
22 Calibración de probabilidades: El estado del arte hasta 1980 249
Sarah Lichtenstein, Baruch Fischhoff y Lawrence D. Phillips
23 Para aquellos condenados a estudiar el pasado: Heurísticas y prejuicios
en retrospectiva 271
Baruch Fischhoff

Parte VII: Evaluación multi-etapas


24 Evaluación de probabilidades compuestas en escogencia secuencial 286
John Cohen, E. I. Chesnick y D. Haran
25 Conservatismo en el procesamiento de la información humana 290
Ward Edwards
26 La hipótesis de la mejor adivinanza en la inferencia multi-etapas 398
Charles F. Gettys, Clinton Kelly III y Cameron R. Peterson
27 Inferencias de características personales sobre la base de información
recuperada de la memoria de uno 305
Yaacov Trope

Parte VIII: Procedimientos correctivos


28 La robusta belleza de los modelos lineales impropios en la toma de
decisiones 314
Robyn M. Dawes
29 La vitalidad de los números místicos 328
Max Singer
30 Predicción intuitiva: Prejuicios y procedimientos correctivos 333
Daniel Kahneman y Amos Tversky
31 Desprejuiciar 340
Baruch Fischhoff
32 Mejorando la inferencia inductiva 359
Richard E. Nisbett, David H. Krantz, Christopher Jepson Y Geoffrey T. Fong
5

Parte IX: Percepción de riesgo


33 Hechos versus miedos: Entendiendo el riesgo percibido 373
Paul Slovic, Baruch Fischhoff y Sara Lichtenstein

Parte X: Actualización
34 Sobre el estudio de las intuiciones estadísticas 394
Daniel Kahneman y Amos Tversky
35 Variantes de la incertidumbre 407
Daniel Kahneman y Amos Tversky

Referencias

Índice
6

Contribuyentes
*Marc Alpert Escuela de Graduados en Administración de Empresas, Harvard University
Teresa M. Amabile Departamento de Psicología, Brandeis University
Craig A. Andesrson Departamento de Psicología, Stanford University
Maya Bar-Hillel Departamento de Psicología, The Hebrew University, Jerusalem
Eugene Borgida Departamento de Psicología, University of Minnesota
Jean Chapman Departamento de Psicología, University of Wisconsin
Loren J. Chapman Departamento de Psicología, University of Wisconsin
*E. I. Chesnick Departamento de Psicología, University of Manchester, England
John Cohen Departamento de Psicología, University of Manchester, England
Rick Crandall University of Illinois, Champaign-Urbana
Robyn M. Dawes Departamento de Psicología, University of Oregon
Damid M. Eddy Centro para el Estudio de la Salud y Política Clínica, Duke University
Ward Edwards Instituto de Investigación de la Ciencia Social, University of Southern California
Hillel J. Einhorn Centro de Investigación de la Decisión, University of Chicago
Baruch Fischhoff Investigación sobre la Decisión, Una rama de Perceptronics, Inc. Eugene Oregon
Geoffrey T. Fong Instituto para la Investigación Social, University of Michigan
Charles F Gettys Departamento de Psicología, University of Oklahoma
*D. Haran Departamento de Psicología, University of Manchester, England
Dennis L. Jennings Departamento de Psicología, New York University
Christopher Jepson Instituto para la Investigación Social, University of Michigan
Daniel Kahneman Departamento de Psicología, University of British Columbia
Clinton Kelly III Agencia para Investigación de Proyectos Avanzados, Arlington, Virginia
David H. Krantz Laboratorios Bell, Murray Hill, New Jersey
Ellen J. Langer Departamento de Psicología, Harvard University
Sarah Lichtenstein Investigación sobre la Decisión, Una Rama de Perceptronics, Inc., Eugene,
Oregon
Richard E. Nisbett Instituto para la Investigación Social, University of Michigan
Stuart Oskamp Departamento de Psicología, Claremont Graduate School
Cameron R. Peterson Decisiones y Diseños, Inc., McLean, Virginia
Lawrence D. Phillips Unidad de Análisis de la Decisión, Brunel University
Howard Raiffa Escuela de Graduados en Administración de Empresas, Harvard University
Harvey Reed Departamento de Psicología, University of Michigan at Dearborn
Lee Ross Departamento de Psicología, Stanford University
Michael Ross Departamento de Psicología, University of Waterloo, Ontario
Fiore Sicoly Departamento de Psicología, University of Waterloo, Ontario
Max Singer Instituto Hudson, Arlington, Virginia
Paul Slovic Investigación sobre la Decisión, Una Rama de Perceptronics, Inc., Eugene, Oregon
Shelley E. Taylor Departamento de Psicología, University of California, Los Angeles
Yaacov Trope Departamento de Psicología, The Hebrew University, Jerusalem
Amos Tversky Departamento de Psicología, Stanford University

* El asterisco indica afiliación cuando el artículo fue originalmente publicado.


7

Prefacio
La aproximación al estudio del juicio que este libro representa tuvo sus orígenes en tres
líneas de investigación que se desarrollaron en los años 1950’s y 1960’s: la comparación de
la predicción clínica y estadística, iniciada por Paul Meehl; el estudio de la probabilidad
subjetiva en el paradigma Bayesiano, introducido a la psicología por Ward Edwards; y la
investigación de heurísticas y estrategias de razonamiento, por las cuales Herbert Simon
ofreció un programa y Jerome Bruner un ejemplo. Nuestra colección también representa la
reciente convergencia del estudio del juicio con otro ramal de la investigación psicológica: el
estudio de la atribución causal y cubre la interpretación psicológica, promovida por Fritz
Heider.
El libro clásico de Meehl, publicado en 1954, resumió la evidencia para la conclusión que
las combinaciones lineales simples de normas aventajan a los juicios intuitivos de expertos
en predecir criterios significantes de conducta. El duradero legado intelectual de este trabajo,
y la furiosa controversia que lo siguió, fue probablemente no la demostración de clínicos
ejecutada pobremente en tareas que, como Meehl anotó, ellos no debían haber emprendido.
Más bien, fue la demostración de una sustancial discrepancia entre el record objetivo del
éxito de la gente en la predicción de tareas y las sinceras creencias de estas gentes sobre la
calidad de sus realizaciones. Esta conclusión no fue restringida a clínicos ó a la predicción de
los clínicos: Las impresiones de la gente de cómo ellos razonan, y de cuán bien ellos razonan,
no podría ser tomado como creer algo a pie juntillas. Talvez porque los estudiantes de juicio
clínico se usaron ellos mismos y a sus amigos como sujetos, la interpretación de errores y
prejuicios tendieron a ser cognitivos, más que psico-dinámicos: Ilusiones no desiluciones
fueron el modelo.
Con la introducción de las ideas Bayesianas dentro de la investigación psicológica por
Edwards y sus asociados, a los psicólogos se les ofreció por primera vez un completo modelo
articulado de ejecución óptima bajo la incertidumbre, con el cual los juicios humanos podrían
ser comparados. La equiparación de los juicios humanos a modelos normativos llegó a
convertirse en uno de los mayores paradigmas de la investigación sobre juicios bajo
incertidumbre. Inevitablemente, ello condujo a inquietudes con los prejuicios para los cuales
las inferencias inductivas son propensas y los métodos que podrían ser usados para
corregirlos. Sin embargo, mucho del trabajo temprano utilizó el modelo normativo para
explicar el comportamiento humano e introdujo procesos separados para explicar
alejamientos de la optimización. En contraste, la investigación sobre heurística del juicio
busca explicar ambos correcto y erróneo en términos de los mismos procesos psicológicos.
La emergencia del nuevo paradigma de la psicología cognitiva tuvo una profunda
influencia en la investigación del juicio. La psicología cognitiva está relacionada con
procesos internos, limitaciones mentales y la manera en la cual los procesos están formados
por las limitaciones. Ejemplos tempranos de trabajo conceptual y empírico en esta
disposición fueron el estudio de estrategias de pensamiento por Bruner y sus asociados y el
tratamiento de Simon de la heurística del razonamiento con estrategias de simplificación que
reducen la complejidad de las tareas de juicio, para hacerlas manejables para la clase de
mente que la gente suele tener. Mucho del trabajo que hemos incluido en este libro fue
motivado por las mismas inquietudes.
En años recientes, un gran cuerpo de investigación ha sido dedicado a desvelar la
heurística del juicio y a explorar sus efectos. El presente volumen provee una comprensible
muestra de esta aproximación. El ensambla nuevas revisiones, escritas especialmente para
esta colección y artículos previamente publicados sobre el juicio y la inferencia. Aunque la
frontera entre el juicio y la toma de decisión no está siempre clara, nos hemos enfocado aquí
8

sobre el juicio más que sobre la escogencia. El tópico de la toma de decisión es lo


suficientemente importante para ser el sujeto de un volumen separado.
Este libro está organizado en diez partes. La primera parte contiene una temprana
revisión de la heurística y los prejuicios de juicios intuitivos. La parte II trata específicamente
con la representatividad heurística, la cual es extendida, en la parte III, a problemas de
atribución causal. La parte IV describe la disponibilidad heurística y su papel en el juicio
social. La parte V cubre la percepción y aprendizaje de la co-variación e ilustra la presencia
de correlaciones ilusorias en los juicios de gente lega y expertos. La parte Vi discute la
calibración de los asesores de la probabilidad y documentos del prevaleciente fenómeno de la
sobre confianza en la predicción y la explicación. Prejuicios asociados con inferencia
multietapas son cubiertos en la parte VII. La parte VIII revisa procedimientos formales e
informales para corregir y mejorar los juicios intuitivos. La parte IX resume el trabajo sobre
los efectos prejuicios del juicio en un área específica del asunto, la percepción de riesgo. La
parte final incluye algunos pensamientos corrientes sobre varios asuntos conceptuales y
metodológicos que pertenecen al estudio de la heurística y los prejuicios.
Por conveniencia, todas las referencias están ensambladas en una lista simple al final del
libro. Los números en negritas se refieren al material incluido en el libro, identificando el
capítulo en el cual el material aparece. Hemos utilizado elipses (. . .) para indicar dónde
hemos eliminado material de artículos previamente publicados.
Nuestro trabajo en preparar este libro fue soportado por Office of Naval Research Grant
N00014-79-C-0077 de la Universidad de Stanford y por Office Naval Research Contract
N0014-80-C-0150 de la Investigación de la Decisión.
Deseamos agradecer a Peggy Roecker, Nancy Collins, Gerry Hanson y Don MacGregor
por su ayuda en la preparación de este libro.

Daniel Kahneman
Paul Slovic
Amos Tversky
9

Parte I
Introducción

1. Juicio bajo incertidumbre:


Heurística y Prejuicios

Amos Tversky y Daniel Kahneman

Muchas decisiones están basadas sobre creencias concernientes a la probabilidad de


eventos inciertos tales como el resultado de una elección, la culpabilidad de un acusado ó el
futuro valor del dólar. Estas creencias están usualmente expresadas en declaraciones tales
como “Yo pienso que . . .,” “riesgos hay . . .,” “es improbable que . . .,” etc...
Ocasionalmente, las creencias concernientes a eventos inciertos están expresadas en forma
numérica como diferencias ó probabilidades subjetivas. Qué determina tales creencias?
Cómo la gente fija la probabilidad de un evento incierto ó el valor de una cantidad incierta?
Este artículo muestra que la gente descansa sobre un limitado número de principios
heurísticos lo cual reduce las complejas tareas de fijar probabilidades y predecir valores para
operaciones de juicio más simples. En general, estas heurísticas son muy útiles, pero algunas
veces ellas conducen a severos y sistemáticos errores.
La fijación subjetiva de la probabilidad se asemeja a la fijación subjetiva de las
cantidades físicas tales como una distancia o tamaño. Estos juicios están todos basados en
datos de limitada validez, los cuales son procesados de acuerdo a reglas heurísticas. Por
ejemplo, la distancia aparente de un objeto está determinada en parte por su claridad.
Mientras más claramente es visto el objeto, más cerca aparenta estar. Esta regla tiene alguna
validez, porque en cualquier escena dada mientras más distantes los objetos, son vistos
menos claramente que los objetos más cercanos. Sin embargo, la confianza en ésta regla
conduce a sistemáticos errores en la estimación de la distancia. Específicamente, las
distancias son a menudo sobreestimadas cuando la visibilidad es pobre porque los contornos
de los objetos están borrosos. Por otro lado, las distancias son a menudo subestimadas
cuando la visibilidad es buena porque los objetos son vistos claramente. Por lo tanto, la
confianza en la claridad como una indicación de distancia conduce a prejuicios comunes.
Tales prejuicios son también fundados en el juicio intuitivo de la probabilidad. Este artículo
describe tres heurísticas que son empleadas para fijar probabilidades y para predecir valores.
Prejuicios a los cuales éstas heurísticas conducen son enumeradas y las implicaciones
aplicadas y teóricas de éstas observaciones son discutidas.
10

Representatividad

Muchas de las interrogantes probabilísticas con las cuales la gente está relacionada
pertenece a uno de los siguientes tipos: Cuál es la probabilidad que el objeto A pertenezca a
la clase B? Cuál es la probabilidad que el evento A se origine del proceso B? Cuál es la
probabilidad que el proceso B generará el evento A? En responder tales interrogantes, la
gente típicamente se apoya en la representatividad heurística, en la cual las probabilidades
son evaluadas por el grado al cual A es representativo de B, ó sea, por el grado al cual A se
asemeja a B. Por ejemplo, cuando A es altamente representativo de B, la probabilidad que A
se origine de B se juzga alta. Por otro lado, si A no es similar a B, la probabilidad que A se
origine de B se juzga baja.
Para una ilustración de juicio por representatividad, considere un individuo quien ha sido
descrito por un anterior vecino como sigue: “Steve es muy tímido y retraído, invariablemente
útil, pero con poco interés en la gente, ó en el mundo de la realidad. Un alma mansa y limpia,
él tiene una necesidad por le orden y la estructura y una pasión por el detalle”. Cómo la gente
fija la probabilidad de que Steve está comprometido en una ocupación particular de una lista
de posibilidades (por ejemplo, finquero, vendedor, piloto de una aerolínea, bibliotecario ó
físico)? Cómo la gente ordena estas ocupaciones de más a menos probable? En la
representatividad heurística, la probabilidad de que Steve es un bibliotecario, por ejemplo, es
fijada por el grado del cual es representativo, ó similar al estereotipo de un bibliotecario.
Ciertamente, la investigación con problemas de este tipo ha mostrado que la gente ordena las
ocupaciones por probabilidad y por similaridad en exactamente la misma manera (Kahneman
& Tversky, 1973, 4). Esta aproximación al juicio de la probabilidad conduce a serios errores,
porque la similaridad ó representatividad no está influenciada por varios factores que
afectarían los juicios de la probabilidad.

Insensitividad a anterior probabilidad de resultados

Uno de los factores que no tiene efecto sobre la representatividad pero debería tener un
mayor efecto sobre la probabilidad es el antecedente de la probabilidad, ó frecuencia basada
en la proporción de los resultados. En el caso de Steve, por ejemplo, el hecho de que existen
muchos más finqueros que bibliotecarios en la población debería entrar dentro de cualquier
estimado razonable de la probabilidad que Steve es un bibliotecario más que un finquero.
Consideraciones de frecuencia basadas en la proporción, sin embargo, no afectan la
similaridad de Steve a los estereotipos de bibliotecarios y finqueros. Si la gente evalúa la
probabilidad por representatividad, por consiguiente, anteriores probabilidades serán
olvidadas. Estás hipótesis fueron ensayadas en un experimento donde las anteriores
probabilidades fueron manipuladas (Kahneman & Tversky, 1973, 4). A los sujetos se les
mostraron breves descripciones de la personalidad de varios individuos, supuestamente
muestreados al azar de un grupo de 100 profesionales – ingenieros y abogados. Los sujetos
fueron requeridos a fijar por cada descripción, la probabilidad de que ella perteneciera a un
ingeniero más que a un abogado. En una condición experimental, a los sujetos se les dijo que
el grupo del cual las descripciones fueron extraídas consistían de 70 ingenieros y 30
abogados. En otra condición, a los sujetos se les indicó que el grupo consistía de 30
ingenieros y 70 abogados. Las posibilidades que cualquier descripción particular pertenezca a
un ingeniero más que a un abogado deberían ser altas en la primera condición, donde existe
una mayoría de ingenieros, más que en la segunda condición, donde hay una mayoría de
abogados. Específicamente, puede ser mostrado por aplicación de la regla de Bayes que la
relación de estas posibilidades debería ser (7./.3)², ó 5.44, por cada descripción. En una clara
violación a la regla de Bayes, los sujetos en las dos condiciones produjeron esencialmente la
11

misma probabilidad de juicios. Aparentemente, los sujetos evaluaron la probabilidad de que


una descripción particular perteneciera a un ingeniero más que a la de un abogado por el
grado al cual esta descripción fue representativa de los dos estereotipos, con poca o ninguna
consideración por las anteriores probabilidades de las categorías.
Los sujetos usaron las anteriores probabilidades correctamente cuando ellos no tuvieron
otra información. En la ausencia de un bosquejo de la personalidad, ellos juzgaron la
probabilidad que un individuo desconocido es un ingeniero entre .7 y .3, respectivamente, en
las dos condiciones basadas en proporción. Sin embargo, las probabilidades anteriores fueron
efectivamente ignoradas cuando una descripción fue introducida, aún cuando ésta descripción
fue totalmente desinformativa. Las respuestas a la siguiente descripción ilustran éste
fenómeno.

Dick es un hombre de 30 años. Ël es casado sin hijos. Un hombre de alta habilidad y motivación, él
promete ser muy exitoso en su campo. Ël es muy agradable para sus colegas.

Esta descripción fue intentada para no transportar ninguna información relevante a la


interrogante de si Dick es un ingeniero ó un abogado. Consecuentemente, la probabilidad que
Dick es un ingeniero debería ser igual a la proporción de ingenieros en el grupo, como si
ninguna descripción ha sido dada. Los sujetos, sin embargo, juzgaron la probabilidad sea un
ingeniero en .5 sin importar si la proporción establecida de ingenieros en el grupo fue de .7
ó .3. Evidentemente, la gente responde diferentemente cuando no se ha dado evidencia y
cuando evidencia valiosa ha sido dada. Cuando no se ha dado evidencia específica, las
probabilidades anteriores son usadas apropiadamente; cuando se es dada evidencia valiosa,
las probabilidades anteriores son ignoradas (Kahneman & Tversky, 1973, 4).

Insensitividad al tamaño de la muestra

Para evaluar la probabilidad de obtener un particular resultado en una muestra sacada de


una población especificada, la gente típicamente aplica la representatividad heurística. Eso
es, que ellos fijan la probabilidad del resultado de una muestra, por ejemplo, que el promedio
de altura en una muestra al azar de diez hombres será 6 pies (180 centímetros), por la
similitud de este resultado al parámetro correspondiente (que es, la altura promedio en la
población de hombres). La similaridad de una muestra estadística al parámetro de una
población no depende del tamaño de la muestra. Consecuentemente, si las probabilidades son
fijadas por la representatividad, entonces la probabilidad juzgada de una muestra estadística
será esencialmente independiente del tamaño de la muestra. Ciertamente, cuando los sujetos
fijaron las distribuciones del promedio de altura por muestras de varios tamaños, ellos
produjeron idénticas distribuciones. Por ejemplo, a la probabilidad de obtener un promedio
de altura mayor de 6 pies le fue asignado el mismo valor por muestras de 1000, 100 y 10
hombres (Kahneman & Tversky, 1972b, 3). Más aún, los sujetos fallaron al apreciar el role
del tamaño de la muestra aún cuando ella fue enfatizada en la formulación del problema.
Considere la siguiente interrogante:

Un cierto pueblo está servido por dos hospitales. En el más grande alrededor de 48 bebés nacen cada
día, y en el más pequeño alrededor de 15. Como usted conoce, alrededor del 50% de todos los bebés
son varones. Sin embargo, el porcentaje exacto varía de día a día. Algunas veces puede ser mayor del
50%, algunas veces menor.
Por un período de 1 año, cada hospital registró los días en los cuales más del 60% de los bebés
nacidos fueron varones. Cuál hospital piensa usted registró más tales días?

El hospital más grande (21)


12

El hospital más pequeño (21)


Aproximadamente el mismo (que es, dentro del 5% de cada otro) 53%

Los valores entre paréntesis son los números de los estudiantes no graduados quienes escogen cada
respuesta.

La mayoría de los sujetos juzgaron la probabilidad de obtener más del 60% de varones
ser el mismo en el pequeño y en el grande hospital, presumiblemente porque estos eventos
son descritos por la misma estadística y son por consiguiente igualmente representativos de
la población general. En contraste, muestrear la teoría acarrea que el número esperado de días
en el cual más del 60% de los bebés son varones es mucho más grande en el pequeño hospital
que en el grande porque una muestra grande es menos probable de desviarse del 50%. Esta
noción fundamental de estadística es evidentemente no parte del repertorio de intuiciones de
la gente. Una similar insensitividad al muestrear el tamaño ha sido reportada en juicios de
posterior probabilidad, que es, de la probabilidad de que una muestra ha sido extraída de una
población más bien que de otra. Considere el siguiente ejemplo:

Imagine una urna llenada con pelotas, del las cuales ⅔ son de un color y ⅓ de otro. Un individuo ha
extraído 5 pelotas de la urna, y encontró que 4 eran rojas y 1 era blanca. Otro individuo ha extraído 20
pelotas y encontró que 12 eran rojas y 8 eran blancas. Quién de los dos individuos siente más
confianza que la urna contiene ⅔ de pelotas rojas y ⅓ de pelotas blancas, más bien que lo puesto?
Qué diferencias debería cada individuo dar?

En este problema, las posteriores diferencias correctas son 8 a 1 para la muestra de 4:1 y
16 a 1 para la muestra de 12:8, asumiendo las probabilidades antecedentes iguales. Sin
embargo, la mayoría de la gente siente que la primera muestra provee mucho más fuerte
evidencia para la hipótesis de que el contenido de la urna es predominantemente rojo, porque
la proporción de pelotas rojas es más grande en la primera que en la segunda muestra. Aquí
de nuevo, los juicios intuitivos están dominados por la proporción de la muestra y no están
esencialmente afectados por el tamaño de la muestra, el cual juega un papel crucial en la
determinación de las actuales probabilidades posteriores (Kahneman & Tversky, 1972b).
Además los estimados intuitivos de las probabilidades posteriores están menos lejos del
extremo que los valores correctos. La subestimación del impacto de la evidencia ha sido
observado repetidamente en problemas de este tipo (E. Edwards, 1968, 25; Slovic &
Lichtenstein, 1971). Ella ha sido etiquetada “conservatismo”.

Concepto erróneo de la casualidad

La gente espera que una secuencia de eventos generados por un proceso aleatorio
representará las características esenciales de ese proceso aún cuando la secuencia es corta. En
considerando los lanzamientos de una moneda por cabezas ó colas, por ejemplo, la gente
considera la secuencia H-T-H-T-T-H ser más probable que la secuencia H-H-H-T-T-T, la cual
no aparenta azar y también más probable que la secuencia H-H-H-T-T-T-H, la cual no
representa la imparcialidad de la moneda (Kahneman & Tversky, 1972b, 3). Por lo tanto, la
gente espera que las características esenciales del proceso estará representado, no solo
globalmente en la secuencia entera, sino también en cada una de sus partes. Una secuencia
localmente representativa, sin embargo, se desvía sistemáticamente de la expectación de una
probabilidad: ella contiene también muchas alteraciones y también muchas tendencias. Otra
consecuencia de la creencia en la representatividad local es la bien conocida falacia del
jugador. Después de observar una larga tendencia del rojo sobre la rueda de la ruleta,
presumiblemente porque la ocurrencia del negro resulta en una secuencia más representativa
13

que la ocurrencia de un adicional rojo. La posibilidad es comúnmente vista como un proceso


de auto-corrección en el cual la desviación en una dirección induce una desviación en la
dirección opuesta para restaurar el equilibrio. De hecho, las desviaciones no son “corregidas”
como un desarrollo del proceso de posibilidad, ellas son meramente diluidas.
Los conceptos erróneos de la casualidad no están limitados a sujetos ingenuos. Un
estudio de instituciones estadísticas de experimentados psicólogos de investigación (Tversky
& Kahneman, 1971, 2) reveló una persistente creencia en lo que puede ser llamada “la ley de
los números pequeños”, de acuerdo a la cual aún pequeñas muestras son altamente
representativas de las poblaciones de las cuales ellas han sido tomadas. Las respuestas de
éstos investigadores reflejaron la expectación de que una hipótesis válida sobre una
población estará representada por un resultado estadísticamente significante en una muestra –
con pequeña consideración por su tamaño. Como una consecuencia los investigadores
pusieron mucha fe en los resultados de pequeñas muestras y enormemente sobreestimaron la
replicabilidad de tales resultados. En la actual conducta de la investigación, éstos prejuicios
conducen a la selección de muestras de inadecuado tamaño y a la sobre-interpretación de
resultados.

Insensitividad a la predecibilidad

Algunas veces la gente es requerida de hacer tales predicciones numéricas como el futuro
valor de una acción, la demanda de un producto o el resultado de un partido de football. Tales
predicciones son a menudo hechas por representatividad. Por ejemplo, suponga que a uno se
le da una descripción de una compañía y se le requiere predecir su utilidad futura. Si la
descripción de la compañía es muy favorable, una utilidad muy alta aparecerá más
representativa de esa descripción; si la descripción es mediocre, un mediocre rendimiento
aparecerá más representativo. El grado al cual la descripción es favorable no está afectado
por la confiabilidad de esa descripción o por el grado al cual ella permite una exacta
predicción. De aquí que, si la gente predice solamente en términos de lo favorable de la
descripción, sus predicciones serán insensitivas a la confiabilidad de la evidencia y a la
esperada exactitud de la predicción.
Este modo de juicio viola la normativa de la teoría estadística en la cual la condición
extrema y el rango de predicciones está controlado por consideraciones de predecibilidad.
Cuando la predecibilidad es nula, la misma predicción debería de hacerse en todos los casos.
Por ejemplo, si las descripciones de las compañías no proveen información relevante para
ganar, entonces los mismos valores (tal como el promedio de ganancia) debería ser predicho
por todas las compañías. Si la predecibilidad es perfecta, por supuesto, los valores predichos
se equipararán a los valores actuales y el rango de las predicciones igualarán el rango de
resultados. En general, mientras más alta la predecibilidad, más amplio el rango de los
valores predichos.
Varios estudios de predicción numérica han demostrado que las predicciones intuitivas
violan esta regla y que los sujetos muestran poca ó ninguna consideración por las
consideraciones de predecibilidad (Kahneman & Tversky, 1973, 4). En uno de estos estudios,
a los sujetos se les presentó varios párrafos, cada uno describiendo el desempeño de un
maestro estudiante durante una lección práctica particular. Algunos sujetos fueron requeridos
a evaluar la calidad de la lección descrita en el párrafo en puntuaciones porcentuales,
relativas a una especificada población. Otros sujetos fueron requeridos a predecir, también en
puntuaciones porcentuales, la reputación de cada maestro estudiante 5 años después de la
lección práctica. Los juicios hechos bajo las dos condiciones fueron idénticos. Que es, que la
predicción de un criterio remoto (éxito de un maestro 5 años después de la lección práctica)
fue idéntica a la evaluación de la información sobre la cual la predicción fue basada (la
14

calidad de la lección práctica). Los estudiantes que hicieron estas predicciones estuvieron
indudablemente concientes de la limitada predecibilidad de la competencia de enseñar sobre
las bases de una simple lección de prueba 5 años antes; no obstante, sus predicciones fueron
tan extremas como sus evaluaciones.

La ilusión de la validez

Como hemos visto, la gente a menudo predice por la selección de los resultados (por
ejemplo, una ocupación) que es más representativa de la entrada (por ejemplo, la descripción
de una persona). La confianza que ellos tienen en su descripción depende principalmente en
el grado de representatividad (que es, sobre la calidad de la equiparación entre el resultado
seleccionado y la entrada) con poca ó ninguna consideración por los factores que limitan la
exactitud predictiva). Por lo tanto, la gente expresa gran confianza en la predicción de que
una persona es un bibliotecario cuando se da una descripción de su personalidad la cual se
equipara al estereotipo de los bibliotecarios, aún si la descripción es escasa, no confiable u
obsoleta. La confianza no garantizada la cual es producida por un buen ajuste entre el
resultado predicho y la información de entrada puede ser llamada la ilusión de la validez.
Esta ilusión persiste aún cuando el juez está conciente de los factores que limitan la exactitud
de sus predicciones. Es una observación común que los psicólogos quienes conducen las
entrevistas de selección a menudo experimentan considerable confianza en sus predicciones,
aún cuando ellos conocen de la vasta literatura que muestra entrevistas de selección ser
altamente falibles. La continuada confianza en la entrevista clínica para la selección, a pesar
de las repetidas demostraciones de su insuficiencia, ampliamente atestigua la fortaleza de su
efecto.
La consistencia interna de un patrón de entradas es una mayor determinante de la
confianza de uno en las predicciones basadas sobre estas entradas. Por ejemplo, la gente
expresa más confianza en predecir el punto promedio del grado final de un estudiante cuyo
registro del primer año consiste enteramente de B’s que en predecir el puntaje promedio de
grado de un estudiante cuyo record del primer año incluye muchas A’s y C’s. Patrones
altamente consistentes son más a menudo observados cuando las variables de entrada son
altamente redundantes ó correlacionadas. De aquí que, la gente tiende a tener gran confianza
en predicciones basadas en entradas variables redundantes. Sin embargo, un resultado
elemental en las estadísticas de correlación asevera que, dadas entradas variables de
establecida validez, una predicción basada en varias de tales entradas pueden lograr más alta
exactitud cuando ellas son independientes cada una de las otras que cuando ellas son
redundantes ó correlacionadas. Por lo tanto, la redundancia entre entradas decrece la
exactitud aún cuando ella incrementa la confianza y la gente a menudo está confiada en
predicciones que son muy probables de estar fuera del límite (Kahneman & Tversky, 1973,
4).

Conceptos erróneos de regresión

Suponga un gran grupo de niños que han sido examinados en dos versiones diferentes de
una prueba de aptitud. Si uno selecciona diez niños de entre aquellos quienes lo hicieron
mejor en una de las dos versiones, él seguramente encontrará su desempeño en la segunda
versión ser algo decepcionante. A la inversa, si uno selecciona diez niños de entre aquellos lo
hicieron peor en una versión, ellos serán encontrados en el promedio, para hacer algo mejor
en la otra versión. Más generalmente, considere dos variables X y Y las cuales tienen la
misma distribución. Si uno selecciona individuos cuyo punteo promedio de X se desvía de la
media de X por k unidades, entonces el promedio de sus punteos de Y usualmente se
15

desviarán de la media de Y por menos de k unidades. Estas observaciones ilustran un


fenómeno general conocido como regresión hacia la media, el cual fue primero documentado
por Galton hace más de 100 años.
En el curso normal de la vida uno encuentra muchos casos de regresión hacia la media, en
la comparación de la altura de padres e hijos, de la inteligencia de esposos y esposas ó del
desempeño de individuos en exámenes consecutivos. A pesar de eso, la gente no desarrolla
intuiciones correctas sobre este fenómeno. Primero, ellos no esperan regresión en muchos
contextos donde es obligado que ocurra. Segundo, cuando ellos reconocen la ocurrencia de
regresión, ellos a menudo inventan explicaciones causales espurias para ella (Kahneman &
Tcersky, 1973, 4). Nosotros sugerimos que el fenómeno de regresión permanece evasivo
porque es incompatible con la creencia de que el resultado predicho debería ser
máximamente representativo de la entrada, y de aquí que, el valor del resultado variable
debería ser tan extremo como el valor de la entrada variable.
La falla para reconocer el importe de regresión puede tener perniciosas consecuencias,
como se ilustra por la siguiente observación (Kahneman & Tversky, 1973, 4). En una
discusión de entrenamiento de vuelo, instructores experimentados notaron que el elogio por
un excepcionalmente suave aterrizaje es típicamente seguido por un más pobre aterrizaje en
el siguiente intento, mientras que duras críticas después de un duro aterrizaje es usualmente
seguido por un mejoramiento en el siguiente intento. Los instructores concluyeron que
recompensas verbales son perjudiciales para el aprendizaje, mientras que reprimendas
verbales son beneficiosas, contrario a la aceptada doctrina psicológica. Esta conclusión no
está garantizada porque la presencia de regresión hacia el medio. Como en otros casos de
examen repetido, un mejoramiento usualmente seguirá a un pobre desempeño y un deterioro
usualmente seguirá a un desempeño sobresaliente, aún si el instructor no responde al logro
del alumno en el primer intento. Debido a que los instructores habían elogiado a los alumnos
después de un buen aterrizaje y los habían amonestado después de uno pobre, ellos
alcanzaron la conclusión errónea y potencialmente peligrosa que el castigo es más efectivo
que el elogio.
Por tanto, la falla en entender el efecto de la regresión conduce a uno a sobreestimar la
efectividad del castigo y a subestimar la efectividad de la recompensa. En la interacción
social, así como en el entrenamiento, las recompensas son típicamente administradas cuando
el desempeño es bueno y los castigos son típicamente administrados cuando el desempeño es
pobre. Solo por la regresión sola, por consiguiente, el comportamiento es más probable de
mejorar después de un castigo. Consecuentemente, la condición humana es tal que, solo por
casualidad, uno es más a menudo recompensado por castigar a otros y más a menudo
castigado por recompensarlos. Las gentes no están generalmente concientes de esta
contingencia. De hecho, el papel evasivo de la regresión en determinar las aparentes
consecuencias de la recompensa y el castigo parecen haber escapado que los estudiantes lo
noten en ésta área.

Disponibilidad

Existen situaciones en las cuales la gente evalúa la frecuencia de una clase ó la


probabilidad de un evento por la facilidad con la cual las instancias ú ocurrencias pueden ser
traídas a la mente. Por ejemplo, uno puede evaluar el riesgo de un ataque cardíaco entre
personas de mediana edad recordando tales ocurrencias entre conocidos de uno.
Similarmente, uno puede evaluar la probabilidad de que un negocio arriesgado dado caerá,
por imaginar varias dificultades que se podrían encontrar. Este juicio heurístico es llamado
disponibilidad. La disponibilidad es una útil pista para valorar la frecuencia ó probabilidad,
porque las instancias de grandes clases son usualmente alcanzadas mejor y más rápido que
16

las instancias de clases menos frecuentes. Sin embargo, la disponibilidad está afectada por
factores otros que la frecuencia y la probabilidad. Consecuentemente, la confianza en la
conduce a juicios predecibles, algunos de los cuales son ilustrados abajo.

Prejuicios debidos a la reparabilidad de las instancias

Cuando el tamaño de una clase es juzgado por la disponibilidad de sus instancias, una
clase cuyas instancias son fácilmente recuperadas aparecerá más numerosa que una clase de
igual frecuencia cuyas instancias son menos recuperables. En una demostración elemental de
este efecto, los sujetos oyeron una lista de bien conocidas personalidades de ambos sexos y
donde subsecuentemente fueron requeridos a juzgar si la lista contenía más nombres de
hombres que de mujeres. Diferentes listas fueron presentadas a diferentes grupos de sujetos.
En algunas de las listas los hombres fueron relativamente más famosos que las mujeres , y en
otras las mujeres fueron relativamente más famosas que los hombres. En cada una de las
listas, los sujetos erróneamente juzgaron que la clase (sexo) que tenía las más famosas
personalidades era la más numerosa (Tversky & Kahneman, 1973, 11).
Además de la familiaridad, existen otros factores, tales como rasgos sobresalientes, los
cuales afectan la reparabilidad de las instancias. Por ejemplo, el impacto de ver una casa
quemándose sobre la subjetiva probabilidad de tales accidentes es probablemente mayor que
el impacto de leer sobre un fuego en el periódico local. Además, recientes ocurrencias son
probables de ser relativamente más disponibles que las ocurrencias más tempranas. Es una
experiencia común que la probabilidad subjetiva de accidentes de tráfico se eleven
temporalmente cuando uno ve un carro volcado al lado de la carretera.

Prejuicios debidos a la efectividad de un juego de búsqueda

Suponga que uno muestrea una palabra (de tres letras ó más) al azar de un texto en inglés.
Es más probable que la palabra empiece con r ó que r es la tercera letra? La gente se
aproxima a este problema recordando palabras que empiezan con r (road) y palabras que
tienen r en la tercera posición (car) y fijan la frecuencia relativa por el caso con el cual las
palabras de los dos tipos vienen a la mente. Porque es más fácil buscar palabras por su
primera letra que por su tercera letra, la mayoría de la gente juzga palabras que empiezan con
una consonante dada ser más numerosas que palabras en las cuales la misma consonante
aparece en la tercera posición. Ellas lo hacen igual para consonantes , tales como r ó k, que
son más frecuentes en la tercera posición que en la primera (Tversky & Kahneman, 1973,
11).
Diferentes tareas provocan diferentes juegos de búsqueda. Por ejemplo, suponga que
usted es requerido a estimar la frecuencia con la cual palabras abstractas (thought, love) y
palabras concretas (door, water) aparecen en el inglés escrito. Un modo natural de responder
a esta pregunta es buscar contextos en los cuales la palabra podría aparecer. Parece fácil
pensar en contextos en los cuales un concepto abstracto es mencionado (love en historias de
amor) que pensar en contextos en los cuales una palabra concreta (tal como door) es
mencionada. Si la frecuencia de las palabras es juzgada por la disponibilidad de los contextos
en los cuales ellas aparecen, las palabras abstractas serán juzgadas como relativamente más
numerosas que las palabras concretas. Este prejuicio ha sido observado en un reciente estudio
(Galbraith & Underwood, 1973) el cual mostró que la frecuencia juzgada de ocurrencias de
palabras abstractas fue mucho mayor que la de palabras concretas, comparada en frecuencia
objetiva. Palabras abstractas fueron también juzgadas de aparecer en una mucho mayor
variedad de contextos que las palabras concretas.
17

Prejuicios de imaginabililidad

Algunas veces un tiene que evaluar la frecuencia de una clase cuyas instancias no están
almacenadas en la memoria pero pueden ser generadas de acuerdo a una regla dada. En tales
situaciones, uno genera varias instancias y evalúa la frecuencia ó probabilidad por la
facilidad con la cual las instancias relevantes pueden ser construídas. Sin embargo, la
facilidad de construir instancias no siempre refleja su frecuencia actual, y este modo de
evaluación está propenso a prejuicios. Para ilustrar, considere un grupo de 10 personas
quienes forman comités de k miembros, 2 ≤ k ≤ 8. Cuántos diferentes comités de k miembros
pueden ser formados? La respuesta correcta a este problema es dada por el coeficiente
binomio (10/k) el cual alcanza un máximo de 252 para k = 5. Claramente, el número de
comités de k miembros iguala el número de comités de (10 – k) miembros, porque cualquier
comité de k miembros define un único grupo de (10 – k) no miembros.
Un modo de responder este asunto sin computación es construir mentalmente comités de
k miembros y evaluar su número por la facilidad con la cual ellos vienen a la mente. Los
comités de pocos miembros, digamos 2, son más disponibles que comités de muchos
miembros, digamos 8. El más simple esquema para la construcción de comités es una
partición del grupo dentro de juegos desarticulados. Uno rápidamente ve que es fácil
construir cinco comités desarticulados de 2 miembros, mientras que es imposible generar aún
dos comités desarticulados de 8 miembros. Consecuentemente, si la frecuencia es evaluada
por imaginabilidad, ó por disponibilidad para construcción, los pequeños comités aparecerán
más numerosos que grandes comités, en contraste a la correcta función en forma de campana.
Ciertamente, cuando sujetos cándidos fueron requeridos a estimar el número de distintos
comités de varios tamaños, sus estimados fueron una decreciente función monotónica del
tamaño del comité (Tversky & Kahneman, 1973, 11). Por ejemplo, la media estimada del
número de comités de 2 miembros fue de 70, mientras que el estimado para comités de 8
miembros fue de 20 (la respuesta correcta es de 45 en ambos casos).
La imaginabilidad juega un importante papel en la evaluación de probabilidades en
situaciones de la vida real. El riesgo involucrado en una expedición de aventura, por ejemplo,
es evaluado imaginando contingencias con las cuales la expedición no está equipada para
competir con éxito. Si muchas de tales dificultades son vívidamente representadas, la
expedición puede ser hecha para aparentar como excesivamente peligrosa, aunque la
facilidad con la cual los desastres son imaginados no necesitan reflejar su probabilidad
actual. A la inversa, el riesgo involucrado en una empresa puede ser grandemente
subestimado si algunos peligros posibles son, ya sea difíciles de concebir ó simplemente no
vienen a la mente.

Correlación ilusoria

Chapman y Chapman (1969) han descrito un interesante prejuicio en el juzgamiento de la


frecuencia con la cual dos eventos co-ocurren. Ellos presentaron simples juicios con
información concerniente a varios hipotéticos pacientes mentales. Los datos para cada
paciente consistieron de un diagnóstico clínico y un dibujo de una persona hecho por el
paciente. Más tarde los jueces estimaron la frecuencia con la que cada diagnóstico (tales
como paranoia ó suspicacia) había sido acompañada de varias características del dibujo (tales
como ojos peculiares). Los sujetos marcadamente sobreestimaron la frecuencia de la co-
ocurrencia de los asociados naturales, tales como suspicacia y ojos peculiares). Este efecto
fue etiquetado correlación ilusoria. En sus erróneos juicios de los datos a los cuales ellos
habían sido expuestos, sujetos ingenuos “redescubrieron” mucho de lo común, saber clínico
concerniente a la interpretación la prueba dibujar a una persona. El efecto de la correlación
18

ilusoria fue extremadamente resistente a los datos contradictorios. Ella persistió aún cuando
la correlación entre síntomas y diagnóstico fue actualmente negativa, y ella previno los
juicios detectando las relaciones que estaban presentes de hecho.
La disponibilidad provee un informe natural del efecto de la correlación ilusoria. El juicio
de cómo frecuentemente dos eventos co-ocurren podría estar basado en la fortaleza de la
unión asociativa entre ellos. Cuando la asociación es fuerte uno es probable que concluya
que los eventos han sido frecuentemente emparejados. Consecuentemente, asociados fuertes
serán juzgados como habiendo ocurrido juntos frecuentemente. De acuerdo a esta opinión, la
correlación ilusoria entre la suspicacia y el dibujo peculiar de los ojos, por ejemplo, es debida
al hecho de que la suspicacia es más fácilmente asociado con los ojos que con cualquier otra
parte del cuerpo.
La experiencia de toda la vida nos ha enseñado que, en general, las instancias de grandes
clases son recordadas mejor y más rápido que las instancias de menos frecuentes clases, que
las probables ocurrencias son más fáciles de imaginar que las improbables; y que las
conexiones asociativas entre eventos son reforzadas cuando los eventos frecuentemente co-
ocurren. Como resultado, el hombre tiene a su disposición un procedimiento (la
disponibilidad heurística) por estimulación de la numerosidad de una clase, la probabilidad
de un evento, ó la frecuencia de co-ocurrencias, por la facilidad con la cual operaciones
mentales relevantes de recuperación, construcción ó asociación pueden ser ejecutadas. Sin
embargo, como los ejemplos precedentes han demostrado, este valioso procedimiento de
estimación resulta en sistemáticos errores.

Ajuste y sujeción

En muchas situaciones, la gente hace estimados empezando de un valor inicial que es


ajustado para producir la respuesta final. El valor inicial, ó punto de inicio, puede ser
sugerido por la formulación del problema, ó puede ser el resultado de un cómputo parcial. En
cualquier caso, los ajustes son típicamente insuficientes (Slovic & Lichtenstein, 1971). Que
es, que puntos de inicio diferentes producen diferentes estimados, los cuales son inclinados
hacia los valores iniciales. A este fenómeno le llamamos sujeción.

Insuficiente ajuste

En una demostración del efecto de la sujeción, los sujetos fueron requeridos a estimar
cantidades, establecidas en porcentajes (por ejemplo, el porcentaje de países africanos en las
Naciones Unidas). Por cada cantidad, un número entre 0 y 100 fue determinado girando una
rueda de la fortuna en presencia de los sujetos. Los sujetos fueron instruidos a indicar
primero si ese número era más alto ó más bajo que el valor de la cantidad, y entonces estimar
el valor de la cantidad moviéndose hacia arriba ó hacia abajo del número dado. A los
diferentes grupos se les dio diferentes números por cada cantidad, y éstos números arbitrarios
tenían un marcado efecto en los estimados. Por ejemplo, los estimados medios del porcentaje
de países africanos en las Naciones Unidas fue de 25 y 45 para grupos que recibieron 10 y
65, respectivamente, como puntos de inicio. Recompensas por exactitud no reducen el efecto
de sujeción.
La sujeción ocurre no solo cuando el punto de inicio dado al sujeto, sino también cuando
el sujeto basa su estimado en los resultados de algún cómputo incompleto. Un estudio de
estimaciones numéricas intuitivas ilustra este efecto. Dos grupos de estudiantes de secundaria
estimaron, dentro de 5 segundos, una expresión numérica que fue escrita en el pizarrón. Un
grupo estimó el producto
19

8x7x6x5x4x3x2x1
mientras otro grupo estimó el producto

1x2x3x4x5x6x7x8

Para responder rápidamente tales preguntas, la gente puede realizar unos pocos pasos de
cómputo y estimar el producto por extrapolación ó ajuste. Porque los ajustes son típicamente
insuficientes, éste procedimiento debería conducir a una subestimación. Más aún, porque el
resultado de los primeros pocos pasos de multiplicación (realizados de izquierda a derecha)
es mayor en la secuencia descendente que el la ascendente, la anterior expresión debería ser
juzgada más grande que la última. Ambas predicciones fueron confirmadas. La media
estimada para la secuencia ascendente fue 512, mientras que la media estimada para la
secuencia descendente fue de 2,250. La respuesta correcta es 40,320.

Prejuicios en la estimación de eventos conjuntivos y disyuntivos

En un reciente estudio por Bar-Hillel (1973) a los sujetos se les dio la oportunidad de
apostar a uno de los dos eventos. Tres tipos de eventos fueron utilizados: (i) eventos simples,
tales como pintar una canica roja de una bolsa conteniendo 50 por ciento de canicas blancas;
(ii) eventos conjuntivos, tales como pintar una canica roja siete veces en sucesión, con
reemplazo, de una bolsa conteniendo el 90 por ciento de canicas rojas y 10 por ciento de
canicas blancas; y (iii) eventos disyuntivos, tales como dibujar una canica roja al menos una
vez en siete intentos sucesivos, con reemplazo, de una bolsa conteniendo 10 por ciento de
canicas rojas y 90 por ciento de canicas blancas. En este problema, una significante mayoría
de sujetos prefirieron apostar al evento conjuntivo (la probabilidad del cual es .48) más que al
evento simple (la probabilidad del cual es .50). Los sujetos también prefirieron apostar al
evento simple más que al evento disyuntivo, el cual tiene una probabilidad de .52. Por tanto,
la mayoría de los sujetos apostaron al evento menos probable en ambas comparaciones. Este
patrón de escogencias ilustra un descubrimiento general. Estudios de escogencia entre juegos
de azar y de juicios de probabilidad indican que la gente tiende a sobreestimar la probabilidad
de eventos conjuntivos (Cohen, Chesnick & Haran, 1972, 24) y a subestimar la probabilidad
de eventos disyuntivos. Estos prejuicios son prontamente explicados como efectos de la
sujeción. La probabilidad establecida de los eventos elementales (sucesos en cualquier etapa)
proveen un punto de inicio natural para la estimación de las probabilidades de ambos eventos
conjuntivos y disyuntivos. Desde que el ajuste del punto de inicio es típicamente insuficiente,
los estimados finales permanecen muy cerca de las probabilidades de los eventos elementales
en ambos casos. Note que la total probabilidad de un evento conjuntivo es menor que la
probabilidad de cada evento elemental mientras que la probabilidad de un evento disyuntivo
es mayor que la probabilidad de cada evento elemental. Como una consecuencia de la
sujeción, la probabilidad total será sobreestimada en problemas conjuntivos y subestimada en
problemas disyuntivos.
Los prejuicios en la evaluación de eventos compuestos son particularmente significantes
en el contexto de la planificación. La terminación exitosa de una empresa, tal como el
desarrollo de un nuevo producto, típicamente tiene un carácter conjuntivo: para que la
empresa tenga éxito, cada una de las series de eventos deben ocurrir. Aún cuando cada uno de
estos eventos es muy probable, la probabilidad total de éxito puede ser muy baja si el número
de eventos es grande. La tendencia general a sobreestimar la probabilidad de eventos
conjuntivos conduce a un optimismo sin garantía en la evaluación de la probabilidad de que
un plan tendrá éxito ó que un proyecto será completado en tiempo. A la inversa, estructuras
disyuntivas son típicamente encontradas en la evaluación de riesgos. Un sistema complejo,
20

tal como un reactor nuclear ó un cuerpo humano, funcionará mal si cualquiera de sus
componentes esenciales fallan. Aún cuando la probabilidad de una falla en cada componente
es ligera, la probabilidad de una falla total puede ser alta si muchos componentes están
involucrados. Debido a la sujeción, la gente tenderá a subestimar las probabilidades falla en
sistemas complejos. Por lo tanto, la dirección de los prejuicios de sujeción pueden ser
algunas veces inferidos de la estructura del evento. La estructura en forma de cadena ó
conjunciones conducen a una sobreestimación, la estructura de disyunciones en forma de
embudo conduce a una subestimación.

Sujeción en la evaluación de probabilidades subjetivas de distribución

En el análisis de decisión, los expertos son a menudo requeridos a expresar sus creencias
sobre una cantidad, tal como el valor del promedio del índice Daw Jones en un día particular,
en la forma de una probabilidad de distribución. Tal distribución es usualmente construida
requiriendo a la persona que seleccione valores de la cantidad que corresponden a
especificados porcentajes de sus probabilidades subjetivas de distribución. Por ejemplo, el
juez puede ser requerido a seleccionar un número, X90, tal que su probabilidad subjetiva de
que este número será más alto que el valor promedio del índice Daw Jones es .90. Que es,
que él debería seleccionar el valor X90 de tal modo que él esté justo dispuesto a aceptar 9 a 1
la posibilidad de que el promedio del índice Daw Jones no lo excederá. Una probabilidad
subjetiva de distribución para el valor del índice promedio Daw Jones puede ser construido
de varios de tales juicios correspondiendo a diferentes porcentajes.
Coleccionando probabilidades subjetivas de distribuciones para muchas cantidades
diferentes, es posible probar el juicio por una calibración apropiada. Un juicio es
apropiadamente (ó externamente) calibrado en un juego de problemas si exactamente el
porcentaje II de los valores verdaderos de las cantidades evaluadas caen por debajo de sus
valores establecidos de XII . Por ejemplo, los valores verdaderos deberían caer por debajo de
X01 para el 1 por ciento de las cantidades y arriba de X99 para el 1 por ciento de las
cantidades. Por tanto, los verdaderos valores deberían caer en la confianza en los intervalos
entre X01 y X99 en el 98 por ciento de los problemas.
Varios investigadores (Alpert & Raiffa, 1969, 21; Staël von Holstein, 1971b; Winkler,
1967) han obtenido probabilidad de trastornos para muchas cantidades de un gran número
juicios. Estas distribuciones indicaron grandes y sistemáticos alejamientos de la calibración.
Apropiada. En la mayoría de los estudios, los valores actuales de las cantidades establecidas
son ya sea más pequeños que X01 para alrededor del 30 por ciento de los problemas. Eso es,
que los sujetos ponen excesivamente confianza en los intervalos los cuales reflejan más
certeza de la que es justificada por su conocimiento sobre las cantidades fijadas. Este
prejuicio es común para los sujetos ingenuos y para los sofisticados, y no es eliminado por
introducir apropiadas reglas de puntuación, las cuales proveen incentivos para la calibración
externa. Este efecto es atribuible, en parte al menos, a la sujeción.
Para seleccionar X90 para el valor del índice promedio Daw Jones, por ejemplo, es natural
empezar por pensar sobre el mejor estimado de uno del índice Daw Jones y ajustar este valor
hacia arriba. Si este ajuste – como la mayoría de otros – es insuficiente, entonces X 90 no será
suficientemente extremo. Un efecto similar de sujeción ocurre en la selección de X10, el cual
es obtenido por ajustar el mejor estimado de uno hacia abajo. Consecuentemente, la
confianza en el intervalo entre X10 y X90 será demasiado estrecho y la probabilidad de
distribución fijada será muy apretada. En soporte a esta interpretación puede ser mostrado
que las probabilidades subjetivas son sistemáticamente alteradas por un procedimiento en el
cual el mejor estimado de uno no sirve como una sujeción.
21

Las probabilidades subjetivas de distribuciones para una cantidad dada (el índice
promedio Daw Jones) puede ser obtenido de dos diferentes modos: (i) requiriendo al sujeto
que selecciones valores del índice Daw Jones que correspondan a porcentajes especificados
de su probabilidad de distribución y (ii) requiriendo del sujeto que fije las probabilidades que
el verdadero valor del índice Daw Jones excederá algunos valores especificados. Los dos
procedimientos son formalmente equivalentes y deberían producir idénticas distribuciones.
Sin embargo, ellos sugieren diferentes modos de ajuste de diferentes sujeciones. En el
procedimiento (i), el punto natural de inicio es nuestro mejor estimado de la calidad. En el
procedimiento (ii), por otro lado, el sujeto debe ser sujetado al valor establecido en el
problema. Alternativamente, él puede ser sujetado a probabilidades iguales, ú oportunidades
de 50-50, los cual es un punto natural de inicio en la estimación de la probabilidad. En
cualquier caso, el procedimiento (ii) debería producir menores diferencias extremas que el
procedimiento (i).
Para contrastar los dos procedimientos, un juego de 24 cantidades (tal como la distancia
por aire de Nueva Delhi a Peking) fue presentada a un grupo de sujetos quienes fijaron ya sea
X10 ó X90 para cada problema. Otro grupo de sujetos recibió el juicio medio del primer grupo
para cada una de las 24 cantidades. Ellos fueron requeridos a fijar las probabilidades que
cada uno de los valores dado excedieron el verdadero valor de la cantidad relevante. En la
ausencia de cualquier prejuicio, el segundo grupo debería retribuir las probabilidades
especificadas al primer grupo,, lo que es , 9 a 1. Sin embargo, si probabilidades iguales ó el
valor establecido sirven como sujeciones, las probabilidades del segundo grupo deberían ser
menos extremas, lo que es, más cerca de 1:1. Ciertamente, las probabilidades medias
establecidas por este grupo, a través de todos los problemas, fueron 3:1. Cuando los juicios
de los dos grupos fueron probados por calibración externa, se encontró que los sujetos en el
primer grupo fueron muy extremos, de acuerdo con estudios anteriores. Los eventos que ellos
definieron como teniendo una probabilidad de .10 actualmente se obtuvo en el 24 por ciento
de los casos. En contraste, los sujetos en el segundo grupo fueron muy conservadores. Los
eventos a los cuales ellos le asignaron una probabilidad promedio de .34 actualmente se
obtuvo en el 26 por ciento de los casos. Estos resultados ilustran la manera en la cual el grado
de calibración depende del procedimiento de obtención.

Discusión

Este artículo ha estado relacionado con prejuicios cognitivos que son el resultado de la
confianza en los juicios heurísticos. Estos prejuicios no son atribuibles a efectos
motivacionales tales como ilusiones ó la distorsión de los juicios por recompensas ó castigos.
Ciertamente, varios de los errores de juicio severos reportados anteriormente ocurrieron a
pesar del hecho que los sujetos fueron estimulados a ser exactos y fueron premiados por la
respuesta correcta (Kahneman & Tversky, 1972b; Tversky & Kahneman, 1973, 11).
La dependencia en la heurística y la predominancia de los prejuicios no están restringidos
solo para los legos. Experimentados investigadores están también propensos a los mismos
prejuicios cuando ellos piensan intuitivamente, Por ejemplo, la tendencia a predecir los
resultados que mejor representan los datos, con insuficiente consideración por previa
probabilidad, ha sido observada en los juicios intuitivos de individuos quienes han tenido un
extenso entrenamiento en estadística (Kahneman & Tversky, 1973, 4; Tversky & Kahneman,
1971,2). Aunque la estadística sofisticada evita errores elementales, tal como la falacia del
jugador, sus juicios intuitivos están sujetos a falacias similares en problemas más intrincados
y menos transparentes.
No es sorprendente que la utilidad heurística como representatividad y disponibilidad son
retenidas, aunque ellas ocasionalmente conducen a errores de predicción ó estimación. Lo
22

que es talvez sorprendente es la falla de la gente de inferir de la experiencia de toda la vida


tales reglas fundamentales de estadística como regresión hacia el medio, ó el efecto del
tamaño de una muestra en muestrear la variabilidad. Aunque todos están expuestos, en el
curso normal de la vida, a numerosos ejemplos de los cuales estas reglas podrían haber sido
inducidas, muy poca gente descubre los principios de muestrear y regresión por su propia
cuenta. Los principios de la estadística no son aprendidos de la experiencia de cada día
porque las instancias relevantes no están codificadas apropiadamente. Por ejemplo, la gente
no descubre que las líneas sucesivas de un texto difieren más en promedio de longitud de
palabra que lo que hacen las páginas sucesivas, porque ellas simplemente no atienden al
promedio de longitud de palabra de líneas individuales ó páginas. Por lo tanto, la gente no
aprende la relación entre tamaño de la muestra y muestrear la variabilidad, aunque los datos
para tal aprendizaje son abundantes.
La carencia de un código apropiado también explica el por qué la gente usualmente no
detecta los prejuicios en sus juicios de probabilidad. Una persona podría concebiblemente
aprender si sus juicios son externamente calibrados guardando un registro de la proporción
de los eventos que actualmente ocurren entre aquellos a los cuales él asigna la misma
probabilidad. Sin embargo, no es natural para el grupo de eventos por su juzgada
probabilidad. En la ausencia de tal agrupamiento es imposible para un individuo descubrir,
por ejemplo, que solo el 50 por ciento de las predicciones a las cuales él ha asignado una
probabilidad de .9 ó mayor actualmente es cierta.
El análisis empírico de los prejuicios cognitivos tiene implicaciones para el papel teórico
y aplicado de las probabilidades juzgadas. La teoría de decisión moderna (de Finetti, 1968;
Savage, 1954)considera la probabilidad subjetiva como la opinión cuantificada de una
persona idealizada. Especialmente la probabilidad subjetiva de un evento dado es definida
por el juego de apuestas sobre este evento que tal como una persona está dispuesta a aceptar.
Una internamente consistente, ó coherente, medida de la probabilidad subjetiva puede ser
derivada por un individuo si sus escogencias entre apuestas satisfacen ciertos principios, que
es, los axiomas de la teoría. La probabilidad derivada es subjetiva en el sentido que a ciertos
individuos se les concede tener diferentes probabilidades para el mismo evento. La mayor
contribución de esta aproximación es que provee una rigurosa interpretación subjetiva de la
probabilidad que es aplicable a eventos únicos y es introducida en una teoría general de
decisión racional.
Debería talvez ser notado, que mientras que las probabilidades subjetivas pueden algunas
veces ser inferidas de preferencias entre apuestas, ellas no son normalmente formadas en este
estilo. Una persona apuesta al equipo A más que al equipo B porque el cree que el equipo A
es más probable que gane; él no infiere esta creencia de sus preferencias en las apuestas. Por
lo tanto, en realidad, las probabilidades subjetivas determinan las preferencias entre apuestas
y no son derivadas de ellas, como en el la teoría axiomática de la decisión racional (Savage,
1954).
La naturaleza inherentemente subjetiva de la probabilidad natural ha conducido a muchos
estudiantes a la creencia que la coherencia, ó la consistencia interna, es el único criterio
válido por el cual las probabilidades juzgadas deberían ser evaluadas. Desde el punto de vista
de la teoría formal de la probabilidad subjetiva, cualquier juego de probabilidades juzgadas
internamente consistentes es tan bueno como cualquier otro. Este criterio no es enteramente
satisfactorio, porque un juego internamente consistente de probabilidades subjetivas puede
ser incompatible con otras creencias sostenidas por el individuo. Considere una persona
cuyas probabilidades subjetivas para todos los resultados posibles de un juego de la lanzada
de la moneda reflejan la falacia del jugador. Que es, su estimación de la probabilidad de cruz
(la otra cara de la moneda) en una particular lanzada se incrementa con el número
consecutivo de caras que precedieron ese lanzamiento. Los juicios de tal persona podrían ser
23

internamente consistentes y por consiguiente aceptables como probabilidades subjetivas


adecuadas de acuerdo al criterio de la teoría formal. Estas probabilidades sin embargo, son
incompatibles con la generalmente sostenida creencia que una moneda no tiene memoria y es
por consiguiente incapaz de generar dependencias secuenciales. Por probabilidades juzgadas
de ser consideradas adecuadas, ó racionales, la consistencia interna no es suficiente. Los
juicios deben ser compatibles con la red entera de creencias sostenidas por el individuo.
Desafortunadamente, no pueden haber procedimientos formales simples para evaluar la
compatibilidad de un juego de juicios de probabilidad con el sistema total del juicio de las
creencias. El juicio racional no obstante no obstante procurará conseguir la compatibilidad,
aún cuando la consistencia interna sea más fácilmente adquirida y valorada. En particular, él
intentará hacer sus juicios de probabilidad compatibles con su conocimiento sobre la
importancia del sujeto, las leyes de probabilidad y su propio juicio heurístico y prejuicios.

Resumen

Este artículo describió tres heurísticas que son empleadas en hacer juicios bajo
incertidumbre: (i) la representatividad la cual es empleada cuando la gente es requerida a
juzgar la probabilidad que un objeto ó evento A pertenezca a la clase ó proceso B; (ii)
disponibilidad de instancias ó escenarios, los cuales son a menudo empleados cuando la
gente es requerida a evaluar la frecuencia de una clase ó la plausibilidad de un desarrollo
particular; (iii) ajuste de una sujeción, la cual es usualmente empleada en la predicción
numérica cuando un valor relevante está disponible. Estas heurísticas son altamente
económicas y usualmente efectivas, pero ellas conducen a sistemáticos y predecibles errores.
Una mejor comprensión de estas heurísticas y de los prejuicios a los cuales ellas conducen
podría mejorar los juicios y decisiones en situaciones de incertidumbre.
24

Parte II

Representatividad
25

2. Creencia en la ley de los números pequeños

Amos Tversky y Daniel Kahneman

“Suponga que usted corre un experimento sobre 20 sujetos, y ha obtenido un resultado


significante el cual confirma su teoría (z = 2.23, p < .05, dos cruzadas). Usted ahora tiene
motivo para correr un grupo adicional de 10 sujetos. Qué piensa usted que la probabilidad es
que los resultados serán significantes, por una prueba de una cruzada, separadamente para
este grupo?
Si usted siente que la probabilidad en alguna parte es de alrededor de .85, usted puede ser
agradado en saber que usted pertenece a un grupo mayoritario. Ciertamente, esa fue la
respuesta media de dos pequeños grupos quienes fueron suficiente amables para responder a
un cuestionario distribuido en las reuniones del Grupo de Psicología Matemática y de
Asociación Americana de Psicología.
Por otro lado, si usted siente que la probabilidad es de alrededor de .48, usted pertenece a
una minoría. Solo 9 de nuestros 84 entrevistados dieron respuestas entre .40 y .60. Sin
embargo, .48 dio la casualidad de ser mucho más razonables en su estimación que el .85. [1]
Aparentemente, la mayoría de los psicólogos tienen una exagerada creencia en la
probabilidad de replicar exitosamente un descubrimiento obtenido. Las fuentes de tales
creencias y sus consecuencias por la conducta de la investigación científica son sobre lo que
versa este trabajo. Nuestra tesis es que la gente tiene fuertes intuiciones sobre el muestreo al
azar; que estas intuiciones son compartidas con sujetos ingenuos y por científicos entrenados;
y que ellas son aplicadas con desafortunadas consecuencias en el curso de la investigación
científica.
Presentamos que la gente ve una muestra sacada al azar de una población como altamente
representativa, que es, similar a la población en todas las características esenciales.
Consecuentemente, ellos esperan que cualquiera de las dos muestras tomadas de una
población particular sean más similares una con la otra y a la población que la teoría del
muestreo predice, al menos para pequeñas muestras.
La tendencia a considerar una muestra como una representación es manifiesta en una
amplia variedad de situaciones. Cuando los sujetos con instruidos a generar una secuencia al

[1] La requerida estimación puede ser interpretada de varias maneras. Una posible aproximación es continuar la
práctica común de investigación, donde un valor obtenido en un estudio es tomado para definir una alternativa
plausible para la hipótesis inválida. La probabilidad requerida en el asunto puede ser interpretada como el poder
de la segunda prueba (por ejemplo, la probabilidad de obtener un significante resultado en la segunda muestra)
contra la hipótesis alternativa definida por el resultado de la primera muestra. En el caso especial de un ensayo
de una media con variante conocida, uno computaría el poder del ensayo contra la hipótesis que la población
media iguala la media de la primera prueba. Desde que el tamaño de la segunda muestra es la mitad del de la
primera, la probabilidad computada de obtener z ≥ 1.465 es de solo .473. Una teóricamente más justificable
aproximación es interpretar la probabilidad requerida dentro de un marco de trabajo Bayesiano y computarla
relativa a alguna distribución anterior adecuadamente seleccionada. Asumiendo una previa uniforme, la
probabilidad deseada posterior es de .478. Claramente, si la distribución previa favorece a la hipótesis inválida,
como es a menudo el caso, la probabilidad posterior será aún menor. Este capítulo apareció originalmente en el
26

Psychological Bulletin, 1971, 2, 105-10- Copyright © 1971 por la Asociación Americana de Psicología.
Reimpresa con permiso.
azar de lanzamientos de lanzamientos hipotéticos de una moneda legal, por ejemplo, ellos
producen secuencias donde la proporción de caras en cualquier segmento corto permanecen
más cercanas a .50 que las leyes de la probabilidad predecirían (Tune, 1964). Por lo tanto,
cada segmento de la respuesta a la secuencia es altamente representativa de la “limpieza” de
la moneda. Efectos similares son observados cuando los sujetos predicen sucesivamente
eventos en unas series generadas al azar, como en experimentos de aprendizaje de la
probabilidad (Estes, 1964) ó en otros juegos secuenciales de oportunidad. Los sujetos actúan
como si cada segmento de la secuencia al azar debe reflejar la proporción verdadera: si la
secuencia se ha extraviado de la proporción de la población, una prevención correctiva en la
otra dirección es esperada. Esto ha sido llamado la falacia del jugador.
El corazón de la falacia del jugador es un concepto erróneo de la legalidad de las leyes de
la oportunidad. El jugador siente que la legalidad de la moneda lo vincula a esperar que
cualquier desviación en una dirección será pronto cancelada por una correspondiente
desviación en la otra. Aún la más legal de las monedas, sin embargo, dadas las limitaciones
de su memoria y sentido moral, no pueden ser tan legales como el jugador espera que sea.
Esta falacia no es única para los jugadores. Considere el ejemplo siguiente:

La media IQ de la población de 8 grados en una ciudad es conocida de ser 100. Usted ha seleccionado
una muestra al azar de 50 niños para un estudio de logros educativos. El primer niño probó tener un
IQ de 150. Qué espera usted que sea la media del IQ para la totalidad de la muestra?

La respuesta correcta es 101. Un sorprendentemente gran número de la gente cree que el


IQ esperado para la muestra es todavía de 100. Esta expectativa puede ser justificada solo por
la creencia que un proceso al azar es auto-correctivo. Lenguajes tales como “los errores se
cancelan uno al otro” reflejan la imagen de un proceso auto-correctivo. Algunos procesos
familiares en naturaleza obedecen tales leyes: una desviación de un equilibrio estable
produce una fuerzo que restaura el equilibrio. Las leyes de la oportunidad, en contraste, no
trabajan de ese modo: las desviaciones no son canceladas como muestreo del producto, ellas
son meramente diluidas.
Hasta aquí, hemos intentado describir dos intuiciones relacionadas sobre la oportunidad.
Nosotros propusimos una hipótesis de la representación de acuerdo a la cual la gente cree que
las muestras son muy similares una a la otra y a la población de la cual ellas son tomadas.
También sugerimos que la gente cree en el muestreo como un proceso auto-correctivo. Las
dos creencias conducen a las mismas consecuencias. Ambas generan expectativas sobre las
características de la muestras, y la variabilidad de éstas expectativas es menor que la
verdadera variabilidad, al menos para pequeñas muestras.
La ley de números grandes garantiza que muestras muy grandes serán ciertamente
altamente representativas de la población de la cual ellas son tomadas. Si, adicionalmente,
una tendencia auto-correctiva se marca en el trabajo, entonces pequeñas muestras deberían
también ser altamente representativas y similares a otra. Las intuiciones de la gente sobre el
muestreo al azar parece satisfacer la ley de los números pequeños, la cual asevera que la ley
de los números grandes se aplica a los números pequeños también.
Considere a un científico hipotético quien vive por la ley de los números pequeños.
Cómo su frecuencia afectaría su trabajo científico? Considere nuestros fenómenos de
estudios científicos cuya magnitud es pequeña relativa a la incontrolada variabilidad, que es,
la relación de la señal de ruido en los mensajes que él recibe de la naturaleza es baja. Nuestro
científico podría ser un meteorólogo, un farmacólogo ó talvez un psicólogo.
Si él cree en la ley de los números pequeños, el científico tendrá exagerada confianza en
la validez de las conclusiones basadas sobre pequeñas muestras. Para ilustrar, suponga que él
27

está comprometido en estudiar con cual de los dos juegos infantiles prefería jugar. De los
primeros cinco infantes estudiados, cuatro han mostrado una preferencia por el mismo
juguete. Muchos psicólogos sentirán alguna confianza en este punto, de que la hipótesis
inválida de ninguna preferencia es falsa. Afortunadamente, tal convicción no es una
condición suficiente para una publicación periodística, aunque puede hacerse mediante un
libro. Por un rápido cálculo, nuestro psicólogo descubrirá que la probabilidad de un resultado
tan extremo como el obtenido es alto como ⅜ por debajo de la hipótesis inválida.
Para estar seguro, la aplicación de la hipótesis estadística probando la inferencia científica
está rodeada de serias dificultades. No obstante, el cómputo de los niveles de significancia (ó
razones de probabilidad, como un Bayesiano serían preferibles) forza al científico a evaluar
el efecto obtenido en términos de una estimación válida de la varianza del muestreo más que
en términos de su estimado subjetivo influenciado. Pruebas estadísticas, por consiguiente,
protegen a la comunidad científica contra excesivamente irreflexivos rechazos a la hipótesis
inválida (por ejemplo, error Tipo I) vigilando a sus muchos miembros quienes vivirían mejor
por la ley de los números pequeños.. Por otro lado, no existen salvaguardas comparables
contra el riesgo de fallar en confirmar una hipótesis de investigación válida (por ejemplo,
error Tipo II).
Imagine a un psicólogo quien estudia la correlación entre la necesidad de logros y grados.
Cuando está decidiendo en el tamaño de la muestra, él puede razonar como sigue: “Qué
correlación espero yo? R = .35. Qué N necesito para hacer el resultado significante? (Mirar
en la tabla). N = 33. Magnífico, esa es mi muestra”. El único defecto en este razonamiento es
que nuestro psicólogo se ha olvidado sobre la variación del muestreo, posiblemente porque él
cree que cualquier muestra debe ser altamente representativa de su población. Sin embargo,
si su suposición sobre la correlación en la población es correcta, la correlación en la muestra
es casi probable que descanse por debajo ó por encima de .35. De aquí que, la probabilidad
de obtener un significante resultado (por ejemplo, el poder de la prueba) para N = 33 es
alrededor de .50.
En una detallada investigación del poder de la estadística, J. Cohen (1962, 1969) ha
proveído definiciones plausibles de grandes, medianos y pequeños efectos y un extenso juego
de ayudas de cómputo para la estimación del poder para una variedad de pruebas estadísticas.
En el ensayo normal de una diferencia entre dos medias, por ejemplo, una diferencia de .25ơ
es pequeña, una diferencia de .50ơ es mediana y una diferencia de 1ơ es grande, de acuerdo a
las definiciones propuestas. La diferencia media del IQ entre oficinescos y semi-habilidosos
trabajadores es un efecto mediano. En un ingeniosos estudio de investigación práctica, J.
Cohen (1962) revisó todos los análisis estadísticos publicados en un volumen de la Revista
de Psicología Anormal y Social, y computó la probabilidad de detectar cada uno de los tres
tamaños del efecto. El poder promedio fue de .18 para la detección de efectos pequeños, .48
para efectos medianos y de .83 para grandes efectos. Si los psicólogos típicamente esperan
medianos efectos y seleccionan un tamaño de muestra como en el ejemplo de arriba, el poder
de sus estudios debería ciertamente de alrededor de .50.
El análisis de Cohen muestra que el poder de la estadística de muchos estudios
psicológicos es ridículamente bajo. Esta es una práctica auto-destructiva: ella hace científicos
frustrados y una ineficiente investigación. El investigador que ensaya una hipótesis válida
pero falla en obtener resultados significantes no puede ayudar sino considerar a la naturaleza
no confiable ó aún hostil. Además, como Overall (1969) ha mostrado, que la prevalencia de
estudios deficientes en el poder de la estadística son no solo destructivos sino actualmente
perniciosos: ello resulta en una gran proporción de rechazos inválidos de la hipótesis inválida
entre los resultados publicados.
28

Porque las consideraciones del poder de la estadística son de particular importancia en el


diseño de réplicas de los estudios, nosotros probamos actitudes concernientes a la réplica en
nuestro cuestionario.

Suponga que uno de sus estudiantes de doctorado ha completado un difícil experimento con 40
animales que requiere de mucho tiempo. El ha conseguido y analizado un gran número de variables.
Sus resultados son generalmente inconclusos, pero una comparación del antes y después produce un
altamente significante t = 2.70, el cual es sorprendente y podría ser de mayor significancia teórica.
Considerando la importancia del resultado, su sorpresivo valor y el número de análisis que su
estudiante ha llevado a cabo, recomendaría usted que él reprodujera el estudio antes de su
publicación? Si usted recomienda la reproducción, cuántos animales lo urgiría usted a utilizar?

Entre los psicólogos a quienes pusimos éstas interrogantes hubo un arrollador sentimiento
favoreciendo la reproducción: fue recomendada por 66 de 75 cuestionados, probablemente
porque ellos sospecharon que el solo resultado significante fue debido a una casualidad. La
recomendación media fue por que el estudiante de doctorado utilizara 20 sujetos en una
reproducción del estudio. Es instructivo considerar las probables consecuencias de este
consejo. Si la media y la variante en la segunda muestra son en realidad idénticas a aquellas
en la primera muestra, entonces el valor resultante de t será de 1.88. Siguiendo el
razonamiento del pie de página [1] al final de la página 25, la posibilidad del estudiante de
obtener un significante resultado en la reproducción está solo ligeramente por encima de la
mitad (para p = .05, one-tail test). Desde que habíamos anticipado que una reproducción de
una muestra de 20 parecería razonable a nuestros encuestados, agregamos la interrogante
siguiente:

Asuma que su infeliz estudiante ha, de hecho, repetido el estudio inicial con 20 animales adicionales
y ha obtenido un resultado insignificante en la misma dirección, t = 1.24. Qué recomendaría usted
ahora? Comprobación uno: {los números entre paréntesis refieren el número de encuestados quienes
comprobaron cada respuesta]
(a) El debería reunir los resultados y publicar su conclusión como un hecho. (0)
(b) El debería reportar los resultados como un descubrimiento tentativo (26)
(c) El debería correr otro grupo (media de 20) animales (21)
(d) El debería de tratar de encontrar una explicación para la diferencia entre los dos grupos (30)

Note que sin importar la confianza de uno en el descubrimiento original, su credibilidad


es seguramente intensificada por la reproducción. No solo es el efecto experimental en la
misma dirección en las dos muestras sino que la magnitud del efecto en la reproducción es
totalmente ⅔ de esa en el estudio original. En vista del tamaño de la muestra (20), el cual
nuestros encuestados recomendaron, la reproducción es tan exitosa como uno tiene derecho a
esperar. La distribución de las respuestas, sin embargo, reflejan un continuado escepticismo
concerniente a los descubrimientos del estudiante siguiendo la reproducción recomendada.
Este infeliz estado de los asuntos es una típica consecuencia del insuficiente poder de la
estadística.
En contraste a las respuestas b y c, las cuales pueden ser justificadas en algunos campos,
la más respuesta popular, la respuesta d, es indefendible. Nosotros dudamos que la misma
respuesta haya sido obtenida si los encuestados se hubieran percatado de que la diferencia
entre los dos estudios no se aproxima ni aún a la significancia. (Si las variantes de las dos
muestras son iguales, t para la diferencia es de .53). En la ausencia de una prueba de
estadística, nuestros encuestados siguieron la hipótesis de representación: como la diferencia
entre las dos muestras fue más grande de lo que ellos esperaban, ellos la vieron como valiosa
29

de explicación. Sin embargo, el intento de “encontrar una explicación para la diferencia entre
los dos grupos” es en todo probable un ejercicio en explicar el ruido.
Todos nuestros encuestados evaluaron la reproducción más bien duramente. Esto sigue de
la representación de la hipótesis: si nosotros esperamos que todas las muestras sean similares
una a la otra, entonces casi todas las réplicas de una hipótesis deberían ser estadísticamente
significativas. La dureza del criterio para una reproducción exitosa es manifiesta en las
respuestas a la pregunta siguiente:

Un investigador ha reportado un resultado que usted considera no plausible. El trabajó con 15 sujetos,
y reportó un significante valor, t = 2.46. Otro investigador ha intentado duplicar su procedimiento, y
él ha obtenido un valor insignificante de t con el mismo número de sujetos. La dirección fue la misma
en ambos juegos de datos.
Usted está revisando la literatura. Cuál es el más alto valor de t en el segundo juego de datos que
usted describiría como una falla de la reproducción?

La mayoría de nuestros entrevistados estimó t = 1.70 como una falla de reproducción. Si


los datos de los dos estudios (t =2.46 y t = 1.70) son unidos, el valor de t para los datos
combinados es alrededor de 3.00 (asumiendo variantes iguales). Por lo tanto, nos encaramos
con un paradójico estado de asuntos, en los cuales los mismos datos que incrementarían
nuestra confianza en el descubrimiento cuando es visto como parte del estudio, tambalean
nuestra confianza cuando es visto como un estudio independiente. Este doble estándar es
particularmente disturbante desde que, por muchas razones, las reproducciones son
usualmente consideradas como estudios independientes y las hipótesis son a menudo
evaluadas inscribiendo la confirmación y la no confirmación de los reportes.
Contrario a la creencia extendida, un caso puede ser hecho para que la reproducción de
una muestra sea a menudo más grande que la original. La decisión de reproducir un
descubrimiento una vez obtenido, a menudo expresa una gran indulgencia por ese
descubrimiento y un deseo de verlo aceptado por una comunidad escéptica. Puesto que la
comunidad demanda sin razón que la reproducción sea independientemente significativa, ó al
menos que ella se aproxime a la significancia, uno debe correr una muestra grande. Para
ilustrar, si el infortunado estudiante de doctorado cuya tesis fue discutida anteriormente
asume la validez de su resultado inicial (t = 2.70, N = 40), y si él está dispuesto a aceptar un
riesgo de solo .10 de obtener una t más baja que 1.70, él debería trabajar aproximadamente
50 animales en su estudio de reproducción. Con un algo más débil resultado inicial (t = 2.20,
N = 40), el tamaño de la reproducción de la muestra requerida para el mismo poder se eleva a
alrededor de 75.
Que los efectos discutidos hasta aquí no están limitados a las hipótesis sobre significados
y variantes está demostrado por las respuestas a la pregunta siguiente:

Usted ha corrido un estudio correlativo, sacando 20 variables sobre 100 sujetos. Veintisiete de los 190
coeficientes de correlación son significantes al nivel de .05; y 9 de éstos son significantes más allá del
nivel .01. El nivel medio absoluto de las correlaciones significantes es .31 y el patrón de resultados es
muy razonable en los campos teóricos. Cuántas de las 27 correlaciones significantes esperaría usted
ser significantes de nuevo, en una reproducción exacta del estudio, con N = 40?

Con N = 40, una correlación de alrededor de .31 es requerida por significante al nivel .05.
Esta es la media de las correlaciones significantes en el estudio original. Por lo tanto, solo
alrededor de la mitad de las correlaciones originalmente significantes (por ejemplo 13 ó 14)
permanecerían significantes con N = 40. Además, por supuesto, las correlaciones en la
reproducción son unidas para diferir de aquellas en el estudio original. De aquí que, por
efectos de regresión, los coeficientes inicialmente significantes son más probables de ser
30

reproducidos. Por lo tanto, 8 a 10 correlaciones significantes repetidas del original 27 es


probablemente un generoso estimado de lo que uno tiene derecho a esperar. La media
estimada de nuestros entrevistados es de .18. Esto es más que el número de correlaciones
significantes repetidas que serán encontradas si las correlaciones son calculadas para 40
sujetos seleccionados al azar del original de 100! Aparentemente, la gente espera más que
una mera duplicación de la significancia de los resultados, con poca importancia por el
tamaño de la muestra. Esta expectativa requiere de una absurda extensión de la hipótesis de
la representación; aún la ley de los números pequeños es incapaz de general tal resultado.
La expectativa de que los patrones de resultados sean aplicables casi en su totalidad
provee lo racional para una común, aunque deplorable práctica. El investigador que computa
todas las correlaciones entre índices de ansiedad y tres índices de dependencia a menudo
reportará e interpretará con gran confianza la sencilla correlación significante obtenida. Su
confianza en el inseguro descubrimiento arranca de su creencia que la matriz de correlación
obtenida es altamente representativa y fácilmente reproducible.
En la revisión, nosotros hemos visto que el creyente en la ley de los números pequeños
practica la ciencia como sigue:
1. El juega sus hipótesis de investigación en muestras pequeñas sin darse cuenta que las
probabilidades en su contra son sin razón altas. El sobreestima el poder.
2. El tiene indebida confianza en las tendencias anteriores (por ejemplo, los datos de los
primeros pocos sujetos) y en la estabilidad de patrones observados (por ejemplo, el número e
identidad de resultados significantes). El sobreestima la significancia.
3. En evaluar las reproducciones, de él ó de otros, él tiene sin razón altas expectativas
sobre la replicabilidad de los resultados significantes. El subestima la holgura de los
intervalos de confianza.
4. El raramente atribuye una desviación de los resultados de expectativas a la
variabilidad del muestreo, porque él encuentra una “explicación” causal para cualquier
discrepancia. Por lo tanto, él tiene poca oportunidad de reconocer la variación del muestreo
en acción. Su creencia en la ley de los números pequeños, por consiguiente, permanecerán
para siempre intactos.
Nuestro cuestionario obtuvo considerable evidencia para la prevalencia de la creencia en
la ley de los números pequeños. [2] Nuestro típico entrevistado es un creyente, sin importar el
grupo al cual él pertenece. No hubo prácticamente ningunas diferencias entre las repuestas
medias de las audiencias en una reunión de psicología matemática y en una sesión general de
la convención de la Asociación Americana de Psicología, aunque no hacemos ningún reclamo
por la representatividad de cualquiera de las dos muestras. Aparentemente, conocido con la
lógica formal y con la teoría de la probabilidad no extingue las intuiciones erróneas. Qué,
entonces, pude hacerse? Puede la creencia en la ley de los números pequeños ser abolida ó al
menos controlada? La experiencia en investigación es improbable de ayudar mucho, porque
la variación de la muestra es muy fácilmente “explicada” Las experiencias correctivas son
aquellas que no proveen ni motivo ni oportunidad para la explicación espúrea. .Por lo tanto,
un estudiante en un curso de estadística debe sacar repetidas muestras del tamaño dado de
una población, y aprender el efecto del tamaño de la muestra en la variación del muestreo de
una observación personal. Estamos lejos de la certeza, sin embargo, esas expectativas pueden
ser corregidas en esta manera, desde que los prejuicios relacionados, tales como la falacia del
jugador, sobrevive a considerable evidencia contradictoria.

[2] W. Edwards (1968, 25) ha argüido que la gente falla al extraer suficiente información ó certeza de los datos
probables; él llamó a esta falla conservatismo. Nuestros entrevistados pueden difícilmente ser descritos como
conservadores. Más bien, de acuerdo con la hipótesis de representación, ellos tienden a extraer más certeza de
los datos que, de hecho, contienen.
31

El explícito cómputo de poder, relativo a alguna hipótesis razonable, por ejemplo, los
efectos pequeños, medianos y grandes de J. Cohen (1962, 1969) seguramente serían llevados
a cabo antes de que cualquier estudio sean hecho. Tales cómputos a menudo conducirán a
darse cuenta de que allí simplemente no existe la posibilidad de correr el estudio a menos
que, por ejemplo, el tamaño de la muestra sea multiplicado por cuatro. Nos rehusamos a
creer que un investigador serio a sabiendas aceptará un .50 de riesgo de fallar en confirmar
una hipótesis de investigación válida. Además, los cómputos de poder son esenciales para la
interpretación de resultados negativos, que es, fallas en rechazar hipótesis inválidas. Debido a
que, los estimados intuitivos del poder de los lectores son probables de ser erróneos, la
publicación de los valores calculados no aparenta ser un desperdicio de ya sea el tiempo de
los lectores ó el espacio en la revista.
En la literatura temprana de psicología, la convención prevaleciente de reportar, por
ejemplo, una muestra media como M ± PE, donde PE es el error probable (por ejemplo, el
50% del intervalo de confianza alrededor de la media). Esta convención fue más tarde
abandonada en favor de la formulación de la prueba de la hipótesis. Un intervalo de
confianza, sin embargo, provee un útil índice de variabilidad del muestreo, y es precisamente
esta variabilidad la que nosotros tendemos a subestimar. El énfasis en los niveles de
significancia tiende a oscurecer una distinción fundamental entre el tamaño de un efecto y su
significancia estadística. Sin importar el tamaño de la muestra, el tamaño de un efecto en un
estudio es un razonable estimado del tamaño del efecto en la reproducción. En contraste, el
nivel de significancia estimado en una reproducción depende críticamente del tamaño de la
muestra. Expectativas no realistas concernientes a la reproducibilidad de los niveles de
significancia pueden ser corregidos si la distinción entre el tamaño y significancia es
clarificado, y si el tamaño calculado de los efectos observados es rutinariamente reportado.
Desde este punto de vista, al menos, la aceptación del modelo de la prueba de la hipótesis no
ha sido una ventaja no mezclada para la psicología.
El verdadero creyente en la ley de los números pequeños comete su multitud de pecados
contra la lógica de la inferencia estadística de buena fe. La hipótesis de la representación
describe un prejuicio cognitivo ó perceptual, el cual opera sin importar los factores
motivacionales. Por lo tanto, mientras más apresurado sea el rechazo a la hipótesis inválida
es gratificante, el rechazo a una esperanzadora hipótesis es agravante, aún el verdadero
creyente está sujeto a ambas. Su expectativa intuitiva está gobernada por una consistente
mala percepción del mundo mas bien que por un oportunista deseo de pensar. Dado algún
editorial estimulante, el puede escribirse para considerar sus intuiciones estadísticas con
apropiada suspicacia y reemplazar la formación de impresión por el cómputo siempre que sea
posible.
32

3. Probabilidad subjetiva;
Un juicio de representatividad

Daniel Kahneman y Amos Tversky

Las probabilidades subjetivas juegan un importante papel en nuestras vidas. Las


decisiones que hacemos, las conclusiones que alcanzamos y las explicaciones que ofrecemos
están usualmente basadas en nuestros juicios de la probabilidad de eventos inciertos tales
como el éxito en un nuevo trabajo, el resultado de una elección ó el estado del mercado.
Ciertamente, una extensa literatura experimental ha sido dedicada a la interrogante de cómo
la gente percibe los procesos y evalúa las probabilidades de eventos inciertos en los contextos
de aprendizaje de la probabilidad, estadística intuitiva y tomar decisiones bajo riesgo.
Aunque ninguna teoría sistemática sobre la psicología de incertidumbre ha emergido de ésta
literatura, varias generalizaciones empíricas han sido establecidas. Talvez la conclusión más
general, obtenidas de numerosas investigaciones, es que la gente no sigue los principios de la
teoría de la probabilidad en juzgar la probabilidad de eventos inciertos. Esta conclusión es
dificilmente porque muchas de las leyes de posibilidad ni intuitivamente aparentes ni
fácilmente aplicables. Menos obvio, sin embargo, es el hecho de las desviaciones de la
probabilidad subjetiva de la objetiva [1] parecen confiables, sistemáticas y difícil de eliminar.
Aparentemente, la gente reemplaza las leyes de posibilidad por heurísticas, las cuales a
veces producen estimados razonables y muy a menudo no.
En el presente trabajo, nosotros investigamos en detalle una de tales heurísticas llamada
representatividad. Una persona que sigue esta heurística evalúa la probabilidad de un evento
incierto, ó una muestra, por el grado en el cual está: (i) similares en propiedades esenciales a
la población de su origen; y (ii) refleja las características salientes del proceso por el cual es
generada. Nuestra tesis es que, en muchas situaciones, un evento A es juzgado más probable
que un evento B cuandoquiera que A parezca mas representativa que B. En otras palabras, la
ordenación de eventos por sus probabilidades subjetivas coincide con su ordenamiento por
representatividad.
Las representatividad, como la similitud perceptual, es más fácil de evaluar que
caracterizar. En ambos casos, no hay definición general disponible, aunque existen muchas
situaciones donde la gente concuerda con cuál de los dos estímulos es más similar al
estándar, ó cual de los dos eventos es más representativo de un proceso dado. En este trabajo
[1] Nosotros usamos el término “probabilidad subjetiva” para denotar cualquier estimado de la
probabilidad de un evento, el cual es dado por el sujeto, ó inferido de su comportamiento. Estos
estimados no son asumidos para satisfacer cualesquiera axiomas ó requerimientos consistentes.
Nosotros usamos el término “probabilidad” objetiva para denotar valores calculados, sobre la base de
suposiciones, de acuerdo a las leyes de cálculo de la probabilidad. Debería ser evidente que esta
terminología no comprometida con respecto a cualquier opinión filosófica de la probabilidad.
33

Este capítulo es una abreviada versión de un trabajo aparecido en Psicología Cognitiva, 1972, 3, 430-
454. Derechos de autor © 1972 por Academic Press, Inc. Reimpreso con permiso.
nosotros no escalamos la representatividad, aunque esta es una aproximación factible. En vez
de eso, consideramos casos donde el ordenamiento de eventos de acuerdo a la
representatividad parece obvio, y muestra que la gente consistentemente juzga al evento más
representativo ser el más probable, ya sea si es ó no es. Aunque la representatividad puede
jugar un importante papel en muchas variedades de juicios de probabilidad, por ejemplo, la
predicción política y el juicio clínico, el presente tratamiento está restringido situaciones
repetitivas esencialmente donde las probabilidades objetivas son rápidamente computables
La mayoría de los datos en este trabajo fueron recolectados en una forma de cuestionario
de un total de aproximadamente 15500 encuestados en Israel. Los encuestados fueron
estudiantes en grados 10, 11 y 12 de escuelas preparatorias para High schools (edades entre
15 y 18). Especiales fueron hechos para mantener la atención y la motivación de los sujetos
(Ss). Los cuestionarios fueron administrados en un estilo de examen rápido en una situación
natural de aula, y los encuestados fueron registrados en las hojas de respuestas. Cada
encuestado respondió un pequeño número de (típicamente 2-4) de la preguntas cada una de
las cuales requirió, a los sumo, 2 minutos. Las preguntas fueron introducidas como un
estudios de las intuiciones de la gente sobre la posibilidad. Ellas fueron precedidas por un
estándar oral de instrucciones los cuales explicaban la pregunta apropiada en detalle. El
diseño experimental fue contrabalanceado para prevenir confundir con la escuela ó la edad.
La mayoría de las preguntas les fueron presentadas a estudiantes universitarios (edades 20-
25) y los resultados de las dos poblaciones fueron indistinguibles.

Determinantes de la representatividad

En ésta sección discutimos las características de las muestras, ó eventos, que las hacen
representativas y demuestran sus efectos sobre la probabilidad subjetiva. Primero,
describimos algunas de las características que determinan la similitud de una muestra con su
población de origen. Entonces, retornamos al análisis de las determinantes de una aparente
escogencia al azar.

Similitud de la muestra a la población

La noción de representatividad es mejor explicada por ejemplos específicos. Considere la


pregunta siguiente:

Todas las familias de seis niños en una ciudad fueron encuestadas. En 72 familias el orden exacto del
nacimiento de los niños y las niñas fue G B G B B G.
Cuál es su estimado del número de familias encuestadas en el cual el orden exacto de los
nacimientos fue B G B B B B?

Las dos secuencias de los nacimientos son casi iguales probablemente, pero la mayoría de
la gente seguramente estará de acuerdo que ellas no son igualmente representativas. La
secuencia con cinco niños y una niña falla al reflejar la proporción de niños y niñas en la
población. Ciertamente, 75 de 92 Ss juzgaron esta secuencia ser menor probablemente que la
secuencia estándar (p < .01 por un signo de prueba). La media estimada fue 30. Similares
resultados han sido reportados por Cohen y Hansel (1956), y por Alberoni (1962).
Uno puede maravillarse de si Ss no simplemente ignora el orden de la información, y
responde la pregunta evaluando la frecuencia de las familias de cinco niños y una niña,
relativa a esa de familias de tres niños y tres niñas. Sin embargo, cuando requerimos el
34

mismo Ss la frecuencia de la secuencia B B B G G G, ellos la vieron como significante


menos probable que G B B G B G (p < .01), presumiblemente porque el anterior parece
menos al azar. El orden de información, por lo tanto, no es simplemente ignorado.
Una determinante relacionada de representatividad es si la simple preserva la relación
mayoría-minoría en la población. Nosotros esperamos una muestra que preserve esta relación
para ser juzgada más probable que una (objetivamente) muestra igualmente probable donde
esta relación es violada. Este efecto es ilustrado en el problema siguiente:

Existen dos programas en un high school. Los estudiantes varones son una mayoría (65%) en el
programa A y una minoría en el programa B. Existe un número igual de clases en cada uno de los dos
programas.
Usted entra a una clase al azar y observa que el 55% de los estudiantes son varones. Cuál es su
mejor suposición – pertenece la clase al programa A ó al programa B?

Ya que la mayoría de estudiantes en la clase son varones, la clase es más representativa


del programa A que del programa B. En consecuencia, 67 de 89 Ss supusieron que la clases
pertenece al programa A (p < .01 por signo de prueba). De hecho, es ligeramente más
probable que la clase pertenezca al programa B (puesto que la variante para p = .45 aquella
para p = .65).
Una muestra en la cual los varios posibles resultados están presentes es, en general, más
representativa que una muestra comparable en la cual algunos de los resultados no están
incluidos. Por ejemplo, dado un proceso binomio con p = 4/5, una significante mayoría de Ss
juzgan una muestra de 10 éxitos y 0 fallas ser menos probable que una muestra de 6 éxitos y
4 fallas, aunque la muestra anterior es, de hecho, más probable.
Los efectos de prejuiciar la representatividad no están limitados a simples sujetos. Ellos
también son encontrados (Tversky & Kahneman, 1971, 2) en los juicios intuitivos de
sofisticados psicólogos. La significancia estadística es comúnmente vista como la
representación de la verdad científica. De aquí que, un efecto real (en la población) se espera
ser representado por un resultado significante (en la muestra) con insuficiente consideración
por el tamaño de la muestra. Como una consecuencia, los investigadores están propensos a
sobreestimar la probabilidad de un resultado significante siempre que ellos crean en la
hipótesis inválida ser falsa.
Por ejemplo, la siguiente pregunta fue formulada a los participantes de una reunión del
Grupo de Psicología Matemática y la Asociación Americana de Psicología:

Suponga que usted ha corrido un experimento con 20 Ss, y ha obtenido un resultado significante el
cual confirma su teoría (z = 2.23, p < .05, two-tailed ?). Usted ahora tiene motivo para correr un
grupo adicional de 10 Ss. Cuál piensa usted que es la probabilidad de que los resultados serán
significantes, por una prueba one-tailed (?), separadamente para este grupo?

Un estimado realístico de la probabilidad deseada es de alguna manera más bajo que .50.
La media estimada de los encuestados fue tan alta como .85. Esta injustificada confianza en
la reproducibilidad de la significancia tiene severas consecuencias para el conducto de la
investigación: Ella conduce a expectativas irreales concernientes a la significancia, y
resultados en el planeamiento de estudios los cuales son deficientes en el poder estadístico,
vea J. Cohen (1962).

Reflexión sobre aleatoriedad


35

Para ser representativa, no es suficiente que un evento incierto sea similar a su población
original. El evento debería también reflejar las propiedades del proceso incierto por el cual el
es generado, que es, que el debería parecer aleatorio. Como es cierta la similitud de la
muestra para la población, las características específicas que determinan la aparente
aleatoriedad difiere dependiendo del contexto. No obstante, dos propiedades generales,
irregularidad y representatividad local, parecen capturar la noción intuitiva de la aleatoriedad.
Estas propiedades son ahora discutidas en el orden correcto. Una mayor característica de la
aleatoriedad aparente es la ausencia de patrones sistemáticos. Una secuencia de lances de
moneda, [2] por ejemplo, la cual contiene una obvia regularidad no es representativa. Por lo
tanto, alternando secuencias de caras y cruces, tales como H T H T H T H T ó T T H H T T H
H, falla al reflejar la aleatoriedad del proceso. Ciertamente, Ss juzga tales secuencias como
relativamente improbables y las evitan en producir secuencias de aleatoriedad simuladas
(Tune, 1964; Wagenaar, 1970).
Alguna irregularidad es esperada, no solo en el orden de resultados, sino también en su
distribución, como se muestra en el problema siguiente:

En cada ronda de un juego, 20 canicas son distribuidas al azar entre cinco niños: Alan, Ben, Carl y
Ed. Considere las siguientes distribuciones:

I II
Alan 4 Alan 4
Ben 4 Ben 4
Carl 5 Carl 4
Dan 4 Dan 4
Ed 3 Ed 4

En muchas rondas del juego, habrá más resultados de tipo I ó de tipo II?

La distribución uniforme de las canicas (II) es, objetivamente, más probable que la
distribución no uniforme (I), aunque ella parezca muy legal para ser el resultado de un
proceso aleatorio. La distribución I, la cual parte ligeramente de una repartición equitativa, es
más representativa de una distribución aleatoria. Una mayoría significante de Ss (36 a 52, p =
.01, un ensayo de indicio) visualizaron la distribución I como más probable que la
distribución II. La presencia de alguna perturbación contribuye a la representatividad y en
consecuencia a la aparente probabilidad de eventos inciertos.
Ss contestaron el problema de arriba como si ellos ignoraron la naturaleza individual de
las dos distribuciones y compararon, las dos clases respectivas de distribuciones,
desestimando la asignación particular de las canicas a los niños. Esto no significa que los Ss
no aprecien la distribución entre una clase y sus instancias. Lo que ellos no aprecian es el
impacto apropiado de esta distinción en los juicios de frecuencia relativa.
La gente visualiza la posibilidad como impredecible pero esencialmente favorable. Por tanto,
ellos esperan esa en una puramente aleatoria asignación de canicas que cada niño conseguirá
aproximadamente (aunque no exactamente) el mismo número de canicas. Similarmente, ellos
esperan aún pequeñas secuencias del lanzamiento de una moneda para casi el mismo número
de caras y cruces. Más generalmente, una muestra representativa está representada no solo
globalmente en la muestra completa, sino también localmente en cada una de sus partes. Una
[2] En este trabajo tratamos con monedas legales solamente.
muestra que es localmente representativa, sin embargo, se desvía sistemáticamente de
expectativas de posibilidad: ella contiene demasiadas alternativas y muy pocos grupos.
36

La ley de los grandes números asegura que muestras muy grandes son altamente
representativas de las poblaciones de las cuales ellas son tomadas. En otra parte (Tversky &
Kahneman, 1971, 2), hemos caracterizado la expectativa de la representatividad local como
una creencia en la ley de los números pequeños, de acuerdo a la cual, “la ley de los números
grandes se aplica a los números pequeños también”. Esta creencia, sugerimos, subraya las
intuiciones erróneas sobre la aleatoriedad, las cuales son manifiestas en una amplia variedad
de contextos.
Investigaciones sobre la percepción de la aleatoriedad (por ejemplo, Tune, 1964;
Wagenaar, 1979) muestran que cuando la gente es requerida a simular un proceso aleatorio,
tal como unas series de lanzamientos de una moneda, ellos producen secuencias las cuales
son localmente representativas, con muchas otras series cortas. Además la gente tiende a
considerarlas como secuencias improbables, ó las rechazan como no aleatorias, las cuales
tienen la distribución correcta de series largas, presumiblemente porque las series largas no
son localmente representativas.
Similares descubrimientos han sido también obtenidos en los cientos de estudios sobre el
aprendizaje de la probabilidad y predicción binaria (Estes, 1964; M. R. Jones, 1971). La
falacia del jugador, ó el efecto de la negativa a la novedad, es una manifestación de la
creencia en la representatividad local. Por si las proporciones de los dos resultados son para
ser preservados en segmentos cortos, entonces una larga secuencia de un resultado debe ser
seguido por el otro resultado en orden de restaurar el balance. En un mundo localmente
representativo, de hecho, la falacia del jugador no es ya falaz.
En su Introducción a la Teoría de la Probabilidad, Feller (1968, p. 160) describe un
ejemplo el cual ilustra la errónea creencia en la representatividad local. Durante el intenso
bombardeo de Londres en la Segunda Guerra Mundial, fue generalmente creído que el patrón
de bombardeo no podría ser aleatorio, porque unas pocas secciones de la ciudad fueron
golpeadas varias veces mientras que muchas otras no fueron impactadas del todo. Por lo
tanto, el patrón de golpes violó la representatividad local y la hipótesis de aleatoriedad
parecía inaceptable. Para probar esta hipótesis, el área entera del Sur de Londres fue dividida
dentro de pequeñas secciones de igual área, y la efectiva distribución de impactos por sección
fue comparada con la esperada (Poisson) distribución bajo la suposición del bombardeo
aleatorio. Contrariamente a la creencia general, la correspondencia entre las distribuciones
fue extraordinariamente buena. “Para el ojo no entrenado”, Feller observa que, “la
aleatoriedad aparece como regularidad ó tendencia al agrupamiento”.
La mayoría de estudiantes están sorprendidos al aprender que en un grupo de tan pocas
como 23 gentes, la probabilidad de que al menos dos de ellas tienen el mismo día de
cumpleaños (por ejemplo, el mismo día y mes) excede un .5. Claramente, con 23 gentes el
esperado número de cumpleaños por día es menor que 1/15. Por lo tanto un día con dos
cumpleaños, en la presencia de 343 días “desiertos”, es altamente no representativo y el
evento en cuestión, parece improbable. Más generalmente, nosotros conjeturamos que la
naturaleza contra-intuitiva de muchos resultados en la teoría de la probabilidad es atribuible a
violaciones de representatividad. (Por un sorprendente ejemplo de la teoría de aleatoriedad de
gentes de toda condición, vea Feller, 1968, pp. 84-88).
Una muestra representativa, entonces, es similar a la población en características
esenciales y refleja la aleatoriedad como la gente la ve; que es, que todas sus partes son
representativas y ninguna es muy regular. Solo unas pocas de todas las muestras posibles
llenan todas estas restricciones. La mayoría de las muestras no las llenan, y por consiguiente
no parece n aleatorias. Entre las 20 posibles secuencias (no considerando la dirección y
designación) de seis lanzamientos de una moneda, por ejemplo, nos aventuramos que solo H
T T H T H parecen realmente aleatorias. Para cuatro lanzamientos, puede que no haya
ninguna.
37

La tendencia a considerar las secuencias binarias como más aleatorias que otras tuvo
dramáticas consecuencias en los experimentos [3] de radio Zenit en los cuales la audiencia
fue estimulada a enviar (adivinando) la identidad de cinco símbolos binarios que fueron
“hechos llegar por telepatía” por un grupo de personas. El análisis de arriba de un millón de
respuestas (Goodfellow, 1938) reveló que los números de aciertos estuvieron muy en exceso
de la posibilidad para algunas secuencias y muy por debajo de la posibilidad para otras,
dependiendo grandemente en la aparente aleatoriedad del objetivo de las secuencias. Las
implicaciones de este descubrimiento para la investigación ESP son obvias.
Las secuencias que parecen aleatorias son aquellas cuya descripción verbal es más larga.
Imagínense usted dictando una larga secuencia de símbolos binarios, digamos caras y cruces.
Usted indudablemente utilizará cortas expresiones tales como “cuatro Ts”, ó “H-T, tres
veces”. Una secuencia con muchas largas series permite expresiones cortas del primer tipo.
La estructura de la serie de una secuencia que parece aleatoria minimiza la disponibilidad de
estas expresiones cortas, y por lo tanto define descripciones económicas. La aparente
aleatoriedad, por consiguiente, es una forma de la complejidad de la estructura.
Determinantes de la complejidad estructural, tal como la codibilidad (Garner, 1970; Glanzer
& Clark, 1963; Vitz & Todd, 1969) afectan la aparente aleatoriedad también.

Distribuciones del muestreo

Hemos propuesto que Ss asigne probabilidades a los eventos de tal manera que a los
eventos más representativos les sean asignadas iguales probabilidades, e igualmente a los
eventos representativos les sean asignadas iguales probabilidades. En esta sección,
investigamos la implicación de estas hipótesis para el estudio de las distribuciones del
muestreo subjetivo, por ejemplo, las probabilidades que Ss asigne a las muestras de un
tamaño dado a una población especificada.
Cuando las muestra es descrita en términos de un estadística simple, por ejemplo,
proporción ó media, el grado al cual ella representa a la población es determinado por la
similaridad de esa estadística al parámetro correspondiente de la población. Puesto que el
tamaño de la muestra no refleja cualquier propiedad de la población de origen, ella no afecta
la representatividad. Por lo tanto, el evento de encontrar más de 600 varones en una muestra
de 1000 recién nacidos, por ejemplo, es tan representativa como el evento de encontrar más
de 60 varones en una muestra de 100 recién nacidos. Los dos eventos, por consiguiente,
serían juzgados igualmente probables, aunque el último, de hecho, es vastamente más
probable. Similarmente, de acuerdo al presente análisis, las probabilidades subjetivas de que
el promedio de altura en una muestra de hombres descansa entre 6 pies o pulgadas y 6 pies 2
pulgadas sería independiente del tamaño de la muestra.
Para probar estas predicciones, nueve grupos diferentes de Ss produjeron distribuciones
de muestreo subjetivo para tres muestras de tamaños (N = 10, 100, 1000) y para cada una de
las tres poblaciones siguientes.

Distribución de sexos. (Binomial, p = .50) a los Ss se les dijo que aproximadamente N recién
nacidos nacieron cada día en una cierta región. Para N = 1000, por ejemplo, la interrogante se
lee como sigue:

[3] Agradecemos a R. P. Abelson por llamar nuestra atención sobre este estudio.

Insertar aquí la Figura 1 de la página 39 del original.


38

Figura 1. Distribución de sexos.

En qué porcentaje de días el número de varones entre 100 recién nacidos será como sigue:
Arriba de 50 varones
50 a 150 varones
150 a 250 varones
.................
850 a 950 varones
Más de 950 varones
Note que las categorías incluyen todas las posibilidades, por tanto sus repuestas deberán
alcanzar alrededor del 100%.

Para N = 100, las 11 categorías fueron: hasta 5, 5-15, etc. Para N = 10, cada categoría
contuvo un simple resultado, por ejemplo, 6 varones.

Distribución de los latidos del corazón. (Binomial, p = .80) Aquí, a los Ss se les dijo que
aproximadamente N recién nacidos nacen cada día en una cierta región, y que el 80% de
todos los recién nacidos tienen un latido del corazón de tipo α y el restante 20% tiene latido
del corazón de tipo β. Para cada tamaño de muestra , Ss produjo distribuciones de muestreo
para el número de recién nacidos, nacidos cada día con latido del corazón tipo α usando las
mismas 11 categorías como las de arriba.

Insertar aquí la Figura 2 de la página 40 del original.

Figura 2. Distribución de tipos de latido del corazón

Distribución de altura. A los Ss se les dijo que un centro de inducción regional registra el
promedio de altura de N hombres quienes son examinados cada día. A ellos también se les
dijo que el promedio de altura de la población masculina descansa entre 170-175 cm. (en
Israel la altura es medida en centímetros), y que la frecuencia de las alturas decrece con la
distancia de la media. Para cada tamaño de muestra, Ss produjo una distribución del muestreo
del promedio de altura, en las siguientes siete categorías: arriba de 160, 160-165, . . . . , más
de 185.
La media estimada para las tres poblaciones, respectivamente, son mostradas en las
Figuras 1, 2 y 3 para todos los tres valores de N. (El tamaño del grupo varió de 45 a 84 con
un promedio de 62). Es aparente que el tamaño de la muestra no tiene efecto cualquiera que
sean las distribuciones del muestreo subjetivo. Grupos independientes encarados con
problemas que difieren solo en el tamaño de la muestra, producen distribuciones
distinguibles. Este resultado se sostiene para poblaciones que son abstractamente definidas,
por ejemplo, el binomial, así como para poblaciones que son conocidas para los Ss a través
de la experiencia diaria, por ejemplo, la altura de los hombres.

Insertar aquí la Figura 3 de la página 41 del original.

Figura 3. Distribución de altura.

Puesto que las distribuciones del muestreo subjetivo son independientes de N, las líneas
sólidas en cada figura, las cuales conectan los medios de las medias estimadas, pueden ser
39

consideradas como distribuciones de muestreo “universal” para la respectiva población. Para


describir la magnitud del efecto cierto del tamaño de la muestra, el cual los Ss
completamente ignoran, las distribuciones del muestreo correcto paras p = .50 y p = .80 se
muestran, juntos con la |correspondiente distribución de muestreo “universal”, en las Figuras
4 y 5, respectivamente.
Puede verse que las curvas “universales” son aún más planas que las curvas correctas
para N = 10. Para p = .50, la variante “universal” (.48) es aproximadamente igual a la
variante correcta del muestreo para N = 5 (.05). Para p = .80, la variante de la curva
“universal” (.068) se ubica entre la variante del muestreo correcto para N = 2 y esa para N =
3.
En distribuciones binomiales, la media generalmente coincide con el modo.
Consecuentemente, cuando p ≠ .50, el vínculo corto debe ser más alto que el vínculo largo;
vea, por ejemplo, la distribución correcta para N = 10 en la Figura 4. La Figura 4 también
muestra que esta propiedad es violada por la curva “universal” para p = .80 cuya media es
solo de .63. Por tanto, aunque el modo de la distribución del muestreo subjetivo está
apropiadamente localizado en el valor más representativo, la media está desplazada hacia el
vínculo largo. El mismo resultado ha sido obtenido en otros estudios, por ejemplo, Cohen y
Hansel (1956), Peterson, DuCharme y Edwards (1968). Por tanto, para p =.80 la distribución
del muestreo “universal” de la proporción no es una binomial del todo!

Insertar aquí la Figura 4 de la página 42 del original.

Figura 4. Distribución del muestreo p = .50.

El presente experimento difiere de estudios previos de la binomial subjetiva (Peterson,


DuCharme & Edwards, 1968; Wheeler & Beach, 1968) en los dos respectos. Primero, el
trabajo anterior estuvo relacionado con tamaños de muestra mucho más pequeños que
aquellos del presente estudio. Segundo, y más importante, el número de eventos entre los
cuales las probabilidades fueron distribuidas no fue el mismo para diferentes tamaños de
muestra: para una muestra de tamaño N, los Ss evaluaron N + 1 resultados. En el presente
estudio, en contraste, los Ss evalúan el mismo número de categorías para todos los tamaños
de muestra. La constante de la distribución de muestreo con respecto a N, la cual es
demostrada en las Figuras 1, 2 y 3, puede no sostenerse exactamente cuando el número de
categorías varía, ó cuando la muestra es suficiente pequeña para permitir la enumeración de
posibilidades. Para muestras grandes, la enumeración es imposible y el recurso natural es
para una apreciación directa de la representatividad, la cual es dominada por la media de la
muestra ó la proporción de la muestra.

Insertar aquí la Figura 5 de la página 43 del original.

Figura 5. Distribución del muestreo p = .80.

Para promover la exploración de la predicción de representatividad concerniente al


tamaño de la muestra, un experimento adicional fue conducido. Los Ss fueron 97 no
graduados de Stanford sin educación en probabilidad ó estadística, corrido en pequeños
grupos de 5 a 12 miembros cada uno. Los Ss fueron presentados, in un orden fijado, con tres
problemas cada uno definiendo un proceso de muestreo con una media específica y un valor
crítico por encima de la media, y requeridos a juzgar si un resultado de muestreo particular es
más probable que ocurra en una pequeña muestra ó en una muestra grande. A cada Ss se le
pagó $ 1.00 por su participación en el experimento y un $ 1.00 adicional si su respuesta a uno
40

de los problemas (aleatoriamente seleccionado después de completar la tarea) estuvo


correcta.
Para controlar los prejuicios en la respuesta, cada problema fue presentado en dos formas.
La mitad de los Ss juzgaron, para todos los tres problemas, si un resultado que es más
extremo que el valor crítico especificado es más probable que ocurra en una muestra pequeña
ó en una muestra grande. La respuesta correcta, por supuesto, es que un resultado extremo es
más probable de ocurrir en una muestra pequeña. El resto de Ss juzgaron si un resultado que
es menos extremo que el valor crítico especificado es más probable que ocurra en una
muestra pequeña ó en una grande. La respuesta correcta aquí es que tal resultado es más
probable que ocurra en una muestra grande. Los tres problemas son presentados abajo. Los
valores mostrados son los números de Ss quienes escogieron cada categoría de respuesta,
para cada una de las dos formas. Las respuestas correctas están marcadas con un asterisco.

1. Una cierta ciudad es atendida por dos hospitales, En el hospital más grande alrededor de 45
bebés nacen cada día y en el más pequeño alrededor de 15 bebés nacen cada día. Como usted sabe
alrededor del 50% de todos los bebés son varones. El porcentaje exacto de bebés varones, sin
embargo, varía día a día. Algunas veces puede ser mayor del 50%, algunas veces menor.
Para un período de un año, cada hospital registró los días en los cuales (más ó menos) el 60% de
los bebés nacidos fueron varones. Cuál hospital usted piensa que registró más, tales días?

Más del 60% Menos del 60%


El hospital más grande 12 9*
El hospital más pequeño 10* 11
Alrededor del mismo (por ejemplo, 5% de
uno a otro) 28 25

2. Un investigador estudiando algunas propiedades del lenguaje seleccionó un libro en rústica y


computó el promedio de extensión de palabras en cada página del libro (por ejemplo, el número de
letras en esa página dividido por el número de palabras). Otro investigador tomó la primera línea en
cada página y computó el promedio de extensión de palabras de la línea. El promedio de extensión de
palabras del libro entero es 4. Sin embargo, no cada línea ó página tiene exactamente ese promedio.
Algunas pueden tener un promedio más alto de extensión de palabras, algunas menor.
El primer investigador contó el número de páginas que tenía un promedio de extensión de
palabras de ó (más ó menos) y el segundo investigador contó el número de líneas que tenía un
promedio de longitud de palabras de 6 ó (más ó menos). Qué investigador piensa usted registró un
mayor número de tales unidades (páginas para uno, líneas para el otro)?

Más de 6 Menos de 6
La página del investigador 8 10*
La línea del investigador 21* 15
Alrededor del mismo (por ejemplo, 5% de
uno a otro) 20 23

3. Una encuesta médica se está llevando a cabo para estudiar algunos factores pertenecientes a las
enfermedades coronarias. Dos equipos están recolectando los datos. Uno chequea tres hombres al día
y el otro chequea un hombre al día. Estos hombres son escogidos al azar de una población. Cada
altura del hombre es medida durante el chequeo. El promedio de altura de los hombres adultos es 5
pies 10 pulgadas, y existen tantos hombres cuyas alturas están por encima del promedio como
también existen hombres cuyas alturas están por debajo del promedio.
41

El equipo chequeando tres hombres por día los clasifica con respecto a su altura, y calcula los
días en los cuales la altura del hombre medio es (más ó menos) de 5 pies 11 pulgadas. El otro equipo
meramente cuenta los días en los cuales el hombre que el chequeó fue (más alto /más bajo) que 5 pies
11 pulgadas. Cuál equipo piensa usted que calculó más tales días?

Más de 5’ 11’’ Menos de 5’ 11’’


El equipo chequeando 3 7 14*
El equipo chequeando 1 18* 17
Alrededor del mismo (por ejemplo 5%
de uno a otro) 23 17

Si los Ss tienen una idea dentro del tamaño de la muestra, ellos deberían encontrarlo fácil
de seleccionar las respuestas correctas a estas simples preguntas ordinales. Por otro lado, si
ellos juzgan los resultados representativos ser igualmente probables, ellos no deberían
mostrar una sistemática preferencia por la respuesta correcta. Este es claramente el caso. La
respuesta es “igual” en casi todas las comparaciones; más aún, no existe preferencia
significante para la respuesta correcta en cualquiera de los problemas.
Este experimento confirma las conclusiones del estudio inicial a pesar de varias
diferencias de procedimiento. Aquí, cada uno de los 5 hace un juicio ordinal directo de la
probabilidad de un resultado con dos tamaños de muestras bajo condiciones designadas a
motivar exactitud. Este procedimiento debería estimular la importancia del tamaño de la
muestra. Además, el último problema compara una simple observación de la media de una
muestra de tres observaciones. Aparentemente, los Ss fallaron en notar aún el hecho obvio
que las medias deben ser menos variables que la las simples observaciones.
La noción que la variación del muestreo decrece en proporción al tamaño de la muestra es
parte aparentemente del repertorio de las intuiciones del hombre. Ciertamente, los conceptos
erróneos del papel del tamaño de la muestra ocurre frecuentemente en cada día de la vida.
Por otro lado, la gente está a menudo dispuesta a tomar seriamente un resultado establecido
en porcentajes, sin tomar en cuenta el número de observaciones, la cuales pueden ser
ridículamente pequeñas. Por otro lado, la gente a menudo permanece escéptica en encarar la
evidencia sólida de una muestra grande, como en el caso de el bien conocido político quien
protestó agriamente que el índice del costo de vida no está basado en la población total, sino
solo en una muestra grande, y agregó, “Peor aún – una muestra aleatoria”.
Nosotros seguramente no pensamos implicar que el hombre es incapaz de apreciar el
impacto del tamaño de la muestra en la variante del muestreo. A la gente se le puede enseñar
la regla correcta, talvez aún con una pequeña dificultad. El punto permanece en que la gente
no sigue la regla correcta, cuando es dejada a sus propios mecanismos. Además, el estudio de
la conducta de investigación psicológica (J. Cohen, 1962; Tversky & Kahneman, 1971, 2)
revela que una fuerte tendencia a subestimar el impacto del tamaño de la muestra persiste a
pesar del conocimiento de la regla correcta y el extenso entrenamiento estadístico. Para
quienquiera que desearía visualizar al hombre como un razonable estadístico intuitivo, tales
resultados son desalentadores.

Modelos normativos y heurísticas descriptivas

La opinión ha sido expresada (vea, por ejemplo, W. Edwards, 1968,25) que el hombre, en
general, sigue la correcta regla Bayesiana, pero falla en preciar el impacto total de la
evidencia y es por lo tanto conservador. Peterson y Beach (1967), por ejemplo, concluyeron
que el modelo normativo provee una buena primera aproximación a la conducta de los Ss
42

quienes están “influenciados por variables apropiadas y en direcciones apropiadas” (p. 43).
Esta opinión no ha sido compartida por todos. En una más reciente revisión de la literatura,
Slovic y Lichttenstein (1971) arguyeron evaluación de arriba del desenvolvimiento del
hombre como un estadístico intuitivo es “demasiado generosa”, mientras que Pitz, Downing
y Reinhold (1967) concluyeron, sobre la base de sus datos, que el desenvolvimiento humano
en las tareas Bayesianas no es “óptimo en una manera más fundamental que está implicada
por discusiones de conservatismo” (p. 392).
La inutilidad de la aproximación a la normativa Bayesiana para el análisis y el modelaje
de la probabilidad subjetiva depende primariamente no en la exactitud de los estimados
subjetivos, sino más bien en si el modelo captura las determinantes esenciales del proceso del
juicio. La investigación discutida en este trabajo sugiere que no. En particular hemos visto
que el tamaño de la muestra no tiene efecto en las distribuciones del muestreo subjetivo, que
posterior a los estimados binomios son determinados (en el caso agregado, al menos) por la
proporción de la muestra más que por la diferencia de la muestra, y que ellos no dependen de
la proporción de la población. En su evaluación de la evidencia, el hombre no es
aparentemente un Bayesiano conservador: él ciertamente no es Bayesiano.
Puede argüirse que la falla del modelo normativo para describir el comportamiento
Bayesiano está limitado a simples Ss encarados con procesos aleatorios no familiares, y que
el modelo normativo podría proveer una adecuada importancia en la evaluación de los
procesos aleatorios más familiares encuentra en la vida de cada día. Existe una muy pequeño
evidencia, sin embargo, para soportar esta opinión. Primero, ella ha sido mostrada (Tversky
& Kahneman, 1971, 2) que el mismo tipo de errores sistemáticos que son sugeridos por
consideraciones de representatividad pueden ser encontrados en los juicios intuitivos de
sofisticados científicos. Aparentemente, el conocimiento de la teoría de la probabilidad no
elimina todas las intuiciones erróneas concernientes a las leyes de la posibilidad. Segundo, en
nuestra vida diaria encontramos numeroso procesos aleatorios (por ejemplo, el nacimiento de
un niño ó aniña, acertando a la luz roja en una intersección dada, obteniendo una mano sin
corazones en un juego de cartas) los cuales obedecen la ley del binomio, por ejemplo, un alto
grado de aproximación. La gente, sin embargo, falla al extraer de estas experiencias una
adecuada concepción de los procesos binomiales. Aparentemente, solo la extensa exposición
a numerosos ejemplos no produce un comportamiento óptimo.
En sus vidas diarias, las gentes se preguntan a sí mismas y a otras interrogantes tales
como: Cuáles son las posibilidades de que este niño de 12 años crecerá para ser un científico?
Cuál es la posibilidad que este candidato será electo para el cargo? Cuál es la probabilidad de
que ésta compañía se retire de los negocios? Estos problemas difieren de aquellos discutidos
previamente en el trabajo en que, debido a su carácter único, ellos no pueden ser rápidamente
contestados ya sea en términos de la frecuencia de ocurrencia en el pasado, ó en términos de
algún bien definido proceso de muestreo.
En este trabajo, investigamos en algún detalle una heurística de acuerdo a la cual la
probabilidad de un evento es evaluada por el grado por el cual el es representativo de las
mayores características del proceso ó población de la cual el es originado. Aunque nuestros
ejemplos experimentales fueron confinados a procesos de muestreo bien definidos (donde la
probabilidad objetiva es rápidamente computable), nosotros conjeturamos que la misma
heurística juega un importante papel en la evaluación de la incertidumbre en esencialmente
únicas situaciones donde ninguna respuesta “correcta” está disponible. La probabilidad de
que un niño de 12 años llegará a ser un científico, por ejemplo, puede ser evaluada por el
grado al cual el papel de un científico es representativo de nuestra imagen del niño.
Similarmente, en pensar sobre las posibilidades de que una compañía se saldrá del negocio, ó
que un político será elegido para el cargo, tenemos en mente un modelo de la compañía, ó de
43

la situación política y evaluamos como más probable aquellos resultados los cuales
representa mejor las características esenciales del modelo correspondiente.

4. Sobre la psicología de la predicción

Daniel Kahneman y Amos Tversky

En este trabajo, nosotros exploramos las reglas que determinan las predicciones intuitivas
y juicios de confianza y contrastamos éstas reglas con los principios normativos de la
predicción estadística. Dos clases de predicciones son discutidas: predicción de categoría y
predicción numérica. En un caso categórico, la predicción es dada en forma nominal, por
ejemplo, el ganador en una elección, el diagnóstico de un paciente ó la ocupación futura de
una persona. En el caso numérico, la predicción es dada en forma numérica, por ejemplo, el
valor futuro de una acción particular ó el punto promedio de grado de un estudiante.
En hacer predicciones y juicios bajo incertidumbre, la gente no aparenta seguir el cálculo
de la posibilidad ó la teoría de la predicción estadística. En vez de eso, ellos se apoyan en un
limitado número de heurísticas las cuales a veces producen juicios razonables y algunas
veces conducen a severos y sistemáticos errores (Kahneman & Tversky, 1972b, 3; Tversky &
Kahneman, 1971, 2; 1973, 11). El presente trabajo está relacionado con el papel de una de
éstas heurísticas – representatividad – en predicciones intuitivas.
Dada una evidencia específica (por ejemplo, el esbozo de una personalidad), los
resultados bajo consideración (por ejemplo, ocupaciones ó niveles de un logro) pueden ser
ordenados por el grado del cual ellos son representativos de esa evidencia. La tesis de este
trabajo es que la gente predice por representatividad, lo que es, que ellos seleccionan ú
ordenan los resultados por el grado al cual los resultados representan las características
esenciales de la evidencia. En muchas situaciones, resultados representativos son ciertamente
más probables que otros. Sin embargo, este no es siempre el caso, porque existen factores
(por ejemplo, las probabilidades previas de los resultados y la confiabilidad de la evidencia)
los cuales afectan la probabilidad de los resultados pero no su representatividad. Porque éstos
factores son ignorados, las predicciones intuitivas violan las reglas estadísticas de predicción
de sistemáticas y fundamentales maneras. Para confirmar ésta hipótesis, mostramos que el
ordenamiento de los resultados por la probabilidad percibida coincide con su ordenamiento
por representatividad y que las predicciones intuitivas no son esencialmente afectadas por
consideraciones de probabilidad previa y la exactitud predictiva esperada.
En la primera sección, investigamos las predicciones de categoría y demostramos que
ellas se conforman a una evaluación independiente de la representatividad y que ellas son
esencialmente independientes de las probabilidades previas de los resultados. En la siguiente
sección, investigamos las predicciones numéricas y mostramos que ellas no son propiamente
regresivas y no son esencialmente afectadas por consideraciones de confiabilidad. Las
siguientes tres secciones discuten, a su vez, asuntos metodológicos en el estudio de la
44

predicción, las fuentes injustificadas de confianza en las predicciones, y algunas intuiciones


falaces concernientes a los efectos de la regresión.

Predicción Categórica
Categoría base, similaridad y probabilidad

El siguiente ejemplo experimental ilustra la predicción por representatividad y las falacias


asociadas con este modo de predicción intuitiva. Un grupo de 69 sujetos [1] (el grupo de
categoría base) fue requerido a responder la interrogante siguiente: “Considere todos los
estudiantes graduados de primer año en los Estados Unidos hoy. Por favor escriba su mejor
vaticinio sobre el porcentaje de estos estudiantes quienes ahora están enrolados en cada uno
de los siguientes nueve campos de especialización”. Los nueve campos están listados en la
Tabla 1. La primera columna de esta tabla presenta la media estimada de categoría base para
los varios campos.
Un segundo grupo de 65 sujetos (la similaridad del grupo) fue presentada con el siguiente
esbozo de personalidad:

Tom W. Es de alta inteligencia, aunque carece de verdadera creatividad. El tiene una necesidad por el orden y la
claridad y por sistemas nítidos y ordenados en los cuales cada detalle encuentra su lugar apropiado. Su escritura
es más bien lenta y mecánica, ocasionalmente animada por algunos malos juegos de palabras y por destellos de
la imaginación del tipo sci-fi. El tiene un fuerte manejo de la competencia. El parece tener poca disposición y
porca simpatía hacia la demás gente y no disfruta interactuando con otros. Auto-centrado, él a pesar de todo
tiene un profundo sentido moral.

A los sujetos se les requirió clasificar las nueve áreas en términos de “cuán similar es
Tom W. al típico estudiante graduado en cada uno de los siguientes nueve campos de
especialización del graduado?” La segunda columna en la tabla 1 presenta la media de
similaridad de clasificación asignada a los varios campos.
Finalmente, una predicción de grupo, consistiendo de 114 estudiantes graduados en
psicología en las tres mayores universidades de los Estados Unidos, a quienes se les dio el
esbozo de Tom W., con la siguiente información adicional:

Tabla 1. Categorías base estimadas de las nueve áreas de especialización del graduado y resumen de
datos de similaridad y predicción para Tom W.
Área de especialización Media juzgada de la Media del rango de Media del rango de
del graduado categoría base similaridad probabilidad
(en pulgadas)
Administración de empresas 15 3.9 4.3
Ciencia en computación 7 2.1 2.5
Ingeniería 9 2.9 2.6
Humanidades y Educación 20 7.2 7.6
Leyes 9 5.9 5.2
Ciencia Bibliotecaria 3 4.2 4.7
Medicina 8 5.9 5.8
Física y Ciencias de la Vida 12 4.5 4.3
Ciencia Social y Trabajo Social 17 8.2 8.0

El precedente esbozo de la personalidad de Tom, fue escrito durante el último año en el high school por un
psicólogo, sobre la base de pruebas proyectivas. Tom W. es actualmente un estudiante graduado. Por favor
clasifique los siguientes nueve campos de especialización de graduados en orden de la probabilidad de que Tom
W. es ahora un estudiante graduado en cada uno de estos campos.
45

[1] A menos que se especifique otra cosa, los sujetos en los estudios reportados en este trabajo fueron
voluntarios reclutados a través del trabajo de un estudiante de la Universidad de Oregón. Los datos fueron
colectados en arreglos de grupo.
La tercera columna en la tabla 1 presenta la media de los rangos asignados a los
resultados por los sujetos en la predicción de grupo.
Las correlaciones producto-momento entre las columnas de la Tabla 1 fueron calculados.
La correlación entre la probabilidad juzgada y la similaridad es de .97, mientras que la
correlación entre la probabilidad juzgada y la categoría base estimada es -.65. Evidentemente,
los juicios de probabilidad esencialmente coinciden con los juicios de similaridad y son muy
diferentes a los estimados de la categoría base. Este resultado provee una confirmación
directa de la hipótesis que la gente predice por representatividad, ó similaridad.
Los juicios de probabilidad por los estudiantes graduados en psicología drásticamente
violan las reglas normativas de la predicción. Más del 95% de aquellos entrevistados
juzgaron que Tom W. es más proclive a estudiar ciencias de la computación que humanidades
ó educación, aunque estuvieron seguramente concientes del hecho que existen mucho más
estudiantes en el último campo. De acuerdo a los estimados de categoría base mostrados en la
Tabla 1, las probabilidades previas para humanidades ó educación contra la ciencia de la
computación son de alrededor de 3 a 1. (Las probabilidades actuales son considerablemente
más altas).
De acuerdo a la regla de Bayes, es posible sobreponerse a las previas en contra de Tom
W. de estar en las ciencias de la computación más que en humanidades ó educación, Si la
descripción de su personalidad es ambas exacta y diagnóstica. Los estudiantes graduados en
nuestro estudio, sin embargo, no creyeron que éstas condiciones fueran llenadas. Siguiendo la
tarea de la predicción, los encuestados fueron requeridos a estimar el porcentaje de éxitos
(por ejemplo, corregir primero las selecciones entre las nueve áreas) las cuales podrían ser
adquiridas con varios tipos de información. La media estimada de éxitos fue del 23%, por
ejemplo, para predicciones basadas en los reportes de estudiantes de último año de high
school de sus intereses y planes. Evidentemente, las pruebas proyectivas fueron tenidas en
baja estima. No obstante, los estudiantes graduados se apoyaron en una descripción derivada
de tales pruebas e ignoraron las categorías base.
En general, tres tipos de información son relevantes para la predicción estadística: (a)
información previa ó de fondo (por ejemplo, categorías base de campos de especialización de
los graduados); (b) evidencia específica concerniente al caso individual (por ejemplo, la
descripción de Tom W.); (c) la exactitud esperada de la predicción (por ejemplo, la
probabilidad estimada de éxitos). Una regla fundamental de la predicción estadística es que la
exactitud esperada controle los pesos relativos asignados a la evidencia específica y a la
información previa. Cuando la exactitud esperada decrece, las predicciones deberían llegar a
ser más regresivas, lo que es, más cercanas a las expectativas basadas en la información
previa. En el caso de Tom W., la exactitud esperada fue baja, y las probabilidades previas
deberían haber sido sopesadas grandemente. En vez de eso, nuestros sujetos predijeron por
representatividad, lo que es, ellos ordenaron los resultados por su similaridad a la evidencia
específica, sin ninguna consideración por las probabilidades previas.
En su exclusiva confianza en el esbozo de personalidad, los sujetos en el grupo de
predicción aparentemente ignoraron las siguientes consideraciones. Primero, dada la notoria
invalidez de las pruebas de personalidad proyectiva, es muy probable que Tom W. nunca fue
de hecho tan compulsivo y tan reservado como su descripción sugiere. Segundo, aún si la
descripción fue válida cuando Tom W. estaba en high school, puede no ser válida ahora que
él está en la escuela de graduados. Finalmente, aún si la descripción es aún válida, existen
probablemente más gentes quienes encuadran esa descripción entre estudiantes de
46

humanidades y de educación que entre estudiantes de ciencias de computación, simplemente


porque existen muchos más estudiantes en el anterior que en el último campo.

Manipulación de la exactitud esperada

Un estudio adicional prueba que las hipótesis que, contrario al modelo estadístico, una
manipulación de la exactitud esperada no afecta el patrón de predicciones. El material
experimental consistió de cinco esbozos concisos de personalidad de muchachos de noveno
grado, pretendidamente escrito por un consejero sobre la base de una entrevista en el
contexto de un estudio longitudinal. El diseño fue es mismo como en el estudio de Tom W.
Para cada descripción, los sujetos en un grupo (N = 69) clasificaron los nueve campos de
especialización de graduados (vea Tabla 1) en términos de la similaridad del muchacho
descrito a su “imagen del típico estudiante graduado de primer año en el campo”. Siguiendo
la similaridad de los juicios, ellos estimaron la frecuencia de la categoría base de las nueve
áreas de especialización de graduados. Estos estimados fueron mostrados en la Tabla 1. A los
sujetos restantes se les dijo que los cinco casos habían sido aleatoriamente seleccionados de
entre los participantes en el estudio original quienes son ahora estudiantes graduados de
primer año. A un grupo, el grupo de exactitud alta (N = 55) se les dijo que “sobre la base de
tales descripciones, estudiantes como ustedes mismos hicieron predicciones correctas en
alrededor del 55% de los casos”. Al grupo de exactitud baja (N = 50) se les dijo que las
predicciones de los estudiantes en ésta tarea están correctos en alrededor del 27% de los
casos. Para cada descripción, los sujetos clasificaron los nueve campos de acuerdo a “la
probabilidad de que la persona descrita es ahora un estudiante graduado en ese campo”. Para
cada descripción, ellos también estimaron la probabilidad de que su primera selección
estuviera correcta.
La manipulación de la exactitud esperada tuvo un significante efecto sobre estos juicios
de probabilidad. Las medias estimadas fueron .70 y .56, respectivamente para el grupo de alta
y baja exactitud (t = 3.72, p < .001). Sin embargo, el ordenamiento de los nueve resultados
producidos por debajo de las instrucciones de exactitud baja no fueron significantemente más
cercanas a la distribución de categoría base que el ordenamiento producido bajo las
instrucciones de exactitud alta. Una correlación producto-momento fue calculada para cada
juicio, dentro del rango promedio que él había asignado a cada uno de los nueve resultados
(sobre las cinco descripciones) y la categoría base. Esta correlación es una medida global del
grado al cual las predicciones del sujeto se conforman a la distribución de la categoría base.
Los promedios de éstas correlaciones individuales fueron .13 para los sujetos en el grupo de
exactitud alta y .16 para los sujetos en el grupo de exactitud baja. La diferencia no se
aproxima a la significancia (t = .42, df = 103). Este patrón de juicios viola la teoría normativa
de la predicción, de acuerdo a la cual cualquier decremento en la esperada exactitud debería
estar acompañado por y un cambio de predicciones hacia la categoría base.
Puesto que la manipulación de la exactitud esperada no tuvo efecto en las predicciones,
los dos grupos de predicción fueron unidos. Análisis subsecuentes fueron lo mismo como en
el estudio de Tom W. Por cada descripción, dos correlaciones fueron calculadas: (a) entre el
rango de probabilidad media y el rango de similaridad media y (b) entre el rango de
probabilidad media y la media de categoría base. Estas correlaciones son mostradas en la
Tabla 2, con el resultado juzgado más probable para cada descripción. Las correlaciones entre
predicción y similaridad son consistentemente altas. En contraste, no existe relación
sistemática entre predicción y categoría base: las correlaciones varían ampliamente
dependiendo de si el resultado más representativo para cada descripción pudieran ser
frecuentes ó raros.
47

Tabla 2. Correlaciones producto-momento del rango de probabilidad media con el rango de


similaridad media y con la de la categoría base media.
Primera predicción modal__________________________________
Ciencias de la Ciencia Administración
Leyes Computación Medicina bibliotecaria de empresas
Con el rango de similaridad media .93 .96 .92 .88 .88
Con la categoría base .33 -.35 .27 -.03 .62

Aquí de nuevo, las consideraciones de categoría base fueron desatendidas. En la teoría


estadística, a uno se le permite ignorar la categoría base solo cuando uno espera ser infalible.
En todos los otros casos, un compromiso apropiado debe ser encontrado entre el
ordenamiento sugerido por la descripción y el ordenamiento de las categorías base. Es
difícilmente creíble que una descripción precipitada de un niño de catorce años basada en una
simple entrevista podría justificar el grado de infalibilidad implicado por las predicciones de
nuestros sujetos.
Siguiendo las cinco descripciones de personalidad, a los sujetos se les dio un problema
adicional:

Sobre Don a usted no se le dirá nada excepto que participó en el estudio original y es ahora un estudiante
graduado de primer año. Por favor indique su ordenamiento y reporte su confianza en este caso también.

Para Don la correlación entre el rango de probabilidad media y la categoría base estimada
fue .74. Por lo tanto, el conocimiento de las categorías base, el cual no fue aplicado cuando
una descripción fue dada, fue utilizado cuando ninguna evidencia específica estuvo
disponible.

Previa versus individuar la evidencia

El siguiente estudio provee un más estricto ensayo de la hipótesis que las predicciones
intuitivas están dominadas por la representatividad y son relativamente insensibles a las
probabilidades previas. En este estudio, las probabilidades previas fueron hechas
excepcionalmente conspicuas y compatibles con el modo de respuesta. Los sujetos fueron
presentados con la siguiente historia informativa:

Un panel de psicólogos han entrevistado y administrado las pruebas de personalidad de 30 ingenieros y 70


abogados, todos exitosos en sus respectivos campos. Sobre las bases de esta información, breves descripciones
de 30 ingenieros y 70 abogados han sido escritas. Usted encontrará en sus formularios cinco descripciones,
escogidas al azar de 100 descripciones disponibles. Para cada descripción, por favor indique su probabilidad
que la persona descrita es un ingeniero, en una escala de 0 a 100.
La misma tarea ha sido realizada por un panel de expertos, quienes fueron altamente exactos en asignar las
probabilidades a las varias descripciones. A usted se le pagará un bono en la medida que su estimado se acerque
a aquellos del panel de expertos.

Estas instrucciones les fueron dadas a un grupo de 85 sujetos (el ingeniero común, ó
grupo L). A los sujetos en otro grupo (el ingeniero de categoría, ó grupo H; N = 86) les
fueron dadas idénticas instrucciones excepto por las probabilidades previas: a ellos se les dijo
que el juego del cual las descripciones han sido sacadas consistían de 70 ingenieros y 30
48

abogados. Todos los sujetos fueron presentados con las mismas cinco descripciones. Una de
las descripciones es la siguiente:

Jack es un hombre de 45 años de edad. El está casado y tiene cuatro niños. El es generalmente conservador,
cuidadoso y ambicioso. El no muestra interés por la política y asuntos sociales y emplea la mayoría de su
tiempo libre en sus muchos ‘hobbies’ los cuales incluyen carpintería en casa, navegación y problemas de
matemáticas.
La probabilidad de que Jack es uno de los 30 ingenieros en la muestra de 100 es _____%.

Siguiendo las cinco descripciones, los sujetos encontraron la inválida descripción:

Suponga ahora que a usted no se le da ninguna información, sea la que fuere, sobre un individuo escogido al
azar de la muestra.
La probabilidad de que este hombre sea uno de los 30 ingenieros en la muestra de 100 es _____%.

En ambos grupos el del ingeniero de categoría y el del ingeniero común, la mitad de los
sujetos fueron requeridos a evaluar, para cada descripción, la probabilidad de que la persona
descrita era un ingeniero (como en el ejemplo de arriba), mientras que los otros sujetos
evaluados, para cada descripción, la probabilidad de que la persona descrita fuera un
abogado. Esta manipulación no tuvo efecto. Las probabilidades medias asignadas a los
resultados ingeniero y abogado en los dos diferentes formas se agregaron a alrededor del
100% por cada descripción. Consecuentemente, los datos para las dos formas fueron unidos,
y los resultados son presentados en términos del resultado ingeniero.
El diseño de este experimento permite el cálculo del patrón normativamente apropiado de
los juicios. La derivación se apoya en la fórmula de Bayes, en forma de probabilidades. Sea
O las probabilidades de que una descripción particular pertenezca a un ingeniero más que a
un abogado. De acuerdo a la regla de Bayes, O = Q · R, donde Q denota las probabilidades
previas que una descripción seleccionada al azar pertenezca a un ingeniero más que a un
abogado; y R es la relación de probabilidad para una descripción particular, que es, la
relación de la probabilidad que una persona aleatoriamente sacada de una población de
ingenieros será así descrita a la probabilidad de que una persona aleatoriamente sacada de
una población de abogados será así descrita.
Para el grupo de ingenieros de categoría, a quienes se les dijo que la muestra consiste de
70 ingenieros y 30 abogados, las probabilidades previas QH son igual a 70/30. Para el grupo
de ingenieros comunes, las probabilidades previas QL son iguales a 30/70. Por lo tanto, para
cada descripción, la relación de las probabilidades posteriores para los dos grupos es

OH = QH · R = QH = 7/3 = 5.444
OL QL · R QL 3/7

Insertar aquí la Figura 1 de la página 55 del original.

Figura 1. Probabilidad media juzgada (ingeniero) para cinco descripciones y para la


descripción inválida (símbolo cuadrado) bajo altas y bajas probabilidades previas. (La
línea curva despliega la relación correcta de acuerdo a la regla de Bayes.)

Puesto que la relación de probabilidad es cancelada es esta fórmula, el mismo valor de


OH/OL debería obtenerse para todas las descripciones. En el presente diseño, por
consiguiente, el efecto correcto de la manipulación de las probabilidades previas puede ser
calculado sin el conocimiento de la relación de la probabilidad.
La Figura 1 presenta el estimado de la media de probabilidad para cada descripción, bajo
las dos condiciones de probabilidad previa. Para cada descripción, la media estimada de la
49

probabilidad cuando la previa es alta (QH = 70/30) es ploteada contra la media estimada
cuando la anterior es baja (QL = 30/7). De acuerdo a la ecuación normativa desarrollada en el
párrafo precedente, todos los puntos deben caer sobre la línea curveada (Bayesiana). De
hecho, solo el cuadrado vacío corresponde a la descripción inválida sobre ésta línea: cuando
ninguna descripción es dada, los sujetos juzgan la probabilidad ser del 70% bajo Q H y del
30% bajo QL. En los otros cinco casos, los puntos caen cerca de la línea de identidad.
El efecto de la probabilidad previa, aunque ligero, es estadísticamente significante. Para
cada sujeto la media estimada de la probabilidad fue calculada sobre todos los casos excepto
la inválida. El promedio es estos valores fue de 50% para el grupo de ingenieros comunes y
de 55% para el grupo de ingenieros de categoría (t = 3.23, df =169, p < .01). No obstante,
como puede ser visto en la Figura 1, cada punto está mas cerca de la línea de identidad que
de línea Bayesiana. Es correcto concluir que la manipulación explícita de la distribución
previa tuvo un mínimo efecto sobre la probabilidad subjetiva. Como en el experimento
precedente, los sujetos aplicaron su conocimiento de la anterior solo cuando a ellos no se les
dio ninguna evidencia específica. Como vinculadas por la hipótesis de la representatividad,
las probabilidades previas fueron grandemente ignoradas cuando individualizando la
información estuvo disponible.
La fortaleza de este efecto es demostrada por las respuestas a la siguiente descripción:

Dick es un hombre de 30 años. El está casado y no tiene hijos. Un hombre de alta habilidad y alta motivación, él
promete ser exitoso en su campo. El es apreciado por sus colegas.

Esta descripción fue construida para ser totalmente desinformativa con relación a la
profesión de Dick. Nuestros sujetos acordaron: las medias estimadas fueron del 50% en
ambos grupos del ingeniero común y del ingeniero de categoría (vea la Figura 1). El
contraste entre las respuestas a esta descripción y a la descripción inválida es deslumbrante.
Evidentemente, la gente responde diferentemente cuando no le es dada una evidencia
específica y cuando la evidencia dada es inútil. Cuando no se les es dada una evidencia
específica, las probabilidades previas son apropiadamente utilizadas; cuando la evidencia
específica inútil les es dada, las probabilidades previas son ignoradas. [3]
Existen situaciones en las cuales las probabilidades previas son probables de jugar un
papel más sustancial. En todos los ejemplos discutidos hasta ahora, distintos estereotipos
estuvieron asociados con los resultados alternativos, y los juicios fueron controlados,
nosotros sugerimos, por el grado al cual las descripciones parecen representativas de éstos
estereotipos. En otros problemas, los resultados son más naturalmente vistos como
segmentos de una dimensión. Suponga, por ejemplo, que uno es requerido a juzgar la
probabilidad que cada uno de varios estudiantes recibirá una beca. En este problema, no
existen estereotipos bien delineados de recipiendarios y no recipiendarios de una beca. Mas
bien, esto es natural para considerar el resultado (por ejemplo, obtener una beca) como
determinado por un punto límite a lo largo de la dimensión del logro académico ó la
habilidad. Las probabilidades previas, que es, el porcentaje de becas en el grupo relevante
podría ser usado para definir los resultados por la localización del punto límite.
Consecuentemente, no existen probabilidades de ser ignoradas. Además, nosotros
esperaríamos las probabilidades previas extremas tener algún efecto aún en la presencia de
claros estereotipos de los resultados. Una delineación precisa de las condiciones bajo las
cuales la información previa es usada ó descartada espera por posterior investigación.
Uno de los problemas básicos de la predicción estadística es que la probabilidad previa, el
cual resume lo que conocimos sobre el problema antes de recibir la evidencia específica,
permanece relevante aún después de que tal evidencia es obtenida. La regla de Bayes, traduce
este principio cualitativo dentro de una relación multiplicativa entre las probabilidades
50

previas y la proporción de la probabilidad. Nuestros sujetos, sin embargo, fallaron al integrar


la probabilidad previa con la evidencia específica. Cuando se expuso a una descripción, sin

[3] Pero vea p. 159 ?


embargo escasa y sospechosa de Tom W. ó de Dick (el ingeniero/abogado), ellos
aparentemente sintieron que la distribución de ocupaciones en su grupo ya no era relevante.
La falla al apreciar la relevancia de la probabilidad previa en la presencia de evidencia
específica es talvez uno de los más significantes despegues de la intuición de la teoría
normativa de la predicción.

Predicción numérica

Una regla fundamental de la teoría normativa de la predicción es que la variabilidad de


las predicciones, sobre un juego de casos, debería reflejar la exactitud predictiva. Cuando la
exactitud predictiva es perfecta, uno predice el valor del criterio que ocurrirá. Cuando la
incertidumbre es máxima, un valor fijado es predicho en todos los casos. (En la predicción de
la categoría, uno predice el significado, el modo, la media ó algún otro valor dependiendo de
la pérdida de la función.) Por lo tanto, la variabilidad de las predicciones es igual a la
variabilidad del criterio cuando la exactitud predictiva es perfecta, y la variabilidad de las
predicciones es cero cuando la exactitud predictiva es cero. Con una exactitud predictiva
intermedia, la variabilidad de las predicciones toma un valor intermedio, que es, que las
predicciones son regresivas con respecto al criterio. Por lo tanto, mayor la incertidumbre,
menor la variabilidad de las predicciones. Las predicciones por representatividad no siguen
esta regla. Fue mostrado en la sección previa que la gente no regresó hacia las categorías más
frecuentes cuando la cuando la exactitud de las predicciones fue reducida. La presente
sección demuestra una falla análoga en el contexto de la predicción numérica.

Predicción de resultados versus evaluación de insumos

Suponga que a uno se le dijo que un estudiante universitario de primer año ha sido
descrito por un consejero como inteligente, con confianza en sí mismo, que trabaja duro e
inquisitivo. Considere dos tipos de preguntas que podrían ser hechas sobre ésta descripción:

(a) Evaluación: Cómo ésta descripción lo impresiona a usted con respecto a la habilidad académica? Qué
porcentaje de descripciones de estudiantes universitarios de primer año cree usted que lo impresionaría más? (b)
Predicción: Cuál es su estimado del punteo promedio de grado que este estudiante obtendrá? Cuál es el
porcentaje de estudiantes universitarios de primer año que obtendrán un punteo promedio de grado más alto?

Existe una importante diferencia entre las dos preguntas. En la primera, usted evalúa el
insumo; en la segunda, usted predice un resultado. Puesto que existe seguramente una mayor
incertidumbre sobre la segunda que sobre la primera, su predicción debería ser más regresiva
que su evaluación. Esto es, el porcentaje que usted da como una predicción debería estar más
cerca del 50% que el porcentaje que usted da como una evaluación. Para resaltar la
deferencia entre las dos preguntas, considere la posibilidad que la descripción es inexacta.
Esto no debería tener ningún efecto en su evaluación: el ordenamiento de las descripciones
con respecto a las impresiones que ellas hacen en usted es independiente de su exactitud. En
predecir, por otro lado, usted debería ser regresivo en la medida que su sospecha de que la
descripción es inexacta ó su predicción inválida.
La hipótesis de representatividad, sin embargo, implica que la predicción y la evaluación
deberían coincidir. En evaluar una descripción dada, la gente selecciona una puntuación la
cual, presumiblemente, es más representativa de la descripción. Si la gente predice por
51

representatividad, ellos también seleccionarán la puntuación más representativa de su


predicción. Consecuentemente, la evaluación y la predicción serán esencialmente idénticas.
Varios estudios fueron conducidos para probar ésta hipótesis. En cada uno de éstos estudios a
los sujetos se les dio las información descriptiva concerniente a un juego de casos. Un grupo
de evaluación evaluó la calidad de cada descripción relativa a una población establecida, y un
grupo de predicción predijo la ejecución futura. Los juicios de los dos grupos fueron
comparados para probar si las predicciones son más regresivas que las evaluaciones.
En los dos estudios, a los sujetos se les dio descripciones de la universidad supuestamente
escritas por un consejero sobre las bases de un entrevista administrativa a la entrada de
clases. En el primer estudio, cada descripción consistió de cinco adjetivos, referentes a las
cualidades intelectuales y al carácter, como en el ejemplo citado. En el segundo estudio, las
descripciones fueron reportes, incluyendo detalles de la experiencia del estudiante y de su
adaptación a la universidad. En ambos estudios los grupos de evaluación fueron requeridos a
evaluar cada una de las descripciones por estimación “del porcentaje de estudiantes en toda la
clase cuyas descripciones indican una más alta habilidad académica.” A los grupos de
predicción se les dio las mismas descripciones y fueron requeridos a predecir el punteo
promedio de grado adquirido por cada estudiante al final de su primer año y su posición en la
clase en percentiles.
Los resultados de ambos estudios se muestran en la Figura 2, la cual plotea, para cada
descripción, la predicción media del porcentaje del punteo promedio de grado contra la
media de evaluación. La única sistemática discrepancia entre predicciones y evaluaciones es
observada en los adjetivos del estudio donde las predicciones fueron consistentemente más
altas que las correspondientes evaluaciones. La desviación estándar de las predicciones ó
evaluaciones fue calculada dentro de los datos de cada sujeto. Una comparación de estos
valores no indicó diferencias significantes en la variabilidad entre los grupos de evaluación y
de predicción, dentro de un rango de valores bajo estudio. En los adjetivos de estudio, la
desviación estándar promedio fue 25.7 para el grupo de evaluación (N = 38) y 24.0 para el
grupo de predicción (N = 36) (t = 1.25, df = 72, ns). En los reportes del estudio, el promedio
de la desviación estándar fue 22.2 para el grupo de evaluación (N = 37) y 21.4 para el grupo
de predicción (N = 63) (t = .75, df = 98, ns). En ambos estudios los grupos de predicción y de
evaluación produjeron igualmente juicios extremos, aunque el último predijo un criterio
objetivo remoto sobre las bases de la información de entrevista imprecisa, mientras que el
último meramente evaluó la impresión obtenida de cada descripción. En la teoría estadística
de la predicción, la equivalencia observada entre predicción y evaluación debería ser
justificada solo si la exactitud predictiva fuera perfecta, una condición que no podría ser
concebiblemente encontrada en estos estudios.

Insertar aquí la Figura 2 de la página 59 del original.

Figura 2. Percentil predicho del punteo promedio de grado como una función
del percentil de evaluación para los adjetivos y los reportes.

Posterior evidencia par la equivalencia de la evaluación y la predicción fue obtenida en


una tesis de maestría por Beyth (1972). Ella presentó tres grupos de sujetos con siete
artículos cortos, cada uno describiendo el desempeño de un estudiante-profesor durante una
particular lección práctica. Los sujetos fueron estudiantes en un curso de estadística en la
Universidad Hebrea. A ellos se les dijo que las descripciones habían sido sacadas de entre los
archivos de 100 maestros de escuela elemental quienes, cinco años antes, habían completado
su programa de entrenamiento para maestro. Los sujetos en un grupo de evaluación fueron
requeridos a evaluar la calidad de la lección descrita en el artículo corto, en puntos
52

percentiles relativos a la población establecida. Los sujetos en un grupo de predicción fueron


requeridos a predecir en puntos percentiles la posición actual de cada maestro, que es, su
competencia global cinco años después que la descripción fue escrita. Un grupo de
evaluación-predicción realizó ambas tareas. Como en los estudios descritos arriba, las
diferencias entre evaluación y predicción no fueron significantes. Este resultado sostuvo en
ambas las comparaciones entre sujeción y sujeto. Aunque los jueces estuvieron
indudablemente concientes de la multitud de factores que intervienen entre una simple
lección de tanteo y la competencia de la enseñanza cinco años después, este conocimiento no
causó que sus predicciones sean más regresivas que sus evaluaciones.

Producción versus traslación

Los estudios previos mostraron que las predicciones de una variable no son regresivas
cuando son comparadas a las evaluaciones de los insumos en términos de esa variable. En el
estudio siguiente mostraremos que existen situaciones en las cuales las predicciones de una
variable (logro académico) no son más regresivas que una mera traslación de esa variable de
una escala a otra. El punteo promedio de grado fue escogido como la variable del resultado,
porque correlaciona y las propiedades de distribución son bien conocidas de la población de
los sujetos.
Tres grupos de sujetos participaron en el experimento. Los sujetos en todos los grupos
predijeron el punteo promedio de grado de 10 hipotéticos estudiantes sobre lo básico de un
simple punteo percentil obtenido por cada uno de éstos estudiantes. El mismo juego de
punteo percentil fue presentado a todos los grupos, pero los tres grupos recibieron diferentes
interpretaciones del insumo variable como sigue.
1. Percentil del punteo promedio de grado. A los sujetos en el Grupo 1 (N = 32) se les
dijo que “por cada uno de varios estudiantes a usted le será dado un punteo percentil
representando sus logros académicos en el primer año en la universidad y a usted se le
requerirá dar su mejor predicción sobre su punteo promedio de grado para este año”. Les fue
explicado a los sujetos que “un promedio percentil de 65, por ejemplo, significa el punteo
promedio de grado logrado por este estudiante es mejor que el adquirido por el 65% de su
clase, etc.”
2. Concentración mental. A los sujetos en el Grupo 2 (N = 37) se les dijo que “que el
ensayo de concentración mental mide la habilidad de uno para concentrarse y extraer toda la
información transportada por los mensajes complejos. Se encontró que los estudiantes con
los más altos punteos promedio de grado tendían a puntuar alto en el ensayo de
concentración mental y viceversa. Sin embargo, sin embargo el desempeño en el ensayo de
concentración mental se encontró que depende del humor y estado mental de la persona al
tiempo que él tomó el ensayo. Por lo tanto, cuando se ensayó repetidamente, la misma
persona podría obtener muy diferente punteos, dependiendo de la cantidad de sueño que él
tuvo la noche antes ó cuán bien él se sintió ese día.”
3. Sentido del humor. A los sujetos en el Grupo 3 (N = 35) se les dijo que “el ensayo del
sentido del humor mide la habilidad de la gente para inventar ingeniosos subtítulos para
caricaturas y para apreciar el humor en varias formas. Se encontró que los estudiantes cuyo
alto punteo en este ensayo tienden, en general, a obtener punteo promedio más alto que los
estudiantes que puntean bajo. Sin embargo, no es posible predecir el punteo promedio de
grado del sentido del humor con alta exactitud.”

Insertar aquí la Figura 3 de la págína 61 del original

Figura 3. Percentil predicho del punteo promedio de grado como una función
de la evaluación percentil para adjetivos y reportes.
53

En el presente diseño, todos los sujetos predijeron el punteo promedio de grado sobre las
bases del mismo juego de punteos percentiles. El Grupo 1 meramente trasladó los valores de
punteo percentil del punteo promedio de grado a la escala de punteo promedio de grado. Los
Grupos 2 y 3, por otro lado, predijeron el punteo promedio de grado de los más remotos
insumos. Las consideraciones normativas por consiguiente dictan que las predicciones de
estos grupos deberían ser más regresivas, que es, menos variables que los juicios del Grupo
1. La representatividad hipotética sin embargo, sugiere un diferente patrón de resultados.
El Grupo 2 predijo de un potencialmente válido, pero no confiable, ensayo de
concentración mental el cual fue presentado como una medida de la habilidad a académica.
Nosotros lanzamos la hipótesis de que las predicciones de este grupo serían no regresivas
comparadas a las predicciones del Grupo 1. En general, conjeturamos que el punteo de logros
(por ejemplo, el punteo promedio de grado) el cual representa un valor percentil de una
medida de la habilidad (por ejemplo, la concentración mental) es esa que corresponde al
mismo en la escala de logros. Puesto que la representatividad no está afectada por la no
confiabilidad, nosotros esperamos que las predicciones del punteo promedio de grado del
ensayo no confiable de la concentración mental sea esencialmente idéntico a las predicciones
del punteo promedio de grado del punteo percentil promedio de grado. Las predicciones del
Grupo 3, por otro lado, se esperaron ser regresivas porque el sentido del humor no es
comúnmente visto como una medida de la habilidad académica. Nosotros asumimos la
hipótesis que la predicciones de este grupo debería ser no regresiva cuando se comparó con
las predicciones del Grupo 1. En general, conjeturamos que el punteo del logro (por ejemplo,
el punteo promedio de grado) que mejor representa un valor percentil de una medida de la
habilidad (por ejemplo, la concentración mental) es ese que corresponde al mismo percentil
en la escala de ejecución. Puesto que la representatividad no es afectada por la no
confiabilidad, nosotros esperábamos que las predicciones del puntaje promedio de grado del

Tabla 3. Promedios de predicción estadística individual para los tres grupos y resultados de las
comparaciones paneadas entre los grupos 1 y 2, y entre los grupos 2 y 3.
Grupo__________________________________________________
1. Percentil del 2. Concentración 3. Sentido del
punteo promedio mental humor
Estadística de grado 1 vs. 2 2 vs. 3
_________________________________________________________________________________________
Media predicha del punteo
promedio de grado 2.27 ns 2.35 .05 2.46
SD de las predicciones ,91 ns ,87 .01 .69
Inclinación de la regresión .97 ns .029 .01 .022
r .97 ns .05 ns .94

no confiable de la concentración mental ser esencialmente idénticos a las predicciones del


punteo promedio de grado del punteo percentil del promedio de grado. Las predicciones del
Grupo 3, por otro lado, se esperaba que fueran regresivas porque el sentido del humor no es
comúnmente visto como una medida de la habilidad académica.
Las predicciones medias asignadas a los 10 punteos percentiles por los tres grupos son
mostrados en la Figura 3. Es evidente en la figura que las predicciones del Grupo 2 no son
más regresivas que las predicciones del Grupo 1, mientras que las predicciones del Grupo 3
aparecen más regresivas.
Cuatro índices fueron computados dentro de los datos de cada sujeto individual: la media
de sus predicciones, la desviación estándar de sus predicciones, la inclinación de la regresión
del punteo promedio de grado predicho sobre las clasificaciones de insumos y la correlación
54

producto-momento entre ellas. Las medias de estos valores para los tres grupos se muestran
en la Tabla 3.
Es aparente en la Tabla que los sujetos en todos los tres grupos produjeron
ordenadamente datos, como es evidenciado por la alta correlación entre insumos y
predicciones (las correlaciones promedio fueron obtenidas transformado valores individuales
a la z de Fisher). Los resultados de las comparaciones planeadas entre los Grupos 1 y 2 y
entre los Grupos 2 y 3 confirman el patrón observado en la Figura 3. No existen diferencias
significantes entre las predicciones percentiles del punteo promedio de grado e de la
concentración mental. Por lo tanto, la gente falla en regresar (de regresión) cuando predice
una medida del logro mediante una medida de la habilidad, sin embargo no confiable.
Las predicciones mediante el sentido del humor, por otro lado, son regresivas aunque no
suficiente. La correlación entre el punteo promedio de grado y el sentido del humor deducida
de una comparación de las líneas de regresión es alrededor de .70. Además, las predicciones
mediante el sentido del humor son significantemente más altas que las predicciones mediante
la concentración mental. Existe también una tendencia para las predicciones mediante la
concentración mental de ser más alta que las predicciones basadas en el punteo percentil
promedio de grado. Hemos observado éstos descubrimientos en muchos estudios. Cuando se
predice el logro académico de un individuo sobre las bases de una información imperfecta,
los sujetos exhiben poca severidad (Guilford, 1954). Ellos responden a una disminución de la
validez elevando el nivel predicho de desempeño.
Se espera que las predicciones sean esencialmente no regresivas cuando quiera que las
variables del insumo y el resultado sean vistas como manifestaciones del mismo rasgo. Un
ejemplo de tales predicciones ha sido observado en un escenario de la vida real, el Consejo
de Selección de Oficiales del Ejército Israelí. Los oficiales altamente experimentados quienes
participaron en el equipo de evaluación normalmente evaluaron candidatos en un punto 7 de
una escala al término de varios días prueba y observación. Para los propósitos del estudio,
ellos fueron requeridos además de predecir, por cada candidato exitoso, el grado final que
obtendría en una escuela de entrenamiento de oficiales. En sobre 200 casos, evaluados por un
sustancial número de diferentes jueces, la distribución de grados predichos se encontró ser
virtualmente idéntica a la distribución actual de los grados finales en la escuela de
entrenamiento de oficiales, con una obvia excepción: las predicciones de falla fueron menos
frecuentes que las fallas actuales. En particular, las frecuencias de predicciones en las dos
más altas categorías precisamente igualó las frecuencias actuales. Todos los jueces estuvieron
profundamente concientes de la investigación indicando que su validez predictiva fue solo
moderada (en el orden de .20 a .40). No obstante, sus predicciones fueron no regresivas.

Consideraciones metodológicas

La hipótesis de la representatividad establece que las predicciones no difieren de las


evaluaciones de las evaluaciones de similaridad, aunque la teoría normativa estadística
implica que las predicciones deberían ser menos extremas que éstos juicios. La hipótesis de
la prueba de la representatividad, por consiguiente, requiere un diseño en el cual las
predicciones sean comparadas con otro tipo de juicio. Variantes de los diseños comparativos
fueron usados en los estudios reportados en este trabajo.
En un diseño, etiquetado A-XY, diferentes grupos de sujetos juzgaron dos variables (X y
Y) sobre las bases del mismo insumo de información (A). En el caso de Tom W., por
ejemplo, a dos diferentes grupos se les dio el mismo insumo de información (A), que es, una
descripción de la personalidad. Un grupo clasificó los resultados en términos de similaridad
(X), mientras que el otro los clasificó en términos de probabilidad (Y). Similarmente, en
varios estudios de predicción numérica, a diferentes grupos se les dio la misma información
55

(A), por ejemplo, una lista de adjetivos describiendo a un estudiante. Un grupo suministró
una evaluación (X) y el otro una predicción (Y). En otro diseño, etiquetado AB-X, dos
grupos diferentes de sujetos juzgaron el mismo resultado de la variable (X) sobre las bases de
diferentes insumos de información (A y B). En el estudio ingeniero/abogado, por ejemplo,
dos diferentes grupos hicieron el mismo juicio (X) de la probabilidad de que un individuo
particular es un ingeniero. A ellos se les dio una breve descripción de su personalidad y
diferente y diferente información (A y B) concerniente a las frecuencias base-proporción de
ingenieros y abogados. En el contexto de la predicción numérica, diferentes grupos
predijeron un punteo promedio de grado (X) mediante tanteos de diferentes variables, del
percentil del punteo promedio de grado (A) y de la concentración mental (B).
La hipótesis de representatividad estuvo apoyada en éstos diseños comparativos
mostrando que contrario al modelo normativo, las predicciones no son más regresivas que las
evaluaciones ó juicios de la similaridad. También es posible preguntar si las predicciones
intuitivas son regresivas cuando son comparadas con los resultados actuales, ó con los
insumos cuando los insumos y los resultados son medidos sobre la misma escala. Aún
cuando la predicciones no son más regresivas que las traslaciones, nosotros esperamos que
ellas sean ligeramente regresivas cuando son comparadas con los resultados, debido a la bien
conocida tendencia central al error (Johnson, 1972; Woodworth, 1938).En una amplia
variedad de tareas de juicios, incluyendo la mera traslación de insumos de una escala a otra,
los sujetos tienden a evitar respuestas extremas y a estrechar la variabilidad de sus juicios
(Stevens & Greenbaum, 1966). Debido a este prejuicio de respuesta, los juicios serán
regresivos, cuando sean comparados con los insumos ó con los resultados. Los diseños
empleados en el presente trabajo neutralizan el efecto comparando los dos juicios, estando
ambos sujetos al mismo prejuicio.
El presente juego de estudios está relacionado con situaciones en las cuales las gentes
hacen predicciones sobre las bases de la información que está disponible para ellas previo al
experimento, en la forma de estereotipos (por ejemplo, de un ingeniero) y las expectativas
concernientes a las relaciones entre variables. Los resultados de reaprovechamiento no fueron
facilitados, y el número requerido de juicios de cada sujeto fue pequeño. En contraste, los
estudios más recientes de la predicción han tratado con el aprendizaje de relaciones
funcionales ó estadísticas entre variables con las cuales los sujetos no habían tenido
conocimiento previo. Estos estudios involucran típicamente un gran número de pruebas y
varias formas de resultado de reaprovechamiento. (Alguna de esta literatura ha sido revisada
en Slovic & Lichtenstein, 1971). En estudios de predicciones repetitivas con
aprovechamiento, los sujetos generalmente predicen seleccionando resultados de tal modo
que la secuencia entera ó patrón de predicciones sea altamente representativo de la
distribución de resultados. Por ejemplo, los sujetos en estudios de aprendizaje de
probabilidad generan secuencias de predicción de resultados. Similarmente, los sujetos en la
las tareas de predicción numérica aproximadamente reproducen el ploteo disperso, que es, la
articulación de distribución de insumos y resultados (vea, por ejemplo, Gray, 1968). Para
hacerlo, los sujetos se apoyan en una estrategia mixta: para cualquier insumo dado ellos
generan una distribución de diferentes predicciones. Estas predicciones reflejan el hecho de
que un insumo cualquiera es seguido por resultados diferentes en diferentes pruebas.
Evidentemente, las reglas de predicción son diferentes en los dos paradigmas, aunque, la
representatividad está involucrada en ambos. En el reaprovechamiento del paradigma, los
sujetos producen secuencias de respuesta representando el patrón completo de la asociación
entre insumos y resultados. En las situaciones exploradas en el presente trabajo, los sujetos
seleccionaron la predicción que mejor representa sus impresiones de cada caso individual.
Las dos aproximaciones conducen a diferentes relaciones de la regla normativa: la
representación de incertidumbre a través de una estrategia mixta en el reaprovechamiento del
56

paradigma y el deshecho de la incertidumbre a través de la predicción por evaluación en el


paradigma presente.

Confianza y la ilusión de la validez

Como se demostró en las secciones precedentes, uno predice seleccionando el resultado


que es más representativo del insumo. Proponemos que el grado de confianza que uno tiene
en una predicción refleja el grado al cual el resultado seleccionado es más representativo del
insumo de lo que son otros resultados. Una mayor determinante de la representatividad en el
contexto de la predicción numérica múltiples atributos de los insumos (por ejemplo,
calificación de perfiles) es la consistencia, ó la coherencia, del insumo. Mientras más
consistente es el insumo, la más representativa calificación predicha aparecerá y será mayor
la confianza en esa predicción. Por ejemplo, la gente predice un promedio total B con más
confianza sobre las bases de grados B en dos cursos introductorios separados que sobre las
bases de un A y un C. Ciertamente, la variabilidad interna ó inconsistencia del insumo se ha
encontrado que decrece la confianza en las predicciones (Slovic, 1966).
La intuición de que perfiles consistentes permiten mayor predecibilidad que perfiles
inconsistentes es obligatoria. No es de ningún valor, sin embargo, que ésta creencia sea
compatible con la comúnmente aplicada multivariado modelo de predicción (por ejemplo, el
modelo lineal normal) en el cual la exactitud predictiva esperada es independiente de la
variabilidad interna del perfil.
Perfiles consistentes típicamente serán encontrados cuando el juzgador predice de
calificaciones. Perfiles inconsistentes, por otro lado, son más frecuentes cuando las
intercorrelaciones son bajas. Porque la confianza se incrementa con la consistencia, la
confianza generalmente será alta cuando los insumos variables estén altamente
correlacionados. Sin embargo, dados insumos variables de la validez establecida, la
correlación múltiple con el criterio está inversamente relacionada a las correlaciones entre los
insumos. Por lo tanto, una situación paradójica surge cuando altas intercorrelaciones entre los
insumos incrementa la confianza y decrece la validez.
Para demostrar este efecto, requerimos a los sujetos predecir el punteo promedio de grado
sobre las bases de dos pares de pruebas de aptitud. A los sujetos se les dijo que un par de
ensayos (pensamiento creativo y habilidad simbólica) fue altamente correlacionado, mientras
que otro par de ensayos (flexibilidad mental y razonamiento sistemático) no estaban
correlacionados. Las calificaciones que ellos encontraron se conformaron a éstas
expectativas. (Para la mitad de los sujetos las etiquetas de las correlacionadas y de la no
correlacionadas de los pares de pruebas estaban invertidas). A los sujetos se les dijo que
“todas la pruebas fueron encontradas igualmente exitosas en predecir el desempeño
universitario).” En esta situación, por supuesto, una más alta exactitud predictiva puede ser
adquirida con el par de pruebas no correlacionadas que con las correlacionadas. Como se
esperaba, sin embargo, los sujetos estuvieron más confiados en predecir de las pruebas
correlacionadas, sobre el rango entero de las calificaciones predichas (t = 4.80, df = 129, p < .
001). Lo que es, que ellos estuvieron más confiados en un contexto de inferior validez
predictiva.
Otro descubrimiento observado en muchos estudios de predicción, incluyendo el nuestro,
es que la confianza es una función formada-J del nivel predicho de realización (vea Johnson,
1972). Los sujetos predicen sobresalientemente altos logros con muy alta confianza, y ellos
tienen más confianza en la predicción de fallas absolutas que de un desempeño mediocre.
Como vimos anteriormente, las predicciones intuitivas son a menudo insuficientemente
regresivas. Las discrepancias entre predicciones y resultados, por consiguiente, son más
57

grandes en los extremos. La función formada-J de la confianza acarrea que los sujetos sean
más confiados en las predicciones que son más probables de estar fuera de la etiqueta.
El análisis precedente muestra que los factores que estimulan la confianza, por ejemplo,
consistencia y extremismo, están a menudo negativamente correlacionados con la exactitud
predictiva. Por tanto, la gente está propensa a experimentar mucha confianza en juicios
altamente falibles, un fenómeno que puede ser llamado la ilusión de la validez. Como otros
errores perceptuales y de juicio la ilusión de la validez a menudo persiste aún cuando su
carácter ilusorio es reorganizado. Cuando se entrevista a un candidato, por ejemplo, muchos
de nosotros ha experimentado gran confianza en nuestra predicción de su futuro desempeño a
pesar de nuestro conocimiento de que las entrevistas son notoriamente falibles.

Intuiciones sobre la regresión

Los efectos de la regresión están todos sobre nosotros. En nuestra experiencia, los padres
más sobresalientes tienen hijos algo frustrantes, brillantes esposas tienen esposos aburridos,
los mal ajustados tienden a ajustarse y los afortunados son eventualmente golpeados por la
mala suerte. A pesar de estos encuentros, la gente no adquiere una noción apropiada de la
regresión. Primero, ellos no esperan regresión en muchas situaciones es forzado que ocurra.
Segundo, como cualquier maestro de estadística atestiguará, una noción apropiada de la
regresión es extremadamente difícil de adquirir. Tercero, cuando la gente observa regresión,
ellos típicamente inventan explicaciones dinámicas espúreas para ella.
Qué es lo que hace al concepto de regresión contra-intuitivo y difícil de adquirir y
aplicar? Nosotros sugerimos que una mayor fuente de dificultad es que los efectos de la
regresión típicamente violan la intuición de que el resultado predicho debería ser
máximamente representativo del insumo de información [4]
Para ilustrar la persistencia de las intuiciones no regresivas a pesar de la considerable
exposición a la estadística, nosotros presentamos el problema siguiente para nuestra muestra
de estudiantes graduados en psicología:

Un problema de ensayo. Un individuo seleccionado aleatoriamente ha obtenido un punteo de 140 en


una prueba estándar de IQ. Suponga que un punteo de IQ es la suma de un punteo “verdadero” y un
error aleatorio de medición es cual es normalmente distribuido.
Por favor dé su mejor opinión sobre el 95% de los límites de confianza superior e inferior para el
verdadero IQ de ésta persona. Lo que es que dé un alto estimado tal que usted está 95% seguro que el
verdadero punteo del IQ es, de hecho, menor que ese estimado, y un bajo estimado tal que usted esté
95% seguro de que el punteo verdadero es de hecho más alto.

En éste problema, se les ordenó considerar el punteo observado como la suma de un


punteo “verdadero” y un componente de error. Puesto que el punteo observado es
considerablemente más alto que la población media, es más probable que no que el
componente de error sea positivo y que éste individuo obtendrá un punteo algún tanto menor
en las pruebas subsecuentes. La mayoría de los sujetos (73 de 108), sin embargo,
determinaron intervalos de confianza que fueron simétricos alrededor de 140, fallando en
expresar cualquier expectativa de regresión. De los restantes 35 sujetos, 24 determinaron
intervalos de confianza regresivos y 11 determinaron intervalos contra-regresivos. Por tanto,
la mayoría de los sujetos ignoró los efectos de la no confiabilidad del insumo y predijeron
como si el valor de 140 fuera el punteo verdadero. La tendencia a predecir como si el insumo
de información estuviera libre de error ha sido observado repetidamente en este trabajo.

______________________________________
58

[4] La expectativa de que cada partícula significante del comportamiento es altamente representativa de la
personalidad del actor puede explicar por qué los legos y sicólogos por igual son perennemente
sorprendidos por las despreciables correlaciones entre medidas aparentemente intercambiables de
honestidad, de riesgo, de agresión y de dependencia (Mischel, 1968).

La ocurrencia de regresión es algunas veces reorganizada, ya sea porque descubrimos


efectos de regresión en nuestras propias observaciones ó porque se nos dijo explícitamente ha
ocurrido regresión. Cuando es reconocido, un efecto de regresión es típicamente considerado
como un cambio sistemático que requiere una explicación sustantiva. Ciertamente, muchas
explicaciones espúreas de efectos de regresión han sido ofrecidas en las ciencias sociales. [5]
Principios dinámicos han sido invocados para explicar por qué negocios hechos
excepcionalmente bien en un punto y tiempo tienden a deteriorarse subsecuentemente y por
qué el entrenamiento en interpretar expresiones faciales es beneficioso para los entrenados
quienes puntearon pobremente en un pre-ensayo y perjudicial para aquellos quienes lo
hicieron mejor. Algunas de éstas explicaciones podrían no haber sido ofrecidas, se dieron
cuenta los autores que dadas dos variables de iguales variantes, los siguientes dos
planteamientos son lógicamente equivalentes: (a) Y es regresiva con respecto a X; (b) la
correlación entre Y y X es menor que la unidad. Explicar la regresión, por consiguiente, es
equivalente a explicar por qué una correlación es menor que la unidad.
Como una ilustración final de cuán difícil es reconocer e interpretar apropiadamente la
regresión, considere la siguiente interrogante la cual fue puesta para nuestra muestra de
estudiantes graduados. El problema descrito actualmente surgió de la experiencia de uno de
los autores.

Un problema de entrenamiento. Los instructores en una escuela de entrenamiento de vuelo adoptaron


una política de consistente refuerzo positivo recomendado por los psicólogos. Ellos verbalmente
reforzaron cada ejecución exitosa de una maniobra de vuelo. Después de algunas experiencias con la
aproximación al entrenamiento, los instructores declararon que contrario a la doctrina psicológica, un
alto elogio por la buena ejecución de maniobras complejas típicamente resulta en un decremento de
la ejecución en el siguiente intento. Qué dirían los psicólogos de ésta respuesta?

La regresión es inevitable en las maniobras de vuelo porque la ejecución no es


perfectamente confiable y el progreso entre sucesivas maniobras es bajo. Por lo tanto, los
pilotos que lo hicieron excepcionalmente bien en un intento es probable que se deterioren en
el siguiente sin importar la reacción de los instructores al éxito inicial. Los instructores de
vuelo experimentados actualmente descubrieron la regresión pero atribuida al pernicioso
efecto del refuerzo positivo. Esta historia verdadera ilustra un tristemente aspecto de la
condición humana. Nosotros normalmente reforzamos a otros cuando su desempeño es bueno
y los castigamos cuando su desempeño es malo. Por la sola regresión, por consiguiente, es
más probable que ellos mejoren después de ser penalizados y lo más probable que ellos se
deterioren después de ser recompensados.
Ninguno de los estudiantes graduados que respondieron ésta interrogante sugirieron que
la regresión podría ser causa de problemas. En lugar de eso, ellos propusieron que los
refuerzos verbales podrían ser inefectivos para los pilotos ó que ellos podrían conducir a una
sobre-confianza. Algunos estudiantes aún dudaron de la validez de las impresiones de los
instructores y discutieron posibles fuentes de prejuicio en la percepción de la situación. Estos
encuestados habían indudablemente sido expuestos a un completo tratamiento de regresión
estadística. De cualquier manera, ellos fallaron en reconocer una instancia de regresión
cuando ella no fue expresada en los términos familiares de altura de los padres e hijos.
Evidentemente, el entrenamiento estadístico solo no cambia las intuiciones fundamentales
sobre la incertidumbre.
59

_________________________________

[5] Para deslumbrantes falacias en discusiones de regresión en investigación, vea, por ejemplo, Campbell
(1969) y Wallis y Roberts (1956).

5. Estudios de representatividad

Maya Bar-Hillel

Daniel Kahneman y Amos Tversky han propuesto que cuando se juzga la probabilidad de
algún incierto evento, la gente a menudo recurre a la heurística, ó reglas empíricas, las cuales
son menos que perfectamente correlacionadas (si, ciertamente del todo) con las variables que
actualmente determinan los eventos de probabilidad. Una de tales heurísticas es la
representatividad, definida como un juicio subjetivo del grado al cual el evento en cuestión
“es similar en las propiedades esenciales a su población de origen” ó “reflejan las
características conspicuas de los procesos por los cuales ella es generada” (Kahneman &
Tversky, 1972b, p. 431, 3). Aunque en algunos casos los eventos más probables también
aparecen más representativos, y viceversa, la confianza en la representatividad de un evento
como un indicador de su probabilidad puede introducir dos clases de error sistemático dentro
del juicio. Primero, el puede dar una influencia indebida a las variables que afectan la
representatividad de un evento pero no su probabilidad. Segundo, el puede reducir la
importancia de las variables que son cruciales para determinar la probabilidad de los eventos
pero no están relacionados a los eventos de representatividad.
El concepto de representatividad ha sido ocasionalmente criticado como muy vago y
elusivo, presumiblemente porque carece de una definición general operacional. Esto no es
para decir, sin embargo, que es imposible evaluar los juicios de representatividad
independientemente de los de la probabilidad, una conclusión que ha sido a menudo
implicada por los críticos. En el estudio de “Tom W.”, por ejemplo, Kahneman y Tversky
(1973, 4) definieron la representatividad como la similaridad de algún individuo, Tom W., “al
típico estudiante graduado en . . . [algunos] campos de la especialización del graduado”
(1973, p. 238) y lo clasificaron independientemente de la probabilidad de que Tom W.
estuviera enrolado en esos campos. En otros estudios, la clasificación independiente por
representatividad fue evitada solo porque los lectores podrían proveerlo a sí mismos vía
experimentados pensados.

Insertar aquí la Figura 1 de la Página 70 del original.

Figura 1. Un estímulo característico usado en el estudio de la similaridad y la probabilidad.


(Fuente: Bar-Hllel, 1974).

Similaridad y probabilidad
60

Poco después que la noción de representatividad fuera introducida, yo efectué un


pequeño estudio en el que la representatividad fue clasificada por un criterio previo (para ser
explicado más adelante en este capítulo) y experimentalmente por los juicios de los sujetos.
Estas clasificaciones fueron entonces comparadas con juicios de probabilidad
independientemente agrupados (Bar-Hillel, 1974). Las tareas estudiadas gozaron de la
ventaja de tener una única, bien definida probabilidad asociada con ellas, junto con una
simple representación visual que se presta a si misma fácilmente para juicios de similaridad
perceptual.
Los estímulos en este estudio fueron triples de gráficos de barra, denotados L, M y R que
fueron coloreados de izquierda a derecha, verde, amarillo y rojo. La longitud de cada barra
fue una múltiple de 5 unidades, y las longitudes de las tres barras dentro de cada gráfico
sumó 100.
Todos los triples (L, M y R) de los gráficos de barra usados en este experimento
compartieron las propiedades siguientes:
1. Cada barra en el medio del gráfico estuvo a medio camino en longitud entre las
correspondientes barras en el gráfico a la izquierda y a la derecha. (Si, sin embargo, el
promedio de longitud de las barras de la izquierda y de la derecha no proveen un múltiplo de
5, la barra del medio fue redondeada al múltiplo más cercano de 5.) Por ejemplo, en la Figura
1, la longitud de la barra verde en el gráfico M es 35, la cual está en el medio entre 20 y 50,
las respectivas longitudes de las barras en lo gráficos L y R. Lo mismo se sostiene para las
barras amarillas y rojas. ( Note, sin embargo, que las longitudes de éstas barras han sido
redondeadas: 42.5 a 40 y 22.5 a 25.)
2. El orden de rango de las longitudes de las barras en el gráfico M coincidieron con el
orden de rango de ya sea aquellos en el gráfico L ó aquellos en el gráfico R, pero no ambos,
puesto que el gráfico L y el gráfico R fueron siempre ordenados por rango diferentemente.
Por ejemplo, en la Figura 1 el orden de rango de M y L es el mismo, la roja siendo más corta
y la amarilla más alta en ambos, pero es diferente en R, donde la amarilla es la barra más
corta. Esto fue acentuado por una línea delgada conectando secuencialmente el extremo
superior de todas las barras en el gráfico, aunque el eje X fue una terminal variable.
3. Suponga que el gráfico M es interpretado como describiendo una población trinomial,
y que los gráficos R y L son interpretados como muestras del tamaño 20 que podría ser
obtenido de su población. Entonces la muestra cuyo rango de orden que igualó a la del
gráfico M fue siempre la muestra menos probable. Por ejemplo, en la figura 1, M describe
una población trinomial con parámetros .35, .40 y .25. Las posibilidades a favor de obtener
una muestra R (por ejemplo,10 verdes, 3 amarillas y 7 cuentas rojas) más que una muestra L
(por ejemplo, 4 verdes, 14 amarillas y 2 cuentas rojas) es de alrededor de 8 a 5, puesto que

Insertar primera fórmula de la Pág. 71 del original aquí.

Por lo tanto R es la muestra más probable.


4. Suponga alternativamente, que L y R son interpretadas como poblaciones y M como
una muestra. Entonces la muestra M fue siempre menos probable de emerger de la población
cuyo orden de rango ella igualó. Por ejemplo, en la Figura 1, M describe una muestra de 7
verdes, 8 amarillas y 5 cuentas rojas. Las probabilidades de obtener M de la población R (por
ejemplo, parámetros .50, .15 y .35) más que la población L (por ejemplo, parámetros .20, .70
y .10) son alrededor de 7 a 5, puesto que

Insertar segunda fórmula de la Pág. 71 del original aquí.


61

Por lo tanto R es la población más probable.


Veintiocho de tales triples fueron mostrados a los tres diferentes grupos de sujetos,
operando bajo tres diferentes juegos de instrucciones. A un grupo se le dijo que cada gráfico
describe una distribución trinomial, donde L y R describen dos poblaciones y M describe una
muestra obtenida de una de aquellas poblaciones. Los 25 sujetos en este grupo juzgaron si la
muestra representada en M es más probable de ser obtenida de la población L ó de la
población R. A otro grupo se le dijo que M describe una población trinomial, mientras que L
y R eran dos muestras trinomiales. Los 26 sujetos en este grupo juzgaron cuál de las dos
muestras era más probable de ser obtenida de población dada. Estos grupos fueron primero
presentados con un jarra grande de vidrio llena con verdes, amarillas y cuentas rojas. A ellos
se les mostró que la composición de la jarra (por ejemplo, la población) puede ser descrita
por un apropiado gráfico de barra. Una muestra de 20 cuentas fue aleatoriamente obtenida en
su presencia y su representación del gráfico de barra fue también demostrado. Los sujetos
fueron luego instruidos a pensar de L y R como representaciones de poblaciones de la jarra,
con M representado a muestra de 20 cuentas, ó L y R como muestras, con M representado
una población, de acuerdo al grupo en que ellos estaban.
Al tercero y último grupo, consistente de 25 sujetos, no le fue dada la interpretación de
los gráficos y fue meramente requerida a juzgar cuál de los dos gráficos , L y R, se parecía
más cercanamente a la del centro, M.
Por cada uno de los tres criterios separadamente ([1] más probable que produzca la
muestra M; [2] más probable que emerja de la población M; [3] más similar a M), un
estímulo fue clasificado como L ó R de acuerdo al gráfico seleccionado por una mayoría de
los sujetos.
Los dos mayores descubrimientos de este estudio fueron:
1. Las clasificaciones de la similaridad empírica dada por los sujetos coincidió
perfectamente con el criterio de similaridad a priori expresada en la propiedad [2] arriba. En
otras palabras, de los 28 estímulos, sobre el 80% de los sujetos juzgaron que M era más
similar al gráfico en el cual las alturas de las barras coloreadas fueron ordenadas del mismo
modo.
2. Las clasificaciones de L y R por probabilidad, ya sea como muestras ó poblaciones,
fueron altamente correlacionadas con sus clasificaciones de similaridad. De 17 triples en los
cuales R fue juzgado más similar a M, solo 2 fueron juzgados menos probables como
muestras, y 4 fueron juzgados menos probables como poblaciones. De las 11 muestras en las
cuales L fue juzgada más similar a M, solo 1 fue clasificada menor que R, y esa fue como un
muestra. Por tanto, las clasificaciones de similaridad no están de acuerdo con las
clasificaciones de probabilidad por menos del 13% de los estímulos. La unión de la
clasificación de los juicios de similaridad con la probabilidad de los juicios es dada en la
Figura 2, L y R fueron muestras, en B, ellos fueron poblaciones.
El coeficiente Φ de correlación entre las clasificaciones de probabilidad como muestras y
las clasificaciones de probabilidad como poblaciones fue de .75, casi tan alta como las
correlaciones Φ entre cada una de las clasificaciones de probabilidad y las clasificaciones de
similaridad. Esto apoya la posición que los sujetos en ambos los grupos de juicio-
probabilidad fueron basando sus ordenamientos grandemente en la similaridad, los juicios
realizados por el tercer grupo.

Qué características hacen que la muestras parezcan representativas?

Olson (1976) señaló que aunque “la noción de juicio en una evaluación de la
representatividad gozan de considerable apoyo, ambos experimental e introspectivo, en un
amplio rango de situaciones de juicio,” ella no está completa hasta que podamos determinar
62

“los factores que hacen un tarea particular y las características de un problema los conspicuos
con respecto a los cuales la representatividad es juzgada” (p. 608). En algunos contextos,
tales como el estudio de la similaridad y la probabilidad, éstos han sido identificados. Para
dar otro ejemplo, la clave que determina la representatividad de la muestra para muestras
desordenadas de variado tamaño obtenidas de alguna distribución de Bernoulli parece ser la
disparidad entre la proporción de “éxito” en la muestra y el correspondiente parámetro de
población (Kahneman & Tversky, 1972b, 3). El estudio que yo describiré ahora (Bar-Hillel,
1980b) sugiere una metodología general para identificar las características de control de la
representatividad para muestras de cualquier población. El es ejemplificado por un intento
para identificar las claves que determinan la representatividad para las muestras (de tres
observaciones) tomadas de unas distribuciones en forma de campana (por ejemplo normal).
El principio básico es simple. Si nosotros asumimos que los juicios de representatividad y
de probabilidad están determinados por las mismas características esenciales, entonces éstas
características pueden ser descubiertas requiriendo a la gente interpretar los juicios de
probabilidad por un juego de muestras seleccionadas adecuadamente. Este procedimiento
revierte los papeles de probabilidad y representatividad. En otras palabras, los juicios de
probabilidad son utilizados no para confirmar la representatividad sino para inferir la
representatividad. Requiriendo a los sujetos, sin embargo, clasificar las muestras por la
representatividad directamente puede bien ser una petición de principio. Ellos podrían
replicar: “Bueno, qué entiende usted por representatividad?” En lugar de eso, la estrategia
propuesta sustituye una clara, no ambigua interrogante (“Cuál de éstas muestras es más
probable de ser obtenida al azar de ésta población?”) que bajo supuestos estándar tiene una
respuesta normativa.
A los sujetos se les dio un problema tal como el siguiente:

El promedio de altura de los universitarios Americanos hombres es 175 cm. Tres archivos fueron
aleatoriamente obtenidos de la oficina de registro de una universidad, pertenecientes a John, Mike y
Bob. Cuál resultado es más probable con respecto a las alturas de éstos tres hombres?

John - 178 cms. John - 177 cms.


Mike - 170 cms. ó Mike - 177 cms.
Bob - 176 cms. Bob - 177 cms.

Los números actuales dados difirieron de diferentes formas y pueden ser encontrados en las
columnas de estímulos de la Tabla 1 (los ejemplos previos corresponden a la fila 1). Variando
sistemáticamente los números usados, fue posible chequear justo cuáles características de
muestra, y en qué orden fueron determinando las respuestas de los sujetos. Antes yo ofrezco
una sumatoria del cuadro emergente, unos pocos comentarios explicatorios que están en
orden, para ayudar al lector a enfrentarse con la tabla.
1. La muestra etiquetada A es siempre una que fue percibida como más probable que la
muestra con la cual ella fue equiparada. En las formas del cuestionario general, las muestras
A aparecen a menudo a la derecha como a la izquierda. La proporción exacta de los sujetos
que escogen A sobre B está listada en las columnas de respuestas.
63
==============================================================================================================
Tabla 1. Juicios y medidas estadísticas de la probabilidad relativa de pares de muestras en Bar-Hillel (1980b).

Estímulos para Estímulos para


la muestra A la muestra B Respuestas KS
____________________ ________________ ________________ P(B) Respuesta estadística
John Mike Bob John Mike Bob A(%) B(%) n P(A) verdadera A B
Tres observaciones diferentes 1. 178 170 176 177 177 177 95 5 188 1.39 B .31 .63
vrs. tres idénticas
2. 181 165 177 175 175 175 93 7 29 6.42 B .30 .50
3. 178 170 176 175 175 175 97 3 30 1.59 B .31 .50
4. 178 180 176 175 175 175 85 15 26 1.59 B .57 .50#
5 178 180 176 177 177 177 80 20 25 1.39 B .57 .63
6. 191 183 189 175 175 175 72 28 25 1300 B .91 .50#

Tres observaciones diferentes 7. 178 170 176 176 170 176 72 28 25 1.12 B .31 .43
Vrs. dos idénticas.
8. 178 170 176 178 170 178 76 24 25 .68 A .31 .36
9. 176 174 175 178 170 178 57 43 29 .56 A .43 .36#

Rango más grande preferido 10. 178 170 176 176 174 175 62 38 29 1.58 B .31 .43
11. 178 170 176 177 173 176 71 29 31 1.43 B .31 .37
12. 178 170 176 178 172 177 54 46 28 1.14 B .31 .31
13. 178 170 176 177 171 175 54 46 28 1.14 B .31 .37

Rango más pequeño 14. 178 170 176 179 169 177 54 46 26 .75 A .31 .30#
Preferido 15. 178 170 176 181 165 177 77 23 30 .23 A .31 .30#
16. 178 170 176 180 170 175 64 36 25 .81 A .31 .20#
17. 178 170 176 181 169 175 59 41 27 .60 A .31 .17#

Muestras bilaterales vrs. 18. 178 170 176 172 170 174 78 22 27 1.00 Cualquiera .31 .57
unilaterales 19. 178 170 176 178 180 176 64 36 25 1.00 Cualquiera .31 .57
65

20. 178 170 176 184 176 182 76 24 25 .26 A .31 .57
21. 181 165 177 178 180 176 63 37 32 4.29 B .57 .57
22. 176 174 175 184 176 182 73 27 30 .87 A .37 .57
23. 177 171 175 178 180 176 93 7 28 .17 A .43 .57
24. 176 174 175 178 180 176 79 21 37 1.58 B .43 .57

Ambas muestras 25. 183 175 177 184 176 182 87 13 30 .42 A .50 .57
Unilaterales 26. 185 175 177 184 176 182 85 15 27 .68 A .50 .57
27. 178 180 176 184 176 182 91 9 34 .26 A .57 .57
28. 178 180 176 181 179 183 81 19 28 .32 A .57 .75
Fuente: Bar-Hillel (1980b).
3. La muestra que es más probable desde el punto de vista de una normativa puede ser
visto en la columna de las medidas estadísticas. La muestra A es más probable que la
muestra B sí y solo si P(A)/P(B) < 1, lo que es, si

Insertar aquí la fórmula de la página 76 del original.

Donde A = [X , X , X ], B = [Y , Y , Y ]. Esta proporción fue computada para la función de


1 2 3 1 2 3

densidad normal con μ = 175 cm, σ = 6 cm. Puesto que la respuesta estadísticamente correcta
aparece en las columnas A y B sobre a menudo respuestas iguales de los sujetos son
claramente relacionadas a ella y no mejor que el nivel de posibilidad.
Talvez la más notable característica de los resultados tabulados en la Tabla 1 es que no
existe una clave simple en las cuales los sujetos se apoyen en el ordenamiento de las
muestras. Por ejemplo, ellos algunas veces escogieron la muestra cuya media está más cerca
de la media de la población (por ejemplo, la fila 1), y algunas veces ellos escogieron lo
opuesto (por ejemplo, la fila 2). Algunas veces ellos escogieron la muestra conteniendo las
observaciones más extremas (por ejemplo, la fila 13), y algunas veces lo opuesto (por
ejemplo, la fila 14). Ciertamente, parece como si un montón de claves son relevantes –
número de observaciones idénticas, ya sea que ambos lados de la población media estén
representados, media y rango de la muestra – y son considerados de algún modo de estilo
secuencial, como se representó en la Figura 3. Esto refuerza la opinión de que lo que sea que
determine el juicio de probabilidad de una muestra constituye un concepto dentro de sí
mismo. Estuvieron los sujetos usando una pista simple, ella no estaría siendo necesaria
etiquetarla como representatividad. Es el hecho de que los juicios de los sujetos parecen estar
basados sobre consideraciones de figuras complejas de la unificada configuración psicológica
de las muestras que dan fuerza a calificarla – negativa, conceptualizando – su heurístico
juicio por representatividad.
Puede el diagrama de flujo en la Figura 3 ser visto como más que un resumen meramente
conveniente y compacto de los resultados en la tabla 1? Cuán seriamente podemos tomarlo
para ser un proceso modelo del actual razonamiento de los sujetos en una tarea de la forma
descrita? Por un lado, obviamente no todas las características del modelo pueden esperarse
para generalizar - a otras muestras, a otros tamaños de muestras, a otras distribuciones. Yo
no apostaría, por ejemplo, apostaría a que cualquier muestra con variante siempre sería
juzgada más probable que una muestra sin variante – aunque esto no cuenta para la muestra
empleada en mi experimento. El modelo secuencial es, por lo tanto solo es una aproximación
a la estrategia cognitiva actual de la gente. Como tal, sin embargo, goza de la atractiva
ventaja psicológica de ser creíble, puesto que incorpora sino a un pequeño número de claves
simples computacionalmente.
Una interesante observación sugiere a sí misma en este punto y la ata al estudio
previamente descrito al presente. En el estudio de los gráficos de barra, dos formas de
clasificaciones de probabilidad fueron comparados con clasificaciones de similaridad: (a) la
clasificación de dos muestras como más ó menos probables resultados de una población,
denotado P(s/p); (b) la clasificación de dos poblaciones como más ó menos fuentes de alguna
muestra, denotada P(p/s) (algunas veces llamadas probabilidades inversas). Las dos tareas
condujeron a resultados muy cercanos, sugiriendo que ellas fueron ambas hechas de una
manera cercanamente relacionada – ciertamente, por hipótesis, de que ambas fueron hechas

Insertar aquí la Figura 3 de la página 77 del original.

Figura 3. Diagrama de flujo resumiendo las pistas y la secuencia en la cual ellas fueron
usadas para clasificar muestras por probabilidad. (Fuente: Bar-Hillel, 1980b.)
67

por representatividad (por ejemplo, aquí similaridad visual). Existe un concepto estadístico
que es de algún modo análogo al concepto psicológico de representatividad – ese de la
calidad del ajuste. Las medidas de calidad del ajuste son típicamente usadas en pruebas de
hipótesis cuando la población que produjo alguna muestra de conocimiento es buscada, en la
ausencia de cualquier probabilidad previa. Por tanto cuando se evalúan poblaciones, la
representatividad parece corresponder más cercanamente al concepto de calidad del ajuste
entre una muestra y una población que al concepto de la probabilidad de una población
condicional sobre una muestra, P(p/s).
En el estudio de distribución de alturas, sin embargo, la población que fue la fuente de las
muestras fue dada. Por consiguiente, los sujetos no tuvieron acceso al asunto ya sea
probabilidades inversas ó calidad de ajuste. No obstante, es interesante ver si su juicios
pueden, de alguna manera, ser reconstruidos como un intento intuitivo de evaluar el último.
Una medida posible de medir la calidad del ajuste entre muestras de tamaño tres y una
distribución normal es la estadística bilateral de una-muestra Kolmogorov, Smirnov (KS)
(vea, por ejemplo, Siegel, 1956, pp. 47-52). Esta estadística es interpretada de manera que
mientras más grande su valor (el cual es la distancia máxima entre las funciones de
distribución de la muestra y la población), menos probable es que la muestra fuera obtenida
aleatoriamente de la población. Las últimas dos columnas de la Tabla 1 listan el KS
estadístico para cada uno de los estudios de las muestras. En 18 pares, el ordenamiento de las
muestras por el KS estadístico fue atado (en 1 de las cuales, la fila 12, los sujetos fueron
prácticamente atados también), y en 7 pares (marcados por asteriscos en la
Tabla 1) los ordenamientos se contradicen.
Es de poca consecuencia comparar la extensión del acuerdo entre el ordenamiento KS y
el ordenamiento de los sujetos (lo último acordado en 13 de los 28 estímulos), puesto que las
últimas figuras son justo consecuencias del estímulo particular empleado, el cual no fue
muestreado aleatoriamente de ninguna manera de todos estímulos posibles. Es mucho más
instructivo considerar dónde el modelo de características jerárquicas difiere del modelo
calidad del ajuste. Los casos donde el ordenamiento KS fue atado pero el ordenamiento de
los sujetos no (filas 21, 27 y un poco la 12) puede ser atribuido a los valores KS, habiendo
sido computado con una desviación estándar de 6 cm. Esto resultó en la muestra
[181,169,175] (muestra B, fila 17), la cual tiene un rango de 12 cm., teniendo el menor valor
de KS, cuando el rango “ideal” (por ejemplo, más representativo) en los juicios de los sujetos
fue algo más pequeño de 10 cm. Puesto que no tenemos manera, sobre las bases de los
presentes datos, para asegurar que la desviación estándar de la distribución subjetiva de
alturas de los sujetos, es difícil de conocer qué hacer de esta discrepancia.
Una segunda clase de discrepancia, la cual cuenta para las filas 4, 6, 9 y 14-17, ocurre
porque el modelo KS, pero no el modelo jerárquico, la permite por compensación. En otras
palabras, si una muestra tiene un mayor “fallo” (tal como consistir de tres observaciones
idénticas, ó representar solo la mitad de la campana de la población), los sujetos la juzgan
menos representativa que sobre cualquier muestra sin ese fallo, pero el modelo KS considera
factores que están más abajo en el modelo jerárquico, también. Puesto que yo dije antes, que
la naturaleza jerárquica del proceso propuesto debería ser considerado como una
aproximación, ésta discrepancia es más una de grado que una de clase.
Otras medidas de la calidad del ajuste son computadas por estadísticos. Que ellos no
todos están de acuerdo indica que la propiedad que ellos pretenden medir no está clara y
únicamente definida. Aunque los estadísticos expertos tienen una más sofisticada intuición
que los sujetos legos, ambos pueden bien intentar hacer algo para alcanzar la misma noción
fundamental. A la fecha, aún los esfuerzos de los estadísticos en ésta dirección son
insuficientes de considerarlos completamente satisfactorios.
68

El papel del tamaño de la muestra en la evaluación de una muestra

Algunas características de la muestra corresponden a ciertos parámetros de la población;


éstas características son llamadas estadística de la muestra. La representatividad heurística ha
típicamente sido aplicada a ellas, en cuyo caso la representatividad es equivalente a la
similaridad, ó cercanía, de la estadística de la muestra a los correspondientes parámetros de
la población. Yo llamaré a esto el sentido primario de la representatividad. Pero las muestras
pueden ser descritas por referencia al procedimiento por medio del cual ellas fueron
obtenidas también. Por ejemplo, una muestra puede ser obtenida con reemplazo ó sin el;
obtenida de una población conocida ó de una desconocida; etc. Presumiblemente, la noción
de representatividad podría también ser aplicada a éstas. Por tanto, la gente podría (y existe
evidencia anecdótica que sí) juzgar una muestra obtenida al azar ser menos representativa
que una muestra estratificada, ó a una muestra grande ser más representativa que una
pequeña (Bar-Hillel, 1980b). Yo llamaré a esto el sentido secundario de la representatividad.
Puesto que concierne a los métodos de muestreo, y no a post hoc (¿)estadística de muestra, la
representatividad en este sentido secundario refleja expectativas sobre la representatividad en
el sentido primario. En otras palabras, para juzgar una muestra grande más representativa que
una pequeña es de esperar que sus “conspicuas características” ó sus “propiedades
esenciales” reflejarán mejor aquellas de la población, previo a serles dicho lo que
verdaderamente son.
Los problemas experimentales que yo describiré en esta última sección estudió este
sentido secundario de la representatividad, como aplicado a la característica del tamaño de la
muestra.

Problema 1: Dos encuestadores están conduciendo una encuesta para estimar la proporción de votantes que se
proponen votar SÍ en cierto referendum. La firma A está encuestando una muestra de 400 individuos. La firma
B está encuestando una muestra de 1,000 individuos. El estimado de quienes tendría usted más confianza en
aceptar?
Los de la firma A_____ Los de la firma B______ Casi la misma_____

Este problema, y dos variantes de éste (los cuales, respectivamente, agregaron la


información de que el tamaño total de la comunidad encuestada fue 8,000 y 50,000), les
fueron dados a 72 sujetos. Alrededor del 80% de ellos tuvieron más confianza en la muestra
grande, comparada con solo el 4% favoreciendo la muestra más pequeña.
Hubimos concluido de esto meramente que la muestra más grande es, la más
representativa que es juzgada (por ejemplo, la más exacta ó confiable que se espera que sea),
éstos resultados serían casi muy triviales para garantizar el reporte. No es el tamaño de la
muestra per se el que determina la representatividad de una muestra, sin embargo, sino mas
bien algo mas semejante a la relación entre el tamaño de la muestra y el tamaño de la
población. Donde las muestras consideradas son tomadas de la misma población, las dos
están linealmente relacionadas, de manera que ellas dan el mismo ordenamiento. Donde el
tamaño de la población es variado así como el tamaño de la muestra, sin embargo, la
diferencia viene a ser aparente. Considere el problema siguiente:

Problema 2: Dos encuestadores están conduciendo encuestas para estimar la proporción de votantes en sus
respectivas ciudades que se proponen votar SÍ en un cierto referendum.
La firma A opera en una ciudad de 1 millón de votantes
La firma B opera en una ciudad de 50,000 votantes
Ambas firmas están muestreando uno de cada 1,000 votantes.
El estimado de quienes estaría usted mas confiado en aceptar? _____
69

Aquí aunque la Firma A tiene una muestra de 1,000 y la Firma B de solo 50, el porcentaje
de Ss quienes expresaron más confianza en la muestra más grande cayó al 50%, mientras que
el 29% indicó igual confianza en ambas muestras. En otro grupo de sujetos a los que se les
dijo que ambas firmas muestrearon 1,000 (mejor que 1 de cada 1,000), el 9% indicó igual
confianza en ambas muestras, comparado con el 62% quienes tuvieron más confianza en la
muestra votada en la ciudad más pequeña. Los comentarios explicatorios a los que los sujetos
fueron requeridos a suplir confirmaron la noción de que ellos estuvieron considerando los
tamaños de muestra proporcionados, así como los tamaños absolutos.
Algunas veces la relación muestra-población es ciertamente importante para evaluar una
muestra – por ejemplo, cuando el muestreo es hecho sin reemplazo y especialmente cuando
una razonablemente grande proporción de ella está siendo muestreada. Si, sin embargo, el
muestreo es hecho con reemplazo (por ejemplo, el tamaño de la población es infinito), ó si
solo una pequeña proporción de una gran población está siendo muestreada (la cual
representa a la población, para todos los propósitos pragmáticos, infinita), entonces las
consideraciones del tamaño relativo al lado de aquellas de tamaño absoluto.
Problema 3. A usted le son presentadas dos urnas cubiertas. Ambas contienen una mezcla de cuentas verdes y
rojas. El número de cuentas es diferente en las dos urnas: la pequeña contiene 10 cuentas, y la grande contiene
100 cuentas. Sin embargo, el porcentaje de cuentas rojas y verdes es el mismo en ambas urnas. El muestreo
procederá como sigue: Usted extrae a ciegas una cuenta de la urna, anote su color, y reemplácelo. Usted las
revuelve, extrae otra a ciegas de nuevo, y anote otra vez el color. Esto llega a un total de 9 extracciones de la
urna pequeña, ó 15 extracciones de la urna grande. En cuál caso piensa usted que sus posibilidades de adivinar
la mayoría de los colores son mejores?

Puesto que el procedimiento de muestreo descrito en el problema 3 es con reemplazo, el


número de cuentas en las dos urnas es completamente sin importancia desde el punto de vista
de una normativa. Las escogencias de los sujetos deberían haber favorecido
abrumadoramente la muestra grande de 15 cuentas. En vez de eso, 72 de 110 sujetos
escogieron la muestra más pequeña de 9 cuentas. Esto puede ser explicado solo notando que
la relación del tamaño de la muestra al tamaño de la población es de 90% en el último caso y
solo de 15% en el anterior. Otros resultados reportados en Bar-Hillel (1979) reportan la
misma conclusión.
Por tanto, si en la estadística de la muestra, los candidatos importantes para el papel de
“propiedades esenciales”, no son conocidos, el tamaño de la muestra puede asumir ese papel.
La gente claramente percibe que el tamaño es una ventajosa propiedad de las muestras. Por
qué este conocimiento falla al llevar a cabo el sentido primario de la representatividad? En
otras palabras, dado que la gente creen que las muestras más grandes son más probables que
las pequeñas para ser buenas representativas de su población de origen, por qué ellos fallan al
juzgar resultados divergentes (por ejemplo, una proporción de la muestra de 60% obtenida de
una población caracterizada por una proporción de 50%) como menos probables en tamaño
que en muestras más pequeñas?
Posiblemente el juicio de que un cierto resultado de una muestra es menos probable en
muestras grandes depende de su percepción como no representativa. Desde el punto de vista
de una normativa, solo una muestra cuya media es idéntica a la media de la población es
“exacto”. Todos los otros son inexactos, aunque algunos más que los otros. Desde un punto
de vista psicológico, los resultados de la muestra pueden ser juzgados como representativos
aún si ellos se desvían algo de los parámetros de la población. Talvez el 60% no es percibido
como no representativo y por consiguiente no provocan el sentido de representatividad de
segundo orden de los sujetos.
Para probar esta posibilidad, yo di a los sujetos ciertas variaciones del problema de evitar
la maternidad de Kahneman y Tversky (1972b, 3):
70

Un cierto pueblo es servido por dos hospitales. En el hospital más grande alrededor de 45 bebés nacen cada día,
y en el hospital más pequeño alrededor de 15 bebés nacen cada día. Como usted sabe, alrededor del 50% de los
bebés son varones. El porcentaje exacto de bebés varones, sin embargo, varía de un día para otro. Algunas veces
puede ser mayor del 50% , algunas veces menor.
Por un período de 1 año, cada hospital registró los días en los cuales (más ó menos) del 60% de los bebés
nacidos fueron varones. Cuál hospital piensa usted que registró más tales días? (1972b, p. 443).

En problemas separados dados a grupos separados, la proporción de varones fue variada


del 60% al 70%, 80% y al 100%. La tabla 2 muestra el efecto de este cambio en la
distribución de respuesta de los sujetos.
La segunda columna reproduce, ambas en el problema y en los resultados, versión de
Kahneman y Tversky. Pero note que una vez la proporción de varones excede el 70%, la
respuesta modal viene a ser “el hospital más pequeño,” la cual es la respuesta correcta. Por
ahora todos los bebés son mencionados como varones, “el hospital más pequeño” es aún la
respuesta mayoritaria. Otro juego de problemas establecen la proporción como menor del
60%, 70% ú 80%. Para éstos, “la misma” fue la respuesta modal hasta el final.
Estos resultados sugieren que una vez un resultado de una muestra es percibido como no
representativo, el tamaño de la muestra es más probable que juegue un papel apropiado en la
evaluación de la muestra de la gente, presumiblemente porque un tamaño más pequeño es
más compatible con resultados no representativos que una grande. Si, sin embargo, si el
resultado establecido de la muestra no pone en funcionamiento la etiqueta de “no
representativa,” la gente por lo general ignora el tamaño de la muestra. Proporciones más
altas del 70% parecen estar codificadas como no representativas. Las proporciones que
incluyen 50% no.

Tabla 2. Proporción de sujetos respondiendo al problema de evitar la maternidad, con variaciones.


Arriba del Arriba del Arriba del Arriba del
60%a 60%b 70%b 80%b 100%c
La más grande 24% 20% 25% 26% 19%
La más pequeña 20% 20% 43% 42% 54%
La misma 56% 60% 32% 32% 27%
N 50 40 28 27 41
Por debajo del Por debajo del Por debajo del
60%a 70%b 80%b
La más grande 20% 31% 29%
La más pequeña 24% 28% 25%
La misma 56% 41% 46%
N 45 29 28
a
De Kahneman y Tversky (1972b, 3).
b
Datos no publicados previamente, Bar-Hillel.
c
De Bar-Hillel (1979). Aquí, los hospitales más grandes y más pequeños promedian 15 y 5 bebés por
día, respectivamente.

Discusión

Este capítulo presenta un resumen de juicios de probabilidad subjetiva que se relacionan


con la noción de representatividad. Cada uno de ellos, sin embargo, lo hace de una manera
diferente.
El primer estudio es una demostración clara que el juicio de similaridad y el juicio de la
probabilidad están correlacionados. A diferencia de muchas otras tareas que prueban la
misma hipótesis (vea, por ejemplo, Kahneman & Tversky, 1972b, 3; 1973, 4), los sujetos
71

aquí no pueden ser culpados por fallar en tomar otras consideraciones (ó, al menos, otras
consideraciones obvias ó simples) ni por dar indebido peso a consideraciones erróneas ó
irrelevantes. A propósito, pocas de las probabilidades actualmente computándose que ellos
fueron requeridos a comparar, son pocos los sujetos que podrían haber hecho mas que usar la
estrategia que ellos usaron. Esto de alguna manera disminuye el poder de la demostración.
Tomados junto a otros resultados, sin embargo, señala cómo consideraciones obligatorias de
similaridad aún las de tipo visual simple que este estudio provoca – pueden ser cuando se
juzgan los que son a menudo eventos complejos, computacionalmente ó conceptualmente.
Previo al estudio de las características de la muestra, los ensayos de representatividad
estuvieron típicamente concentrados sobre un simple parámetro de las poblaciones, ó en
claves de una dimensional. Esto permitió una clasificación de estímulos una inmediata y la
otra a priori de la similaridad, haciéndola necesaria para obtener clasificaciones
independientes experimental derivadas. (No obstante, aún algunas de éstas claves “obvias”
fueron más tarde puestas en duda [vea, por ejemplo, Olson, 1976]). Pero cuando los
estímulos crecen más complejos, las relaciones de similaridad entre ellos llegan a ser menos
obvias, puesto que muchas claves afectan el juicio completo. Este estudio explotó la por
entonces establecida correlación entre probabilidad y representatividad para dar alguna luz
sobre cómo la última es determinada en muestras caracterizadas por más que una simple
clave.
A menudo, el mejor camino para encontrar cómo son dos estímulos similares es inquirir
directamente sobre la similaridad. Esto es un poco más problemátíco cuando uno desea
encontrar cuán bien la muestra S representa a la población P. El segundo estudio en este
capítulo muestra la viabilidad de esta aproximación mientras da una descripción de lo que las
características de una muestra hace que las muestras parezcan representativas en un contexto
particular.
Finalmente, el tercer estudio señala una importante distribución, que entre la
representatividad de una muestra y la representatividad de los resultados de la muestra. En
este sentido primario, la representatividad es un juicio que se aplica a los resultados de una
muestra. En otras palabras, en orden de evaluar cómo la representatividad de alguna muestra
es de alguna población en este sentido, las características esenciales de ambas tienen que ser
conocidas. Por lo tanto, es significativo estimar, digamos, la representatividad de una muestra
de 15 recién nacidos, 9 de los cuales son varones, con relación a la distribución general del
sexo de los recién nacidos (con su conocimiento de la proporción de varones). Es
significativo evaluar la representatividad de esta muestra si la proporción de varones ya sea
en la muestra ó en la población es desconocida. Pero existe otro, sentido secundario de la
representatividad que dará la segunda clasificación significativa, también. Es este otro
sentido, las muestras son más representativas si ellas son juzgadas de ser más probables de
ser representativas en el sentido primario. En otras palabras, sin tomar en cuenta la media de
la población, y antes que la media de la muestra sea divulgada, una muestra de 45 recién
nacidos es más representativa (en el sentido secundario) que una de 15 recién nacidos, porque
es más probable parecerse a la población una vez su proporción de varones es divulgada. Post
hoc (¿), por supuesto, la muestra de 45 puede probar tener 60% de varones, como comparado
con 53% de varones en la muestra más pequeña. Pero si los dos sentidos son conservados
distintos, esto no debería causar confusión.
El tercer estudio demostró que la gente responde al tamaño de una muestra cuando
haciendo juicios secundarios de representatividad, aunque ellos fallan en darse cuenta de las
implicaciones que esto necesariamente tiene para los juicios de representatividad primarios y
estándar.
72

6. Juicios de y por representatividad

Amos Tversky y Daniel Kahneman

Varios años atrás, nosotros presentamos un análisis de juicio bajo incertidumbre que
relacionó las probabilidades subjetivas y las predicciones intuitivas a expectativas e
impresiones sobre la representatividad. Dos hipótesis distintas incorporaron este concepto: (i)
la gente espera que las muestras sean altamente similares a su población de origen y también
que representen la aleatoriedad del proceso de muestreo (Tversky & Kahneman, 1971, 2;
1974, 1); (ii) la gente a menudo se apoya en la representatividad como una heurística para el
juicio y la predicción (Kahneman & Tversky, 1972b, 3; 1973, 4).
La primera hipótesis fue adelantada para explicar la creencia común que los procesos de
posibilidad son auto correctivos, la exagerada fe en los resultados de estabilidad observados
en muestras pequeñas, la falacia del jugador y los prejuicios relacionados con juicios de
aleatoriedad. Nosotros propusimos que la concepción de la posibilidad incorpora una
creencia en la ley de los números pequeños, de acuerdo a la cual aún las muestras pequeñas
son altamente representativas de sus poblaciones de origen (Tversky & Kahneman, 1971, 2).
Una hipótesis similar podría también explicar la tendencia común a exagerar la consistencia y
el valor predictivo de los rasgos de la personalidad (Mischel, 1979) y a sobreestimar las
correlaciones entre variables similares (vea el Capítulo 15) y los comportamientos (Shweder
& D’Andrade, 1980). La gente parece creer en un modelo como un holograma de la
personalidad en el cual cualquier fragmento del comportamiento representa el verdadero
carácter del actor (Kahneman & Tversky, 1973, 4).
La hipótesis de que la gente espera que las muestras sean altamente representativas de su
poblaciones de origen es conceptualmente independiente de la segunda hipótesis, que la
gente a menudo usa la heurística de representatividad para hacer predicciones y juzgar las
probabilidades. Lo que es, que la gente a menudo evalúa la probabilidad de un evento
incierto ó una muestra “por el grado al cual el es (i) similar en propiedades esenciales a su
población de origen, y (ii) refleja las características conspicuas del proceso por el cual el es
generado” (Kahneman & Tversky, 1972b, p. 431, 3). Esta hipótesis fue estudiada en varios
contextos, incluyendo los juicios intuitivos de la estadística y la predicción de la escogencia
profesional (Kahneman & Tversky, 1972b, 3; 1973, 4).
Las dos hipótesis de representatividad han sido usadas para explicar una variedad de
observaciones, tales como la inefectividad relativa de la información de consenso y el uso de
la similaridad en la interpretación de ensayos proyectivos (Nisbett & Ross, 1980). Estas
hipótesis han también proveído dirección a una bien recompensada investigación de las
violaciones significantes de las reglas normativas en juicios intuitivos. La mayoría de ésta
investigación ha estado relacionada con juicios por representatividad, que es, con el papel de
la representatividad en la predicción y la inferencia. Relativamente poco trabajo ha sido
dedicado a juicios de representatividad, que es, a la naturalezas de ésta relación y sus
73

Este trabajo fue apoyado por la Office Naval Research bajo el contrato N00014-79-C-0077 a la Universidad de
Stanford.

determinantes, fuera del muestreo aleatorio (Bar-Hillel, 1980b). La primera parte de este
capítulo está relacionada con la naturaleza de la relación de representatividad y también con
las condiciones en la cuales el concepto de representatividad es útilmente provocado para
explicar las predicciones intuitivas y los juicios de probabilidad. En la segunda parte del
capítulo ilustramos el contraste entre la lógica de representatividad y la lógica de
probabilidad en juicios de la probabilidad de eventos compuestos.

La relación de representatividad

La representatividad es una relación entre un proceso ó modelo, M, y alguna instancia ó


evento, X, con ese modelo. La representatividad, como la similaridad, pueden ser evaluadas
empíricamente, por ejemplo, requiriendo a la gente juzgar cuál de los dos eventos, X 1 ó X2, es
más representativo de algún modelo, M, ó si un evento, X, es más representativo de M 1 ó de
M2. El modelo en cuestión podría ser una persona, una moneda legal ó la economía del
mundo, y los respectivos resultados podrían ser una observación, una secuencia de caras y
cruces, ó el precio actual del oro. La representatividad es una relación direccional: Digamos
que una muestra es más ó menos representativa de una población particular y que un acto es
representativo de una persona. Nosotros normalmente decimos que la población es
representativa de la muestra ó que la persona es representativa del acto. En algunos
problemas, sin embargo, es posible revertir los papeles de modelo y resultado. Por ejemplo,
uno puede evaluar si una persona es representativa del estereotipo de bibliotecarios ó si la
ocupación de bibliotecario es representativa de esa persona.
Nosotros distinguimos cuatro casos básicos en los cuales el concepto de representatividad
es comúnmente provocado.
1. M es una clase y X es un valor de una variable definida en ésta clase. Es en este
sentido nosotros hablamos de (más ó menos) valores de representatividad del resultado de
profesores universitarios, ó de la edad del matrimonio en una cultura. Naturalmente, el valor
más representativo estará cerca de la media, la mediana ó del modo de la distribución de la
variable relevante en la clase M. La relación de representatividad está principalmente
determinada en este caso por lo que el juicio conoce sobre la distribución de frecuencia de la
variable relevante.
2. M es una clase y X es una instancia de esa clase. La mayoría de lectores
probablemente estarán de acuerdo que John Updike es un más representativo escritor
Americano que Norman Mailer. Claramente, tal juicio no tiene unas bases en frecuencia; el
refleja el grado al cual los estilos , temas e ideas de éstos autores son centrales a los escritos
contemporáneos Americanos. Consideraciones similares determinan la representatividad de
las instancias que son en si mismas clases más que individuos. Por ejemplo, un petirrojo es
juzgado ser un pájaro más típico que un pollo, aunque es menos frecuente (Rosch, 1978;
Smith, Shoben & Rips, 1974). Por lo tanto una instancia es representativa de una categoría si
ella tiene las características esenciales que son compartidas por miembros de esa categoría y
no tienen muchas características distintivas que no son compartidas por miembros de la
categoría (Rosch, 1975; Tversky, 1977).
El trabajo contemporáneo sobre la formación del concepto (Rosch & Mervis, 1975;
Mervis & Rosch, 1981), la memoria semántica (Bransford & Franks, 1971), y
reconocimiento del patrón (Posner & Keele, 1968) ha mostrado que los más representativos ,
ó prototipos, elementos de una categoría son mejor aprendidos, recordados y reconocidos que
74

los elementos que son más frecuentes pero menos representativos. Más aún, la gente a
menudo se equivocan al “reconocer” estímulos prototípicos que nunca han sido mostrados.
La representatividad, por consiguiente, puede prejuzgar la memoria del reconocimiento así
como los juicios de frecuencia.
Podría talvez notarse que existen dos caminos en los cuales un elemento puede ser
altamente representativo de una clase. Los dos sentidos de representatividad corresponden
cercanamente a las relaciones de tipicalidad y prototipicalidad. Un elemento es altamente
representativo de una categoría si el es típico ó modal; el puede también ser representativo si
el es un tipo ideal que envuelve la esencia de la categoría. Nueva York, por ejemplo, es el
prototipo de una ciudad Americana, pero Cincinnati es más probable de ser seleccionada
como una ciudad típica. Similarmente, nuestras nociones de la prototípica y típica mujer
Francesa puede ser muy diferente. La anterior es probablemente una joven, elegante Parisina,
mientras que la última es más probable de ser una gordinflona mujer de mediana edad de las
provincias.
3. M es una clase y X es un sub-juego de M. La mayoría de la gente probablemente
estará de acuerdo en que la población de la Florida es menos representativa de la población
de los Estados Unidos que lo que es la población de Illinois y que los estudiantes de
astronomía son menos representativos del cuerpo entero de estudiantes que lo que son los
estudiantes de psicología. Los criterios de representatividad no son los mismos para un sub-
juego y para una instancia simple, porque una instancia puede solo representar la tendencia
central de los atributos, mientras que un sub-juego puede también representar rango y
variabilidad. Un hombre cuya altura, peso, edad e ingreso económico se asemejan a los
valores promedio para la población de los estados unidos es, claramente, representativo de la
población. Un grupo de 100 hombres con las mismas características fallaría en representar la
variabilidad de los atributos.
Si la clase M consiste de distintos grupos tales que la variabilidad dentro de cada grupo es
muy pequeña relativa a la variabilidad entre los grupos, , tendemos a tratar cada grupo como
una instancia de la categoría más que como un sub-juego. Por tanto, es natural considerar al
“petirrojo” como una clase de pájaro, ó como una instancia de la categoría “pájaro”, aunque
el juego de petirrojos es un sub-juego de la clase de pájaros. Más generalmente, (2) puede ser
considerado como un caso especial de (3) donde el sub-juego X consiste de un simple
miembro. Similarmente, (1) puede ser considerado como una versión unidimensional de (2).
Los tres tipos de representatividad son distinguidos por la complejidad de X, donde (1) es el
caso de elemento simple, atributo simple, (2) es el elemento simple, caso de multi-atributo, y
(3) es el caso de elemento múltiple – con uno ó más atributos.
Un ejemplo particularmente importante de la representatividad de un sub-juego es el caso
en el cual X es una muestra aleatoria de una población especificada. Una muestra aleatoria
se espera que represente la aleatoriedad del proceso de selección, no solo las características
esenciales de la población de la cual ella es sacada. Cuando 100 gentes son seleccionadas al
azar, por ejemplo, una muestra de 53 hombres y 47 mujeres puede parecer más representativa
que una muestra de 50 hombres y 50 mujeres, porque la anterior representa la irregularidad
del muestreo aleatorio mientras que la última no (Kahneman y Tversky, 1972b, 3). El
concepto estadístico de una muestra representativa es discutida por Kruskal y Mosteller
(1979a, 1979b).
4. M es un sistema (causal) y X es una consecuencia (posible). Este caso difiere de los
precedentes en que M no es por mucho una clase de objetos ó instancias sino más bien un
sistema que produce varios efectos. Por ejemplo, M puede ser la economía de los Estados
Unidos y X la tasa de inflación, ó M puede ser una persona y X un acto realizado por M, por
ejemplo, divorcio, suicidio, escogencia personal. Aquí X es representativa de M ya sea
porque es frecuentemente asociada con M (por ejemplo, fiebre alta comúnmente acompaña a
75

la neumonía) ó porque la gente cree, correcta ó incorrectamente, que M causa a X (por


ejemplo, la pena capital previene los secuestros). Intrusiones de esquemas causales en juicios
de probabilidades condicionales son ilustrados y discutidos en Tversky y Kahneman (1980,
8).
En resumen, una relación de representatividad puede ser definida por (1) un valor y una
distribución, (2) una instancia y una categoría, (3) una muestra y una población, (4) un efecto
y una causa. En todos los cuatro casos, la representatividad expresa el grado de
correspondencia entre X y M, pero sus determinantes no son las mismas en los cuatro casos.
En el caso (1), la representatividad es dominada por la frecuencia relativa percibida ó
asociación estadística. En los casos (2) y (3), la representatividad es determinada
primariamente por la similaridad, por ejemplo, de una instancia a otras instancias, ó de una
muestra estadística a los parámetros correspondientes de una población. Finalmente, en el
caso (4), la representatividad es controlada largamente por (válidas ó inválidas) creencias
causales.

Representatividad y probabilidad

El uso de la representatividad para explicar los juicios de probabilidad y las predicciones


intuitivas descansa en las suposiciones que:

1. La relación “X” es (muy, . . . ., no del todo) representativa de M puede ser


significativamente evaluada por juicios.
2. Estas evaluaciones no deberán estar basadas en impresiones de probabilidad o de
frecuencia, las cuales deben ser explicadas por la representatividad.
3. La relación de representatividad tiene una lógica de su propiedad, la cual arranca
sistemáticamente de la lógica de la probabilidad.

Cuando éstas suposiciones son satisfechas, es de interés probar si los juicios de probabilidad
son mediados por evaluaciones de representatividad.
La evaluación de la probabilidad de un evento incierto o de la predicción de una cantidad
desconocida es un proceso complejo, el cual comprende la interpretación del problema, una
búsqueda de la información relevante, y de escoger una respuesta apropiada. Puede ser
comprado con la operación de un programa flexible de computación que incorpora una
potencialmente útiles sub-rutinas. En los términos de ésta analogía, la representatividad
heurística es uno de los procedimientos que pueden ser usados para retribuir, interpretar y
evaluar una información. El uso de ésta heurística, por supuesto, no impide el uso de otros
procedimientos, como el uso de imágenes como una heurística para recordar a la gente que
estuvo presente en una reunión particular, por ejemplo, participantes quienes fueron
claramente visibles se espera que sean recordados mejor que aquellos que no. Similarmente,
el uso de la representatividad para evaluar la probabilidad subjetiva produce una
sobreestimación de algunas probabilidades y subestimación de otras.
Estudios anteriores dieron lugar a la hipótesis extrema de que algunas juicios de
probabilidad están basados exclusivamente en la representatividad. Por ejemplo, la
observación de que las distribuciones del muestreo subjetivo son esencialmente
independientes del tamaño de la muestra (Kahneman y Tvesrky, 1972b, 3) sugirieron que la
gente evalúa la probabilidad de una muestra por la similaridad de su estadística con los
correspondientes parámetros de la población. La mayoría de los datos disponibles, sin
embargo, sostienen una hipótesis más moderada que las predicciones intuitivas y los juicios
de probabilidad son altamente sensitivos a la representatividad aunque ellos no están
completamente dominados por ella. Por lo tanto, las probabilidades subjetivas están
76

fuertemente influenciadas por (normativamente) factores irrelevantes que afectan la


representatividad y son relativamente insensitivos a (normativamente) variables relevantes
que no afectan la representatividad. La magnitud de los prejuicios de la representatividad y el
impacto de las variables tales como el tamaño de la muestra, la confiabilidad y la valoración
base dependen de la naturaleza del problema, las características del diseño, la sofisticación de
los encuestados, y la presencia de claves sugestivas ú otras características de demanda. El
papel éstos factores en la investigación del juicio es discutida en el Capítulo 34.
Si la confianza en la representatividad conduce a sistemáticos errores, por qué la gente
usa ésta relación como una base para la predicción y el juicio? La respuesta a ésta
interrogante tiene tres partes. Primera, la representatividad aparece fácilmente accesible y
fácil de evaluar. La investigación moderna sobre categorización (Mervis & Rosch, 1981;
Rosch, 1978) sugiere que el conocimiento conceptual está a menudo organizado y procesado
en términos de prototipos de ejemplos representativos. Consecuentemente, encontramos más
fácil evaluar la representatividad de una instancia a una clase que evaluar su probabilidad
condicional. Segunda, eventos probables son usualmente más representativos que los eventos
menos probables. Por ejemplo, una muestra que se parece a la población es generalmente
más probable que una muestra altamente atípica del mismo tamaño. Tercera, la creencia de
que las muestras son generalmente representativas de sus poblaciones de origen conduce a la
gente a sobreestimar la correlación entre la frecuencia y la representatividad ó entre
asociación estadística y la similaridad connotativa. Por tanto, la representatividad es usada
porque (i) es accesible, (ii) a menudo se correlaciona con la probabilidad, y (iii) la gente
sobreestima ésta correlación. La confianza en la representatividad, sin embargo, conduce a
errores predecibles de juicio porque la representatividad tiene una lógica propia, la cual
difiere de la lógica de la probabilidad.
El contraste entre la representatividad y la probabilidad es más pronunciada (i) cuando la
evidencia es falible ó (ii) cuando el objetivo del evento es altamente específico. En el caso
(i), un resultado que es altamente representativo de nuestro modelo puede a pesar de eso ser
improbable – si nuestro modelo mental está basado en una evidencia de limitada validez.
Considere, por ejemplo, la probabilidad de que un candidato quién dejó una excelente
impresión durante una entrevista tendrá éxito en una tarea muy difícil. Porque las
impresiones basadas en entrevistas son notoriamente falibles y el éxito ó el fracaso en el
trabajo es controlado por numerosos factores que no son predecibles de una breve
conversación, el éxito puede ser muy improbable aún cuando el sea altamente representativo
de nuestra impresión del candidato.
En el caso (iii), un resultado puede ser representativo puede ser muy improbable porque
es altamente específico ó detallado. En general, un evento puede ser improbable ya sea
porque es atípico ó porque es altamente específico. Un peso debajo de las 135 lbs. Es típico
pero altamente específico. Ciertamente, el último es más representativo para un hombre de
mediana edad, aunque el anterior es mucho más probable. Como este ejemplo ilustra, un
incremento en la especifidad no generalmente conduce a una representatividad disminuida.
Consecuentemente, la comparación de eventos que difieren en la especifidad a menudo crean
conflicto entre la representatividad y la probabilidad. Por ejemplo, una muestra al azar de
cuatro cartas consistiendo del rey de corazones, as de espadas, nueve de diamantes y cuatro
de tréboles, parece más representativo que una muestra consistiendo de cuatro cartas del
mismo palo, aunque la última es por mucho más probable. Por tanto, los prejuicios de
representatividad en juicios de probabilidad deberían ser más pronunciados en la evaluación
de eventos que son representativos pero altamente específicos. Tales prejuicios son
demostrados en estudios de juicios de probabilidad de eventos compuestos descritos en la
siguiente sección.
77

Sobre la evaluación de eventos compuestos

El agudo contraste entre probabilidad y representatividad surge en la evaluación de


eventos compuestos. Suponga que nosotros estamos dando alguna información sobre un
individuo (por ejemplo, un esquema de personalidad) y que nosotros especulamos sobre
varios atributos ó combinaciones de atributos que este individuo puede poseer, tales como
ocupación, pasatiempo ó afinidad política. Una de las leyes básicas de la probabilidad es que
la especificación puede solo reducir la probabilidad. Por lo tanto, la probabilidad de que una
persona dada es ambas un Republicano y un artista debe ser más pequeña que la probabilidad
de que la persona sea un artista. Esta condición se sostiene no solo en el cálculo de la
probabilidad estándar sino también en modelos no estándar (por ejemplo, Shafer, 1976;
Zadeh, 1978).
Sin embargo, el requerimiento que P(A & B) ≤ P(B), el cual puede ser llamado la regla de
la conjunción, no se aplica a la similaridad ó a la representatividad. Un cuadrado azul, por
ejemplo, puede ser más similar a un círculo azul que a un círculo, y un individuo puede
representar nuestra imagen de un artista Republicano más que a nuestra imagen de un
Republicano. Porque la similaridad de un objeto a un objetivo puede ser incrementada
agregando a las características del objetivo que son compartidas por el objeto (vea, Tversky,
1977), la similaridad ó la representatividad puede ser incrementada por la especificación del
objetivo. Si los juicios de probabilidad son mediados por la representatividad ó la similaridad
debería ser posible construir problemas donde una conjunción de resultados parezca más
representativa y por lo tanto más probable que uno de sus componentes.

El efecto de la conjunción: Estudio 1

Esta predicción fue primero ensayada en un experimento conducido en Jerusalén en 1974.


Nosotros presentamos 184 sujetos con cuatro esquemas de personalidad. Cada esquema
equiparaba el estereotipo de una ocupación particular (por ejemplo, un piloto de taxi) y
difería grandemente del estereotipo de un partido político particular (por ejemplo, laborista),
ó viceversa. De aquí que, cada descripción (X) fue representativa de un objetivo, denominado
(A), y no representativo de otro objetivo, denominado (B). Cada esquema fue seguido de una
lista de cinco ó seis eventos objetivos descritos por una ocupación, una afiliación política, ó
una conjunción, por ejemplo, un taxista que es miembro de un partido laborista. Para cada
descripción, la mitad de los sujetos recibieron una lista incluyendo ambos objetivos A y B
mientras que la otra mitad recibieron una lista incluyendo el objetivo compuesto (A & B).
Los restantes cuatro objetivos fueron idénticos en las dos listas. La mitad de los sujetos
fueron requeridos a clasificar los objetivos de acuerdo al “grado al cual X es representativo
de esa clase”, y la otra mitad los clasificó de acuerdo a “la probabilidad de que X sea un
miembro de esa clase”.
El diseño del estudio permitió una comparación indirecta de la representatividad y de la
probabilidad para el evento B y el compuesto (A & B) en relación a las cuatro constantes
alternativas. Los resultados pueden resumirse como sigue: Primero, todas las cuatro
descripciones fueron juzgadas de ser más representativas del objetivo compuesto (A & B)
que del objetivo B solo. Segundo, El ordenamiento de la representatividad y el probable
ordenamiento de cada juego de objetivos fue casi idéntico en todos los casos; la correlación
promedio producto-momento entre rangos medios fue de .96. En particular, al objetivo
compuesto (A & B) le fue asignado un significantemente más alto rango medio en el
ordenamiento de la probabilidad que al objetivo simple B. Evidentemente, la confianza en la
representatividad heurística condujo a los encuestados a considerar un evento conjuntivo
78

como más probable que uno de sus componentes, contrario a la regla de la probabilidad. A
este patrón de juicios será llamado el efecto de la conjunción.

Estudio 2: Bill y Linda

Porque el material de estímulo usado en el estudio temprano fue altamente específico para la
cultura Israelí, nosotros construimos una versión en Inglés de los problemas e hicimos una
réplica del estudio con varias variaciones significantes. Primero, comparamos los resultados
de un diseño ‘entre sujetos’, en el cual cada encuestado comparó ya sea el objetivo
compuesto (A & B) ó el objetivo simple (B), al mismo juego de alternativas, con un diseño
‘entre grupos de sujetos’ en el cual cada uno de los encuestados comparó los dos objetivos
críticos directamente. Nosotros elaboramos la hipótesis de que la regla de conjunción fallaría
en el anterior diseño, como en nuestro estudio previo, pero esperamos que la frecuencia de
violaciones sería grandemente reducida en el último diseño donde los participantes fueron
requeridos, en efecto, comparar P(A) con P(A & B). Segundo, nosotros esperamos que aún la
sofisticación estadística limitada eliminaría la mayoría de las violaciones de la regla de
conjunción, al menos en un diseño ‘dentro de un grupo de sujetos’.
Para investigar éstas hipótesis, condujimos ambos un estudio ‘dentro de un grupo de
sujetos’ (directo) y ‘entre sujetos’ (indirecto), con el mismo material de estímulo. El estudio
fue replicado en tres grupos de encuestados que difirieron en sofisticación estadística. El
estadísticamente grupo simple consistió de estudiantes no graduados de la Universidad de
British Columbia y de la Universidad de Stanford quienes no tenían antecedentes en
probabilidad ó estadística. El grupo intermedio consistió en estudiantes graduados en
psicología y educación y de estudiantes de medicina de la Universidad de Stanford quienes
habían tomado varios cursos de estadística y estaban todos familiarizados con los conceptos
básicos de la probabilidad. El grupo estadísticamente sofisticado consistió de estudiantes
graduados en el programa de ciencia de la decisión de la Escuela de Negocios de Stanford
quienes habían todos tomado varios cursos avanzados de probabilidad y de estadística.
Dos breves esquemas de personalidad fueron construidos. Cada participante se encontró
con uno de éstos esquemas en el tratamiento ‘dentro del grupo de sujetos’ y el otro en el
tratamiento ‘entre los sujetos’. En el primero el esquema de personalidad fue seguido por
ocho resultados posibles, incluyendo un resultado representativo, un resultado no
representativo y la conjunción de los dos. En el tratamiento ‘entre los sujetos’ la lista de
resultados incluyó ya sea los dos resultados críticos simples ó su conjunción. Las formas
‘dentro del grupo de sujetos’ de los dos problemas se muestran aquí. Los números entre
paréntesis son la clasificación media asignada a los varios resultados por los sujetos quienes
recibieron ésta forma.

Bill tiene 34 años de edad. El es inteligente, pero no imaginativo. Compulsivo y generalmente


desanimado. En la escuela, él fue fuerte en matemáticas pero débil en estudios sociales y
humanidades.

Por favor ordene las siguientes informaciones por su probabilidad, usando 1 para el más probable y 8
para el menos probable.
(4.1) Bill es un físico que juega poker por hobby.
(4.8) Bill es un arquitecto.
(1.1) Bill es un contador. (A)
(6.2) Bill toca jazz por hobby. (J)
(5.7) Bill practica el surfing por hobby.
(5.3) Bill es un reportero.
79

(3.6) Bill es un contador que toca jazz por hobby. (A & J)


(5.4) Bill escala montañas por Hobby.

Linda tiene 31 años de edad, soltera, franca y muy brillante. Ella se especializó en filosofía. Como
una estudiante, ella estuvo profundamente relacionada con asuntos de discriminación y justicia social,
y también participó en demostraciones anti nucleares.

Por favor clasifique las siguientes declaraciones por su probabilidad, usando 1 para la más probable y
8 para la menos probable.
(5.2) Linda es una maestra de escuela elemental.
(3.3) Linda trabaja en una librería y toma clases de Yoga.
(2.1) Linda es activa en el movimiento feminista. (F)
(3.1) Linda es una trabajadora social psiquiátrica.
(5.4) Linda es miembro de la Liga de Mujeres Votantes.
(6.2) Linda es una cajera de banco, (T)
(6.4) Linda es una vendedora de seguros.
(4.1) Linda es una cajera de banco y está activa en el movimiento feminista. (T & F)

Como el lector ha probablemente adivinado, la descripción de Bill fue construida para ser
representativa de un contador (A) y no representativa de una persona que toca jazz por
hobby (J). La descripción de Linda fue construida para ser representativa de una activa
feminista (F) y no representativa de una cajera de banco (T). De acuerdo con los principios
psicológicos de la similaridad (Tversky, 1977) se esperaba que los objetivos compuestos, un
contador que toca jazz por hobby (A & J) y una cajera de banco que es activa en el
movimiento feminista (T & F), caerían entre los respectivos objetivos simples. Para probar
esta predicción, nosotros requerimos al grupo de 88 sujetos estadísticamente simples a
clasificar los ocho objetivos “por el grado al cual Bill (Linda) se asemejan al típico miembro
de esa clase”. Las clasificaciones de similaridad validaron nuestra hipótesis sobre las
descripciones. La proporción de encuestados quienes desplegaron el orden predicho para Bill
(A >A & J >J) fue del 87%; el porcentaje de sujetos quienes desplegaron el orden predicho
para Linda (F > T & F > T) fue del 85%.

Tabla 1. El efecto conjunción


Simple Intermedio Sofisticado________
Linda Bill Linda Bill_________Linda Bill_____
Diseño dentro del grupo de sujetos
Efecto conjunción (%) 89 92 90 86 85 83
Clasificación M: A & B 4.2 3.6 3.9 3.5 4.0 3.4
Clasificación M: B 6.3 6.4 6.2 6.4 6.1 5.6
N 88 94 53 56 32 32

Diseño entre los sujetos


Clasificación M: A & B 3.3 2.3 2.9 2.4 3.1 2.5
Clasificación M: B 4.4 4.5 3.9 4.2 4.3 4.6
N 86 88 55 56 32 32

Todos los participantes recibieron ya sea la descripción de Bill ó la descripción de Linda


en la forma ‘dentro del grupo de sujetos’ y la clasificación ordenada de ocho objetivos de
acuerdo a sus probabilidades. Estos datos están resumidos en la parte superior de la Tabla 1,
donde la fila etiquetada “efecto conjunción (%)” presenta el porcentaje de sujetos en cada
grupo que clasificaron el objetivo compuesto por debajo del objetivo simple menos
representativo. Las filas etiquetadas “A y B” y”B” por ahora, respectivamente, la
80

clasificación media asignada al compuesto y al objetivo simple menos representativo. La


clasificación media de similaridad está ploteada en la Figura 1 contra la clasificación media
total de probabilidad en el diseño ‘dentro del grupo de sujetos’.
En la condición ‘entre los sujetos’, dos versiones de cada problema fueron construidas
eliminando de la lista de objetivos ya sea el objetivo compuesto ó los dos objetivos
compuestos. El esquema de personalidad, las instrucciones y los remanentes 5 objetivos
fueron los mismo como en la versión ‘dentro del grupo de sujetos’. Los resultados del diseño
‘entre los sujetos’ para todos los grupos de encuestados son presentados en la parte inferior
de la Tabla 1.
Los resultados resumidos en la Tabla 1 muestran que el objetivo compuesto fue
clasificado como más probable que el objetivo simple en ambos diseños ‘dentro del grupo de
sujetos’ y ‘entre los sujetos’. Este resultado se sostiene para ambas descripciones y para
todos los grupos. Mucha de nuestra sorpresa, sofisticación estadística tuvieron un efecto
insignificante sobre el efecto conjunción, el cual fue exhibido por más del 80% de los sujetos
en todos los tres grupos.

Incluir aquí la Figura 1 de la página 94 del original.

Figura 1. Ploteo de las clasificaciones promedio de para ocho resultados clasificados por probabilidad
y por similaridad para las dos descripciones.

En los estudios precedentes, los objetivos críticos fueron fijados en juego más grande de
resultados posibles, los cuales podrían haber disfrazado la relación de inclusión entre ellos.
Es de interés, por consiguiente, investigar si la gente viola la regla de conjunción aún cuando
la relación lógica entre los objetivos es altamente transparente. Para probar ésta hipótesis,
nosotros presentamos un nuevo grupo de (estadísticamente simples) sujetos con las
descripciones de Bill y Linda. Cada sujeto fue presentado con una de las dos descripciones,
y fue preguntado sobre cuál de los dos objetivos críticos [por ejemplo, J y (A & J), ó T y (T
& F)] era más probable. Este procedimiento no reduce el efecto conjunción: El objetivo
compuesto fue seleccionado por el 92% de los sujetos (N = 88) en el caso de Bill y por el
87% de los sujetos (N = 86) en el caso de Linda.
De la falla masiva de la regla de la conjunción surgen intrigantes interrogantes
concernientes a su apariencia normativa. Para examinar ésta interrogante, entrevistamos a 36
estudiantes graduados, del grupo intermedio, quienes hubieron participado en el experimento.
A ellos se les preguntó (1) cómo habían ordenado ellos las dos categorías críticas, (2) por qué
ellos habían hecho eso, y (3) considerar el argumento de “la probabilidad de que Bill sea
ambos un contador y un intérprete del jazz no puede exceder la probabilidad de que es un
intérprete del jazz, porque cada miembro de la categoría anterior es también un miembro de
la última”. Más de los dos tercios de los sujetos (1) dijeron que ellos habían seleccionado el
objetivo compuesto, (2) dieron alguna versión de una similaridad ó de un argumento de
tipicalidad como una razón, y (3) estuvieron de acuerdo, después de alguna reflexión, que sus
respuestas fueron erróneas, porque hubo una variante de la regla de conjunción. Solo dos de
los sujetos mantuvieron que el orden de probabilidad no necesita estar de acuerdo con la
inclusión de clase, y solo uno reclamó que él había mal interpretado la pregunta. Aunque la
entrevista podría haber prejuiciado a los encuestados a favor de la regla de conjunción, los
resultados sugieren que los sujetos estadísticamente informados, al menos, están dispuestos a
considerar una violación de ésta regla como un lamentable error. Para posterior discusión de
este asunto, ver el capítulo 34.
En interpretar la falla de la regla de conjunción, es importante considerar si el efecto es
atribuible, en todo ó en parte, a las convenciones lingüísticas ó a reglas de conversación. Por
ejemplo, en un estudio anterior presentamos a la gente con la siguiente descripción, “John
81

tiene 27 años de edad, con una personalidad sociable. En la universidad fue un excelente
atleta pero no mostró mucha habilidad ó interés en cuestiones intelectuales”. Encontramos
que John fue juzgado más probable de ser un “maestro de gimnasia” que meramente un
“maestro”. Aunque cada maestro de gimnasia es, en un sentido, un maestro, podría ser
argüido que el término maestro es entendido aquí en un sentido que excluye a un maestro de
gimnasia ó a un instructor de manejo en la escuela. Este problema es evitado en el presente
diseño, definiendo el resultado crítico extensionalmente como una intersección de dos
juegos, por ejemplo, contadores e intérpretes aficionados del jazz.
Violaciones de la regla de conjunción han sido también observadas en problemas
secuenciales, donde el objetivo consiste de una secuencia de eventos. Slovic, Fischhoff, y
Lichtenstein (1976) presentaron sujetos con un esquema de personalidad de una persona
quién se asemejaba al estereotipo de un ingeniero pero no de un periodista. Sus sujetos le
asignaron una probabilidad baja al evento “Tom W. seleccionará el periodismo como su
especialización universitaria pero rápidamente llegará a ser infeliz con su selección y
cambiará a ingeniería”. Estrictamente hablando, el evento anterior incluye al último, y el
juicio de arriba viola la regla de conjunción. Este ejemplo, sin embargo, está abierto a la
objeción que, de acuerdo a las reglas normales de conversación, la declaración de que Tom
W. escogió el periodismo como su especialización universitaria implica que él también siguió
una especialización de periodismo. De otra manera, la declaración sería engañosa.
Similares objeciones pueden también surgir considerando los ejemplos de Bill y Linda.
Por lo tanto, puede ser argüido que los sujetos leyeron, por ejemplo, la categoría de “una
cajera de banco” como “una cajera de banco quién no está activa en el movimiento
feminista” en contraste a la categoría dada de “una cajera de banco quién está activa en el
movimiento feminista”. Sin embargo, la presencia del efecto conjunción en un ‘diseño entre
los sujetos’, en el cual los objetivos críticos no son comparados directamente, indica que el
efecto no puede ser adecuadamente explicado en términos de una reformulación de las
categorías del objetivo de acuerdo a las implicaciones estándar de conversación. Más bien,
los juicios observados revelan una tendencia común a evaluar las probabilidades de los
eventos relevantes por el grado al cual Linda es representativa de los miembros típicos ó
prototípicos de las respectivas categorías.
Además, hemos observado el efecto conjunción en varias tareas que parecen libres de
implicaciones de conversación. Los siguientes problemas , por ejemplo, se refieren a la
predicción de eventos futuros dónde la interpretación de B como (B y no-A) parece no
plausible.

Estudio 3: Predicciones para 1981

Los problemas descritos aquí fueron designados para probar la regla de conjunción en
predicciones de eventos del mundo real donde los sujetos se apoyan en su conocimiento
general. Estos problemas fueron respondidos por un grupo de 93 estadísticamente sujetos
simples en Diciembre de 1980. Las siguientes instrucciones fueron dadas:

En este cuestionario usted es requerido a evaluar la probabilidad de varios eventos que pueden ocurrir
durante 1981. Cada problema incluye cuatro posibles eventos. Su tarea es clasificar el orden de éstos
eventos por la probabilidad , usando 1 para el evento más probable, 2 para el segundo, 3 para el
tercero y 4 para el evento menos probable.

El cuestionario incluyó seis preguntas. Dos de las preguntas son mostradas aquí. Los
resultados para otras preguntas fueron muy similares. Los números entre paréntesis son las
82

clasificaciones promedio para cada evento; también mostramos el porcentaje de sujetos que
clasificaron el objetivo compuesto como más probable que el objetivo simple.

Tennis 1981 (Efecto conjunción: 72%)


Suponga que Bjorn Borg alcanza la final de Wimbledon en 1981. Por favor clasifique el orden de
los siguientes resultados del más al menos probable.
(1.7) Borg ganará el partido.
(2.7) Borg perderá el primer set.
(3.5) Borg ganará el primer set pero pierde el partido.
(2.2) Borg perderá el primer set pero gana el partido.

Política de EUA, 1981 (Efecto conjunción: 68%)


Por favor clasifique el orden de los eventos siguientes por su probabilidad de ocurrencia en 1981.
(1.5) Reagan cortará la ayuda federal al gobierno local.
(3.3) Reagan proveerá ayuda federal para las madres solteras.
(2.7) Reagan incrementará el presupuesto de la defensa en menos del 5%.
(2.9) Reagan proveerá ayuda federal para madres solteras y cortará la ayuda federal a los
gobiernos locales

Como en los estudios precedentes, la categoría compuesta fue juzgada más probable que
uno de sus componentes. El resultado es compatible con una noción de representatividad, la
cual se refiere en este caso a la relación entre un sistema causal y sus resultados más que a la
similaridad de una descripción a un estereotipo. En el segundo problema, por ejemplo, parece
no representativo para el Presidente Reagan proveer ayuda federal para las madres solteras y
completamente representativo para él cortar la ayuda federal a los gobiernos locales. La
conjunción de éstos actos parece intermedia en representatividad, y las evaluaciones de
probabilidad evidentemente siguen el mismo patrón.
En el primer problema, la mayoría de encuestados evaluó la ganancia del título de Borg
como el evento más probable y consideró la posibilidad de que Borg pierda el primer set
como menos probable. La conjunción de los dos, a saber Borg pierde el primer set pero gana
el partido, fue de nuevo juzgada como menos probable que la primera posibilidad pero más
probable que la segunda. Evidentemente, los sujetos combinaron los eventos de acuerdo a los
principios de representatividad, ó impacto causal, más que de acuerdo a las leyes de la
probabilidad.

Discusión

Los resultados reportados en los estudios precedentes proveen soporte directo para la
hipótesis de que la gente evalúa la probabilidad de los eventos por el grado al cual éstos
eventos son representativos de un modelo relevante ó proceso. Porque la representatividad de
un evento puede ser incrementada por la especifidad, un objetivo compuesto puede ser
juzgado más probable que uno de sus componentes. Esta predicción fue soportada por
estudios usando ambos diseños ‘dentro del grupo de sujetos’ y ‘entre los sujetos’ en
poblaciones del sujeto que cubre un amplio rango de sofisticación estadística.
A diferencia de otras reglas probabilísticas, tales como regresión hacia la media, los
cuales los sujetos simples encuentran dificultad en entender y aceptar, la regla de conjunción
es ambas simple y obligatoria. La mayoría de los sujetos estuvieron dispuestos a aprobarla en
una forma abstracta, aunque casi todos ellos violaron en la práctica cuando ella entró en
conflicto con la intuición de representatividad. Los presentes resultados contrastan con los
descubrimientos de Johnson-Laird y Wason (1977) sobre la verificación de la declaración “si-
83

entonces” (ver también Johnson-Laird, Legrenzi & Sonino-Legrenzi, 1972). Estos


investigadores encontraron que la mayoría de los sujetos fallaron la tarea de verificación con
material abstracto pero no en un ejemplo concreto. Nuestros encuestados, por otro lado,
aprobaron la regla de conjunción en una forma abstracta pero la violaron en ejemplos
concretos (ver Capítulo 34).
El descubrimiento de que una conjunción a menudo parece más probable que uno de sus
componentes podría tener implicaciones inalcanzables. No encontramos ninguna buena razón
para creer que los juicios de analistas políticos, jurados, jueces y físicos estén libres del
efecto conjunción. Este efecto es probable a ser pernicioso en los intentos por predecir el
futuro evaluando la probabilidad percibida de escenarios particulares. Como ellos miran
fijamente dentro de la bola de cristal, políticos, futurólogos, y personas legas parecidas
buscan una imagen del futuro que mejor represente su modelo de la dinámica del presente.
Esta investigación conduce a la construcción de detallados escenarios, los cuales son
internamente coherentes y altamente representativos de nuestro modelo del mundo. Tales
escenarios parecen más probables que predicciones menos detalladas las cuales son de hecho
más probables. Como la cantidad de detalle se incrementa en un escenario, su probabilidad
solo puede decrecer establemente, pero su representatividad y de aquí su aparente
probabilidad puede incrementarse. La confianza en la representatividad, nosotros creemos, es
una razón primaria para la apariencia no garantizada de escenarios detallados y el sentido
ilusorio de la perspicacia que tal construcción a menudo provee.
La confusión entre consideraciones de probabilidad y de similaridad se aplica no solo a la
predicción de un futuro incierto sino que también a la reconstrucción de pasado incierto, por
ejemplo en la historia y la ley penal. Aquí también, una narración de eventos pasados es a
menudo incorporada dentro de un escenario representativo, el cual incluye adivinanzas
plausibles sobre eventos desconocidos. La inclusión de tales adivinanzas puede solo
decrementar la posibilidad de que la narración entera es cierta, pero provee un sentido de
representatividad y coherencia que puede incrementar la probabilidad percibida del
escenario. Por ejemplo, la hipótesis “el reo dejó la escena del crimen” puede parecer menos
plausible que la hipótesis “el reo abandonó la escena del crimen por miedo a ser acusado de
asesinato”, aunque la última narración es menos probable que la anterior. Una buena historia
es a menudo menos probable que una menos satisfactoria.
Finalmente, es importarse darse cuenta que el efecto conjunción es el síntoma de un
problema más fundamental. El meramente revela la inconsistencia entre la lógica de
probabilidad y la lógica de representatividad la cual a menudo gobierna las creencias de la
gente sobre eventos inciertos. Puesto que el juicio humano es indispensable para muchos
problemas de interés en nuestras vidas, el conflicto entre el concepto intuitivo de
probabilidad y la estructura lógica de este concepto es problemático. Por otro lado, nosotros
no podemos rápidamente abandonar la heurística que usamos para evaluar la incertidumbre,
porque mucho de nuestro mundo del conocimiento está atado a su operación. Por otro lado,
nosotros no podemos desafiar las leyes de la probabilidad, porque ellas capturan importantes
verdades obre el mundo. Parecida a ella ó no, A no puede ser menos probable que (A & B), y
una creencia en contrario es una falacia. Nuestro problema es retener lo que es útil y válido
en el juicio intuitivo mientras corregimos los errores y prejuicios a los cuales el está
propenso.
84

Parte III

Casualidad y atribución
7. Inducción popular: La información no es
necesariamente informativa

Richard E. Nisbett, Eugene Borgida, Rick Crandall,


y Harvey Reed

La teoría cognitiva que corrientemente ejerce la más grande influencia en los psicólogos
sociales es una teoría de atribución, la versión formalizada que fue introducida por Harold
Kelley en 1967. La teoría posee una visión de un hombre como un científico lego, intentando
inferir causas para los efectos que él observa. Las causas que él atribuye determinan su visión
de su mundo social, y ésta visión puede determinar su comportamiento. Un extremadamente
amplio rango de fenómenos, de la investigación de la conformidad de Asch al trabajo de la
emoción de Schachter, pueden ser útilmente descritos como instancias de procesos de la
atribución causal en el trabajo. De hecho, parece muy posible que la más importante
contribución de Kelly puede ultimadamente ser vista de haber sido su creación de un
lenguaje, ó mapa de carreteras, con el cual describir e interrelacionar diversos fenómenos
sociales de la psicología.
Además de su contribución organizacional, Kelly propuso tres fuentes formales de
influencia en los procesos de atribución causal. En intentar atribuir causas para eventos de la
forma “El actor responde en un estilo X a la situación A”, el lego en trabajar con la atribución
responde a tres fuentes de información: información de distintividad (Responde el actor en X
estilo en todas las situaciones del tipo general, ó solo en la situación A?); información de
consistencia (Responde el actor en X estilo todo el tiempo, bajo una amplia variedad de
circunstancias, ó él responde en X estilo solo ocasionalmente?); e información de consenso
(Responden la mayoría de otros actores en el estilo X, ó es la respuesta relativamente rara?).
La atribución de causa dependerá de las respuestas a cada una de éstas interrogantes. El actor
es por tanto visto como la causa primaria de su respuesta en la medida que él responde de esa
manera en todas las situaciones del tipo general y en la medida que sus respuestas no son
exhibidas por otros. La situación es vista como causal en la medida que la respuesta del actor
es única para la situación A y en la medida que su respuesta sea ampliamente compartida.
El análisis de Kelly del proceso de atribución ha sido aclamado así como criticado en el
terreno que es lógico en extremo. Ya sea que a uno guste ó no la teoría para ésta cualidad,
llega como una sorpresa descubrir que uno de sus axiomas fundamentales no ha encontrado
virtualmente ayuda en la investigación subsiguiente. Esta es la noción de que la gente
responde a la información de consenso en una causa asignada. La teoría y el sentido común a
pesar de eso, existe evidencia base de que la gente está grandemente influenciada en sus
atribuciones causales por el conocimiento del comportamiento de otros. El conocimiento de

Esta es una versión abreviada de un trabajo aparecido en J. .S. Carroll y J. W. Payne (Eds.). Cognición y
Comportamiento Social, Hillsdale, N. J.: Lawrence Erlbaum Asocc., Inc., 1976. Reproducido con permiso.
86

que la respuesta del actor es ampliamente compartida parece no impulsar la inferencia que la
situación más que el actor es el agente causal principal. A la inversa, el conocimiento de que
la respuesta del actor es única parece no impulsar la inferencia de que el actor más que la
situación es el agente causal principal.
En las páginas que siguen revisamos la evidencia mostrando que existe poco apoyo para
la visión de que la gente utiliza la información de consenso en hacer atribuciones. Esta
evidencia concierne a ambas instancias donde el actor es otra persona y las instancias,
extraídas de nuestra propia investigación, donde el actor es el yo. Luego mostramos la
similaridad entre la falla de información de consenso para afectar las atribuciones y la
demostración por Kahneman y Tversky (1973,4) que la información basada en la razón falla
al afectar las predicciones. Nosotros proponemos explicaciones para ambas fallas en términos
del relativo impacto de la información abstracta (consenso, base la razón) versus la
información concreta (actor ú objetivo relacionado). Finalmente aplicamos la distinción entre
información abstracta e información concreta a cuestiones de comunicación y persuación.

Información de consenso y la percepción de otros

Existen dos estudios que examinan los efectos de la información de consenso sobre las
atribuciones sobre el comportamiento de otros. Ambos estudios Ambos estudios muestran
una notable debilidad de la información de consenso. El primero de éstos es de L. Z.
McArthur (1972). Su estudio fue una prueba directa de las proposiciones de Kelly sobre los
efectos de la distintividad, la consistencia y el consenso en atribuciones causales. A los
sujetos se les dio descripciones de una línea de la forma “el actor responde al estímulo en X
estilo” y se les dio adicionalmente información sobre las dimensiones de distintividad ,
consistencia y consenso de Kelly. Por ejemplo, a los sujetos se podría haber dicho que,
“Mientras danzaban, Ralph pisotea los pies de Joan”, y haberles dicho adicionalmente que los
pisotones de Ralph sobre casi todos los pies de las jóvenes (ó casi no sobre los pies de otras
jóvenes), que Ralph casi siempre (ó casi nunca) pisa los pies de Joan, y que casi todos (ó casi
ninguno más) pisa los pies de Joan. Los sujetos fueron luego preguntados si el incidente de
los pisotones fue culpa de Ralph, culpa de Joan ó justo culpa de las circunstancias. Los
sujetos fueron también preguntados sobre sus predicciones por la generalización de la
respuesta (Cuán probable sería que Ralph aconsejara a Joan que se enrolara en un curso de
danza social?) y la generalización del estímulo (Cuán probable sería que Ralph pisara sobre
una acera helada?).
La información de distintividad contó para un 10% de la variante en la atribución causal
(sumando sobre todas las causas) y un 63% en las expectativas de la generalización del
estímulo. La información de consistencia contó para un 20% de la variante en las
atribuciones causales y para un 14% de la variante en las expectativas de la generalización de
la respuesta. En contraste, la información de consenso contó para menos del 3% de la
variante en cualquiera de las tres clases de inferencia. Estos resultados parecen violar no solo
el sentido común de la teoría de la atribución, sino cualquier clase de sentido común del todo.
Aunque los sujetos parecen creer que es importante conocer si los pisotones de Ralph sobre
la mayoría de los pies de las jóvenes y si él usualmente pisotea sobre los pies de Joan, no es
de la competencia de ellos si otras gentes pisan sobre los pies de Joan!
Sentido común – atribucional ó de cualquier otra variedad – es también violado en el otro
estudio concernientes a las percepciones de los otros. Miller, Gillen, Schenker y Radlove
(1973) requirieron a los estudiantes de la universidad a leer la sección de procedimiento del
clásico Milgram (1963) estudio de la obediencia. A la mitad de los sujetos les fueron dados
los datos actuales del estudio Milgram, mostrando que virtualmente todos los sujetos
87

administraron una muy sustancial cantidad de ‘shock’ por los confederados y que la mayoría
fue en todo el recorrido hasta el tope de la escala de shock’. A los otros sujetos se les dejó con
sus expectativas simples que tal comportamiento sería raro. Luego todos los sujetos fueron
requeridos a clasificar a dos individuos, ambos de quienes habían ido en todo el recorrido, en
11 dimensiones de rasgos grandemente cargados con un componente evaluativo, por ejemplo,
atractivo, cordialidad, simpatía, agresividad. Para solo uno de las once clasificaciones la
información de consenso tuvo un significante efecto. El conocimiento de que la
administración del máximo shock fue un comportamiento modal tuvo por consiguiente
virtualmente ningún efecto en las evaluaciones de los individuos a quienes les había dado la
máxima cantidad de ‘shock’.

Información de consenso y auto percepción

La información de consenso parece tener poco impacto en las atribuciones echas sobre el yo.
Bem (1967) propuso y Kelly (1967) incorporó dentro de la teoría de la atribución la noción
que la gente desarrolla el análisis de la causa y el efecto de su propio comportamiento en una
manera enteramente similar a sus atribuciones sobre el comportamiento de otros. Ellos
observaron sus respuestas, tomado nota de las situaciones en las cuales ellas ocurren, y hacen
inferencias sobre sus sentimientos y motivo de estados. Por ejemplo, el sujeto en el clásico
Schachter y Singer (1962) experimenta quién conoce lo que a él le ha sido inyectado con una
droga que produce un despertar autonómico, y quién es luego colocado en una situación
designada para provocar fuertes emociones, realizar una clase de análisis de causa-efecto. El
siente los síntomas del despertar, el cual él ordinariamente los atribuye al impacto de la
situación, pero en su lugar los atribuye a la droga que él ha tomado. El resultado es que él
reporta y manifiesta conductualmente menos de los síntomas de emoción que los sujetos
quienes no conocen que ellos han sido inyectados con un agente despertador y menos
síntomas emocionales aún que los sujetos que no han sido inyectados con el agente
despertador del todo. El sujeto por consiguiente percibe la causa de sus respuestas
autonómicas como “externas” a él y siente y se comporta como corresponde.
Varios años atrás, empezamos un programa de intervenciones terapéuticas basadas en ésta
noción de que la gente puede ser conducida a externar la causa de su propias reacciones.
Pareció que dondequiera que un individuo tiene respuestas que son inadaptativas,
perjudiciales ó patológicas, puede haber algo ganado persuadiendo a la persona a atribuir sus
respuestas as algo externo a ella misma. El primer estudio y el único exitoso fue por Storms y
Nisbett (1970). El estado patológico estudiado fue el insomnio. Requerimos a los estudiantes
de la universidad que tenían problema en conciliar el sueño que tomaran una pastilla (en
efecto un placebo) 15 minutos antes de retirarse, a los cuales se les dijo que causaría un
incremento del ritmo del corazón, rápido, respiración irregular, una sensación de calor
corporal, y un estado general de alerta. Estos son por supuesto los síntomas del insomnio.
Los sujetos que tomaron éstas pastillas reportaron conseguir dormir más rápidamente en las
noches que ellos las tomaron que lo que ellos consiguieron sin las pastillas y más
rápidamente que los sujetos de control que no tomaron pastillas. Storms y Nisbeth razonaron
que uno ó ambos de los dos diferentes procesos de atribución podrían haber contado para los
resultados. El insomnio es causado en gran parte por despertar a la hora de dormir producido
por cualquier número de causas, incluyendo ansiedad por problemas personales, un
inconveniente ritmo diurno, ó neurosis crónica. Como el individuo descansa en la cama en un
estado de despertar, su ensueño incluye pensamientos de contento emocional. El despertar
puede venir asociado con, y puede amplificar, las cogniciones emocionales. El resultante
estado emocional amplificado intensifica el despertar y así sucesivamente, en un círculo
88

vicioso. Este círculo podría ser roto, sin embargo, por el conocimiento de que el despertar es
exógeno por naturaleza. La persona entonces no podría inferir nada sobre cuán preocupado él
estaba sobre su examen, ó cuán enojado él estaba con su compañero de cuarto, de la
observación de su estado de despertar. En las noches con las pastillas, el despertar sería visto
como inevitable y por lo tanto disociado de cualesquiera pensamientos en su cabeza. El ciclo
del despertar amplificado por lo tanto roto, el sueño podría originarse.
Alternativamente ó adicionalmente, un proceso un tanto diferente con más aplicabilidad
general podría haber estado en el trabajo. Nuestros sujetos insomnes reportaron que ellos
estuvieron muy concientes sobre el hecho de que ellos eran insomnes. Ellos lo tomaron como
evidencia de una patología más general y como reflejando gravemente sobre su estado
desajuste psicológico. Para un sujeto con tales preocupaciones, el conocimiento del
inevitable, extrínsecamente producido despertar debería ser tranquilizador. Al menos ésta
noche, el sujeto podría razonar, el insomnio no podría ser tomado como evidencia de una
psicopatología general. Al extremo que tal conocimiento fue por sí mismo parcialmente
responsable del insomnio, el dormir debería haber ocurrido más rápidamente en las noches
con las pastillas.

Intentos para manipular la depresión

Armados con ésta exitosa intervención con insomnes, nosotros empezamos unas series de
intentos para modificar los estados de depresión. La técnica en todos los estudios fue una
manipulación de consenso, designada a externar la causa del afecto depresivo convenciendo
al sujeto que ella fue ampliamente compartida. Al extremo que el estado es compartido por
otros similares, su existencia se refleja menos negativamente en el yo. Parecería menos
enraízado en la propia extrañeza del sujeto, posiblemente reacciones patológicas a sus
circunstancias particulares y el medio ambiente. Con inquietud y preocupación sobre la
habilidad de uno para tratar con la situación de vida reducida de uno, la depresión podría ser
parcialmente abatida.

Estudio 1: Los Domingos tristes. Muchos estudiantes de la universidad experimentan un


sentimiento general de frustración los domingos. Aunque el día puede principiar muy bien
con un desayuno-almuerzo, café y los periódicos dominicales, un sentido de aburrimiento a
menudo principia por la tarde. Existe mucho por hacer en la semana que viene, demasiado
para considerar un domingo de paseo, aunque talvez no lo suficiente para empezar el trabajo
justo en este minuto. Al final de la tarde, ninguna excursión y ningún trabajo se han hecho,
los periódicos dominicales, incluyendo talvez aún las secciones de finanzas y de viajes, han
sido también completamente absorbidos y un largo fin de tarde de estudio tedioso se perfila
adelante. Al caer la noche, si todos han salido como desgraciadamente a menudo lo hacen, el
trabajo prosigue dolorosamente, ó no del todo, y un humor gris de malestar y auto-duda se ha
instalado.
Se nos ocurrió que si el fenómeno fuera general, y si la gente supiera esto, los Domingos
tristes podrían ser reducidos en intensidad. Si el individuo estudiante conoce que los
dormitorios alrededor de él están llenos de gente en el mismo estado de decaimiento,
entonces sus propias emociones negativas podrían ser de algún modo mitigadas. En lugar de
decidir que él no está hecho para la vida académica ó dándole vueltas al problema sobre la
posibilidad de que él no pueda tener una relación completa con una mujer, él simplemente
toma conocimiento de que la gente a estar de bajón los domingos y lo deja ir así.
En orden de probar esta noción, nosotros requerimos a un gran número de estudiantes no
graduados de la Universidad de Yale a llenar un número de escalas de humor a las 4:00 P.M.y
a las 10:00 P.M. en domingo. Las escalas del humor fueron varias escalas Wessman y Ricks
89

(1966) cargando alto en el factor de su euforia-disforia. Además los sujetos fueron requeridos
a llenar un cuestionario a las 10:00 P.M., reportando sobre sus actividades académicas y
sociales del día y sobre el número de instancias en las cuales ellos dieron libre curso a algún
afecto de disforia, por ejemplo, gritando ó llorando. Finalmente, los sujetos extrajeron un
paquete de caricaturas de un folder y los clasificaron por su graciosidad.
Después de ésta premedida inicial del domingo, los sujetos fueron sorteados dentro de
tres grupos, cada uno con 18 sujetos. Uno, un grupo de control, fue simplemente dicho que
los investigadores estaban estudiando patrones del humor en domingo y los participantes
fueron requeridos a llenar en el domingo siguiente el mismo paquete de materiales que ellos
habían llenado el domingo previo. Para un segundo grupo, el síndrome de los domingos
tristes fue descrito en detalle y a los sujetos se les dio (falsa) estadística para indicar su
extendida ocurrencia en la población de la universidad. A los sujetos se les dijo que el 92%
de los estudiantes de Yale reportaron haber experimentado el fenómeno al menos
ocasionalmente, mientras que el 65% lo experimentaron en la mayoría de los domingos. A un
tercer grupo le fue dada la misma información de consenso como al segundo grupo y,
además, le fue dada una teoría que cuenta para el fenómeno. A los sujetos se les dijo que es
causado por un “rápido despertar” los domingos. El despertar normal entre semana es
típicamente seguido por un aún más fuerte despertar en sábado; luego en el domingo hay un
completo despertar. Esta falta de despertar es a menudo interpretada como, ó convertida
dentro de la depresión.
La anticipación fue que en los dos últimos dos grupos de experimentos reinterpretarían
sus amargas experiencias en domingo, personalizándolos menos y convirtíéndose, como así
fue, menos depresivos sobre su depresión. Si ellos hubieran mostrado un decremento en el
afecto disfórico en las escalas del humor de la pre-manipulación del domingo a la post-
manipulación del domingo; un decremento en el comportamiento disfórico, tales como
explotar ó llorar; un incremento en ambas actividades académica y social; y una más alta
clasificación del promedio de la graciosidad de las caricaturas en el paquete para el segundo
domingo. Ellos no hicieron ninguna de éstas cosas. No por un simple indicador el humor de
los sujetos experimentales mejora al compararlo con el control de los sujetos.

Estudio II: Depresión crónica. Insuficientemente desalentados, intentamos una intervención


similar con mujeres no graduadas quienes se describieron a sí mismas como crónicamente
depresivas. Veinte sujetos fueron reclutados por medio de un anuncio en el periódico
estudiantil de la Universidad de Michigan que llamó por “hombres depresivos de las clases
superiores para participar en un estudio por el Instituto para la Investigación Social de la
depresión”.
A los sujetos experimentales les fue dada la misma historia y además se les dijo que los
experimentadores estuvieron en las etapas finales de probar una teoría de la depresión en
hombres adultos jóvenes. La teoría, basada al menos en sus particulares, fueron como sigue.
A los sujetos se les dijo que ella había sido conocida por algún tiempo que el mantenimiento
del humor en los adultos dependió en parte en la presencia de hormonas gonadales – en el
hombre, de la testosterona. Había habido hasta recientemente una paradoja, sin embargo, en
que los niños casi nunca llegan a ser depresivos. Porque los niños tienen extremadamente
bajos niveles de todas las hormonas gonadales, esto pareció una contradicción de la regla
general que las hormonas son promotoras de los buenos humores. La paradoja había sido
recientemente resuelta por el descubrimiento de que el lóbulo límbico, el centro emocional
del cerebro, cambia en la adolescencia a una dependencia de las hormonas gonadales para el
mantenimiento del humor. En la mayoría de los hombres, el cambio es medido bastante bien
para corresponder a la subida en el nivel de la testosterona, alcanza su punto máximo a la
90

edad de 25. En muchos hombres jóvenes, sin embargo, el cambio es completado antes del
“combustible”, por decir, es obtenible en suficientes cantidades para mantener el humor.
La fuerte implicación que para el sujeto fue que él era un hombre joven. Se anticipó que
la manipulación causaría una mejoría en el humor por tres razones desconcertantes:

1. Un tiempo límite fue implicado por la depresión.


2. El efecto negativo fue “externado” en el sentido de que podría ahora ser atribuido a
un infortunado incidente biológico más que a la red de la propia vida del sujeto y
cualquier inhabilidad patológica que llega con el.
3. El afecto negativo y las razones para ello, fueron compartido por muchos otros en
una manera sugiriendo ninguna unicidad de los problemas del sujeto y su respuesta
a ellos.

Todos los sujetos fueron requeridos a llenar las papeletas del humor de Wessman y Ricks
al final de cada día por un período de 2 semanas. El cuestionario también incluyó un reporte
de cómo el sujeto había dormido la noche anterior, porque los disturbios del sueño son
síntomas frecuentes de depresión. Finalmente, los promedios del punteo de grado de los
sujetos fueron obtenidos al final del semestre en el cual el estudio tuvo lugar.
No hubo diferencias en los reportes del humor de los sujetos experimentales y de control
en cualquier punto en el período de 2 semanas, ni hubo ningunas cualesquiera diferencias en
el reporte de la calidad del sueño. No hubo, de hecho, insinuaciones de cualquier tendencia
en la dirección de la hipótesis sobre éstas variables. Hubo una tendencia de los sujetos
experimentales a conseguir algunos promedios más altos del punteo de grado, como se
predijo, pero esto se quedó corto de la significancia estadística (.05 < p < 0.10). . . .

Atribución y la psicología de la predicción

Kahneman y Tversky han demostrado una falla inferencial que parece grandemente
pertinente a la falla inferencial observada en estudios de los efectos de la información de
consenso. Estos investigadores, en un trabajo titulado “La Psicología de la Predicción”
(1973, 4), han mostrado que la gente ignora las evaluaciones base de la población cuando
hace predicciones sobre la categoría de miembro de un miembro objetivo de la población. . . .
Si los sujetos no están influenciados por la razón-base de la información en sus
predicciones sobre la categoría de miembro de un caso objetivo, entonces sus atribuciones
parecen escasamente probables de estar muy influenciadas por la información de consenso.
La información de consenso es precisamente la razón-base de la información. Es la razón-
base de la información sobre las respuestas del comportamiento más que la categoría de
miembro. Una atribución, más aún, es una más complicada y indirecta que una predicción.
Kahneman y Tversky requirieron a sus sujetos as producir una más bien directa y no
complicada cadena de inferencia: “Si la mayoría delos miembros de la población pertenecen
a una categoría particular entonces las posibilidades son que el caso objetivo también lo
haga”. Sus sujetos fallaron al hacer tal inferencia. En la investigación de la atribución que
hemos estado discutiendo, una aún más elaborada cadena de inferencia es requerida: “Si la
mayoría de los miembros de la población se comportan de un modo particular, entonces la
situación debe ejercer fuertes presiones hacia ese comportamiento, y por consiguiente es no
parsimonioso apelar a las idiosincracias personales para contar por el comportamiento del
caso objetivo si su comportamiento es modal.”.
Resta ser probado, por supuesto si los sujetos no están dispuestos a aplicar el
comportamiento de las razones-base a las predicciones sobre casos de objetivo. Si ellos son,
91

entonces la interrogante que nosotros hemos estado buscando debe ser cambiada de “Por qué
la gente falla al alterar sus atribuciones en respuesta a la información de consenso?” a la más
fundamental “Por qué la gente trata la información de la razón-base como si ella fuera no
informativa?”

Estudio V: Comportamiento de las razones base, la predicción y la atribución. En orden de


examinar la interrogante de la disposición de la gente a alterar sus predicciones de cara al
comportamiento de la información razón base, dos experimentos de psicología fueron
descritos a los sujetos (Nisbett & Borgida, 1975). Estudiantes de la Universidad de Michigan
leyeron descripciones detalladas de (a) un experimento de Nisbett y Schachter (1966) en el
cual los sujetos fueron requeridos a tomar un electro shock tanto como ellos pudieran
soportar , y (b) un experimento de ayuda al comportamiento de Darley y Latané (1968) en el
que, como varios estudiantes discutieron problemas de ajuste a la universidad sobre
audífonos de cubículos separados, uno de los “sujetos” empezó a tener lo que sonó como un
secuestro. Los dos experimentos fueron escogidos porque en nuestra experiencia, de
enseñanza los estudiantes de la universidad adivinan sobre el comportamiento de la razón
base fueron amplios de la marca. Mientras que los estudiantes tienden a asumir que pocos
sujetos toman mucho shock eléctrico, el comportamiento modal es actualmente tolerar la más
alta intensidad que el aparato puede enviar, suficiente amperaje para causar al brazo entero
del sujeto sacudirse involuntariamente. Y mientras los estudiantes tienden a asumir
rápidamente rápidamente abandonaría sus cubículos para ayudar al secuestro de la víctima en
la condición de seis-personas del experimento de Darley y Latané.
Porque los sujetos estuvieron ignorantes de las razones bases del comportamiento, fue
posible dar a algunos de los sujetos la actual razón base de los experimentos y por eso crear
condiciones diferenciales de la información. A los sujetos con conocimiento de la razón base
(condición de la información de consenso) se les mostró breves entrevistas en videotape con
estudiantes descritos como sujetos en los experimentos originales (ö, en una variación de la
condición de la información de consenso, muestra breves descripciones escritas de las
experiencias y personalidades de los estudiantes). Los sujetos de la información de consenso
fueron entonces requeridos a predecir sobre los casos los del objetivo que ellos vieron ó
leyeron se habrían comportado. Es por consiguiente posible comparar las predicciones de los
sujetos de la información de consenso con ambas la actual información de la razón base que
ellos poseían y con las adivinaciones sobre la razón base hecha por los sujetos carentes de la
información de consenso.
La figura 1 muestra los resultados del experimento del shock. La barra de arriba del
gráfico muestra los datos dados de la razón base actual para los sujetos de la información de
consenso. La segunda fila muestra los estimados sobre la razón base hecha por los sujetos
carentes del conocimiento de la razón base. Puede ser visto que los estimados por estos
sujetos de la información sin consenso son muy diferentes de los datos actuales. Ellos
asumen tomar una moderada cantidad de shock por haber tenido un comportamiento modal.
La tercera fila presenta la información de consenso de las adivinanzas de los sujetos sobre el
comportamiento de los casos de objetivo que ellos vieron ó leyeron sobre ello. Aunque estos
sujetos fueron completamente conocedores de la razón base, puede ser visto que la
distribución no se parece aún remotamente a la razón base actual. En vez de eso, la
distribución es altamente similar a las adivinanzas sobre la razón base hecha por los sujetos
carentes del conocimiento de la razón base. Los resultados fueron enteramente similares para
ayudar al experimento.
El experimento permitió una oportunidad para probar otra hipótesis, ésta fue sugerida por
Tversky y Kahneman (1971, 2) en un artículo titulado “Creencia en la Ley de los Números
Pequeños”. Estos autores arguyeron que aún los científicos son muy insensitivos al tamaño
92

de la muestra y están dispuestos a sacar inferencias imprudentes fuertes sobre las poblaciones
sobre aún un número muy pequeño de casos. En orden de probar ésta noción en el presente
contexto, algunos sujetos fueron dejados ignorantes de las razones base en ambos
experimentos y se les mostró un breve videotape con entrevistas con dos sujetos de cada
experimento. A los sujetos en ésta condición de información del objetivo se les dijo que
ambos sujetos en ambos experimentos se habían comportado del modo más extremo posible,
por ejemplo, que los dos sujetos en el experimento del shock habían ambos tomado el
máximo posible de shock, y que los dos sujetos en el experimento de ayuda nunca habían
ayudado a la víctima. Los sujetos en la condición de información del objetivo fueron
entonces requeridos a indicar lo que ellos pensaron la distribución entera del sujeto de los
experimentos habría sido. Para ambos experimentos, los sujetos estuvieron dispuestos a
inferir que el modo de la población fue idéntico al comportamiento de los dos sujetos que
ellos habían observado. Puede ser visto en la fila final de la Figura 1 que los estimados de
razón base en el experimento del shock fueron notablemente similares a la verdadera razón
base. Los estimados no fueron tan similares para el experimento de ayuda pero estuvieron a
pesar de eso muy cercanos a la curva J de la razón base actual. Los sujetos estuvieron tan
dispuestos a inferir que el modo de población fue similar al comportamiento de los dos casos
que ellos vieron cuando el procedimiento de selección de muestra no fue especificado como
cuando fue repetidamente y vívidamente llamado su atención que los dos casos habían sido
seleccionados al azar de un sombrero conteniendo los nombres de todos los sujetos
originales.

Insertar aquí la Figura 1 del texto original página 110.

Figura 1. Razón base, estimados de la razón base, y predicciones sobre los sujetos objetivo
en el experimento de shock.

En resumen, los sujetos no emplearon la información de la razón base cuando fueron


llamados a hacer predicciones sobre el comportamiento el comportamiento de los casos
objetivo. Es importante notar que, además de las interrogantes de la predicción, varias
interrogantes de la atribución fueron preguntadas, por ejemplo, si las fuerzas situacionales ó
las inclinaciones personales fuero responsables por el comportamiento de una persona
objetivo. No hubo un efecto sustancial de la información de consenso para cualquiera de
éstas interrogantes de atribución. La última falla parece virtualmente inevitable dada la
anterior falla. Por consiguiente, la interrogante de porqué la gente ignoraría la información de
consenso en hacer atribuciones sería reducida a la más fundamental interrogante como
porqué la información de la razón base no debería ser tomada en cuenta para una aún simple
inferencia como la predicción. Cualquier respuesta a ésta más fundamental interrogante sobre
las fallas de la gente al ser informada por información de la razón base idealmente debería
contar simultáneamente para los otros mayores descubrimientos en el presente estudio. Este
es el descubrimiento de que los sujetos son, en efecto, “excesivamente” informados por
información del caso objetivo, estando dispuestos a asumir que el comportamiento extremo
es modal cuando se les dijo que tan pocos como dos sujetos se han comportado en el modo
más extremo posible.

Información abstracta versus información concreta

Kahneman y Tversky (1973, 4) por sí mismos no han especulado a lo largo de las razones
que la falla de la gente para ser influenciada por la información de la razón base. Su
93

explicación base aparece para centrarse sobre la idea de que la gente no está simplemente
muy bien al tratar con los datos probabilísticos. Aún en la esfera del juego, donde la gente
conoce las leyes de la oportunidad son operativas y tienen al menos algún rudimentario
esquema para tratar con probabilidades, la gente puede mostrar notable ceguera y prejuicios.
Fuera de tales situaciones la gente puede absolutamente fallar al ver la relevancia de tal
“meramente” probabilística información como razón base. O, la carencia de cualquier noción
de cómo combinar apropiadamente la información de la razón base con la información del
caso objetivo, ellos pueden optar simplemente por ignorar la información base en conjunto.
Existe seguramente considerable verdad para ésta noción de que la gente carece de
buenos esquemas para trabajar con la información probabilística. De hecho, tiene la virtud de
contar para la simple excepción en la literatura de la atribución para la regla de que la gente
ignora la información de consenso. Esta es la clara evidencia de la utilización del éxito y la
falla de las razones base cuando hace atribuciones sobre la habilidad de un individuo
particular (Weiner et al., 1971). Si la mayoría de la gente falla en una tarea particular,
entonces el objetivo es percibido como teniendo alta habilidad; si ellos tienen éxito, el
objetivo es visto como teniendo más baja habilidad. Por supuesto, nosotros hemos tenido
todos una vida de experiencia en estimar la habilidad en relación al desempeño de otros. La
habilidad, de hecho, es por definición una inferencia derivada de la razón base.
Nos parece, sin embargo, que otro principio puede estar en el trabajo también. Casi por su
verdadera naturaleza, la razón base ó la información de consenso es remota, pálida y
abstracta. En contraste, la información del caso objetivo es vívida, conspícua y concreta. En
los estudios de la depresión, nosotros estuvimos intentando oponer la memoria de más bien
seca, información estadística contra vívidas, insistentes reacciones para estimular en un todo
también el mundo real. En el estudio de saborear una galleta, la información de consenso
extraída de la evidencia concerniente al nivel del líquido en las botellas fue opuesta contra las
impresiones del sentido. En el estudio que describe los experimentos del shock y de ayuda,
los datos tabulares de frecuencia fueron opuestos contra un videotape ó descripción escrita de
un ser humano real con los padres, los planes de carrera, los hobbies y rasgos personales. La
pertinencia lógica de la información de la razón base no obstante, tal información puede
simplemente carece del objetivo para accionar un posterior trabajo cognitivo.
Esta hipótesis, como sucede, no es original. En 1927, Bertrand Russell propuso que “la
inducción popular depende del interés emocional de las instancias, no sobre su número” (p.
269). En los experimentos de Kahneman y Tversky, y en aquellos por nosotros mismos y
otros sobre los efectos de la información de consenso, el número completo de instancias ha
sido opuesto contra las instancias de algún interés. Consistente con la hipótesis de Russell, el
interés emocional ha en cada caso durado todo el día.
Nosotros podemos especular la información, emocionalmente interesante tiene más
grande poder para generar inferencias debido a la probabilidad de los llamados “scripts” ó
esquemas de información que involucran similar información. La inferencia entonces
prosigue a lo largo de las bien usadas líneas del script existente previamente. La información
abstracta es probablemente menos rica en conexiones potenciales a la red asociativa por la
cual los scripts pueden ser alcanzados. Consistente con ésta especulación, Nisbett y Brogida
(1975) encontraron que la información de consenso concerniente al comportamiento de otros
en el experimento del shock y el experimento de ayuda no solo fallaron en afectar las
predicciones de los sujetos sobre cómo ellos se harían comportado habiendo ellos sido
entrevistados posterior a los experimentos sino que nunca les fue mencionado por un simple
sujeto en la entrevista posterior al experimento concerniente a por qué habían hecho ellos sus
predicciones. En vez de eso, los sujetos evaluaron sobre detalles concretos particulares de la
situación experimental y los relacionaron a situaciones similares en sus propias historias. “Yo
94

estoy seguro que yo habría ayudado al muchacho porque yo tuve un amigo quien tenía una
hermana epiléptica”.
La hipótesis de Russell tiene algunas importantes implicaciones para la acción en la vida
diaria. Un sencillo ejemplo servirá como una ilustración. Permítanos suponer que usted desea
comprar un automóvil nuevo y ha decidido que por motivos de economía y longevidad usted
quiere comprar uno de esos sólidos, fuertes, carros Suecos de clase media – ya sea un Volvo
ó un Saab. Como un prudente y sensible comprador, usted va a Consumer Reports, el que le
informa que el consenso de sus expertos es que el Volvo es mecánicamente superior, y que el
consenso de los lectores es que el Volvo tiene el mejor record de reparación. Armado con esta
información, usted decide ir y hacer un trato con el distribuidor de Volvo antes de que
finalice la semana. En el ínterin, sin embargo, usted asistió a un cocktail donde usted anuncia
ésta intención a un conocido. El reacciona con incredulidad y alarma: “Un Volvo! Usted ha
de estar bromeando. Mi cuñado tuvo un Volvo. Primero, esa lujosa cosa inyectada
computarizada salió en US$ 250.00. Siguiente, él comenzó teniendo problemas con la
tracción trasera. Tuvo que cambiarla. Luego la transmisión y el clutch. Finalmente lo vendió
a los tres años como chatarra”. El status lógico de ésta información es que N de varios
cientos de poseedores de Volvo lectores de Consumer Reports ha sido incrementado en uno,
y la frecuencia media del record de reparación cambió por una pizca en tres ó cuatro
dimensiones. Sin embargo, cualquiera que mantiene que él reduciría el encuentro a tal efecto
a una red informativa es ya sea ingenuo ó falto del más elemental auto-conocimiento.

Estudio VI: Influenciabilidad por información abstracta versus información concreta. Parece
útil operar aunque-experimento el Consumer Reports (Borgida & Nisbett, 1977). Debido a
que nuestra mayor población del sujeto fácilmente disponible consistió de estudiantes de
Psicología de la Universidad de Michigan, nosotros escogimos cursos de Psicología en la
Universidad de Michigan como nuestro consumidor de bienes. Luego cursos superiores de
lectura en psicología, difiriendo en su calidad reportada, fueron escogidos. Grupos de
personas de clase baja planeando llegar a ser especialistas en psicología fueron acogidos en
un salón de clases por un miembro experimentador de la facultad. El experimentador les dijo
a los estudiantes que él estuvo en el comité de la facultad relacionado con el planeamiento de
alto rango para el departamento. Uno de los problemas con el planeamiento relacionado con
la determinación de cuántos estudiantes estarían tomando cuáles cursos en el futuro. A los
sujetos se les dijo que en orden de conseguir algunas indicaciones del proyectado
renrolamiento, ellos fueron requeridos a llenar un programa tentativo del curso para sus
carreras de licenciatura en psicología.
Los sujetos de control fueron entonces requeridos a ver en un catálogo (actualmente una
maqueta consistente de 27 cursos y excluyendo laboratorios, estadística y lista de cursos de
aprobación previa) y a ponerle un cheque a los 5-10 cursos que ellos esperaban toar y circular
sus cheques de marca para cualesquiera cursos que ellos se sentían seguros que ellos podrían
tomar.
A los dos grupos experimentales se les dijo que en orden de ayudarlos en tomar sus
decisiones, ellos les darían información extra sobre los cursos de lectura de alto
enrolamiento. Para ambos grupos, ésta información extra en parte de una detallada
descripción, más comprensiva que el catálogo de propaganda, del contenido de cada uno de
los 10 cursos. Luego para un grupo experimental (condición cara-a-cara), los sujetos fueron
introducidos a un panel de estudiantes de psicología de alto nivel. Estos estudiantes entonces
procedieron a hacer breves comentarios sobre cada uno de los cursos de la lista de 10 que
ellos habían tomado. Entre uno y cuatro estudiantes, usualmente dos ó tres, comentaron sobre
cada curso. Cada comentario comenzó con una evaluación del curso empleando uno de los
cinco términos siguientes: “excelente”, “muy bueno”, “bueno”, “justo”, “pobre”. Los
95

estudiantes hicieron entonces unas pocas observaciones sobre el curso. Un ejemplo, en su


totalidad, se muestra abajo:

MIentras existe una gran cantidad de material por cubrir, el está muy claramente trazado para usted.
Usted conoce dónde usted está todo el tiempo, cuál es muy útil en tratar de conseguir a través del
curso. Es un amplio e importante campo de la psicología para llegar a ser introducido. Yo fui
considerado muy bueno en lugar de excelente es que el material no es particularmente atractivo para
el pensamiento.

Tabla 1. Número medio de cursos escogidos y valoración de la tendencia de elección.


Cursos Cursos no Cursos
Recomendados_________ recomendados_________ no mencionados________
Valor de la Valor de la Valor de la
Número tendencia de Número tendencia de Número tendencia de
Condición escogido elección escogido elección escogido elección
Cara a Cara
(N = 22) 4.73a 8.31a,b .50a .77a,b 3.09a,b 4.32a,b
Razón base
(N = 18) 4.11 6.33b .94 1.56b 4.17b 5.89b
Control
(N = 18) 3.33a 5.22a 1.39a 2.17a 5.39a,b 7.17a
F (2,55) 6.14* 10.34** 6.59* 6.65* 13.24** 8.19**
a
La columna significa compartir este superíndice que difiere de cada uno de los otros al nivel .01 por
la prueba de Newman-Keuls.
b
La columna significa compartir este superíndice que difiere de cada uno de los otros al nivel .05 por
la prueba de Newman-Keuls.
* p < .005; p < .001.

En la otra condición experimental (condición razón-base), a los sujetos se les dijo que
ellos leerían evaluaciones medias del curso basadas sobre las escalas llenadas por todos los
estudiantes en el curso al final del término precedente. Debajo de la descripción de cada
curso había una escala de cinco puntos, etiquetada de excelente a pobre. Una marca fue
colocada en cada escala para indicar la evaluación media, y el número de estudiantes en el
que la media estuvo basada fue indicado. Estos Ns ordenados de 26 a 142. La evaluación
media de cada curso particular fue preparada como para ser idéntica con el promedio de las
evaluaciones dadas por los confederados en la condición cara a cara.
El diseño por consiguiente lo hace comparar la efectividad de las recomendaciones
basadas sobre el ensayo de primera mano, que es, los breves comentarios de dos ó tres
estudiantes quienes han tomado el curso, con la efectividad de una información mucho más
estable y ampliamente basada. La Tabla 1 presenta el número promedio de la recomendada
(evaluaciones medias de 2.50 ó mejor), no recomendada (evaluaciones medias de 3.75 ó más
pobre) y cursos no mencionados por los tres grupos. Además cada categoría es la sopesada
tendencia de selección, como un índice que da un peso de 0 a un curso si el no ha sido
escogido, y 1 si el ha sido escogido y 2 si el ha sido circundado por una selección definida.
Puede ser visto que el método cara a cara tuvo un mucho más grande impacto sobre la
selección del curso. Los sujetos en ese grupo estuvieron mucho más inclinados a tomar los
cursos recomendados y mucho menos inclinados a tomar los no recomendados ó cursos no
mencionados que los sujetos de control. En contraste, el método de la razón base afectó solo
la toma de cursos no mencionados.
96

Podría argüirse que el grupo cara a cara tuvo más información que el grupo de la razón
base. Una versión de este argumento es precisamente el punto que queremos hacer. Nuestros
estudiantes se comportaron como si ellos habían extraído más información de los
comentarios en vivo pareja de gente que de los secos, resúmenes estadísticos de las
poblaciones enteras. Una versión de este argumento, sin embargo, es que los comentarios
hechos por los estudiantes en la condición cara a cara contenía genuinamente valiosa
información no disponible en la condición cara a cara, concerniente, por ejemplo,
organización del curso, procedimientos de graduación ó accesibilidad al maestro.
En orden de tratar con la última objeción, hicimos una réplica del estudio con una
importante variación. Al grupo de la razón base le fue dada una transcripción escrita in
extenso de los comentarios hechos por los confederados cara a cara. Más aún, esos
comentarios fueron explícitamente descritos como opiniones representativas de los
estudiantes tomando el curso, entresacados del montón entero de evaluaciones al final del
período. Los sujetos en ésta condición, con acceso a evaluaciones medias estables basadas
sobre grandes y completas poblaciones, con los comentarios extensos de los confederados, y
con el “conocimiento” de que éstos fueron comentarios representativos, fueron menos
afectados en sus selecciones que los sujetos que simplemente oyeron de los confederados sus
comentarios verbales en la condición cara a cara.

Comunicándose con el producto de la concretividad

No es difícil ver las implicaciones de la declaración de Bertrand Russell sobre la inducción


popular, y la ilustración arriba de ella, para interrogantes generales de comunicación y
persuasión. Si la gente no está movida por las clases de secos, estadísticos datos que son
queridos por los corazones de los científicos y las políticas de los planificadores, entonces el
progreso social y tecnológico debe ser impedido a menos que sea efectivo, concreto,
emocionalmente interesantes modos de comunicar conclusiones son desarrollados. Nosotros
hemos recopilado varios “estudios de casos” de persuasión que creemos son bien
comprendidos en términos de distinción entre información abstracta y concreta. Los
presentamos abajo con la esperanza que ellos pueden servir como una fuente de inspiración
del mundo real y como una guía en la investigaciones de cuestiones concernientes a la
naturaleza de la información y su impacto persuasivo.
1. Una versión temprana de la Revolución Verde fue posible hacerla en los primeros años
de la década de los 1930’s por avances en la técnica de la agricultura. El gobierno lentamente
procedió a informar a los finqueros de la nación de éstas técnicas por medio de agentes
municipales de agricultura arrojando panfletos estadísticos y del gobierno y se sentó a
esperar los brillante reportes del incremento de la producción de los cultivos. Tales reportes
no continuaron y pronto llegó a estar claro que los finqueros no se estaban convirtiendo a las
nuevas técnicas. Algún inteligente oficial del gobierno entonces fijó un programa por el que
los agentes de agricultura del gobierno se movilizaron a fincas seleccionadas y cultivaron los
cultivos conjuntamente con los finqueros, utilizando las nuevas técnicas. Los vecinos de los
finqueros observaron los resultados de la cosecha e inmediatamente se convirtieron a las
técnicas.
2. Las listas de espera en las clínicas de detección del cáncer, como de este escrito, son de
largos meses y han estado desde el otoño de 1974. Esto no fue debido a la publicación de
nuevas estadísticas por el Cirujano General, la AMA, ó de cualquier otra organización. Las
listas de larga espera datan del tiempo de las mastectomías realizadas Mrs. Ford y a Mrs.
Rockefeller.
97

3. Timothy Crouse, en su libro sobre la cobertura de prensa de la campaña Presidencial de


1972 titulado Los Muchachos en el bus (1974), reportó que en la víspera de la elección un
gran grupo de reporteros cubriendo la campaña de McGovern sensatamente estuvieron de
acuerdo en que McGovern no podría perder por más de 10 puntos. Estas personas fueron
reporteros de servicio radiofónico, reporteros de la red de televisión y reporteros de prensa
escrita y de revistas de noticias. Ellos sabían que todas las principales encuestas daban a
McGovern una desventaja de 20 puntos, y ellos sabían que en 24 años ninguna encuesta
principal se había equivocado por más de un 3%. Sin embargo, ellos habían visto con sus
propios ojos una multitud de diez mil gentes aclamando salvajemente a McGovern.
4. El New York Times (Kaufman, 1973) recientemente llevó a cabo una entrevista con un
dibujante de grafitis en el tren subterráneo de Nueva York quién había sido seriamente
quemado en un incendio eléctrico que se inició por una chispa que encendió sus botes de
pintura en spray. El muchacho, cuyo nombre de pluma era “Ali”, admitió que 2 semanas
antes de su accidente él había leído de un muchacho llamado Bernard Brown quién había
sido aplastado y muerto mientras pintaba grafitis en los trenes. “Quizás si hubiéramos sabido
el nombre que él usaba, digamos ‘Joe 146’ el habría dejado una impresión”, dijo él, “pero yo
recuerdo riendo sobre el pensando que él debe ser alguna clase de ridículo que no sabía lo
que estaba haciendo. . . .”
Nosotros creemos que la presente investigación y ejemplos sacados de cada vida diaria
muestra que algunas clases de información que el científico considera como altamente
pertinente y lógicamente forzadas son habitualmente ignoradas por la gente. Otras clases de
información, lógicamente mucho más débiles, accionan fuertes inferencias y tendencias a la
acción. Podemos pensar de no más útil actividad para los psicólogos quienes estudian
procesar la información que descubrir que sus sujetos la consideran como información
valiosa de procesar.
98

8. Esquemas causales en juicios bajo incertidumbre

Amos Tversky y Daniel Kahneman

Muchas de las decisiones que hacemos, en asuntos triviales así como en asuntos
cruciales, dependen de la aparente probabilidad de los eventos tales como el guardar de una
promesa, el éxito de una empresa, ó la respuesta a una acción. Puesto que generalmente no
tenemos modelos formales adecuados para calcularlas probabilidades de tales eventos, su
evaluación es necesariamente subjetiva e intuitiva. La manera en la cual la gente evalúa la
evidencia para evaluar las probabilidades ha surgido mucha interés por la investigación en los
años recientes, por ejemplo, W. Edwards (1968, 25); Kahneman y Tversky (1079a, 30);
Slovic (1972a); Slovic, Fischoff y Lichtenstein (1977); Tversky y Kahneman (1974, 1). Esta
investigación ha identificado varios juicios heurísticos los cuales son asociados con
características de errores y prejuicios. El presente trabajo está relacionado con el papel del
razonamiento causal en juicios bajo incertidumbre y con algunos prejuicios que son
asociados con este modo de pensar.
Es un lugar común de la psicología que la gente se esfuerce por adquirir una
interpretación coherente de los eventos que los circundan, y que la organización de los
eventos por esquemas de relaciones de causa-efecto sirve para adquirir esa .meta. El clásico
trabajo de Michoette (1963) proveyó una obligatoria demostración de la irresistible tendencia
a percibir secuencias de eventos en términos de relaciones causales, aún cuando el que
percibe está completamente consciente que la relación entre eventos es incidental y que la
causalidad imputada es ilusoria. La prevalencia de los esquemas causales en la percepción de
relaciones sociales elementales fue destacada en el trabajo seminal (¿) de Heider (1958) y el
estudio de la atribución causal es uno de los foci (¿) de la psicología social contemporánea
(Jones et al., 1971; Ross, 1977).
El presente capítulo está relacionado con el papel de los esquemas causales en el juicio
bajo incertidumbre. En particular, nosotros investigamos juicios de probabilidad condicional
P(X/D) de algún evento objetivo X, sobre las bases de alguna evidencia ó datos D. Para un
análisis de psicología del impacto de la evidencia, el es útil para distinguir entre diferentes
tipos de relaciones que el juicio puede percibir entre D y X. Si D es percibido como una
causa de la ocurrencia ó no-ocurrencia de X, nos referimos a D como un dato causal.. Por
otro lado, si X es tratado como una posible causa de D, nos referimos a D como un dato
diagnóstico. Por ejemplo, una descripción de la personalidad de A es comúnmente vista
como proveyendo datos causales para la predicción de su comportamiento, mientras que la
descripción del comportamiento de A provee información diagnóstica sobre su personalidad.
Si D no es la causa ni el efecto de X, pero ellos son ambos percibidos como consecuencias de
Este capítulo es la primera parte que apareció en M. Fishbein (Ed.), Progreso en Psicología Social, Hillsdale, N.
J. ; Lawrence Erlbaum Assoc., Inc., 1980. Reproducida con permiso.
otro factor, nos referiremos a D como indicacional. Por lo tanto, el comportamiento en una
situación provee datos indicacionales para la conducta en otro, si ambos comportamientos
99

son considerados como manifestaciones del mismo trato. Finalmente, si D y X no parecen


estar relacionados por ya sea un nexo directo ó indirecto, nos referiremos a D como
incidental.
En un tratamiento normativo de la probabilidad condicional, las distinciones entre los
varios tipos de relación de D con X son inmateriales, y el impacto de los datos depende
solamente de informatividad. En contraste, nosotros proponemos que el impacto psicológico
de los datos depende críticamente de su papel en un esquema causal. En particular, nosotros
proponemos la hipótesis de que los datos causales tienen un mayor impacto que otros datos
de igual informatividad; y que en la presencia de datos que evoquen un esquema causal,
datos incidentales los cuales no se ajustan a ese esquema les es dada poco ningún peso.
En la primera parte del trabajo, los efectos de los datos causales y diagnósticos, y
muestran que la gente asigna más grande impacto a datos causales que a datos diagnósticos
de igual informatividad. También exploramos una clase de problemas donde un dato
particular tiene ambas significancias causal y diagnóstica, y demostramos que las
evaluaciones intuitivas de P(X/D) están dominadas por el impacto causal directo de D sobre
X, con insuficiente respeto por las consideraciones diagnósticas . . . .

Razonamiento causal y diagnóstico

Asimetrías inferenciales

Un esquema causal tiene un curso natural; el evoluciona de causas a consecuencias. De aquí


que sugerios que es más natural y más fácil seguir la secuencia normal y la razón de causas a
consecuencias que invertir ésta secuencia y razón de consecuencias a causas. Si las
inferencias causales son ciertamente más fáciles y más naturales que las inferencias
diagnósticas, entonces uno esperaría que la gente infieras efectos de causas con mayor
confianza que causas de efectos – aún cuando el efecto y la causa actualmente proveen la
misma cantidad de información sobre uno al otro. Nosotros probamos ésta hipótesis
utilizando dos diferentes medidas: juicios de probabilidades condicionales y confianza en la
exactitud de las predicciones.
En uno de los juegos de preguntas, requerimos de los sujetos que compararan las dos
probabilidades condicionales P(Y/X) y P(X/Y) para un par de eventos X y Y tales que (1) X
es naturalmente visto como una causa de Y; y (2) P(X) = P(Y), que es, que las probabilidades
marginales de los dos eventos son iguales. La última condición implica que P(Y/X) =
P(X/Y). Nuestras predicciones fueron que la mayoría de los sujetos verían la relación causal
más fuerte que la relación diagnóstica, y acertarían erróneamente que P(Y/X) = P(X/Y).
En otro juego de preguntas, requerimos de los sujetos que compararan su confianza en la
predicciones incluyendo las dos variables continuas, dependiendo de cuál de éstas variables
fue dada y cuál fue para ser predicha. Aquí, otra vez, los problemas son construidos como
que una de las variables es naturalmente vista como causal con respecto a la otra. Si las dos
variables tienen similares distribuciones marginales, no existe razón estadística válida para
esperar una diferencia en la exactitud con la cual una variable puede ser predicha de la otra. A
pesar de eso, nosotros formulaos la hipótesis de que muchos sujetos establecerían que una
predicción de causa a efecto puede ser hecha con mayor confianza que una predicción de
efecto a causa.
La asimetría predicha entre inferencias causales y diagnósticas fue observada con ambos
tipos de preguntas. El efecto es ilustrado por los siguientes problemas, donde los valores
entre paréntesis indican el número de estudiantes de la universidad (de la Universidad de
Oregón) quienes escogieron cada respuesta.1
100

Problema 1: Cuál de los siguientes eventos es más probable?


(a) Que una muchacha tenga ojos azules si su madre tiene ojos azules. (N = 69)
(b) Que la madre tiene ojos azules, si su hija tiene ojos azules. (N = 21)
(-) Los dos eventos son igualmente probables. (N = 75)

Problema 2: En una inspección a una escuela secundaria en una ciudad, la altura de los muchachos
fue comparada con la altura de sus padres. En cuál predicción usted tendría mayor confianza?
(a) La predicción de la altura del padre de la altura del hijo? (N = 23)
(b) La predicción de la altura del hijo de la altura del padre? (N = 68)
(-) Igual confianza. (N = 76)

Claramente, la distribución de altura ú color del ojo es esencialmente la misma en


sucesivas generaciones. Para verificar la percepción de los sujetos de este hecho, nosotros
preguntamos a otro grupo de 91 sujetos si la proporción de madres de ojos azules en una
muestra grande de madres e hijas es mayor (N = 15), igual (N = 64) ó menor (N = 12), que la
proporción de hijas de ojos azules. Por tanto, aunque los sujetos consideraron las dos
anteriores probabilidades como iguales, ellos no obstante juzgaron la probabilidad
condicional “causal” ser mayor que la diagnóstica.
Estrictamente hablando, por supuesto, no es una causa de la altura de su hijo. En el uso
común, sin embargo, es muy aceptable decir que un muchacho es alto porque su padre mide
6’4’’, mientras que la afirmación de que el padre mide 6’4’’ porque su hijo es alto es
claramente anómala. Mas generalmente, nosotros esperamos una asimetría de inferencia
considerando las dos variables siempre que la primera parezca explicar a la segunda mejor
que la segunda explicar a la primera. Para ilustrar, considere los siguientes problemas que
fueron presentados a los dos diferentes grupos de sujetos:

Problema 3: Cuál de las siguientes afirmaciones tiene más sentido?


(a) Tom es pesado porque él es alto. (N = 63)
(b) Tom es alto porque él es pesado (N = 78)

Problema 4: A cuál predicción usted le tendría más confianza?


(a) La predicción de la altura de un hombre de su peso. (N = 16)
(b) La predicción del peso de un hombre de su altura. (N = 78)

Aunque la altura y el peso no son considerados del uno al otro, la mayoría de los
encuestados sintieron que ser alto es una mejor explicación por ser pesado que viceversa,
aunque el prototípico hombre pesado no sea alto. En consecuencia, la mayoría de los sujetos
expresaron mayor confianza en predecir el peso de un hombre de su altura que en predecir la
altura de un hombre de su peso. Tal asimetría, por supuesto, no podría ser justificada por
razones estadísticas.
Los problemas 3 y 4 sugieren que una asimetría de inferencia ocurre aún en la ausencia
de un enlace causal directo entre las dos variables – siempre que uno de ellos (por ejemplo la
altura) sea más naturalmente visto como una explicación del otro (por ejemplo, el peso). Los
siguientes dos problemas están relacionados con el caso donde las dos variables son vistas
1
Un temprano borrador de este trabajo reportó una espuriamente baja proporción de las respuestas de “Equal”
basadas en una muestra Israelí. Nosotros estamos en deuda con Anna M. B. Gonzalez y Michael Kubovy, por
ésta observación. Los presentes datos, colectados en la Universidad de Oregón, están de acuerdo con los
resultados obtenidos por Gonzalez en Yale.
como indicaciones, ó manifestaciones de algún trato fundamental. Una de las variables, sin
embargo, provee una manifestación ó una medida más válida del trato fundamental. Nosotros
101

esperamos que las inferencias de la indicación más fuerte a la más débil será hecha con la
mayor confianza que las inferencias en la dirección inversa.

Problema 5: Cuál de los siguientes eventos es el más probable?

(a) Que un atleta ganó la decatlón, si él ganó el primer evento en la decatlón. (N = 21)
(b) Que un atleta ganó el primer evento en la decatlón, si el ganó la decatlón. (N = 75)
(-) Los dos eventos son igualmente probables. (N = 70)

Problema 6: Dos pruebas de inteligencia fueron administradas a un gran grupo de estudiantes de una
prueba de comprensión, y de 10 minutos de versión abreviada. En cuál predicción usted tendría
mayor confianza?
(a) La predicción del punteo de un estudiante en la prueba corta ó en la prueba de comprensión.
(N = 80)
(b) La predicción del punteo de un estudiante en la prueba de comprensión de su punteo en la
prueba corta. (N = 47)
(-) Igual confianza. (N = 39)

Aquí de nuevo, la correcta respuesta es “igual” en ambos problemas. En el problema 5, la


probabilidad fundamental de que un atleta (no especificado) ganará la decatlón es 1/N, donde N es el
número de competidores. Esta es también la probabilidad fundamental de que un atleta no
especificado ganará el primer evento. Consecuentemente, las dos probabilidades condicionales deben
ser iguales. En el problema 6, la suposición estándar de regresiones lineales acarrea exactitud en la
predicción de una prueba de otra. Las respuestas a ambos problemas, sin embargo, exhibe una
marcada preferencia por una dirección de predicción sobre la otra.
Los problemas 5 y 6 ambos involucran dos indicaciones del mismo trato fundamental los cuales
difieren en fortaleza. La victoria en la decatlón y la victoria en un simple evento son ambas
manifestaciones de excelencia atlética, pero la anterior provee una mayor indicación de excelencia
que la última. Similarmente, el desenvolvimiento en las pruebas de inteligencia reflejan un trato
fundamental de inteligencia y la prueba más comprensiva provee una mejor medida de este trato que
lo hace la versión abreviada. Los resultados confirman la hipótesis que la predicción de la indicación
más fuerte a la indicación más débil está asociada una mayor confianza que la predicción inversa.
Las asimetrías de inferencias observadas en los problemas precedentes están relacionadas a las
asimetrías de relaciones de proximidad, investigadas por Tversky (1977). Estudios empíricos
muestran que la similaridad juzgada de un objeto prominente ó prototipo a un objeto menos
prominente ó variante es más pequeña que la similaridad de la variante al prototipo. Por ejemplo, un
rojo focal es menos similar a un rojo fuera de foco que viceversa (Rosch, 1975); una “buena” forma
es menos similar a una “mala”forma que viceversa, y la similaridad de un prominente país (por
ejemplo, la China Roja) a un menos prominente país (por ejemplo, Korea del Norte) es menor que la
similaridad contraria (Tversky, 1977). Las asimetrías de predicción parecen seguir la misma regla.
Por tanto, generalmente percibimos al hijo como más similar a su padre que viceversa, y también
atribuimos propiedades del padre al hijo con mayor confianza que viceversa. El mismo proceso, por
consiguiente, puede sostener ambas asimetrías de similaridad y asimetrías de inferencia.

Significancia de evidencia causal y diagnóstica

La sección previa mostró que el impacto de los datos causales sobre el juicio de probabilidad
de una consecuencia es mayor que el impacto de los datos de diagnóstico sobre el juicio de
probabilidad de una causa. La presente sección investiga interrogantes en las cuales la
evidencia tiene ambas significancias causal y diagnóstica con respecto al objetivo del evento.
Estudiamos la hipótesis de la gente tiende a focalizarse en el impacto causal de los datos para
el futuro, y tienden a desatender sus implicaciones diagnósticas sobre el pasado. Primero
discutimos una clase de problemas en los cuales la dominante de las consideraciones causales
102

sobre las diagnósticas produce evaluaciones de probabilidades inconsistentes y paradójicas.


El siguiente par de problemas fueron introducidos por Turoff (1972) en una discusión del
método de impacto cruzado de pronosticar.

Problema 7a: Cuál de las siguientes dos probabilidades es más alta?


(i) La probabilidad que, dentro de los siguientes cinco años, el Congreso pasará una ley para
frenar la contaminación por mercurio, si el número de muertes atribuidas al
envenenamiento por mercurio durante los cinco años siguientes excede de 500.
(ii) La probabilidad de que, dentro de los siguientes cinco años, El Congreso pasará una ley
para frenar la contaminación por mercurio, si el número de muertes atribuidas al
envenenamiento por mercurio durante los próximos cinco años no excede de las 500.

Problema 7b: Cuál de las dos siguientes probabilidades es mayor?


(i) La probabilidad de que el número de muertes atribuidas al envenenamiento por mercurio
durante los siguientes cinco años excederá de 500, si el Congreso pasa una ley durante los
siguientes cinco años para frenar la contaminación por mercurio.
(ii) La probabilidad de que el número de muertes atribuidas al envenenamiento por mercurio
durante los siguientes cinco años excederá de 500, si el Congreso no pasa una ley dentro de
los siguientes cinco años para frenar la contaminación por mercurio.

Sea C el evento que dentro de los siguientes 5 años el Congreso habrá pasado una ley
para frenar la contaminación por mercurio, y sea D el evento que dentro de los cinco años
siguientes, el número de muertes atribuidas al envenenamiento por mercurio excederá de
500. Hagamos que C¯ y D¯ denoten las negaciones de C y D respectivamente.
Una gran mayoría de los encuestados establecieron que el Congreso es más probable que
pase una ley restringiendo la contaminación por mercurio si las muertes exceden de 500 que
si no, que es, P(C/D) > P(C/D¯). La mayoría de la gente también establece que la muerte es
menos probable que alcance las 500 si la ley es aprobada dentro de los cinco días siguientes
que si no lo es, que es, P(D/C) < P(D/C¯). Estos juicios reflejan las creencias causales de
que una alta mortandad incrementará la presión para pasar una medida anti-contaminante, y
que tal medida sería efectiva en la prevención del envenenamiento por mercurio. En una
muestra de 166 estudiantes, 140 escogieron la respuesta modal a ambas preguntas. Este
aparentemente plausible patrón de juicios viola las elementales reglas de probabilidades
condicionales.
Claramente, P(C/D) > P(C/D¯) implica que P(C/D) > P(C). Además la desigualdad

Insertar aquí la fórmula de la página 122 del libro original

Se sostiene si y solo si P(C & D) > P(C)P(D) el que se sostiene solo si y solo si

Insertar aquí la fórmula de la página 122 del libro original

La cual a su vez implica que P(D/C) > P(D/C¯), siempre P(C) y P(D) no sean cero. De aquí
que, P(C/D) >P(C/D¯ implica que P(D/C) > P(D/C¯), contrario al prevaleciente patrón de
juicio.
Es fácil construir ejemplos adicionales del mismo tipo, en los cuales las intuiciones de la
gente viola el cálculo de probabilidad. Tales ejemplos consisten de un par de eventos A y B,
de tal forma que la ocurrencia de B incremente la probabilidad de la subsecuente ocurrencia
de A , mientras que la ocurrencia de A incremente la probabilidad de la subsecuente
ocurrencia de B. Por ejemplo, considere el siguiente problema.
103

Problema 8: Sea A el evento que antes del final del año siguiente, Peter tendrá instalado un sistema de
alarma ladrones en su casa. Sea B el que denote el evento de que la casa de Peter será protegida
contra los ladrones antes de que finalice el año. Hagamos que A¯ y B¯ representen las negaciones de
A y B respectivamente.2
Pregunta: Cuál de las dos probabilidades condicionales, P(A/B) ó P(A/B¯), es mayor?
Pregunta: Cuál de las dos probabilidades condicionales, P(B/A) ó P(B/A¯), es mayor?

Una gran mayoría de los sujetos (132 de 161) establecieron que P(A/B) > P(A/B¯) y que
P(B/A) < P(B/A¯), contrario a las leyes de la probabilidad. Nosotros interpretamos este
patrón de juzgamientos como otra indicación de la dominancia de las condiciones causales
sobre las diagnósticas. Para apreciar la naturaleza del efecto, Permítasenos analizar la
estructura del Problema 8.
Primero, considere P(A/B), la probabilidad condicional que Peter instalará un sistema de
alarma en su casa antes del final del año siguiente, asumiendo que ésta casa será protegida
contra los ladrones alguna vez durante este período. El sistema de alarma podría ser instalado
ya sea antes ó después del robo. La información transportada por la condición, que es, la
suposición de un robo, tiene una significancia causal con respecto a la significancia futura y
diagnóstica con respecto al pasado. Específicamente, la ocurrencia de un robo provee una
causa para la sub-secuente instalación de un sistema de alarma, y provee una indicación de
diagnóstico que la casa no había sido equipada con un sistema de alarma al tiempo del robo.
Por tanto, el impacto causal del robo incrementa la probabilidad del sistema de alarma
mientras que el impacto diagnóstico del robo decrece la probabilidad. Los cercanamente
unánimes juicios de que P(A/B) > P(A/B¯) indica que el impacto causal de B domina su
impacto diagnóstico.
Precisamente el mismo análisis se aplica a P(B/A): la probabilidad de que la casa de Peter
será protegida contra ladrones antes del final del año siguiente, dado que él habrá instalado
un sistema de alarma alguna vez durante este período. La presencia de un sistema de alarma
es casualmente efectivo en reducir la probabilidad de un sub-secuente robo; el también
provee una indicación diagnóstica que la ocurrencia de un robo podría haber apurado a Peter
a instalar el sistema de alarma. El impacto causal del sistema de alarma reduce la
probabilidad de un robo; el impacto diagnóstico del sistema de alarma incrementa ésta
probabilidad. Aquí otra vez, la prevalencia del juicio que P(B/A) < P(B/A¯) indica que el
impacto causal A domina su impacto diagnóstico. En lugar de sopesar los impactos causales
y daignósticos de la evidencia, la gente aparentemente evalúa las probabilidades
condicionales P(A/B) y P(B/A) primariamente en términos de los efectos causales directos de
la condición los cuales conducen a contradicciones en problemas de este tipo.
Una característica fundamental de Turoff es la relación de incertidumbre temporal entre
el evento condicionante y el evento del objetivo. Aún en la ausencia de incertidumbre
temporal, sin embargo, es frecuente el caso que el evento condicionante tiene ambas
significancias causal y diagnóstica. E presente análisis conduce a la hipótesis que las
evaluaciones de las probabilidades condicionales están dominadas por consideraciones
causales , aún cuando la relación temporal entre los eventos está completamente especificada.

2
Los símbolos A, B, etc., son introducidos aquí para facilitar la exposición. A los sujetos se les dieron
descripciones verbales de los eventos.
Problema 9: Cuál de las siguientes probabilidades es mayor?
P(R/H) La probabilidad de que habrá racionamiento de combustible para consumidores
individuales en los Estados Unidos durante la década de los años 1990’s, si usted asume que un
marcado incremento en el uso de la energía solar para calefacción del hogar ocurrirá durante la
década de los años 1980’s.
104

P(R/H¯) La probabilidad de que habrá racionamiento de combustible para consumidores


individuales en los Estados Unidos durante la década de los años 1990’s, si usted asume que no hay
un marcado incremento en el uso de la energía solar para la calefacción del hogar ocurrirá durante la
década de los años 1980’s.

Es talvez considerar instructivo considerar la aproximación normativa (Bayesiana) a este


problema, a la luz de la distinción que hemos sacado entre consideraciones causales y
diagnósticas. El evento H que ahí tendrá marcado incremento en el uso de la energía solar
para la calefacción del hogar durante los años 1980’s tiene ambas significancias causal y
diagnóstica. El impacto directo causal de H sobre R es claramente negativo. Otras cosas
siendo iguales, un marcado incremento en el uso de la energía solar puede solo aliviar una
crisis de combustible en los últimos años. Sin embargo, un marcado incremento en el uso de
la energía solar durante los 80’s también provee una fuerte indicación de una inminente crisis
de la energía. En particular, ella sugiere que los precios del combustible en los 80’s son
suficientemente altos para hacer la inversión en energía solar para una calefacción económica
del hogar por un gran número de consumidores. Los altos precios del combustible en los
80’s, a la vez, un estado de escasez de combustible fósil, el cual incrementa, lo cual
incrementa la probabilidad del racionamiento de combustible en la sub-secuente década. Por
lo tanto, el impacto causal directo de H sobre R reduce la probabilidad de R, mientras que las
implicaciones diagnósticas de H indirectamente incrementa la probabilidad de R.
Aunque la cuestión de la relativa fortaleza de éstos factores nos se puede establecer
formalmente, nosotros luchamos porque las implicaciones diagnósticas de H podrían pesar
más que su impacto causal. La cantidad de combustible que podría ser economizada por el
incrementado uso de la energía solar para la calefacción doméstica es improbable que sea
suficientemente grande para alejar una crisis inminente. Por otro lado, la escasez de
combustible la cual está implicada por H es altamente indicativa de una próxima crisis
energética. De acuerdo a ésta línea de razonamiento, P(R/H) > P(R/H¯), donde H¯ es la
negación de H.
La hipótesis de ésta sección, sin embargo, fue que la gente generalmente sopesa la
contribución causal directa del evento condicionante en la evaluación de las probabilidades
condicionales, y no dan suficiente peso a su significancia diagnóstica. Esta hipótesis vincula,
en el Problema 9, que la estipulación de un incremento en el uso de energía solar para
calefacción en los años 80’s reduce la probabilidad juzgada del racionamiento de combustible
en los 1990’s. Ciertamente, 68 de 83 encuestados establecieron que P(R/H) < P(R/H¯). El
miso patrón de juicios es observado en otros problemas de este tipo, donde las implicaciones
del diagnóstico indirecto de la condición están en conflicto con sus implicaciones causales
directas. Aunque este patrón de juicios no viola las reglas de la probabilidad, como fue el
caso de los problemas de Turoff, refleja, nosotros creemos, una tendencia común a no
observar la significancia del diagnostico del evento condicionante en juicios de probabilidad
condicional.

Predicción, explicación y revisión

En las secciones precedentes nosotros presentamos alguna evidencia en apoyo de la hipótesis


que las inferencias causales tienen una mayor eficacia que las inferencias diagnósticas.
Primero mostramos que las inferencias de causas a consecuencias son hechas con mayor
confianza que las inferencias de consecuencias a causas. Segundo, mostramos que cuando los
mismos datos tienen ambas significancias causal y diagnóstica, a la anterior le es dado más
peso que a la última en juicios de probabilidad condicional.
105

Retornamos ahora a la pregunta más general de la relación entre una imagen, un modelo
ó un esquema, por ejemplo, la situación de energía ó la personalidad de un individuo, y algún
resultado ó manifestación de ese sistema, por ejemplo, un incrementado uso de la energía
solar ó un despliegue de hostilidad. Modelos ó esquemas son comúnmente empleados para
predecir y explicar resultados, los cual a su vez son usados para revisar ó actualizar los
modelos. Por tanto, una persona puede aplicar del modelo para predecir el resultado ó para
evaluar su probabilidad; él puede también usar del modelo para explicar la ocurrencia de un
evento particular ó consecuencia. Finalmente, él puede emplear la información proveída por
la ocurrencia de un evento particular para corregir ó revisar su modelo.
La predicción y explicación representa dos tipos diferentes de inferencia causal, mientras
que el modelo-revisión es un ejemplo de inferencia diagnóstica. En la predicción, el juicio
selecciona ese resultado el cual es más congruente con su modelo del sistema. En la
explicación, el juicio identifica aquellas características del modelo que son más probables de
dar surgimiento al resultado especificado. En la revisión, por otro lado, el juicio corrige ó
completa los elementos del modelo que son al menos congruentes con los datos.
La mayoría de inferencias en la vida diaria se apoyan en modelos ó esquemas los cuales
son imprecisos, incompletos y ocasionalmente incorrectos. La gente reconoce esto, sin
embargo, y están dispuestas a reconocer que sus modelos de sistemas tales como las
intenciones de una persona ó la situación de la energía podrían estar en un error. La presencia
de incertidumbre en relación a la exactitud de un modelo tiene implicaciones para la propia
conducta de la predicción, explicación y revisión. Si un modelo está sujeto a error, las
predicciones de ese modelo podrían ser moderadas o regresivas, que significa, que ellas no
deberían apartarse de las predicciones de la razón-base. Por ejemplo, uno debería ser más
reluctante de predecir que una persona se comprometerá en un raro ó inusual comportamiento
cuando la información de uno sobre la persona viene de una fuente más creíble.
Explicaciones que están basadas en modelos inciertos deberían también ser afinados con
precaución, puesto que los factores causales que son usados en la explicación pueden no
existir en la realidad. Además, la explicación en la presencia de incertidumbre debería
también ser combinada con modelo-revisión. Por ejemplo, si una persona se compromete en
una actividad que parece incompatible con nuestra impresión de su personalidad, deberíamos
seriamente considerar la posibilidad de que nuestra impresión fue incorrecta, y que debería
ser revisada en la dirección sugerida por los nuevos datos. A más grande la incertidumbre
sobre el modelo y más sorprendente el comportamiento, más grande debería ser la revisión.
Una adecuada explicación debería tomar en cuenta los cambios en el modelo que son
implicados ó sugeridos por el evento que va a ser explicado. Desde un punto de vista
normativo, por consiguiente, las explicaciones en la presencia de incertidumbre sobre el
modelo involucra ambas inferencias diagnósticas y causales.
Una investigación previa mostró que la gente comúnmente sobre predice desde modelos
altamente inciertos. Por ejemplo, los sujetos confiadamente predicen la selección profesional
ó el desempeño académico de un individuo sobre las bases de un breve esquema de
personalidad, aún cuando este esquema es atribuido a una fuente no confiable (Kahneman &
Tversky, 1973, 4). Las intenciones y tratos que son inferidos de un esquema de personalidad
son naturalmente vistos como causas de tales resultados como selección profesional ó éxito
en la escuela. La sobre predicción que es observada en tales problemas es por consiguiente
compatible con el alto impacto de los datos causales que fueron ilustrados en las secciones
precedentes.
En el contexto de explicación y revisión, la fortaleza del razonamiento causal y la
debilidad del razonamiento diagnóstico son manifiestas en la gran facilidad con que la gente
construye relaciones causales para resultados que no podrían predecir, y en la dificultad que
ellos tienen en revisar modelos inciertos para acomodar nuevos datos. Parece más fácil
106

asimilar un nuevo hecho dentro de un modelo causal existente que revisar el modelo a la luz
de este nuevo hecho. Más aún, las revisiones que son hechas para acomodar nuevos hechos
son a menudo mínimas en alcance y locales en carácter.
Para ilustrar esta noción, retornaremos a observaciones no reportadas previamente de un
estudio más temprano de predicción intuitiva (Kahneman y Tversky, 1973, 4). En ese estudio,
114 estudiantes graduados en psicología fueron presentados con una descripción de un
párrafo largo de un estudiante graduado, Tom W.., el cual había sido supuestamente escrito
durante su último año de secundaria por un psicólogo clínico, sobre las bases de pruebas
proyectivas. La siguiente descripción fue dada:

Tom W. es de alta inteligencia, aunque carece de verdadera creatividad. El tiene una necesidad de
orden y claridad, y por sistemas nítidos y ordenados en los cuales cada detalle encuentra su lugar
apropiado. Su escritura es más bien monótono y mecánico, ocasionalmente animado por un trillado
juego de palabras y por destellos de la imaginación del tipo sci-fi. El tiene un fuerte apremio por la
competencia. El parece tener poco sentimiento y poca simpatía por la gente y no disfruta
interactuando con otros. Auto centrado, él a pesar de eso tiene un profundo sentido moral.

Los sujetos fueron primero requeridos a predecir el campo de especialización de graduado de


Tom por clasificación de nueve posibilidades en términos de su probabilidad. Hubo un fuerte
consenso entre los encuestados que Tom W. esté en ciencias de computación ó en ingeniería,
y menos probable que esté en ciencias sociales y trabajo social ó en humanidades y
educación. La respuesta a una interrogante adicional también exhibió un acuerdo general en
que las pruebas proyectivas no proveen una fuente válida de información para la predicción
de la selección profesional. Después de completar la tarea de predicción, a los sujetos se les
requirió contestar la siguiente interrogante.

De hecho, Tom W. es un estudiante graduado en la Escuela de Educación y él está enrolado en un


programa especial de entrenamiento para la educación de niños discapacitados. Por favor resuma muy
brevemente la teoría que usted considera más probable para explicar la relación entre la personalidad
de Tom W. y su selección de carrera.

Cuál es la aproximación apropiada a ésta interrogante? Los encuestados fueron encarados


con un aparente conflicto entre un hecho difícil, la selección de la carrera de Tom W. y una
detallada pero inestable descripción de su personalidad. La alta confianza con que la gente
predice la selección profesional partiendo de descripciones de personalidad implica una
creencia en una alta correlación entre personalidad y selección vocacional. Esta creencia, a su
vez, vincula que la selección profesional sea altamente diagnóstica con respecto a la
personalidad. En el ejemplo de arriba, la selección vocacional de Tom W. es improbable en
vista de su descripción de personalidad, y que la descripción es atribuida a una fuente de baja
credibilidad. Una inferencia diagnóstica razonable debería por consiguiente conducir a una
sustancial revisión de la imagen de uno del carácter de Tom W., para hacerla más compatible
con el estereotipo de su profesión escogida. Si uno cree que los estudiantes de educación
especial son generalmente compasivos, entonces la selección profesional de Tom W. haría
que surjan dudas sobre su tener “poco sentimiento y poca simpatía por otra gente”, como se
estableció en el reporte de los psicólogos. Una adecuada respuesta al problema debería al
menos incrementar la posibilidad de que la personalidad de Tom W. no es como fue descrita,
y que él de hecho más bondadoso y más humano de lo que su descripción sugiere.
Nuestros sujetos no siguieron ésta aproximación. Solo una pequeña minoría (21%) aún
mencionó cualquier reserva sobre la validez de la descripción. La abrumadora mayoría de
encuestados, incluyendo a los escépticos, resolvió el conflicto ya sea por referencia a
apropiados aspectos seleccionados de la descripción de Tom W. (por ejemplo, su profundo
107

sentido moral) ó por una reinterpretación de la significancia psicológica de su selección (por


ejemplo, como una expresión de una necesidad de dominancia).
Podría argüirse que la falla de nuestros sujetos para revisar su imagen de Tom W.
meramente refleja la demanda de características de la tarea a la cual ellos fueron asignados, a
saber “para explicar la relación entre la personalidad de Tom W. y su selección de carrera”.
De acuerdo con este informe, la tarea naturalmente interpretada como llamando a un intento
de relacionar la selección profesional de Tom W. a la descripción de su personalidad sin
cuestionar su validez. Creemos, sin embargo, que la tendencia prevaleciente de tratar la
imagen de Tom W. como si fuera perfectamente válida, en lugar de severas dudas ejemplifica
un más amplio fenómeno: la tendencia a explicar sin revisión, aún cuando el modelo que es
usado en la explicación es altamente incierto.
En nuestra opinión, las respuestas de los sujetos ilustran ambas la reluctancia a revisar un
modelo rico y coherente, sin embargo incierto, y la facilidad con que tal modelo puede ser
usado para explicar nuevos hechos, no obstante inesperados. Estamos impresionados por la
fluencia desplegada en desarrollar informes causales de la inesperada selección de vocación,
y no tenemos razón para creer que ellos habrían sido menos dóciles en explicar otros
inesperados comportamientos de su parte.
Habilidades explicatorias altamente desarrolladas probablemente contribuyan a la
proverbial robustez y estabilidad de impresiones, modelos, concepciones, y paradigmas
enfrente de una evidencia incompatible (Abelson, 1959; Hovland, 1959; Janis, 1972; Jervis,
1975; Kuhn, 1962). El ímpetu por revisar un modelo puede solo venir del reconocimiento de
una incongruencia entre ese modelo y alguna nueva evidencia. Si la gente puede explicar la
mayoría de las ocurrencias a su propia satisfacción con cambios mínimos y locales en sus
concepciones existentes, ellos raramente sentirán la necesidad de una drástica revisión de
éstas concepciones. De esta manera, la fluencia del pensamiento causal inhibe la revisión del
proceso diagnóstico. . . .

9. Defectos en el proceso de atribución: Sobre el origen


y mantenimiento de evaluaciones sociales erróneas
108

Lee Ross y Craig A Anderson

Teoría de introducción a la atribución y los errores atribucionales

Teoría de la atribución y psicología intuitiva

La teoría de la atribución, en su sentido más amplio, está relacionada con los intentos de la
gente común de entender las causas e implicaciones de los eventos que ellos son testigos.
Trata con la “psicología ingenua” de la gente como ellos interpretan su propio
comportamiento y las acciones de otros. La corriente ascendencia de la teoría de la atribución
en psicología social por tanto culmina una larga batalla para mejorar la calidad de esa
concepción de disciplina del hombre. No hace mucho el autómata estímulo-respuesta (S-R)
del comportamiento radical, promovió más allá del rango del procesador de información y el
buscador de la consistencia cognitiva, que el hombre psicológico haya sido al menos
beneficiado con un status igual a ese de los científicos que lo investigan. Para en la
perspectiva de la teoría de la atribución, las gentes son psicólogos intuitivos que buscan
explicar el comportamiento y sacar inferencias sobre los actores y sobre su ambiente social.
Para mejor entender las percepciones y acciones de este científico intuitivo debemos
explorar su métodos. Primero, como el psicólogo académico, él es guiado por un número de
suposiciones implícitas sobre la naturaleza humana y el comportamiento humano – por
ejemplo, que la búsqueda del placer y el evitar el dolor son motivos humanos ubicuos y
poderosos, ó que de conformidad a los deseos y expectativas de los semejantes de uno es
menos excepcional y menos demandante de posterior interpretación que la no conformidad.
El psicólogo lego, como el profesional, también se apoya grandemente en los datos, aunque
los datos que raramente satisfacen los requerimientos formales considerados de aleatoriedad
ó representatividad. Algunas veces éstos datos resultan de experiencias de primera mano; más
a menudo, ellos son el producto de la comunicación social informal, medios masivos ú otras
fuentes indirectas. El psicólogo intuitivo debe más adelante adoptar ó desarrollar técnicas
para codificar, almacenar y recuperar los datos. Finalmente, él debe emplear varias
estrategias para resumir, analizar e interpretar los datos – que significa, que él debe emplear
reglas heurísticas ó esquemas que le permitan formar nuevas inferencias. La habilidad del
científico intuitivo para manejar su ambiente social, como corresponde, dependerá de la
exactitud y adecuación de su hipótesis , evidencia y análisis. A la inversa, cualesquiera
errores sistemáticos en las teorías existentes, prejuicios en datos disponibles ó inadecuaciones

Este capítulo saca grandemente, ambos en contenido y organización, de una contribución por el primer autor de
Avances en Psicología Social Experimental (1977). El permiso para el uso de éstos materiales es gratamente
agradecido.
en métodos de análisis, producen serias consecuencias – ambas para el psicólogo lego y para
la sociedad que él construye y perpetúa. Estos defectos, explorados desde una posición
ventajosa de la teoría de la atribución contemporánea, provee el foco de este capítulo.1
109

Los amplios esbozos de la teoría de la atribución fueron primero bosquejados por Heider
(1944, 1958) y desarrollados en mayor detalle por Jones y Davis (1965), Kelly (1967, 1971,
1973) y sus asociados (vea Jones et al., 1971; Weiner, 1974). Estos teoristas trataron con dos
cercanamente relacionadas tareas confrontando al observador social. La primera tarea es esa
del juicio causal: El observador busca identificar la causa, ó juego de causas, a las cuales
algún efecto particular (por ejemplo, alguna acción ó resultado) puede ser más
razonablemente atribuido. La segunda tarea es esa de la inferencia social: El observador de
un episodio forma inferencias sobre los atributos ó disposiciones de los actores relevantes y
sobre los atributos ó propiedades de las situaciones a las cuales ellos han respondido.
Las tareas de juicio e inferencia social han ambas sido el sujeto de intensiva interrogante
teórica y empírica y, hasta recientemente, han constituido virtualmente el entero dominio de
la teoría de la atribución. Últimamente, sin embargo, una tercera tarea del psicólogo intuitivo
ha comenzado a recibir alguna atención; esa tarea es la predicción ó estimación de resultados
y comportamiento. El psicólogo intuitivo no solo debe buscar explicaciones y hacer
inferencias de disposición; él debe también formar expectativas y hacer conjeturas sobre
acciones y resultados que son por lo general desconocidas ó que ocurrirán en el futuro. Por
ejemplo, cuando un candidato presidencial promete “aliviar la carga del promedio de los
contribuyentes”, nosotros consideramos posibles causas para la declaración e implicaciones
sobre la disposiciones personales del candidato. (La promesa simplemente reflejó las
demandas de conveniencia política? Podemos concluir cualquiera cosa sobre las verdaderas
convicciones del candidato?) Pero nosotros también estamos proclives a especular sobre su
consecuente comportamiento y sus opiniones sobre asuntos relacionados que no han sido
aún explorados. (Si es elegido, cortará él los impuestos a la propiedad? Favorecerá él la
reducción de los programas de bienestar social?) La psicología de la predicción intuitiva, de
hecho, es una extensión natural del dominio de la teoría de la atribución.
Lógicamente y psicológicamente, por supuesto, las tres tareas de atribución son
independientes. Explicaciones, e interpretaciones sobre los actores y entidades que figuran en
tal evento, están íntimamente relacionados. Y juntos ellos proveen las bases para la
especulación sobre la naturaleza de los eventos que son actualmente desconocidos ó
probables de exponer en el futuro. Cada tarea, sin embargo, ofrece posibilidades únicas (y
problemas únicos de interpretación y metodología; ver Ross, 1977, pp. 175-179) para revelar
las suposiciones y estrategias que son el fundamento del desenvolvimiento del científico
intuitivo. Es valioso notar que en los años recientes el uso de estimaciones y predicciones
como variables dependientes en estudios de la inferencia lega han llegado a ser
incrementadamente populares. Unas razón para este incremento en popularidad es
particularmente importante. A diferencia de los juicios causales de inferencias de disposición
que siguen a un análisis de un evento del que percibe, las estimaciones ó las predicciones
sobre nuevos ó desconocidos eventos pueden a menudo ser evaluados con respecto a su
exactitud. Los que significa, que uno puede comparar las predicciones y estimados sobre
eventos con observaciones ó medidas actuales. Esto permite la evaluación de ambas de la
relativa adecuación de la estrategia atributiva del científico intuitivo y de la dirección de
errores específicos ó prejuicios.

1
Para una más completa y sistemática explicación del paralelismo hombre lego/científico, el lector es referido a
Nisbett y Ross, 1980.
Principios lógicos de la atribución vrs. prejuicios auto servidos
110

La teoría de la atribución contemporánea ha perseguido dos distintas pero complementarias


metas. Una meta ha sido para demostrar que las evaluaciones e inferencias sociales de los
que perciben generalmente siguen los dictados de algún modelo lógico ó racional. La otra
meta ha sido para ilustrar y explicar las fuentes de perjuicios ó error que distorsionan esas
generalmente verídicas evaluaciones e inferencias. Consideraremos brevemente el así
llamado lógico ó racional esquema empleado por los psicólogos intuitivos y luego dedicar el
resto del capítulo a las fuentes de error y en sus intentos de entender, predecir y controlar los
eventos que se desarrollan alrededor de él.

Los principios de “covariación” y “descuento”. Los individuos deben, por la mayor parte,
compartir un común entendimiento de las acciones sociales, y resultados que los afectan,
porque sin tal consenso, la interacción social sería caótica, impredecible, y más allá del
control de los participantes. La introspección por la atribución de los teóricos, sostenida por
alguna evidencia de laboratorio, ha conducido a la postulación de un juego de “reglas” que
pueden generalmente ser empleadas en la interpretación de comportamientos y resultados.
Estas reglas de “sentido común” ó esquemas son análogos, en algunos aspectos, a las reglas
más formales y procedimientos que los científicos sociales y los estadísticos siguen en su
análisis e interpretación de los datos.
H. H. Kelley, E. E. Jones y sus asociados han distinguido dos causas en las cuales las
reglas lógicas, ó esquemas, puede ser aplicado. En la múltiple observación del caso el que
atribuye tiene acceso al comportamiento de los datos de la matriz de respuesta que podrían
ser representados por filas ó columnas de un Actor X Objeto X Situación (ó Instancia).
Típicamente, en este dominio de la investigación resúmenes de declaraciones son proveídos a
los participantes más que respuestas actuales. Por tanto el potencial del que atribuye aprende
que “La mayoría de aficionados al teatro como los pintores actúan”, ó “Mary no puede
resistir animales extraviados”, ó “El único programa de televisión que Ann mira son las
Obras Maestras de Teatro”. En el caso de simple observación el que atribuye debe tratar con
el comportamiento de un simple actor en una simple ocasión. Por ejemplo, él puede ver a
Sam cumplir con el requerimiento de un experimentador para enviar un doloroso susto a un
compañero, ó él puede aprender que “Louie apostó todo su dinero en un gran tiro en
Pilmico.”
Las reglas lógicas ó principios que gobiernan las atribuciones en éstos dos casos son muy
diferentes (Kelley, 1967, 1971, 1973). En el caso de la observación múltiple del que atribuye
se aplica el “principio de covariación”; que significa que, él evalúa el grado al cual loa
comportamientos ó resultados ocurren en la presencia , pero falllan en ocurrir en la ausencia,
de cada candidato causal bajo consideración. Concordantemente, quien atribuye concluye
que el juego del nuevo pintor es bueno en la medida que es gustado por una amplia de
aficionados, que significa que es gustado por individuos quienes elogian poco las obras de
teatro (por ejemplo, los críticos), y que es aplaudido tan vigorosamente en el nonagésimo día
de su carrera como en el noveno.
En el caso de la observación simple la evaluación de la estrategia del que atribuye
involucra la aplicación del “principio del descuento”, por el cual el observador social
“descuenta” el papel de cualquier candidato causal en la explicación de un evento al extremo
que las otras causas plausibles ó determinantes puedan ser identificadas. Este principio de
atribución puede ser reexpuesto nuevamente en términos de inferencias sociales más que de
atribuciones causales: Al extremo que situaciones ó factores externos constituyen una
“suficiente” explicación para un evento, ese evento es atribuido a la situación y no
lógicamente la inferencia puede ser hecha (y, presumiblemente, ninguna inferencia
empíricamente es hecha) sobre las disposiciones del actor. Inversamente, en la medida que un
acto ó resultado parece ocurrir a pesar de y no debido a la fuerzas concomitantes de la
111

situación, el evento relevante es atribuido al actor y “una inferencia correspondente” (Jones


& Davis, 1965) es hecha – lo que significa que, el que atribuye infiere la existencia e
influencia de algún trato, habilidad, intención, sentimiento ú otra disposición que podría
contar para la acción ó resultado del actor. Por lo tanto, nosotros nos resistimos a la
conclusión que Louie se precipitó a exponer en Pimlico fue un reflejo de sus atributos
estables personales al extremo que tales factores como un discutido consejo, una crisis
financiera desesperada, ó siete martinis apostados previamente pueden ser citados. Por otro
lado, nosotros juzgamos a Louie de ser un inveterado jugador arriesgado si consideramos que
su apuesta ocurrió enfrentando la amenaza de su esposa de dejarlo si él siempre pierde su
cheque de pago en el juego de nuevo, su conocimiento de que él no será capaz de pagar la
rente si él perdió, y la observación de un experto jugador escuchada por casualidad de que el
favorito en la competencia es “aún mejor que las disponibilidades del juego sugieren”.Es
valiosos notar que la aplicación de éstos dos diferentes principios coloca más bien diferentes
demandas sobre el científico intuitivo. El principio de covariación requiere del que atribuye
aplicar reglas que son esencialmente lógicas ó estadísticas en naturaleza y no demanda más
ideas sobre las características de las entidades en cuestión. Las aplicación del principio del
descuento por contraste, demanda considerables ideas sobre la naturaleza del hombre y el
impacto de tales fuerzas de situación como la necesidad financiera, consumo de alcohol y las
amenazas de una esposa de abandonarlo. En un sentido, el principio de covariación puede ser
aplicado por un ero “estadístico”, mientras que el principio del descuento requiere de un
psicólogo capaz de evaluar el papel de varias presiones sociales y fuerzas de situación y aún
a distinguir actos deliberados y resultados de los no deliberados (cf. Jones & Davis, 1965).
Evidencia concerniente al uso sistemático del sentido común de los principios de
atribución vienen primariamente de estudios de cuestionarios en los cuales los sujetos leen e
interpretan breves anécdotas sobre las respuestas de uno ó más actores a objetos
especificados ó “entidades” bajo circunstancias especificadas (por ejemplo, L. Z. McArthur,
1972, 1976). Estudios ocasionales de estrecho alcance, y resultados (por ejemplo, Jones,
Davis & Gergen, 1961; Jones & DeCharms, 1957; Jones & Harris, 1967; Strickland, 1958;
Thibaut & Riecken, 1955). Tal investigación ha demostrado que los que atribuyen pueden, y
generalmente lo hacen, hacer al menos algún uso de los principios provenientes de una
hipótesis ó reglas de dedo. Lo que las metodologías empleadas para datar han dejado
ambiguo es el grado de la exactitud de la persona lega y la magnitud y dirección de sus
errores.

Auto-servir prejuicios de motivación en la atribución. En la especulación sobre posibles


distorsiones en un sistema si no de atribución lógica, los teóricos estuvieron prontos a
postular prejuicios del “yo-defensivo” a través del cual los que atribuyen mantuvieron ó
realzaron su auto-estima ú opinión positiva de sus específicas disposiciones y habilidades
(Heider, 1958; Jones & Davis, 1965; Kelly, 1967). Intentos de probar la existencia de tal
prejuicio de motivación han generalmente involucrado demostraciones de asimetría en la
atribución de resultados positivos y negativos – específicamente, una tendencia de los actores
de atribuir “éxitos” a sus propios esfuerzos, habilidades ó disposiciones los cuales atribuyen
“falla” a la suerte, dificultad de tarea ú otros factores externos. Realización de tareas (por
ejemplo, Davis & Davis, 1972; Feather, 1969; Fitch, 1970; Wolosin, Sheran & Till, 1973) y
desempeño de la enseñanza (por ejemplo, Beckman, 1970; Freize & Weiner, 1971; Johnson,
Feigenbaum & Weiby, 1964) han proveído la mayoría de la evidencia para ésta asimetría.
También ha sido mostrado que los actores pueden dar de sí mismos más crédito por los éxitos
y menos reproches por sus fallas que los observadores evaluando los mismos resultados
(Beckman, 1970; Gross, 1966; Polefka, 1965).
112

Críticos escépticos de amplios prejuicios de motivación, sin embargo, han experimentado


poca dificultad en montar retos a tal investigación (ver Miller & Ross, 1975; también Nisbett
& Ross, 1980, Cap. 10, para detalladas discusiones). El más contado argumento contra la
investigación pretendiendo mostrar prejuicios de motivación es la obvia distinción entre las
privadas percepciones de los sujetos y sus juicios públicos. Uno puede fácilmente crear
situaciones donde una persona públicamente negará (ó demandará) responsabilidad por un
evento que él ha aceptado privadamente (ó no lo acepta) como su responsabilidad. Mientras
éstos juicios públicos pueden ser de auto-servir en el sentido de preservar la imagen pública
de uno, ellos no implican la operación de prejuicios del yo-defensivo en el sentido de
preservar la imagen privada de uno (Miller, 1978).
Además, las asimetrías en las atribuciones privadas (disponible para los investigadores)
de éxitos y fallas, y las diferencias en los juicios de los actores y de los observadores pueden
reflejar otra fuente no-motivacional de prejuicio. Como varios investigadores han notado, los
éxitos, al menos en situaciones de prueba, es probable de ser anticipada y congruente con las
experiencias pasadas del actor, mientras que la falla puede ser no anticipada e inusual.
Similarmente, resultados exitosos son planeados y son el objeto de planes y acciones por el
actor, mientras que las fallas no son eventos no planeados que ocurren a pesar de los planes y
esfuerzos del actor. Los observadores, además, raramente están plenamente conscientes de
las experiencias pasadas ó de expectativas presentes e intenciones de los actores cuyos
resultados ellos observan.
Retos a la existencia de penetrantes prejuicios del yo-defensivo han sido empíricos así
como conceptuales. Por tanto, en algunos estudios los sujetos parecen mostrar prejuicios
“contra-defensivos”, ó atenuantes de estimación. Por ejemplo, Ross, Bierbrauer y Polly
(1974), usando un inusualmente auténtico paradigma de instructor-aprendiz, encontraron que
los instructores califican sus propios desempeños y habilidades como las más importantes
determinantes de falla que de éxito. Inversamente, los instructores clasifican los esfuerzos y
habilidades de sus aprendices como las más críticas determinantes de éxito que de falla. En el
mismo estudio éstas tendencias de atribución aparentemente contra-defensivas probaron ser
aún más pronunciadas entre profesores profesionales que entre no graduados inexpertos, un
resultado que contradice la obvia derivación de la teoría del yo-defensivo que aquellos más
directamente amenazados por la experiencia de falla deberían ser más defensivos.
Investigadores quienes insisten que los prejuicios de motivación de auto-servir existen
pueden, por supuesto, proveer interpretaciones alternativas de estudios que parecen no
mostrar prejuicios de motivación ó prejuicios contra-defensivos (cf. Bradley, 1978).
Ciertamente, en muchos respectos el debate entre proponentes y escépticos ha venido a ser
una reminiscencia de anteriores y más amplios debates en la teoría de aprendizaje y
percepción básica en los cuales la prosperidad de la investigación para un experimento
“decisivo” sobre el asunto de influencias de motivación (por ejemplo, uno que no podría ser
interpretado por el “otro lado”) viene a ser siempre más aparente que los datos multiplicados
y el análisis conceptual agudizado.
Una respuesta a este estado de asuntos ha sido abandonar construcciones de motivación
temporalmente y concentrarse en aquellos factores no motivacionales (por ejemplo, factores
de información, de percepción y cognitivos) que influencian y potencialmente distorsionan
los juicios de atribución. Más allá de las dificultades de concepto existentes, resultados
mezclados empíricamente y lecciones históricas que desaniman a los investigadores que
investigarían por abarcar prejuicios de motivación, existen dos razones adicionales para el
cambio contemporáneo. Primero, existe una convicción creciente de que una apreciación
completa de influencias no motivacionales podrían conducirnos a entender y anticipar
aquellas circunstancias en las cuales las atribuciones de responsabilidad son probables de
incrementar la auto-estima del que atribuye y aquellas en las cuales tales atribuciones son
113

probables de atenuar su auto-estima (cf. Miller & Ross, 1975). Segundo, existe el creciente
reconocimiento de que las atribuciones exactas generalmente son aptas de ser más “auto-
servicio” que las inexactas – lo que significa, que las distorsiones del juicio causal son aptas
para dejar el organismo mal preparado para la tarea de supervivencia a largo plazo, como
quiera agradable las consecuencias inmediatas de ciertas percepciones inexactas e influencias
pueden darse.
El resto de este capítulo trata con un limitado número de tales prejuicios no
motivacionales (ver Nisbett & Ross, 1980, para una más completa revisión). El también
discute un fenómeno general que incrementa los “costos” de tales prejuicios – la tendencia
por impresiones erróneas, juicios y aún más amplias teorías para supervivir en frente de
datos lógicamente poderosos que contradicen éstas creencias. Reconozcamos desde el
principio, sin embargo, que los errores y prejuicios con que tratan no son inexplicables
perversidades por parte del científico intuitivo. Típicamente, ellos reflejan la operación de
mecanismos y estrategias que sirven al organismo razonablemente bien en muchas
circunstancias; de otra forma ellos seguramente no sobreviven el aprendizaje de la historia
del individuo ó la historia de la evolución de las especies. Estos errores y prejuicios pueden
perfectamente ser considerados como “dominio específico” de fallas de estrategias
inferenciales y tácticas que son al menos eficientes en costo (y probablemente generalmente
muy exactas también) en la experiencia completa del organismo.

Prejuicios de atribución no-motivacionales

El error fundamental de la atribución

El primero identificado (Heider, 1958) y más frecuentemente citado prejuicio no-


motivacional, uno que denominaremos el error fundamental de la atribución, es la tendencia
de los que atribuyen a subestimar el impacto de factores situacionales y a subestimar el papel
de los factores disposicionales en controlar el comportamiento. Como los psicólogos
“intuitivos”, parecemos muy a menudo ser nativistas, ó proponentes de diferencias
individuales, y muy raramente S – R conductistas. Nosotros también rápidamente inferimos
amplias disposiciones personales y esperamos consistencia en el comportamiento ó
resultados a través de situaciones y contextos ampliamente dispares. Saltamos rápidamente a
conclusiones sobre atestiguar el comportamiento de nuestros compañeros, ignorando el
impacto de relevantes fuerzas y restricciones ambientales.

Evidencia general del error fundamental de la atribución. Más allá de anécdotas y


apelaciones a la experiencia, la evidencia más frecuentemente citada por este prejuicio
general (por ejemplo, Jones & Nisbett, 1971; Kelley, 1971) involucra la aparente disposición
del que atribuye a sacar inferencias personales “correspondentes” sobre actores que han
respondido a las presiones situacionales muy obvias . Por ejemplo, Jones & Harris (1967)
encontraron que los escuchas asumieron alguna correspondencia entre las observaciones de
los comunicadores pro-Castro y las privadas opiniones aún cuando éstos escuchas sabían que
los comunicadores estaban obedeciendo el requerimiento explícito del experimentador bajo
condiciones obligadas.
Un tipo más directo de evidencias que los observadores ignoran ó subestiman las fuerzas
situacionales ha sido proveído por Bierbrauer (1973), quién estudió impresiones de los
sujetos de las fuerzas operando en la clásica situación Milgram (1963). En el estudio de
Bierbrauer, los participantes atestiguaron una literal representación de la “obediencia” de un
sujeto a tal punto de enviar el máximo shock a la supuesta víctima. Sin importar el tipo y
cantidad de retrazo antes de juzgar, sin importar si ellos actualmente jugaron el papel de un
114

sujeto en la representación ó meramente observaron, los participantes de Bierbrauer


mostraron el error fundamental de la atribución; que significa que, ellos consistentemente y
dramáticamente subestimaron el grado al cual los sujetos en general producirían a aquellas
fuerzas situacionales que obligan a la obediencia en la situación Milgram (ver Figura 1). En
otras palabras, ellos asumieron que la obediencia particular del sujeto reflejó sus distinguidas
disposiciones personales más que la potencia de las presiones y restricciones situacionales
sobre todos los sujetos.

El caso especial del papel que confirió ventajas en la auto presentación. La tendencia de los
observadores sociales a subestimar la potencia de las fuerzas y restricciones situacionales y a
sobreestimar el papel de las disposiciones individuales ha pesado grandemente en la
estrategia, análisis conceptuales y aún en los debates profesionales de psicología social
contemporánea (ver Nisbett y Ross, 1980; Ross, 1977). Ciertos casos especiales de este
fundamental error de la atribución para enfocar nuestra atención sobre procesos mediáticos y
más específicas fallas del psicólogo intuitivo. Un experimento de Ross, Amabile y Steimetz
(1977), tratando con evaluaciones hechas sobre actores que tuvieron papel de ventaja ó papel
de desventaja (por asignación aleatoria), es el punto del caso. Los papeles particulares
tratados por Ross et. al., fueron aquellos del interrogador y el concursante en un juego de
prueba corta en conocimiento general. El papel del interrogador obligó al sujeto a componer
un juego de preguntas desafiantes sobre conocimiento general, para formular éstas preguntas
al concursante, y proveer un exacto aprovechamiento de información después de cada
respuesta del concursante. El papel del concursante fue restringido a responder ó intentar
responder, las preguntas relevantes. Ambos de éstos participantes (y, en una subsecuente
representación, también los observadores) fueron luego requeridos a clasificar el
conocimiento general del interrogador y del concursante.

Insertar aquí la Figura 1 de la página 137 del texto original

Figura 1. Comparación de las clasificaciones predichas y actuales de desobediencia.

La arbitraria asignación y cumplimiento de éstos papeles, que debería ser aparente, forzó
a los participantes y observadores a tratar con evidentemente “muestras” no-representativas ó
de prejuicio del conocimiento de los interrogadores y concursantes. El papel de los
interrogadores y de los concursantes los animó a desplegar el conocimiento esotérico y
garantizó que ellos evitarían áreas de ignorancia; a los concursantes se les denegó tales
ventajas en la auto-presentación. Ciertamente, no hubo virtualmente ambigüedad sobre la
arbitrariedad sobre el papel de la asignación ó sobre las prerrogativas divergentes asociadas
con cada papel, distinto a muchas situaciones del mundo real en las cuales los papeles
sociales similarmente confieren ventajas y desventajas en la auto-presentación. A pesar de
eso, el desigual concurso entre interrogadores y concursantes condujo a consistentemente
impresiones de prejuicio y erróneas. Los participantes, en un sentido, simplemente fallaron al
hacer adecuadas concesiones para la calidad de situación de ventajas ó desventajas conferidas
de los papeles relevantes. Por lo tanto, los concursantes clasificaron a sus interrogadores
como muy superiores a sí mismos y los observadores involucrados claramente estuvieron de
acuerdo (ver Figura 2). Los observadores, armados con el conocimiento de que ellos no
podrían más contestar las preguntas esotéricas planteadas que podrían los concursantes,
reconocieron que los concursantes no fueron deficientes en su conocimiento general. Lo que
concluyeron los observadores, en su lugar, fue que los interrogadores fueron verdaderamente
sobresalientes en su conocimiento general. Interesantemente, los interrogadores no fueron
por sí mismos equivocados por su encuentro. Una apreciación de este hecho cambia nuestro
115

enfoque de una existencia general del error fundamental de la atribución, y el impacto


específico de los papeles sociales, a las “muestras de datos” particulares sobre los cuales los
varios participantes se apoyaron en sus inferencias. A diferencia de los concursantes y de los
observadores, los interrogadores no fueron en ningún caso forzados a apoyarse
exclusivamente sobre muestras “prejuiciadas” del conocimiento general. Presumiblemente,
ellos tenían un gran arreglo de evidencia adicional sobre la extensión y limitaciones de su
propio conocimiento general y sobre la no representatividad de los detalles esotéricos de la
información que ellos expusieron en sus preguntas: consecuentemente, ellos clasificaron por
sí mismos a ambos y los concursantes como un “promedio”.

Insertar aquí la Figura 2 de la página 138 del texto original.

Figura 2. Valoración del conocimiento general de los interrogadores y concursantes.

Ambas implicaciones la social y la teórica de la demostración de Ross, Amabile y


Steinmetz deberían de ser claras. El nos impulsó a considerar los incontables contextos
sociales en los cuales los papeles formales ó informales restringen los encuentros
interpersonales y, en hacerlo, prejuician las impresiones de los participantes – aún al punto de
parecer justificar las prerrogativas y limitaciones que son impuestas por los papeles
ventajosos y desventajosos. El también nos impulsó a enfocarnos en una de las fallas
específicas del científico intuitivo – su aparente insensitividad al limitado valor inferencial de
datos prejuiciados de las muestras (ver también Hamill, Wilson & Nisbett, 1980; Nisbett &
Ross, 1980, Cap. 4).

Prominencia ó disponibilidad de prejuicios

Tal vez el área energéticamente más investigada de prejuicio de atribución ha sido la que
envuelve los efectos de atención y de los factores de percepción y cognitivos que median la
atención. Brevemente establecido, parece que dondequiera que algún aspecto del medio
ambiente es hecho desproporcionadamente saliente ó “disponible” al que lo percibe (cf.
Tversky & Kahneman, 1973, 11) a ese aspecto le es dado más peso en la atribución causal.
Por lo tanto, cuando un actor es hecho virtualmente saliente debido a un único estado racial ó
sexual dentro de un gran grupo (Taylor et al., 1976), debido a una notable característica de
apariencia ó vestido (McArthur & Post, 1977; McArthur & Soloman, 1978), debido a un
juego de instrucción (Regan & Totten, 1975), ó aún debido a arreglos de colocación ú otras
determinantes de perspectiva visual (por ejemplo, Storms, 1973; Taylor & Fiske, 1975), a ese
actor le es asignada una desproporcionada responsabilidad por cualquier resultado al cual él
ó ella contribuyen (ver Taylor & Fiske, 1978, para una más completa revisión). Ciertamente,
un número de estudios desde la teoría de la “auto-conciencia!” (Duval & Wicklund, 1972;
Wicklund, 1975) han mostrado que las percepciones de los actores de sus propios papeles
causales pueden ser similarmente ser influenciados por simples manipulaciones que dirigen
su atención hacia ó lejos del yo como un objeto social (por ejemplo, Duval & Hensley, 1976;
Ellis & Holmes, 1979).
Reconocimiento ó entendimiento de cómo factores de prominencia ó disponibilidad
afectan los procesos de atribución pueden ayudarnos a entender mejor las bases de muchos
prejuicios familiares de atribución y de inferencia, talvez aún incluyéndolos como casos
especiales. El error fundamental de atribución, por ejemplo, puede importantemente reflejar
el hecho de que los actores son simplemente más salientes que las características del medio
ambiente y por consiguiente son más probables de ser notados en la investigación inicial del
que atribuye por candidatos causales. Ciertamente, cuando los factores situacionales y
116

restricciones son hechos desproporcionadamente salientes al que atribuye, podríamos esperar


errores de atribución que parecen ser opuestos al así llamado error fundamental. Por lo tanto,
un supervisor puede ser conducido a incorrectamente atribuir un desenvolvimiento valioso de
un trabajador a un factor externo – que significa, la vigilancia del supervisor – cuando esos
factores son hechos altamente salientes (ver Strickland, 1958). Por la misma señal, el interés
intrínseco de un actor en una tarea dada puede ser indeterminado (por ejemplo, Deci, 1971;
Lepper & Greene, 1975, 1978; Lepper, Greene & Nisbett, 1973) si ese actor es conducido a
focalizar la atención en un incentivo externo ó restricción que aparentemente lo estimule,
pero, de hecho, no es necesario estimular la ejecución en esa tarea.
Considere también la generalización empírica de Jones y Nisbett (1971) que actores ,
contando para su comportamiento, son relativamente más inclinados a citar factores
situacionales y menos inclinados a citar factores de disposición que son observadores de tal
comportamiento. Al extremo que actores y observadores muestran diferencias
correspondientes en su foco de atención – que significa, que los actores atienden a
características relevantes de su medio ambiente mientras que los observadores focalizan su
atención en los actores en sí mismos – la generalización de Jones y Nisbett llega a ser un caso
especial de atención / generalización de la atribución. Ciertamente, la evidencia experimental
sugiere que por manipulación del foco de atención, ó perspectiva, de los actores y
observadores, sus tendencias a citar causas de situación versus causas de disposición pueden
igualmente ser manipulados (por ejemplo, Storms, 1973; Taylor & Fiske, 1975).
Finalmente, permítasenos considerar una falla de inferencia notada por ese astuto
detective / psicólogo de ficción – la tendencia a ignorar el valor de ingerencia de las no-
ocurrencias. Tales no-ocurrencias informativas son eventos ó acciones que no han ocurrido
en algún contexto, los cuales por no ocurrir de ese modo contienen potencialmente
importante información (cf. Ross, 1977). La relevancia especial de la relativamente baja
disponibilidad cognitiva de las no-ocurrencias deberían ser claras. Cuando uno investiga ó
considera candidatos causales, las no-ocurrencias son improbables de ser altamente salientes
ó apropiadamente atendidas; concordantemente, uno no es apto para darles suficiente peso en
contabilizar para acciones observadas y resultados. Jill es más probable que atribuya la cólera
de Jack a algo que ella ha “hecho” que a algo que ella ha fallado en hacer, simplemente
porque la anterior es más apta de ser más saliente a ella que la última. Ciertamente,
asumiendo que los pecados de omisión son aptos de ser menos salientes que los pecados de
comisión, Jack está apto para cometer el mismo error en contabilizar por su propia cólera.

El falso consenso ó el prejuicio de atribución egocéntrico

El prejuicio no de motivación, ó “de información”, a ser considerado en este capítulo


relaciona a los estimados de consenso social de la gente – la frecuencia ó singularidad
percibida de las varias respuestas que ellos atestiguaron. A diferencia de los psicólogos
profesionales, quienes se apoyan en bien definidas técnicas de muestreo y procedimientos
estadísticos para hacer tales estimados, la persona lega debe apoyarse sobre intuiciones e
impresiones subjetivas basadas sobre un limitado acceso a datos relevantes. Las posibilidades
de un prejuicio con tales estimados, y en las varias inferencias sociales ó atribuciones que
reflejan tales estimados, son por lo tanto una legión. El prejuicio específico de atribución que
nosotros consideraremos aquí concierne a la tendencia de la gente a percibir un “falso
consenso” – que significa, ver sus propias escogencias de comportamiento y juicios como
relativamente comunes y apropiadas a las circunstancias existentes mientras visualizan
respuestas alternativas como no comunes, extravagantes e inapropiadas.
Referencias a la “atribución egocéntrica” (Heider, 1958; Jones y Nisbett, 1971), a la
“proyección atributiva” (Holmes, 1968), y a descubrimientos específicos y fenómenos
117

relacionados a prejuicios de falso consenso han aparecido esporádicamente en las literaturas


de percepción social y atribución (cf. Katz & Allport, 1931; Kelly & Stahelski, 1970). Talvez
la más apremiante evidencia, sin embargo, ha sido proveída en una serie de estudios por
Ross, Greene y House (1977).
En el primer estudio reportado, los sujetos leyeron descripciones de situaciones de
conflicto hipotéticas del tipo que ellos personalmente podrían encarar y fueron para (a)
estimar la frecuencia de las dos posibles respuestas alternativas; (b) indicar la alternativa que
ellos, personalmente, seguirían; (c) evaluar las características del “típico” individuo que
seguiría cada una de las dos alternativas específicas.
Los estimados y clasificaciones demostraron el efecto de el “falso consenso”; los sujetos
estimaron que la alternativa que ellos escogieron sería relativamente más común que la
alternativa no escogida. Un obvio corolario a la proposición del falso consenso es que el
psicólogo intuitivo juzga aquellas respuestas que difieren de la suya propia ser más
reveladora de las disposiciones estables de los actores que aquellas respuestas que son
similares a la suya propia. Los datos de Ross, Greene y House (1977) soportan ésta
predicción; los sujetos hechos relativamente más confiados y las predicciones extremas sobre
la persona típica que ejecutaría la alternativa no escogida por el sujeto que sobre la persona
típica que ejecutaría la alternativa escogida por el sujeto.
El término relativo es crítico en ésta formulación del prejuicio del falso consenso y
requiere de alguna clarificación. Obviamente, el hombre que caminaría sobre una cuerda
estirada entre dos rascacielos, lanza una revolución, ó escoge una vida de celibato clerical
reconoce que su elección sería compartida por pocos de sus compañeros. El prejuicio del
falso consenso, sin embargo, lo conduciría a ver su elección personal como menos
extravagante que lo que ellos nos parecerían a nosotros quienes no caminaríamos sobre
cuerdas estiradas, lanzaríamos una revolución ó llegaríamos a ser clérigos célibes.
Similarmente, la presente tesis concede que para algunas categorías de respuesta virtualmente
todos los estimados de los clasificadores pueden ser prejuiciados en la misma dirección. La
incidencia del abuso infantil, por ejemplo, podría ser subestimada por abuso y no-abuso de
los padres igualmente. Los términos relativos de la hipótesis del falso consenso conducen
solamente a la predicción de que el abuso de los padres estima el abuso infantil ser más
común y menos revelador de las disposiciones personales que lo será el no abuso de los
padres.
En una final demostración por Ross y House (1977) la metodología del cuestionario
hipotético fue abandonada y los sujetos fueron confrontados con un situación de conflicto
real y consecuencial. Los sujetos fueron requeridos a caminar alrededor del campus
universitario por 30 minutos portando una gran pancarta con el siguiente mensaje “COMA
EN LO DE JOE”. El experimentador dejó claro a los sujetos que ellos podían fácilmente
rehusarse a participar en el estudio de la pancarta pero que él preferiría que participaran y de
ese modo “aprender algo interesante mientras ayudan al proyecto de investigación”. Los
sujetos fueron subsecuentemente requeridos a tomar su propia decisión sobre tomar parte en
el estudio, para estimar las decisiones probables de otros, y a hacer inferencias características
sobre compañeros particulares quienes concuerdan ó se rehusan a participar.
Los resultados de usar ésta situación “real“ de conflicto (Tabla 1) confirmó los
descubrimientos de estudios de cuestionarios anteriores tratando con respuestas hipotéticas.
En general, los sujetos que concordaron en llevar la pancarta estimaron que el 62% de sus
compañeros harían la misma selección. Los sujetos que se rehusaron a portar la pancarta
estimaron que solo un 33% de sus compañeros cumplirían con el requerimiento del
experimentador. Además, como se predijo, el cumplimiento y el no-cumplimiento de
los
118

sujetos están en desacuerdo grandemente en la relativa fortaleza de las inferencias que ellos
estuvieron dispuestos a hacer sobre un compañero que está de acuerdo y uno que se rehusó a
portar la pancarta. Los sujetos que obedecieron hicieron inferencias más confiables y más
extremas sobre las características personales del compañero que no obedeció; los sujetos que
no obedecieron hicieron inferencias más fuertes sobre el compañero obediente.
Algunas amplias implicaciones de las demostraciones de Ross, Greene y House (1977)
para nuestra concepción del psicólogo intuitivo deberían estar claras. Estimados legos de la
extravagancia y normalidad y el montón de ideas de inferencias sociales y las respuestas
interpersonales que acompañan tales estimados, son sistemáticamente y egocéntricamente
prejuiciados de acuerdo con la propias selecciones de comportamiento de la persona lega.
Más generalmente, es aparente que los análisis de atribución pueden ser distorsionados no
solo por errores en el eventual análisis de los datos sociales del psicólogo intuitivo sino
también por prejuicios anteriores en el muestreo ó estimación de tales datos.
Varios factores no de motivación parecen jugar un papel en producir falsos fenómenos de
conciencia. Lo principal entre éstos son (a) factores selectivos de exposición y
disponibilidad, y (b) factores pertenecientes a la resolución de ambigüedad situacional.
Factores de exposición selectiva sirviendo de falso consenso son justamente claras.
Obviamente, los conocemos y asociamos con la gente que comparte nuestro conocimiento,
experiencias, intereses, valores y punto de vista. Tales gentes lo hacen, en números
desproporcionados, responden como nosotros como nosotros lo haríamos en una amplia
variedad de circunstancias. Ciertamente, nuestra cercana asociación está determinada, en
parte, por sentimientos de consenso general, y podemos estar inclinados a evitar aquellos de
quienes creemos improbables de compartir nuestros juicios y respuestas. Esta exposicición a
una muestra prejuiciada de gente y comportamiento no demanda que nosotros erremos en
nuestros estimados concernientes a las poblaciones relevantes, pero el comete tales errores
probablemente. Más sutiles y más cognitivos en carácter son los factores que incrementan
nuestra habilidad para recordar, visualizar ó imaginar instancias paradigmáticas del
comportamiento. En una situación dada los comportamientos específicos que nosotros hemos
escogido ó podríamos escoger son probables de ser más fácilmente recuperables de la
memoria y más fácilmente imaginados que los comportamientos opuestos. En términos de
Kahneman y Tversky (1973, 4), las selecciones de comportamientos que favorecemos pueden
ser más cognitivamente “disponibles”, y nosotros estamos aptos para ser engañados por este
caso ó dificultad de acceso en estimar la probabilidad de las opciones relevantes del
comportamiento.

Insertar en la página siguiente la Tabla 1 de la página 142 del texto original

Una segunda fuente de no motivación del efecto del falso consenso surge de la respuesta
del psicólogo intuitivo a la ambigüedad - ambos sobre la naturaleza y magnitud de las
fuerzas situacionales y sobre el significado e implicaciones de varias respuestas alternativas.
Los intentos por resolver tal ambigüedad involucran interpretación, estimación y trabajo de
adivinación, todos los cuales pueden ejercer un efecto paralelo sobre el comportamiento de
las selecciones del propio sujeto que atribuye y sobre sus predicciones e inferencias sobre las
selecciones de otros. Por lo tanto, los sujetos que anticiparon y temieron el ridículo de los
compañeros por portar la pancarta “COMA EN JOE’S” y quienes consideraron los deseos y
expectativas de los experimentadores como triviales fueron probables a rehusarse a portar la
pancarta, para asumir similares negativas de sus compañeros, y para sacar fuertes inferencias
sobre las características de cualquier sujeto que escoja portar la pancarta. Prioridades
119

opuestas, por supuesto, habrían producido selecciones personales opuestas y estimados


sociales e inferencias opuestas.
En resumen, en el prejuicio del falso consenso ambos reflejan y crean distorsiones en el
proceso de atribución. Resulta del muestreo no-aleatorio y la recuperación de evidencia y de
la resolución ideosincrásica de factores y fuerzas situacionales ambiguas. A su vez, el
prejuzga juicios sobre desviado y desviar y, mas generalmente, promueve desviado y error
en la interpretación de los fenómenos sociales.

Perseverancia en el creer al enfrentar desafíos empíricos

Las varias fallas del psicólogo intuitivo – aquellas descritas en este capítulo y otra parte (ver
Nisbett & Ross, 1980) – pueden conducirlo a sostener creencias sobre sí miso, sobre otra
gente, ó aún sobre la naturaleza del mundo social, que son prematuras y en muchos casos
erróneas. Mientras ellas permanecen en privado y no actúen sobre tales creencias pueden
parecer inconsecuentes – meramente tentativas en naturaleza y ajustables al nuevo insumo.
Un incremento gradual del cuerpo de la teoría y de la investigación, sin embargo, pueden
ahora ser ordenadas para sugerir lo contrario.
Parece que las creencias – de relativamente estrechas impresiones naturales de las más
amplias teorías sociales – son extraordinariamente elásticas al frente de desafíos que parecen
lógicamente devastadores. Dos paradigmas ilustran ésta elasticidad. La primera involucra la
capacidad de creer para sobrevivir y aún ser fortalecida por los nuevos datos, los cuales desde
un punto de vista formativo, conduciría a la moderación de tales creencias. El segundo
involucra a la supervivencia de las creencias después sus de evidencia originales han sido
negadas.

Perseverancia de la creencia y polarización al frente de los nuevos datos

Individuos, facciones sociales, grupos de interés, y aún naciones a menudo sostienen


diferentes creencias sobre asuntos de presión social ó política. Tales divergencias de opinión
son apenas sorprendentes. Dadas la informal y frecuentemente intuitivas bases sobre las
cuales tales opiniones son formuladas, y dado el papel que las comunicaciones sociales (a
menudo grandemente prejuiciadas) juegan en formar nuestras creencias, desacuerdos
honestos son inevitables. Pero, qué pasa cuando a los poseedores de puntos de vista
diferentes se les permite examinar la evidencia relevante – especialmente cuando esa
evidencia es relativamente formal en naturaleza y es idéntica para todos los partidos
relacionados?
Una expectativa optimista es que las facciones contendientes estrecharían el vacío entre
sus creencias. Esta estrechez podría consistir de cambios hacia posición justificada por la
evidencia relevante, si tal evidencia fuera consistente e impuesta; alternativamente, ella
podría consistir en cambios hacia una mayor moderación ó tolerancia mutua, si la evidencia
relevante fuera mezclada ó inconclusa. Una menor expectativa optimista es que las facciones
contendientes permanecerían inmovilizadas; lo que significa, que ellos harían caso omiso de
la nueva evidencia y se apoyarían rápido en sus posiciones originales. Un reciente
experimento de Lord, Lepper y Ross, (1979) sugiere un aún más descorazonador resultado
(descorazonador, al menos, para aquellos que esperan ó suponen los datos objetivos del
científico social amortigüen los fuegos de la disputa social).
120

Lord et al. (1979) primero seleccionaron sujetos ya sea apoyaron la pena capital y la
creyeron ser un efectivo disuasivo (proponentes) ó se opusieron a la pena capital y la
creyeron no ser un disuasivo (oponentes). A los sujetos se les presentó, en un diseño contra-
balanceado, con dos significativamente auténticos estudios empíricos. Uno aparentemente
proveyó apoyo empírico para su posición; el otro aparentemente se opuso a esa posición. En
puntos estratégicos en la lectura de éstos dos estudios, los dos grupos completaron las
clasificaciones tratando ambos con sus evaluaciones de los dos estudios y con sus propios
cambios en actitudes y creencias. Estas clasificaciones dramáticamente revelaron la
capacidad de los sostenedores de la teoría para interpretar nueva evidencia de una manera
que fortalece y sostiene sus teorías. Primero, ambos proponentes y opositores a la pena
capital consistentemente clasificaron el estudio que apoyaba sus creencias como “más
convincente” ó “mejor conducido”que el estudio que se oponía a esas creencias. Segundo, y
en contraste con cualquier estrategia normativa imaginable para incorporar nueva evidencia
relevante a las creencias de uno, el efecto neto de leer los dos estudios fue para polarizar más
las creencias de los oponentes y de los proponentes de la pena de muerte. La manera en la
cual ésta polarización ocurrió fue particularmente iluminadora (ver Figura 3). Sobre la lectura
de una breve declaración de un resultado que apoyó su propio punto de vista, las creencias de
los sujetos vino a ser considerablemente más extrema; éstos cambios fueron mantenidos ó
incrementados cuando los sujetos consideraron los detalles sobre el procedimiento y los
datos. En contraste, sobre la lectura de una breve declaración del resultado que se oponía a su
propio punto de vista, los sujetos vinieron a ser solo ligeramente extremos; y sobre la lectura
de los detalles relevantes concernientes a los procedimientos y los datos los sujetos tendieron
a revertir las creencias que ellos habían sostenido antes siempre aprendiendo de la existencia
del estudio. De hecho, muchos sujetos individuales quienes habían leído ambos el resumen
de resultados y los detalles de procedimiento de un estudio que se oponía a su creencia
ultimadamente vinieron a estar más convencidos de la corrección de esa creencia! Tales
efectos no ocurrieron cuando los mismos resultados y procedimientos fueron leídos por
sujetos cuyas opiniones iniciales fueron apoyadas.
Obviamente, los científicos profesionales frecuentemente son culpables de la misma
ofensa como los intuitivos. Una y otra vez ven facciones contendientes que están
involucradas en disputas de escolaridad – ya sea que ellos involucren los orígenes del
universo, la línea de ascendencia homínida, ó la existencia de prejuicios de atribución
defensivos – sacan apoyo para sus divergentes opiniones del mismo cuerpo de
descubrimientos. Más adelante en este capítulo consideraremos los procesos subrayando tales
fenómenos en más detalle y comentaremos específicamente sobre el estatus normativo de la
disposición del científico a procesar la evidencia a la luz de sus teorías y expectativas
existentes. Primero es necesario considerar una segunda clase general de perseverancia de los
fenómenos.

Insertar aquí la Figura 3 de la página 146 del texto original.

Figura 3. Panel superior: Cambios de actitud sobre la pena capital relativos al inicio
del experimento como fue reportado a través del tiempo por los sujetos que recibieron
el estudio pro-disuasivo primero. Panel inferior: Cambios de actitud sobre la pena
capital relativos al inicio del experimento como fue reportado a través del tiempo por
los sujetos que recibieron el estudio anti-disuasivo primero.

Perseverancia de la creencia después de desacreditar la evidencia


121

El procedimiento empleado por Ross et al., (1975) fue muy directo. Los sujetos primero
recibieron continuas falsas experiencias de cómo ellos ejecutaron una tarea de novela de
discriminación (por ejemplo, distinguir notas de un auténtico suicida de unas ficticias). En el
primer experimento reportado este procedimiento fue usado para manipular las percepciones
de los sujetos de su propio desenvolvimiento y habilidad. Un segundo experimento introdujo
observadores, quienes formaron impresiones sociales al tiempo que atestiguaron la
manipulación de la falsa experiencia. En ambos experimentos después que esta manipulación
de las primeras impresiones había sido completada, el experimentador totalmente desacreditó
la “evidencia” sobre la cual las impresiones de los actores ú observadores había sido basada.
Específicamente, el actor (sorprendido en el experimento 2 por el observador) recibió una
sesión standard de interrogatorio en la cual él aprendió que su resultado putativo había sido
predeterminado y que su experiencia no había sido totalmente relacionada al
desenvolvimiento actual. Antes de que medidas de variables dependientes fueran
introducidas, de hecho, cada sujeto fue conducido a explícitamente reconocer su
entendimiento de la naturaleza y propósito de la decepción experimental.
Siguiendo este total descrédito de la información original, los sujetos completaron un
cuestionario de variable dependiente tratando con los desenvolvimientos y habilidades de los
actores. La evidencia por la perseverancia de la impresión post-interrogatorio fue
inequívoca

Tabla 2. Percepciones post-interrogatorio del desenvolvimiento y habilidad del actor


Percepciones del observador
Percepciones propias del actor del actor
_____________________________ ____________________________
Éxito Falla t Éxito Falla t
Estimado inicial del
número correcto 18.33 12.33 5.91*** 19.00 12.42 4.43***
Futuro predicho
del número correcto 18.33 14.25 4.23*** 19.08 14.50 2.68*
Habilidad clasificada
en la tarea 5.00 3.83 2.65* 5.33 4.00 3.36**
*p < .05. **p < .01. ***p < .001.
Fuente: Resumido del Experimento 2 de Ross, Lepper & Hubbard (1975).

para los actores y observadores también. Sobre virtualmente cada medida (por ejemplo,
objetivo de la ejecución completada por el actor, estimados de ejecución de un futuro juego
de problemas de discriminación, y estimados subjetivos de las habilidades del actor) el
resultado inicial totalmente desacreditado de la manipulación produjo significativos efectos
“residuales” sobre las evaluaciones de los actores y observadores (ver Tabla 2.).
Siguiendo los experimentos desde entonces mostraron que una variedad de infundadas
impresiones personales, una vez inducidas por procedimientos experimentales, pueden
sobrevivir una variedad de procedimientos totalmente desacreditados. Por ejemplo, Jennings,
Lepper y Ross (1980) han demostrado que las impresiones de los sujetos de su habilidad en
la persuasión interpersonal (teniendo ellos éxito ó falla para convencer a un aliado a donar
sangre) pueden persistir después que ellos han aprendido que el resultado inicial fue
totalmente auténtico. Similarmente, en dos experimentos relacionados Lepper, Ross y Lau
(1979) han mostrado que las impresiones erróneas de los estudiantes de sus “habilidades para
resolver problemas de lógica” (y sus selecciones académicas en una continuación de la
medida dos meses después) perseveraron aún después que ellos habían aprendido que los
122

procedimientos buenos ó pobres de enseñanza proveyeron una totalmente suficiente


explicación para el éxito ó fracaso que fueron las bases para tales impresiones.

Perseverancia post-interrogatorio de las teorías desacreditadas. Unas recientes series de


experimentos por Anderson, Lepper y Ross (1980) han extendido el dominio de las
demostraciones de perseverancia de las impresiones personales a más extensas creencias
sobre el mundo. Los estudios de Anderson et al., primero manipulados y luego intentados
para socavar las teorías de los sujetos sobre la relación funcional entre las dos variables
medidas: sobre la adecuación del desenvolvimiento profesional de los bomberos y sus
anteriores punteos en una prueba de papel y lápiz de la preferencia de riesgo. En una
particularmente variación pertinente, la evidencia formativa consistió de solo un par de casos
específicos – por ejemplo, un bombero exitoso y uno no exitoso con apropiadamente punteos
discrepantes en sus respectivas pruebas de toma de preferencias de riesgo. Interesantemente,
tales datos mínimos fueron suficientes para producir fuertes teorías, de parte de los sujetos,
sobre la probable relación entre las medidas relevantes. Más importante, sin embargo, fue el
descubrimiento de que tales teorías sobrevivieron las revelaciones que los casos en cuestión
habían sido totalmente ficticios y los diferentes sujetos habían, de hecho, recibido opuestos
emparejamientos de punteos de riesgo y resultados del trabajo. Ciertamente, cuando las
comparaciones fueron hechas entre sujetos que habían sido interrogados y aquellos que no lo
habían sido, apareció que sobre el 50% del efecto inicial de la información de la “historia del
caso” permaneció después del interrogatorio.
En resumen, está claro que las creencias pueden sobrevivir la lógica potente ó los
desafíos empíricos. Ellas pueden sobrevivir y aún ser reforzadas por la evidencia que la
mayoría de los observadores no comprometidos estarían de acuerdo lógicamente con las
demandas de alguna debilidad de tales creencias. Ellas pueden aún sobrevivir la destrucción
total de sus prejuicios evidenciales originales. Mientras mucho trabajo queda por hacer en
especificar los límites precisos y explorar las excepciones inevitables a tales fenómenos, está
claro que los costos de los prejuicios de atribución de la persona lega y otras faltas
inferenciales no son aptas de ser corregidas sino en su lugar ser compuestas por la sub-
secuente experiencia y las deliberaciones. La pregunta que al final debe ser dirigida , por
consiguiente, es cómo y porqué tal perseverancia ocurre? Lo que significa, que mecanismos
cognitivos sirven de base a la no garantizada persistencia de nuestras impresiones, creencias
y más amplias teorías sociales.

Mecanismos posibles que sirven de base a la perseverancia de la creencia

Investigación prejuiciada, recolección y asimilación de información. Puede haber poca duda


de que nuestras creencias influencian los procesos por los cuales buscamos, almacenamos e
interpretamos relevante información. Ciertamente, sin previo conocimiento y
preconcepciones correspondientes, nuestro entendimiento de la experiencia de cada día
demandaría considerablemente más tiempo y esfuerzo y con toda probabilidad que el
entendimiento sería grandemente disminuido. Pero una inevitable consecuencia de nuestra
disposición a la evidencia del proceso a la luz de nuestras experiencias previas es la tendencia
a percibir más apoyo para aquellas creencias que actualmente existen en la evidencia a mano.
Tales “prejuicios de confirmación” (vea Einhorn & Hogarth, 1978; Hailton, 1979, Hastie
& Kumar, 1979; Wason & Johnson-Laird, 1972) han sido notadas de tiempo atrás por los
filósofos de la ciencia (por ejemplo, Bacon, 1620/1960). Talvez la más notable es la teoría de
la respuesta del sostenedor de datos equívocos ó ambiguos. Como Lord et al. (1979) han
documentado, la evidencia potencialmente confirmatoria es apta de ser tomada frente al valor
mientras que la evidencia potencialmente desconfirmatoria está sujeta al escrutinio altamente
123

crítico y escéptico. Por tanto, siguen dos consecuencias: Primera, cualquier patrón de
evidencia procesada en éste estilo, aún la evidencia que es esencialmente aleatoria, tenderá a
apoyar la creencia inicial. Segundo, una vez la evidencia ha sido procesada en éste estilo
gana la capacidad de sostener la creencia previa cuando esa creencia está sujeta a una nueva
desconfirmación empírica ó a los ataques sobre sus originales bases evidenciales.
El papel de la asimilación prejuiciada ha sido mostrado bastante convincentemente,
pensamos nosotros, para el caso donde la teoría sostenida es confrontada con nuevos datos
(por ejemplo, Lord et al., 1979). Pero el papel de este mecanismo en el descuento ó el
paradigma del interrogatorio es talvez menos obvio y estamos forzados a apoyarnos en la
especulación más que en los datos difíciles. Sugerimos que el sujeto que se forma una
impresión inicial sobre sí mismo, sobre otra persona ó sobre alguna relación funcional está
apto para investigar su memoria y la situación inmediata para datos relevantes adicionales de
esa impresión. Tales datos, entonces, están aptos para ser recordados y considerados como
pertinentes ó probativos solo en la medida que ellos confirmen la impresión a mano. Por
tanto, un sujeto que ha tenido éxito ó ha fallado en una tarea dada recuerda éxitos ó fallas
similares en tareas relacionadas – y decide sobre su relevancia para el caso presente – sobre
las bases de la congruencia de los resultados relevantes. Similarmente, un sujeto que ha
llegado a creer que las variables X y Y están funcionalmente relacionadas recordará, y dará
crédito a, casos que confirman más que desafían esa presunta relación. Una vez más, tal
investigación prejuiciada, recolección y asimilación no solo estimulan la creencia inicial de
uno, ellas también sostienen la creencia en cuestión cuando su base inicial es atacada ó aún
destruida. La suposición crítica aquí es que la gente constantemente no actualiza ó re-evalúa
la evidencia relevante de sus creencias. Ellas comúnmente no deciden “ahora que mi
hipótesis previa ha sido socavada un poco yo debo retornar y re-evaluar toda la evidencia que
yo consideré a la luz de esa hipótesis”.

La formación de explicaciones causales. La gente hace más que meramente notar la


evidencia relevante de sus impresiones ó creencias. Ellos también se ocupan de los análisis ó
explicaciones causales (Heider, 1958). Esto es, que ellos tratan de tomar en cuenta las
características propias ó las de otros, ó por la relación funcional que ellos han llegado a creer
que existe. Por lo tanto, el sujeto que se cree a sí misma una discriminadora superior ó
inferior del suicidio nota que en el estudio de Ross et al. (1975) podría investigar algún
aspecto de su experiencia que contaría para tal talento ó deficiencia. Similarmente, que es
inducido a creer en una positiva ó negativa relación entre la habilidad de combatir el fuego y
la preferencia de riesgo tendrá poca dificultad en postular una base lógica para cualquier
relación. Una vez más, este proceso no solo refuerza una impresión ó creencia iniciales, el
está apto para sostener una impresión ó creencia de cara a subsecuenetes desafíos ó ataques.
La evidencia para la operación de este mecanismo de perseverancia viene primariamente
de dos estudios de interrogación demostrando que cuando los sujetos son explícitamente
requeridos a formular tales explicaciones, previas al interrogatorio, la magnitud del efecto de
perseverancia es incrementada. En el estudio de Anderson et al. (1980) un grupo de sujetos
fue explícitamente instruido para explicar la relación positiva ó negativa sugerida por los dos
casos del bombero. Como se predijo, ésta manipulación incrementó grandemente el efecto de
la perseverancia relevante. De hecho, los sujetos que explicaron las bases para una relación
positiva ó negativa antes de ser interrogados fueron trivialmente menos ciertos de esa
relación que los sujetos que no recibieron el interrogatorio. Similares resultados fueron
obtenidos por Ross, Lepper, Strack y Steinmetz (1977), quienes encontraron que los sujetos
inducidos a explicar los resultados en las vidas de los pacientes clínicos (cuyo caso anterior
de las historias que ellos habían leído) continuaron para considerar tales resultados como
124

relativamente probables aún cuando ellos aprendieron que los eventos explicados no fueron
auténticos y habían sido inventados por el experimentador.

Confirmación del comportamiento ó hipótesis “auto-completada”. Los dos paradigmas de


investigación usados por Ross, Lepper y sus colegas para investigar fenómenos que carecen
de un elemento que puede ser crítico para muchas situaciones de la vida diaria.
Específicamente, los sujetos en esos estudios carecieron de la oportunidad de actuar sobre sus
creencias. Tales acciones son importantes parcialmente porque ellas pueden incrementar los
costos psicológicos ó “disonancia” (Festinger, 1957) involucrados en cambiar las creencias
de uno (cf. Ashore & Collins, 1968; Collins & Hoyt, 1972; Hovland, Capbell & Brock,
1957). Además, tales acciones crean nuevos datos relevantes para esas creencias. Nos solo
pueden éstos nuevos datos ser procesados en una manera prejuiciada, pero los datos por sí
mismos pueden también ser presjuiciados en una dirección que tiende a confirmar las
hipótesis relevantes.
La idea de auto-confirmar, ó auto-completar las hipótesis no es una nueva para los
científicos. Los famosos pero controversiales estudios “Pygmalion” de Rosenthal y Jacobson
(1968), los cuales tratan con el impacto de las expectativas de los maestros sobre el
“florecimiento” de las habilidades y desenvolvimiento de sus estudiantes, es un caso puntual.
Sin embargo, unas recientes series de estudios por Snyder y sus colegas han
considerablemente avanzado nuestra apreciación y entendimiento de tales fenómenos por
demostrar la manera en la cual las expectativas de los sujetos, ó de las hipótesis que son
conducidas para la prueba, pueden generar “soporte objetivo” para esas expectativas ó
hipótesis (por ejemplo, Snyder & Swann, 1978a, 1978b; Snyder, Tanke & Berscheid, 1977).

Comentarios concluyentes: Las creencias cambian!

Nuestra precedente discusión de los fenómenos y mecanismos podrían no hacer que el lector
perdiera la visión del hecho de que las creencias sobre nosotros mismos, nuestros líderes
políticos, y aún las teorías de nuestros científicos cambian. En parte tal cambio puede ser
simplemente el resultado de la fuerza bruta. Aún si los desafíos lógicos ó empíricos tienen
menor impacto que podría ser garantizado por los estandares normativos (ver Ross & Lepper,
1980) ellos pueden aún obtener el trabajo hecho. En parte, tal hecho puede reflejar el hecho
que los métodos formales de probar las hipótesis algunas veces son empleados
deliberadamente para protegernos de los peligros de los métodos informales. Pero
sospechamos que hay más para la historia, porque existe evidencia que previas teorías
pueden algunas veces ser superadas sin masiva cantidad de desconfirmación de la evidencia ó
de decisivos bien controlados experimentos. Por tanto, los cambios en perspectiva y creencia
que pueden ser trabajados por vívida, concreta experiencia de primera mano (ver Nisbett &
Ross, 1980) y la efectividad de grupos y líderes que cumplen políticas dramáticas ó
conversiones religiosas ofrecen invitantes objetivos para la investigación futura.
125

10. Impacto evidencial de clasificaciones base

Amos Tversky y Daniel Kahneman

En muchos contextos la gente es requerida a evaluar la probabilidad de algún objetivo de un


evento (por ejemplo, el diagnóstico de un paciente ó las ventas de un libro de texto) sobre las
bases de (a) la frecuencia de la base de clasificación del resultado del objetivo en alguna
referencia relevante de la población (por ejemplo, la frecuencia de diferentes diagnósticos ó
la distribución de las ventas de libros de texto); (b) alguna evidencia específica sobre el caso
a la mano (por ejemplo, la respuesta del paciente a una prueba diagnóstica ó la tabla de
contenidos del texto en cuestión).
Relacionado con los datos de clasificación base en las predicciones intuitivas sobre casos
individuales fue expresado por Meehl & Rosen (1955), quién arguyó, usando la regla de
Bayes, que las predicciones de resultado raro (por ejemplo, el suicidio) sobre las bases de
datos falibles es una mayor fuente de error en la predicción clínica. Meehl & Rosen no
condujeron estudios experimentales pero ellos citaron ejemplos de la literatura sobre
diagnosis clínica, en los cuales la información de la clasificación base no fue tomada en
cuenta.

Este trabajo fue auspiciado por la Oficina de Investigación Naval bajo el contrato N00014-79-C-0077 para la
Universidad de Stanford.
Para obtener una prueba experimental del impacto de los datos de clasificación base,
nosotros presentamos sujetos con una descripción de un estudiante graduado, ó un
profesional, y les requerimos predecir su campo de estudio ó de su profesión,
respectivamente (Kahneman & Tversky, 1973, 1973, 4). Estos estudios mostraron que los
juicios de probabilidad posterior fueron determinados primariamente por el grado al cual la
descripción fue similar a ó representativa del respectivo estereotipo profesional (por ejemplo,
de bibliotecarios ó de abogados). Las frecuencias de la clasificación base de éstas categorías,
las cuales fueron ya sea conocidas para los sujetos de su experiencia diaria ó establecidas
explícitamente en la pregunta, grandemente desatendidas. (Nosotros usamos el término
desatender para describir situaciones en las cuales la clasificación base es ya sea ignorada ó
sub-pesada).
Las predicciones por representatividad ó similaridad son generalmente insensitivas a las
frecuencias de clasificación base. Sin embargo, el fenómeno de desatender la clasificación
base es por mucho general, desde que el ocurre en juicios que no pueden ser fácilmente
interpretados en términos de representatividad (Hammerton, 1973). Por ejemplo, Cassells,
Schoenberger y Grayboys (1978) presentaron 60 estudiantes y profesorado en la Escuela de
Medicina de Harvard con la siguiente pregunta:

Si una prueba para detectar una enfermedad cuya prevalencia es de 1/1000 tiene una clasificación
positiva falsa del 5%, cuál es la posibilidad de que una persona que encontró tener un resultado
126

positivo actualmente tiene la enfermedad, asumiendo que usted no conoce nada de los síntomas ó
signos de la persona? (p. 999).

La respuesta más común , dada por casi la mitad de los participantes, fue del 95%. La
respuesta promedio fue del 56%, y solo 11 participantes dieron la respuesta apropiada de 2%,
asumiendo que la prueba correctamente diagnostica a cada persona que padece la
enfermedad. Evidentemente, aún encuestados altamente educados a menudo fallan al apreciar
la significancia del resultado de la clasificación base en problemas formales relativamente
simples (ver, por ejemplo, Bar-Hillel, 1980a; Lyon & Slovic, 1976). Las críticas de Meehl &
Rosen (1955) considerando las fallas para apreciar las clasificaciones base no están limitadas
a los psicólogos clínicos; ellos lo aplican a los físicos y a otras gentes también.
Las condiciones bajo las cuales los datos de la clasificación base son usados ó
desatendidos han sido estudiadas extensivamente por los estudiantes de psicología social y de
juicio [ver Borgida & Brekke (1981) y Kassin (1979b para revisiones de la literatura]. Las
variables independientes investigadas en éstos estudios pueden ser divididas en dos tipos: de
procedimiento y de evidencia. Las variables de procedimiento se refieren a las propiedades
del diseño, las tareas y la exhibición, mientras que las variables de evidencia se refieren a la
naturaleza de la fuente y a la interpretación de la evidencia.
Por ejemplo, una variable de procedimiento de considerable importancia es si el juicio
trata cada problema como un caso especial ó si se compromete en una tarea de predicciones
múltiples. Considerable evidencia de probabilidad y tareas relacionadas indican que la gente
tiende a igualar la distribución del criterio en hacer múltiples predicciones, particularmente
en el patrón de predicciones que es representativo del resultado de la distribución, los
experimentos usando repetidos juicios con la misma clasificación base producen efectos de
clasificación base más grandes que los experimentos en los que cada juicio es tratado como
un problema especial (ver Bar-Hillel & Fischhoff, 1981; Manis et al., 1980).
Otra variable de procedimiento de interés es la diferencia entre un diseño adentro de los
sujetos y un diseño entre los sujetos. Por ejemplo, Fischhoff, Slovic & Lichtenstein (1979)
mostró que los datos de clasificación base tienen más impacto cuando las clasificaciones base
varían en los problemas presentados a cada sujeto que cuando diferentes clasificaciones base
son presentadas a diferentes sujetos. El procedimiento adentro de los sujetos, sin embargo,
induce una tendencia general a asignar un peso más alto al atributo variado, aún cuando
normativamente irrelevante (Fischhoff & Bar-Hillel, 1980). Para más discusión del contraste
entre los diseños comparativo (adentro de los sujetos) y el no comparativo (entre los sujetos)
y sus implicaciones para la prueba de las instituciones estadísticas legas, vea el Capítulo 34.
Aunque las variables de procedimiento tienen un considerable efecto, el presente capítulo
está confinado para la discusión de variables de evidencia que controlan la interpretación y el
impacto de los datos de clasificación base. Específicamente, nosotros nos focalizamos en la
distinción entre dos tipos de clasificaciones base, los cuales etiquetamos causales e
incidentales.

Clasificaciones base causales e incidentales

Una clasificación base causal si ella sugiere la existencia de un factor causal que explica
por qué cualquier instancia particular es más probable de producir un resultado más que otro.
Una clasificación base es llamada incidental si ella no conduce a tal inferencia.
Una demostración obligatoria del contraste entre clasificaciones base causales e
incidentales fue presentado por Ajzen (1977). En un experimento, los encuestados evaluaron
127

la probabilidad que un estudiante, cuya habilidad académica fue brevemente descrita, había
pasado un examen particular. La clasificación base causal fue presentada como sigue:

Hace dos años, un examen final fue dado en un curso en la Universidad de Yale. Alrededor del 75%
de los estudiantes fallaron (pasaron) el examen.

La clasificación base es causal porque implica que el examen fue excepcionalmente


difícil (si el 75% de los estudiantes fallaron) ó relativamente fácil (si el 75% de los
estudiantes pasaron). La causa inferida (por ejemplo, la dificultad del examen) “explica” la
clasificación base y hace de cada estudiante individual menos (ó más) probable de pasar el
examen.
La clasificación base incidental fue presentada como sigue:

Hace dos años, un examen final fue dado en un curso en la Universidad de Yale. Un psicólogo de la
educación interesado en el logro escolástico entrevistó a un gran número de estudiantes quienes
habían tomado el curso. Puesto que él estuvo primariamente relacionado con las reacciones al éxito
(falla), él principalmente seleccionó a los estudiantes que habían (fallado) el examen.
Específicamente, alrededor del 75% de los estudiantes en su muestra había pasado (fallado) el
examen.

Esta clasificación base es incidental, ó no causal, porque la proporción de estudiantes


exitosos y no-exitosos en la muestra fue seleccionada arbitrariamente por el investigador. A
diferencia de la clasificación base causal, no permite cualquier inferencia con relación a la
dificultad del examen.
El estudio de Ajzen (1977) mostró que la clasificación base causal fue mucho más
potente que la incidental, aunque variaciones de ambos tipos de clasificación base produjeron
efectos significantes. Para la clasificación base causal, él juzgó la probabilidad del éxito
(promediada a través de descripciones) fue más alta por .34 cuando la clasificación base de
éxito fue alta que cuando ella fue baja. Para la clasificación base incidental, la
correspondiente diferencia fue de solo .12. En los términos del presente análisis, el caso ó
dificultad de un examen es una de las causas contributivas que afectan el desenvolvimiento
del estudiante, y es por consiguiente integrada con otras causas contributivas, tales como la
inteligencia y la motivación del estudiante en cuestión.
La clasificación base del éxito fue usada en el estudio precedente para definir un examen
como fácil ó difícil. En un segundo estudio, la clasificación base de preferencias fue usada
para definir opciones como más ó menos atractiva (Ajzen, 1977). Los sujetos fueron
requeridos a evaluar la probabilidad que los estudiantes para quienes un sketch de
personalidad fue proveído escogerían ya sea historia ó económicas como un efectivo curso de
interés general. La clasificación base causal, la cual sirvió a las proporciones de estudiantes
enrolados en los dos cursos (.70 y .30). La clasificación base incidental fue introducida como
sigue:

Para obtener la reacción del estudiante, el profesor de historia (económicas) recientemente entrevistó
a 70 estudiantes que habían tomado su curso de interés general en historia (económicas). En orden de
facilitar las comparaciones, él también entrevistó a 30 estudiantes que habían tomado el curso de
económicas (historia).

Note que a diferencia de la clasificación base causal, la versión incidental provee


información sobre la popularidad de los dos cursos. El efecto de la clasificación base
incidental no fue significante en este estudio, aunque existió una diferencia de probabilidad
de .025 en la dirección esperada. En contraste, la clasificación base causal tuvo un fuerte
128

efecto: La probabilidad media juzgada de la escogencia fue de .65 para un curso popular
(clasificación base alta) y de .36 para un curso impopular (clasificación base baja).
Evidentemente, el atractivo de un curso es inferido de una clasificación base de escogencias y
está integrado con características personales en evaluar la probabilidad de que un estudiante
particular seleccionará un curso mejor que otro. Desde el punto de vista de una normativa,
sin embargo, las clasificaciones base causales e incidentales en éstos ejemplos tendrían
aproximadamente efectos comparables.
Nuestro siguiente ejemplo ilustra un tipo diferente de clasificación base causal; el
también permite el cálculo de la probabilidad correcta posterior bajo suposiciones razonables.
Considere la versión modificada siguiente del problema del taxi, originalmente introducido
por Kahneman y Tversky (1972a) y más tarde investigado por Bar-Hillel (1980a), y Tversky
y Kahneman (1980, 8).

Un taxi se vio involucrado en un accidente en la noche y se dio a la fuga. Dos compañías de taxis, la
Verde y la Azul, operan en la ciudad. A usted se le están dando los siguientes datos:
(a) 85% de los taxis de la ciudad son verdes y el 15% son Azules.
(b) Un testigo identificó el taxi como Azul. La corte investigó la confiabilidad del testigo bajo la
mismas circunstancias que existieron en la noche del accidente y concluyó que el testigo identificó
cada uno de los dos colores 80% del tiempo y falló el 20% del tiempo.
Cuál es la probabilidad de que el taxi involucrado en el accidente fuera Azul más que Verde?

Para obtener la respuesta correcta, hagamos que B y G denoten respectivamente la


hipótesis que el taxi involucrado en el accidente fuera Azul ó Verde, y hagamos que W sea el
reporte del testigo. Por la regla de Bayes en forma de probabilidades, con posibilidades
previas de 15/85 y una proporción de probabilidad 80/20,

P(B/W)/P(G/W) = P(W/B)P(B)/P/W/G)P(G)
= (.8)(.15)/(.2)(.85) = 12/17

y por lo tanto

P(B/W) = 12/(12 + 17) = 4

A pesar del reporte del testigo, por consiguiente, el taxi causante del accidente y huir del
lugar es más probable que sea Verde que Azul, porque la clasificación base es más extrema
que la credibilidad del testigo.
Un gran número de sujetos habían sido presentados con versiones ligeramente diferentes
de este problema, con resultados muy consistentes. La media y modal respuesta es
típicamente .80, un valor que coincide con la credibilidad del testigo y es aparentemente no
afectada por la frecuencia relativa de taxis Azules y Verdes.
La información de clasificación base, sin embargo, fue utilizada en la ausencia de datos
del caso. Cuando el ítem (b) fue omitido de la pregunta, casi todos los sujetos dieron la
clasificación base (1.5) como su respuesta. Además la clasificación base controló la
expectativa de los sujetos sobre la evidencia. Un diferente grupo de sujetos fue presentado
con el problema de arriba excepto que la frase “un testigo identificó al taxi como Azul” fue
reemplazada por “un testigo identificó el color del taxi”. A estos entrevistados se les preguntó
luego, “Cuál es la probabilidad de que el testigo identificó el taxi como Azul?” La respuesta
media y modal a ésta pregunta fue .15. Note que la respuesta correcta es .2 x .85 + .8 x .15 = .
29. En ausencia de otros datos, por consiguiente, la clasificación base fue usada
apropiadamente para predecir el resultado del objetivo e inapropiadamente para predecir le
reporte del testigo.
129

Un diferente patrón de juicios fue observado cuando la clasificación base incidental (de
los taxis) fue remplazada por una clasificación base causal (del accidente). Esto fue realizado
por el replazo del ítem (a) con

(a’) Aunque las dos compañías son aproximadamente iguales en tamaño, 85% de los accidentes
de taxis en la ciudad involucran a los taxis Verdes y un 15% involucran a los taxis Azules.

Las respuestas a este problema fueron altamente variables, pero la clasificación base ya
no fue ignorada. La respuesta media fue .60 la cual se basa entre la confiabilidad del testigo
(.80) y la respuesta correcta (.41). La clasificación base en (a’) es causal porque la diferencia
en clasificaciones de accidentes entre compañías de igual tamaño fácilmente provoca la
inferencia que los pilotos de los taxis Verdes son más imprudentes que los pilotos de los
taxis Azules. Esta inferencia cuenta para el diferencial de clasificaciones base de los
accidentes e implica que cualquier taxi Verde es más probable de estar involucrado en un
accidente que cualquier taxi Azul. En contraste, la clasificación base en (a) es incidental
porque la diferencia entre el número de taxis Verdes y Azules en la ciudad no justifica una
inferencia causal que haga que cualquier taxi Verde tenga más probabilidad de estar
involucrado en un accidente que cualquier taxi Azul en particular.
Note que de acuerdo al presente análisis la probabilidad posterior de que el taxi errante
sea Azul más que Verde es la misma bajo ambas (a) y (a’). A pesar de eso la correlación entre
el color del taxi y el involucramiento en accidentes es 0 para la clasificación base incidental y
.7 para la causal. Este hecho estadístico refleja la diferencia entre las dos clasificaciones base
y ayuda a explicar por qué la clasificación base causal es utilizada mientras la clasificación
base incidental es ignorada.

Otras variables evidenciales

La naturaleza causal ó incidental de los datos de clasificación base nos es la única evidencia
variable que afecta su impacto en los juicios intuitivos. Aún en la ausencia de una
interpretación causal, ó incoherentes datos del caso. Por ejemplo, Bar-Hillel (1980a) estudió
una versión original del problema del taxi en el cual la información sobre el testigo (ítem b)
fue reemplazada por un reporte en que el taxi del accidente fue equipado con
intercomunicador y que los intercomunicadores son instalados en el 80% de los taxis Verdes
y en un 20% de los taxis Azules. En este problema, la clasificación base incidental no fue
descartada, y la respuesta media fue de .48. Bar-Hillel sugirió que la evidencia en relación al
intercomunicador no reemplazaba a la clasificación base porque es menos específica que una
identificación por un testigo. Por lo tanto, los datos de la clasificación base están combinados
con otra evidencia ya sea cuando la anterior tenga una interpretación causal ó cuando las
últimas no son más específicas que la clasificación base ( Bar-Hillel, 1980a).
Ambas específicamente y causalmente pueden ayudar a explicar la diferencia entre los
resultados de Kahneman y Tversky (1973, 4), quienes encontraron un esencial
incumplimiento de la clasificación base en predecir el campo de estudio de un estudiante
sobre las bases de un esquema de personalidad, y los resultados de McCauley y Stitt (1978),
quienes encontraron una sustancial correlación entre las clasificaciones base juzgadas de
rasgos y las probabilidades juzgadas de estos rasgos dada una nacionalidad particular, por
ejemplo, la probabilidad que una persona es eficiente si ella es alemana. Aparte de varias
diferencias de procedimiento, el último estudio difiere del primero en tres aspectos
importantes. Primero, los sujetos fueron requeridos a predecir la frecuencia relativa (por
ejemplo, la proporción de alemanes que son eficientes) más que la probabilidad para un caso
individual. Segundo, la evidencia consistió en la clase de miembro, por ejemplo, alemán más
130

que descripciones detalladas de un individuo específico. Tercero, la frecuencia de la


clasificación base de los rasgos puede ser más fácil de interpretar causalmente que esa de
profesiones. Teorías legas de personalidad sugieren razones del por qué la mayoría de la
gente es alegre y cariñosa y solo unos pocos son masoquistas. Estas razones se aplican a la
gente en general y a los alemanes en particular, de ese modo proveyendo una interpretación
causal de la clasificación base de los rasgos.
Una situación de especial interés se refiere a evidencia específica pero no diagnóstica
(por ejemplo, una descripción de una persona que es igualmente similar a un ingeniero y a un
abogado). Los descubrimientos experimentales aquí no son enteramente consistentes.
Kahneman y Tversky (1973, 4) encontraron descuido en la clasificación base, mientras
Ginosar y Trope (1980) encontraron exclusiva confianza en la clasificación base bajo
aparentemente similares condiciones experimentales. La mayoría de los estudios, sin
embargo, obtuvieron resultados intermedios donde la clasificación base no fue descartada
sino más bien diluida por la evidencia diagnóstica sobre el caso a la mano (vea por ejemplo,
Manis et al., 1980; Wells / Harvey, 1977).

Atribuciones internas versus atribuciones externas

Una clase de problemas de clasificación base de particular interés para los psicólogos
sociales surge cuando la evidencia y la clasificación base se refieren respectivamente a
factores de disposición interna y a factores de situación externa que afectan un resultado. El
éxito de un estudiante en un examen, por ejemplo, está determinado juntamente por la
dificultad del examen y por el talento del estudiante. Similarmente, la respuesta de uno de
donar dinero para una causa particular depende de la generosidad de uno y de la naturaleza
del requerimiento. Factores externos tales como la dificultad de un examen ó la efectividad
del requerimiento, son naturalmente expresados por las clasificaciones base relevantes (por el
ejemplo, el 75% de los estudiantes fallaron el examen; la mayoría de la gente contribuyó a la
causa). La pregunta relacionada al impacto relativo de factores de situación y de disposición
en la atribución social pueden, por tanto ser reformulados en términos del peso que es
asignado a las clasificaciones base correspondientes.
Nisbett & Borgida fueron los primeros en explorar la unión entre el uso de la información
de la clasificación base en la investigación del juicio y el peso relativo de los factores de
situación en el estudio de atribución del comportamiento. Ellos mostraron que el
conocimiento de la baja frecuencia del comportamiento de ayuda en el estudio de Darley-
Latané (1968) no afectó las predicciones de los sujetos del comportamiento de un
participante individual en el estudio, que fue observado en una breve entrevista filmada. El
estudio de Nisbett y Borgida (1975) contribuyó as la convergencia de las aproximaciones
psicológicas cognitivas y sociales para el estudio del juicio. El también provocó controversia
(Borgida, 1978; Wells & Harvey, 1977, 1978) y estimuló un frenesí de investigación sobre el
papel de la información de consenso en la predicción del comportamiento (Brogida &
Brekke, 1981;Kasin, 1979b; Nisbett & Ross, 1980; Ross, 1977).
En contraste con los ejemplos del examen y los taxis, en los cuales clasificaciones base
causales e incidentales son claramente distinguidas, las clasificaciones base en muchos
estudios de consenso están sujetos a interpretaciones alternativas. Para ilustrar el punto,
permítasenos comparar el estudio de Nisbett y Borgida (1975) con la condición causal de la
clasificación base en el experimento de Ajzen (1977), donde los sujetos evaluaron la
probabilidad de que un estudiante particular paso un examen que el 75% de la clase había
fallado. La estructura formal de los dos problemas es precisamente la misma, pero la
clasificación base fue grandemente ignorada en el primer estudio y usada en el último. Parece
131

que a la sorprendente clasificación base le fue dada una interpretación de situación en el


estudio de Ajzen pero fue interpretada como un accidente del muestreo en el estudio de
Nisbett & Brogida.
Los juicios de los sujetos de Ajzen indican que ellos dedujeron de la clasificación base
baja de éxito que el examen había sido difícil, aunque ellos podrían haber usado la misma
evidencia para concluir que los estudiantes que tomaron la prueba fueron ineptos. En
contraste, los sujetos de Nisbett y Borgida aparentemente dedujeron que los participantes en
el estudio de ayuda fueron mayoritariamente brutos insensibles (Wells & Harvey, 1977).
Ellos no sacaron la conclusión correcta que el estudio de Darley-Latané no es conducente al
comportamiento de ayuda.
Ya sea que una clasificación base extrema sea atribuida a un accidente en el muestreo ó a
factores de situación depende del contexto del problema: Es más entendible que una
distribución inusual de los resultados de la prueba sea debida a la dificultad (ó facilidad) de
un examen que a la excepcional composición de la clase. Por otro lado es más difícil revisar
la concepción de uno sobre las condiciones bajo las cuales la gente ayuda a un desconocido
afectado que asumir que los participantes en el estudio de ayuda fueron excepcionalmente
inútiles.
El aparente descuido en los datos de clasificación base en las predicciones sobre casos
individuales está asociado con una inferencia sobre características inusuales de los miembros
del grupo. Una interpretación causal de la clasificación base viene a ser más probable si ésta
inferencia es bloqueada. Esta hipótesis ha sido soportada por varios estudios, los cuales
restauran el efecto de una clasificación base recalcando la representatividad de una muestra
en la cual sorprendentes comportamientos habían sido observados (Hansen & Donoghue,
1977; Hansen & Lowe, 1976; Wells & Harvey, 1978). El impacto de los datos de
clasificación base fue aún incrementado por un estudio al informar a los sujetos que la
muestra por la cual las clasificaciones base fueron proveídas fue grande y por consiguiente
confiable (Kassin, 1979a). La mayor conclusión de esta investigación es que el uso ó
incumplimiento de la información de consenso en la predicción individual depende
críticamente de la interpretación de esa información.
132

Parte IV
Disponibilidad

.............
133

11. Disponibilidad: Una heurística para juzgar la


frecuencia y la probabilidad

Amos Tversky y Daniel Kahneman

Introducción

Mucha investigación reciente ha estado relacionada con la validez y consistencia de la


frecuencia y probabilidad de los juicios. Poco es conocido, sin embargo, sobre los
mecanismos psicológicos por los cuales la gente evalúa la frecuencia de clases ó la
probabilidad de eventos.
Nosotros proponemos que cuando encarados con la difícil tarea de juzgar la probabilidad
ó frecuencia, la gente emplea un limitado número de heurísticas las cuales reducen estos
juicios a unos más simples. Donde quiera hemos analizado en detalle una
heurística – la representatividad. Por esta heurística, un evento es juzgado probable al
extremo que ella representa las características esenciales de su población de origen ó proceso
generador. . . .
Cuando se está juzgando la probabilidad de un evento por la representatividad, uno
compara las características esenciales del evento con aquellas de la estructura de la cual ella
se origina. De esta manera, uno estima la probabilidad por evaluación de la similitud ó la
distancia connotativa. Alternativamente, uno puede estimar la probabilidad por evaluación de
la disponibilidad, ó distancia asociativa. Desde siempre la experiencia nos ha enseñado que
las instancias de clases grandes son recordadas mejor y más rápido que las instancias de
clases menos frecuentes, que las ocurrencias probables son más fáciles de imaginar que las
improbables, y que las conexiones asociativas son reforzadas cuando dos eventos
frecuentemente co-ocurren. Por lo tanto, una persona podría estimar la numerosidad de una
clase, la probabilidad de un evento, ó la frecuencia de co-ocurrencias por la evaluación de la
facilidad con la cual la operación mental de recuperación, construcción ó asociación puede
ser llevada a cabo. Por ejemplo, uno puede evaluar la tasa del divorcio en una comunidad
dada recordando los divorcios entre los conocidos de uno; uno puede evaluar la probabilidad
que un político perderá una elección considerando varias formas en que él puede perder
apoyo; y uno puede evaluar la probabilidad de que una persona violenta “verá” bestias de
presa en una tarjeta Rorschach evaluando la fortaleza de asociación entre violencia y bestias
Este capítulo es una versión abreviada de un trabajo que apareció en Psicología Cognitiva, 1973, 4, 207-232.
Derechos de Autor © 1972 por Academic Press, Inc. Reproducido con premiso
134

de presa. En todos los casos la estimación de la frecuencia de una clase ó la probabilidad de


un evento es mediada por una evaluación de disponibilidad. 1 Se dice que una persona
emplea la disponibilidad heurística siempre que él estime la frecuencia ó la probabilidad por
la facilidad con que las instancias ó asociaciones podrían ser traídas a la mente. Para evaluar
la disponibilidad no es necesario evaluar la facilidad con la cual éstas operaciones podrían ser
ejecutadas, tanto como la dificultad de un rompecabezas ó un problema matemático puede
ser evaluado sin considerar soluciones específicas.
Esos vínculos asociativos que están reforzados por repetición es talvez la ley más antigua
de memoria conocida para el hombre. La disponibilidad heurística explota el inverso de
ésta ley, que significa, que ella utiliza la fortaleza de asociación como unas bases para el
juicio de frecuencia. En ésta teoría, la disponibilidad es una variable mediadora, más que una
variable dependiente como es típicamente el caso en el estudio de la memoria. La
disponibilidad es una ecológicamente válida clave para el juicio de la frecuencia porque, en
general, los eventos frecuentes son más fáciles de recordar ó imaginar que los poco
frecuentes. Sin embargo, la disponibilidad es también afectada por varios factores los cuales
no están relacionados a la frecuencia actual. Si la disponibilidad heurística es aplicada,
entonces tales factores afectarán la frecuencia percibida de clases y la probabilidad subjetiva
de los eventos. Consecuentemente, el uso de la disponibilidad heurística conduce a prejuicios
sistemáticos.
Este trabajo explora la disponibilidad heurística en una serie de diez estudios. 2 Primero
demostramos que la gente puede evaluar la disponibilidad con razonable velocidad y
exactitud. Luego, mostramos que la frecuencia de clases juzgada es prejuiciada por la
disponibilidad de sus instancias para construcción y recuperación. Los estudios
experimentales de este trabajo están relacionados con los juicios de las frecuencias, ó de
probabilidades que pueden ser rápidamente reducidas a frecuencias relativas. Los efectos de
la disponibilidad sobre las probabilidades juzgadas de eventos esencialmente únicos (los
cuales no pueden ser reducidos a frecuencias relativas) son discutidos en la quinta y final
sección.

Evaluaciones de disponibilidad

Estudio 1: Construcción

Los sujetos (N = 42) fueron presentados con una serie de problemas de construcción de palabra. Cada
problema de una matriz de 3 x 3 conteniendo nueve letras de las cuales las palabras de tres letras ó
más tuvieron que ser construidas. En la fase de entrenamiento del estudio, seis problemas fueron
presentados a todos los sujetos. Para cada problema se les dio 7 segundos para estimar el número
de palabras que ellos creyeron que podrían producir en 2 minutos. Siguiendo a cada
estimación, se les dio dos minutos para escribir (sobre líneas numeradas) tantas palabras
como ellos podían construir de las letras en la matriz. Los datos de la fase de entrenamiento
fueron descartados. En la fase de la prueba, las tareas de construcción y estimación fueron
separadas. Cada sujeto estimó para ocho problemas el número de palabras que el creyó que
podía producir en 2 minutos. Para otros ocho problemas, él construyó palabras sin previa
1
El presente uso del término “disponibilidad” no coincide con algunos usos de este término en el aprendizaje
de la literatura verbal (vea, por ejemplo, Horowitz, Norman & Day, 1966; Tulving & Pearlstone, 1966).
2
Aproximadamente 1500 sujetos participaron en estos estudios. A menos que de otra manera especificado, los
estudios fueron conducidos en grupos de 20-40 sujetos. Los sujetos en estudios 1, 2, 3, 9 y 10 fueron reclutados
por anuncios en el periódico del estudiante de la Universidad de Oregon. Los sujetos en el estudio 8 fueron
similarmente reclutados en la Universidad de Stanford. Los sujetos en los estudios 5, 6 y 7 fueron estudiantes
del 10º. Y 11º. Grados de varias escuelas preparatorias de secundaria en Israel.
135

estimación. Los problemas de estimación y construcción fueron alternados. Dos folletos


paralelos fueron usados, de tal manera que por cada problema la mitad de los sujetos
estimaron y la mitad de los sujetos construyeron palabras.

Resultados. El número medio de palabras producidas variaron de 1.3 (para XUZONLCJM) a


22.4 (para TAPCERHOB), con una gran media de 11.9. El número medio estimado varió de
4.9 a 16.0 (para los mismos dos problemas), con una gran media de 10.3. La correlación
producto-momento entre la estimación y la producción, sobre los dieciseis problemas, fue de
0.96.

Estudio 2: Recuperación

El diseño y procedimiento fueron idénticos para el estudio 1, excepto por la naturaleza de la


tarea. Aquí, cada problema consistió de una categoría, por ejemplo, flores ó novelistas rusos,
cuyas instancias tuvieron que ser recordadas. A los sujetos (N = 28) les fueron dados 7
segundos para estimar el número de instancias que ellos podían recuperar en 2 minutos, ó 2
minutos para actualmente recuperar las instancias. Como en el Estudio 1, las tareas de
producción y estimación fueron combinadas en la fase de entrenamiento y alternadas en la
fase de la prueba.

Resultados. El número medio de instancias producidas varió de 4.1 (nombres de ciudades


comenzando con F) a 23.7 (animales de cuatro patas), con una gran media de 11.7. El número
medio estimado varió de 6.7 a 18.7 (para las mismas dos categorías), con una gran media de
10.8. La correlación producto-momento entre producción y estimación sobre las 16
categorías fue de 0.93.

Discusión

En los estudios de arriba, la disponibilidad de instancias podría ser medida por el número
total de instancias recuperadas ó construidas en cualquier problema dado.3 Los estudios
muestran que la gente puede evaluar la disponibilidad rápida y exactamente. Cómo son tales
evaluaciones llevadas a cabo? Un mecanismo plausible es sugerido por el trabajo de
Bousfield y Sedgewick (1944), quienes mostraron que la recuperación acumulativa de
instancias es una negativamente acelerada función exponencial del tiempo. El sujeto podría,
por consiguiente, usar el número de instancias recuperadas en un corto período para estimar
el número de instancias que podrían ser recuperadas en un mucho más largo período de
tiempo. Alternativamente, el sujeto puede evaluar la disponibilidad sin explícitamente
recuperar ó construir cualesquiera instancias del todo. Hart (1967), por ejemplo, ha mostrado
que la gente puede evaluar exactamente su habilidad para reconocer ítems que ellos no
pueden recordar en una prueba de memoria de asociar parejas.

Disponibilidad para la construcción

Retornamos ahora a una serie de problemas en los cuales al sujeto se le da una regla para la
construcción de instancias y es requerido a estimar su total (ó relativa) frecuencia. En éstos
3
Los problemas de construcción también pueden ser vistos como problemas de recuperación porque las
palabras de respuesta son almacenadas en la memoria. En el presente trabajo hablamos de recuperación cuando
el sujeto recuerda instancias de una categoría natural, como en los estudios 2 y 8. Hablamos de construcción
cuando el sujeto genera ejemplares de acuerdo a una regla especificada, como en los Estudios 1 y 4.
136

problemas – como en la mayoría de problemas de estimación – el sujeto no puede construir y


enumerar todas las instancias. En vez de eso, proponemos, que él intente construir algunas
instancias y juzgue la totalidad de la frecuencia por disponibilidad, que significa, por una
evaluación de la facilidad con la cual las instancias pueden ser traídas a la mente. Como una
consecuencia, las clases cuyas instancias son fáciles de construir ó imaginar serán percibidas
como más frecuentes que las clases del mismo tamaño cuyas instancias están menos
disponibles. Esta predicción es probada en el juicio de frecuencia de una palabra, y en la
estimación de varias expresiones de combinación.

Estudio 3: Juicio de frecuencia de una palabra

Suponga que usted muestrea una palabra al azar de un texto en Inglés. Es más probable que
la palabra empiece con una K, ó que la K es la tercera letra? De acuerdo a nuestra tesis, la
gente responde a tal interrogante comparando la disponibilidad de las dos categorías, por
ejemplo, evaluando la facilidad con la cual las instancias de vienen a la mente. Es
ciertamente más fácil pensar de las palabras que empiezan con K que de las palabras donde la
K está en la tercera posición. Si el juicio de frecuencia es comunicado por la disponibilidad
evaluada, entonces las palabras que empiezan con K deberían ser juzgadas más frecuentes.
De hecho, un texto típico contiene el doble de palabras en las cuales la K está en la tercera
posición que las palabras que empiezan con K.
De acuerdo al extenso conteo de palabra de Mayzner y Tresselt (1965), ocho consonantes
en conjunto que aparecen más frecuentemente en la tercera que en la primera posición. De
éstas, dos consonantes (X y Z) son relativamente raras, y otra (D) que es más frecuente en la
tercera posición solo en palabras de tres letras. Las restantes cinco consonantes (K, L, N, R,
V) fueron seleccionadas para investigación.
A los sujetos se les dio las instrucciones siguientes:

La frecuencia de aparición de letras en el lenguaje Inglés fue estudiada. Un texto típico fue
seleccionado, y la frecuencia relativa con la cual varias letras del alfabeto aparecieron en la primera y
tercera posiciones en las palabras fueron grabadas. Las palabras de menos de tres letras fueron
excluidas del asunto.
A usted se le darán varias letras del alfabeto, y usted será requerido a juzgar si éstas letras
aparecen más a menudo en la primera ó en la tercera posición, y a estimar la relación de la frecuencia
con la cual ellas aparecen en éstas posiciones.

Un problema típico se lee como sigue:

Considere la letra R.
Es R más probable de aparecer en
- la primera posición?
- la tercera posición? (marque una)
Mi estimado para la relación de estos dos valores es ____: 1.

Los sujetos fueron instruidos a estimar la relación de la clases más grande a la más
pequeña. Para la mitad de los sujetos, el ordenamiento de las dos posiciones en la
interrogante fue revertido. Además, tres diferentes ordenamientos de las cinco letras fueron
empleados.

Resultados. Entre los 152 sujetos, 105 juzgaron la primera posición ser más probable para
una mayoría de las letras., y 47 juzgaron a la tercera posición ser más probable para una
mayoría de las letras. El prejuicio favoreciendo la primera posición es altamente significante
137

(p < .001 por señal de prueba). Más aún, cada una de las cinco letras fue juzgada por una
mayoría de los sujetos ser más frecuente en la primera que en la tercera posición. La relación
media estimada fue 2:1 para cada una de las cinco letras. Estos resultados fueron obtenidos a
pesar del hecho que todas las letras fueron más frecuentes en la tercera posición.
En otros estudios encontramos el mismo prejuicio favoreciendo a la primera posición en
un diseño dentro del sujeto donde cada sujeto juzgó una simple letra, y en un diseño entre el
sujeto, donde las frecuencias de las letras en la primera y en la tercera posición fueron
evaluadas por diferentes sujetos. También encontramos que la introducción de factores
decisivos para la exactitud en el diseño dentro del sujeto no tenía efecto fuera lo que fuera.
Desde que el mismo patrón general de resultados fue obtenido en todos éstos métodos, solo
los descubrimientos obtenidos por el procedimiento más simple son reportados aquí.
Un resultado similar fue reportado por Phillips (1966) en un estudio de inferencia
Bayesiana. Seis editores de la publicación de un estudiante estimaron las probabilidades de
varios bigramas, muestreados de sus propios escritos, fueron sacados del principio ó del final
de las palabras. Un efecto incidental observado en ese estudio fue que todos los editores
compartieron un prejuicio común para favorecer la hipótesis que los bigramas habían sido
sacados del principio de las palabras. Por ejemplo, los editores erróneamente juzgaron el
principio de las palabras más frecuentes que las palabras terminadas con re. El más antiguo,
por supuesto, está más disponible que el último.

Estudio 4: Permutaciones

Considere las dos estructuras, A y B, las cuales son expuestas abajo.


(A) (B)
xxxxxxxx xx
xxxxxxxx xx
xxxxxxxx xx
xx
xx
xx
xx
xx
xx

Una trayectoria en una estructura es una línea que conecta un elemento en la fila de arriba a un
elemento en la fila de abajo, y pasa a través de uno y solo un elemento en cada fila.

En cuál de las dos estructuras existe más trayectoria?


Cuántas trayectorias piensa usted que existen en cada estructura?

La mayoría de los lectores probablemente comparten con nosotros la impresión inmediata de


que existen más trayectorias en A que en B. Nuestros sujetos concordaron: 46 de 54
encuestados vieron más trayectorias en A que en B (p < .001, por señal de prueba). La
estimación de la media fueron 40 trayectorias en A y 18 en B. De hecho, el número de
trayectorias es el mismo en ambas estructuras, para 83 = 29 = 512.
Porqué la gente ve más trayectorias en A que en B? Sugerimos que este resultado refleja
la disponibilidad diferencial de las trayectorias en las dos estructuras. Existen varios factores
que hacen las trayectorias en A más disponibles que aquellas en B. Primero, las trayectorias
más inmediatamente disponibles son las columnas de las estructuras. Estas son 8 columnas
138

en A y solo 2 en B. Segundo, entre las trayectorias que cruzan las columnas, aquellas de A
son generalmente más distintivas y menos confundibles que aquellas en B. Dos trayectorias
en A comparten, en promedio alrededor de 1/8 de sus elementos, mientras que dos
trayectorias en B, comparten, en promedio la mitad de sus elementos. Finalmente, las
trayectorias en A son más cortas y por eso fácilmente de visualizar que aquellas en B.

Estudio 5: Combinaciones

Considere un grupo de diez gentes que tienen que formar comités de r miembros, donde r es
algún número entre 2 y 8. Cuántos diferentes comités de r miembros pueden ellos formar? La
respuesta correcta a este problema es dada por el coeficiente binomial (r10), el cual alcanza
un máximo de 252 para r = 5. Claramente, el número de comités de r miembros es igual al
número de comités de 10 – r miembros porque cualquier grupo elegido de, digamos, dos
miembros define un único grupo no elegido de 8 miembros.
De acuerdo a nuestro análisis de estimación intuitiva, sin embargo, los comités de dos
miembros están más disponibles que los comités de ocho. Primero, el más simple esquema
para construir comités es una partición del grupo dentro de sujetos desarticulados. Por tanto,
uno rápidamente ve que existen tanto como cinco comités desarticulados de dos miembros,
pero aún no dos comités desarticulados de ocho. Segundo, los comités de ocho miembros son
mucho menos distintos, debido a su traslape de membresía; cualesquiera dos comités de ocho
comparten al menos seis miembros. Este análisis sugiere que pequeños comités están más
disponibles que grandes comités. Por la hipótesis de la disponibilidad, por consiguiente, los
pequeños comités deberían aparecer más numerosos.
Cuatro grupos de sujetos (total N = 118) estimaron el número de posibles comités de r
miembros que pueden ser formados de un juego de diez gentes. Los diferentes grupos,
respectivamente, evaluaron los siguientes valores de r: 2 y 6; 3 y 8; y 4 y 7; 5.
La media estimada del número de comités son mostrados en la Figura 1, con los valores
correctos. Como se predijo, el número de comités juzgados decrece con su tamaño.
La siguiente formulación alternativa del mismo problema fue ideada en orden de probar
la generalidad de los descubrimientos:

En el dibujo de abajo, existen diez estaciones a lo largo de una ruta entre el Inicio y el Final.
Considere un autobus que viaja, parando en exactamente r estaciones a lo largo de esta ruta.
Inicio Final
Cuál es el número de diferentes patrones de r paradas que el autobus puede hacer?

El número de diferentes patrones de r paradas es de nuevo dado por (10r). Aquí también,
por supuesto, el número de patrones de dos paradas es el mismo como el número de patrones
de ocho paradas, porque para cualquier patrón de paradas existe un patrón único
complementario de no-paradas. No obstante, aparece como si uno tiene más grados de
libertad en construir patrones de dos paradas donde “uno tiene muchas estaciones para
escoger de” que en construir patrones de ocho paradas donde “uno debe parar en casi cada
estación”. Nuestro análisis previo sugiere que los patrones antiguos están más disponibles:
más si tales patrones son vistos a primera vista, ellos son más distintivos y son más fáciles de
visualizar.
Cuatro nuevos grupos de sujetos (total N = 178) respondieron esta cuestión, para r =
2, . . ., 8, siguiendo el mismo diseño de arriba. Las estimaciones medias del número de
paradas son mostradas en la Figura 1. Como en el problema del comité, el número aparente
de combinaciones generalmente decrece con r, en concordancia con la predicción de la
disponibilidad de la hipótesis y en marcado contraste a los valores correctos. Además, las
139

estimaciones del número de combinaciones son muy similares en los dos problemas. Como
en otros problemas de combinación, existe una marcada subestimación de todos los valores
correctos, con una simple excepción en el caso más disponible, donde r = 2.
La subestimación observada en los Experimentos 4 y 5 ocurre, nosotros sugerimos,
porque la gente estima los valores de combinación por extrapolación de una impresión
inicial. Lo que una persona ve en un vistazo ó en unos pocos pasos de computación le dan a
ella una inadecuada idea de la tasa explosiva de crecimiento de muchas expresiones de
combinación. En tales situaciones, extrapolando de una impresión inicial la conduce a una
pronunciada subestimación. Este es el caso de si las bases para la extrapolación es la
disponibilidad inicial de las instancias, como en los dos estudios precedentes, ó el resultado
de una computación inicial, como en el siguiente estudio.

Insertar aquí la Figura 1 de la página 170 del texto original.

Estudio 6: Extrapolación

Nosotros requerimos a los sujetos estimar, dentro de 5 segundos , una expresión numérica
que fue escrita en el pizarrón. Un grupo de sujetos (N = 87) estimó el producto 8 x 7 x 6 x 5 x
4 x 3 x 2 x 1, mientras que otro grupo (N = 114) estimó el producto 1 x 2 x 3 x 4 x 5 x 6 x 7 x
8. La estimación media para la secuencia descendente fue de 2,250. La estimación media
para la secuencia ascendente fue de 512. La diferencia entre las estimaciones fue altamente
significativa (p < .001), por prueba de la media). Ambas estimaciones cayeron muy cortas de
la respuesta correcta, la cual es de 40,320.
Ambas la subestimación del valor correcto y la diferencia entre las dos estimaciones
soportan la hipótesis de que la gente estima 8! por extrapolación de una computación
parcial. El factorial, como otras expresiones de combinación, está caracterizado por una
siempre creciente tasa de crecimiento. Consecuentemente, una persona que extrapola de una
computación parcial subestimará excesivamente los factoriales. Debido a que los resultados
de los primeros pocos pasos de multiplicación (ejecutados de izquierda a derecha) son más
grandes en la secuencia descendente que en la secuencia ascendente, la expresión más
antigua es juzgada más grande que la última. La evaluación de la secuencia descendente
puede proceder como sigue: “8 veces 7 es 56 veces 6 está ya arriba de 100, por lo tanto
estamos tratando con un número razonablemente grande”. En la evaluación de secuencia
ascendente, por otro lado,.uno puede razonar: “una vez 2 es 2 dos veces 3 es 6 veces 4 es 24,
y esta expresión es claramente no está yendo muy lejos. . . .”.

Estudio 7: Disponibilidad – binomial vrs. representatividad

El estudio final de esta sección explora el papel de la disponibilidad en la evaluación de las


distribuciones binomiales e ilustra cómo la formulación de un problema controla la
escogencia de la heurística que la gente adopta en la estimación intuitiva.
A los sujetos (N = 73) fueron presentados con éstas instrucciones:
Considere el siguiente diagrama:
X X O X X X
X X X X O X
X O X X X X
X X X O X X
X X X X X O
O X X X X X
140

Una trayectoria en este diagrama es cualquier línea descendente la cual empieza en la fila de arriba,
termina en la línea de abajo y pasa a través exactamente de un símbolo (X ú O) en cada fila.

Cuál piensa usted es el porcentaje de trayectorias que contiene


6 – X y no – O _____%
5 – X y 1 - O _____%
.
.
.
No – X y 6 – O _____%
Note que éstos incluyen todos los tipos posibles de trayectoria y de aquí que sus estimaciones se
agregarían al 100%.

Insertar aquí la Figura 2 de la página 172 del texto original


Figura 2. Valores correctos y juicios medios: Problema de trayectoria.

Este problema de carta es formalmente idéntico al problema de trayectoria, pero el tiene


la intención de obtener un diferente modo de evaluación. En el problema de la trayectoria, las
instancias individuales fueron enfatizadas por la exposición, y la proporción de la población
(por ejemplo, la proporción de Xs en cada fila) no fue hecha explícita. En el problema de la
carta, por otro lado, la proporción de la población es explícitamente establecida y ninguna
mención es hecha de las instancias individuales. Consecuentemente, sacamos la hipótesis de
que los resultados en el problema de la carta será evaluado por el grado al cual ellas son
representativas de la composición de la baraja más que por la disponibilidad de la instancias
individuales. En el problema de la carta, el resultado “cinco Xs y una O” es el más
representativo, porque el iguala la proporción de la población (ver Kahneman Y Tversky,
1972b, 3). Por lo tanto, por la representatividad heurística, este resultado debería ser juzgado
más frecuente que el resultado “seis Xs y no O” contrario al patrón observado de juicios en el
problema de la trayectoria.

Insertar aquí la Figura 3 de la página 174 del texto original.


Figura 3. Valores correctos y juicios medios: Problema de la carta.

Disponibilidad para la recuperación

En esta sección discutimos varios estudios en los cuales el sujeto es primero expuesto a un
mensaje (por ejemplo, una lista de nombres) y es más tarde requerido a juzgar la frecuencia
de ítems de un tipo dado que fueron incluidos en el mensaje. Como los problemas estudiados
en la sección previa, el sujeto no puede recordar y contar todas las instancias. En vez de eso,
nosotros proponemos, que él intente recordar algunas instancias y juzgar la totalidad de la
frecuencia por la disponibilidad, por ejemplo, por la facilidad con la cual las instancias
vienen a la mente. Como una consecuencia, las clases cuyas instancias son rápidamente
recordadas serán juzgadas más numerosas que las clases del mismo tamaño cuyas instancias
son menos disponibles. Esta predicción es primero probada en un estudio de la frecuencia
juzgada de las categorías. . . .

Estudio 8: Fama, frecuencia y recuerdo

Los sujetos fueron presentados con una lista grabada consistente de nombres de conocidas
personalidades de ambos sexos. Después de escuchar la lista, algunos sujetos juzgaron si ella
contenía más nombres de hombres ó de mujeres, otros intentaron recordar los nombres en la
141

lista. Algunos de los nombres en la lista fueron muy famosos (por ejemplo, Richard Nixon,
Elizabeth Taylor), otros fueron menos famosos (por ejemplo, William Fulbright, Lana
Turner). Nombres famosos son generalmente más fáciles de recordar. Por lo tanto, si
juzgamientos de frecuencia son mediados por disponibilidad evaluada, entonces una clase
consistente de nombres famosos deberían ser más numerosos que una clase comparable
consistente de nombres menos famosos.
Cuatro listas de nombres fueron preparadas, dos listas de artistas y dos listas de otras
figuras públicas. Cada lista incluyó 39 nombres grabados a un ritmo de un nombre cada 2
segundos. Dos de las listas (una de figuras públicas y una artistas) incluyó nombres de
mujeres famosas y 20 nombres de mujeres menos famosas. Por lo tanto, fama y frecuencia
fueron inversamente relacionadas en todas las listas. Los primeros nombres de todas las
personalidades siempre permitieron una ambigua identificación del sexo.
Los sujetos fueron instruidos a escuchar atentamente un mensaje grabado. Cada una de
las cuatro listas le fue presentada a los dos grupos. Después de escuchar la grabación, los
sujetos en un grupo fueron requeridos a escribir tantos nombres como ellos podían recordar
de la lista. Los sujetos en el otro grupo fueron requeridos a juzgar si la lista contenía más
nombres de hombres ó de mujeres.

Resultados. (a) Recuerdo. En promedio, los sujetos recordaron 12.3 de los 19 nombres
famosos y 8.4 de los 20 menos famosos. De los 86 sujetos en los cuatro grupos de recuerdo,
57 recordaron los nombres más famosos que los nombres no famosos, y solo 13 recordaron
los nombres poco famosos que los menos famosos (p < -001, por señal de prueba).
(b) Frecuencia. Entre los 99 sujetos quienes compararon la frecuencia de hombres y
mujeres en las listas, 80 erróneamente juzgaron la clase consistente de los nombres más
famosos ser más frecuente (p < .001, por señal de prueba). . . .

Recuperación de ocurrencias y construcción de escenarios

En todos los estudios empíricos que fueron discutidos en este trabajo, existió un
procedimiento objetivo para enumerar la instancias (por ejemplo, palabras que empiezan con
K ó trayectorias en un diagrama), y por tanto cada uno de los problemas tuvieron una
respuesta objetivamente correcta. Este no es el caso en muchas situaciones de la vida real
donde las probabilidades son juzgadas. Cada ocurrencia de una recesión económica, una
operación médica exitosa ó un divorcio, es esencialmente única y su probabilidad no puede
ser evaluada por una simple cuenta de instancias. Sin embargo, la disponibilidad heurística
puede ser aplicada a evaluar la probabilidad de tales eventos.
En juzgar la probabilidad que una pareja particular se divorciará, por ejemplo, uno puede
escudriñar la memoria de uno para similares parejas la cual esta cuestión trae a la mente. El
divorcio parecerá probable si los divorcios son prevalecientes entre las instancias que son
recuperadas en esta manera. Alternativamente, uno puede evaluar la probabilidad intentando
construir historias ó escenarios que conduzcan al divorcio. La plausibilidad de tales
escenarios, ó la facilidad con la cual ellos vienen a la mente, pueden proveer unas bases para
el juicio de probabilidad. En la presente sección, discutimos el papel de la disponibilidad en
tales juicios, especular sobre fuentes de prejuicio esperadas, y esquematizar algunas
direcciones que una investigación adicional podría seguir. Nosotros ilustramos los prejuicios
de disponibilidad por consideración de una imaginaria situación clínica. 4 Un clínico que ha
4
Este ejemplo fue escogido debido a su disponibilidad. No conocemos ninguna razón para creer que las
predicciones intuitivas de corredores de bolsa, pronosticadores de deportes, analistas políticos ó psicólogos
investigadores son menos susceptibles a los prejuicios.
142

oído a un paciente quejarse de que él está cansado de la vida, y piensa si ese paciente es
probable que cometa suicidio puede bien recordar a pacientes similares que él ha conocido.
Algunas veces solo una instancia relevante viene a la mente, talvez porque es más
memorable. Aquí, la probabilidad subjetiva puede depender primariamente de la similaridad
entre esa instancia y el caso en consideración. Si los dos son muy similares, entonces uno
espera que lo que ha pasado en el pasado volverá a ocurrir. Cuando varias instancias vienen a
la mente, ellas son probablemente pesadas por el grado e que ellas son similares, en
características esenciales, al problema a mano.
Cuán relevantes son las instancias seleccionadas? En escrutar su pasada experiencia
recuerda el clínico a pacientes que se asemejan al presente caso, pacientes que intentaron
suicidio, ó pacientes que se asemejan al presente caso e intentaron el suicidio? Desde un
punto de vista actuarial, por supuesto, la clase relevante es esa de pacientes que son similares,
en algunos aspectos, al caso presente, y la estadística relevante es la frecuencia del suicidio
intentado en esta clase.
La búsqueda de la memoria puede seguir otras reglas. Puesto que intentó el suicidio es un
evento dramático y destacado, los pacientes de suicidio tienen la probabilidad de ser más
memorables y más fáciles de recordar que los pacientes depresivos que no intentan el
suicidio. Como una consecuencia, los clínicos pueden recordar pacientes de suicidio que él a
encontrado y juzga la probabilidad de un suicidio intentado por el grado de semejanza entre
éstos casos y el presente paciente. Esta aproximación conduce a serios prejuicios. El clínico
que nota que casi todos los pacientes de suicidio en los que él puede pensar se encontraban
severamente deprimidos puede concluir que un paciente es probable de cometer suicidio si él
muestra signos de depresión severa. Alternativamente, el clínico puede concluir que el
suicidio es improbable si “este paciente no luce como cualquier caso de suicidio que yo he
encontrado”
Tal razonamiento ignora el hecho que solo una minoría de pacientes depresivos intentan
suicidio y la posibilidad que el presente paciente pueda ser muy diferente a cualquiera que el
terapista jamás haya encontrado.
Finalmente, un clínico podría pensar solo de pacientes que fueron ambos depresivos y
suicidas. El entonces evaluaría la probabilidad del suicidio por la facilidad con la cual tales
casos vienen a la mente ó por el grado el presente paciente es representativo de esta clase.
Este razonamiento, también, está sujeto a un serio error. El hecho de que existan muchos
pacientes depresivos que intentaron suicidarse no quiere decir mucho sobre la probabilidad
de que un paciente depresivo intentará suicidarse, aún este modo de evaluación no es inusual.
Varios estudios (Jenkins & Ward, 1963; Smedslund, 1963; Ward & Jenkins, 1965) mostraron
que la contingencia entre dos variables binarias tal como un síntoma y una enfermedad es
juzgada por la frecuencia con la cual ellas co-ocurren, con poca ó no consideración por casos
donde ya sea el síntoma ó la enfermedad no están presentes.
Algunos eventos son percibidos tanto como únicos que la historia pasada no parece
relevante para la evaluación de su probabilidad. Pensando en tales eventos a menudo
construimos escenarios, por ejemplo historias que conducen de la presente situación al
evento objetivo. La plausibilidad de los escenarios que vienen a la mente, ó la dificultad de
producirlos, entonces sirven como una pista para la probabilidad del evento. Si no viene a la
mente un escenario razonable, el evento es considerado imposible ó altamente improbable. Si
muchos escenarios vienen a la mente, ó si un escenario que es construido es particularmente
apremiante, el evento en cuestión parece probable.
Muchos de los eventos cuya probabilidad la gente desea evaluar dependen de varios
factores interrelacionados. Aún si es excesivamente difícil para la mente humana percibir
secuencias de variaciones de varios factores interactuando. Sugerimos que en la evaluación
de la probabilidad de eventos complejos solo los más simples y más disponibles escenarios
143

posibles de ser considerados. En particular, la gente tenderá a producir escenarios en los


cuales muchos factores no varían del todo, solo las variaciones más obvias toman lugar, y las
interacciones de cambios son raras. Debido a la naturaleza simplificada de escenarios
imaginados, los resultados de simulaciones de computadora de procesos interactuando son a
menudo contra-intuitivos (Forrester, 1971). La tendencia a considerar solo relativamente
simples escenarios pueden tener particularmente efectos sobresalientes en situaciones de
conflicto. Ahí, el propio mal humor de uno y los planes están más disponibles para uno que
aquellos del oponente. No es fácil adoptar la opinión del oponente del tablero de ajedrez ó del
campo de batalla, lo cual puede ser el por qué el jugador mediocre descubre tantas nuevas
posibilidades cuando el cambia lados en un juego. Consecuentemente, el jugador puede
tender a considerar la estrategia de su oponente como relativamente constante e
independiente de sus propias movidas. Estas consideraciones sugieren que un jugador es
susceptible a la falacia de la iniciativa – una tendencia a atribuir menos iniciativa y menos
imaginación al oponente que a sí mismo. Esta hipótesis es consistente con un descubrimiento
de investigación de la atribución (Jones & Nisbett, 1971) que la gente tiende a visualizar su
propio comportamiento como reflejando las demandas de cambio de su entorno y el
comportamiento de los otros como una característica dominada.
La producción de un escenario obligatorio es similar a restringir el pensamiento del
futuro. Existe mucha evidencia mostrando que, una situación incierta ha sido percibida ó
interpretada en un estilo particular es muy difícil visualizarla de cualquier otra manera (ver,
por ejemplo, Bruner & Potter, 1969). Por tanto, la generación de un escenario específico
puede inhibir la emergencia de otros escenarios, particularmente aquellos que conducen a
diferentes resultados.
Talvez la más obvia demostración de la disponibilidad en la vida real es el impacto de la
fortuita disponibilidad de incidentes ó escenarios. Muchos lectores deben haber
experimentado la temporal elevación en la probabilidad subjetiva de un accidente después de
haber visto un auto volcado al lado del camino. Similarmente, muchos deben haber notado un
incremento en la probabilidad subjetiva de que un accidente ó mal funcionamiento puede
desatar una guerra termonuclear después de haber visto una película en la cual tal ocurrencia
fue vívidamente representada . Preocupación continuada con un resultado puede incrementar
su disponibilidad, y por consiguiente su probabilidad percibida. La gente está preocupada con
altamente deseables resultados, tales como ganar la lotería, ó con altamente indeseables
resultados, tal como la caída de un avión. Consecuentemente, la disponibilidad provee un
mecanismo por el cual las ocurrencias de extrema utilidad (ó dificultad) pueden parecer más
probables que lo que ellas actualmente son. . . .
144

12. Prejuicios egocéntricos en la disponibilidad y la


atribución

Michael Ross y Fiore Sicoly

Una instancia de un fenómeno examinado en los presentes experimentos es familiar a casi a


cada uno que ha conducido una investigación en conjunto. Considere lo siguiente: Usted ha
trabajado en un proyecto de investigación con otra persona, y la interrogante surge como
quién debería ser “primer autor” (por ejemplo, quién contribuyó más al producto final?). A
menudo parece que ambos de ustedes se sienten enteramente justificados en reclamar ese
honor. Además, desde que ustedes está convencido que su opinión de la realidad debe ser
compartida por su colega (ahí habiendo una sola realidad), usted asume que la otra persona
está intentando tomar ventaja de usted. Algunas veces tales asuntos son establecidos ó
prevenidos por el uso arbitrario de reglas de decisión, por ejemplo, la regla de “prioridad
alfabética” – una estratagema de aquellos cuyos apellidos empiezan con letras de la primera
parte del alfabeto.
Sugerimos, entonces, que los individuos tienden a aceptar más responsabilidad por un
producto en conjunto que otros contribuyentes lo atribuyen a ellos. Se propone más
adelante

Extractos de un trabajo que apreció en The Journal of Personality and Social Psichology, 1979, 37, 322-336.
Derechos de autor © 1979 por la Asociación Americana de Psicología. Reimpreso con permiso.
que ésta penetrante fenómeno cuando la responsabilidad por una unión comercial es repartida
por los participantes. En muchas empresas comunes, sin embargo, los participantes no están
concientes de sus opiniones divergentes, desde, que no hay necesidad de asignar “una
autoridad”; consecuentemente, la ubicuidad del fenómeno no es excesivamente aparente. El
propósito de la corriente investigación fue investigar si éstas percepciones egocéntricas
ocurren en una variedad de escenarios y para examinar procesos psicológicos.
En explorar las bases de tales percepciones diferenciales, no somos tan ingenuos como
para sugerir que el auto engrandecimiento intencional nunca ocurre. No obstante, es probable
que las percepciones puedan estar en discrepancia en la ausencia de una deliberada
decepción; es desde ésta perspectiva que nos aproximamos al asunto.
Para repartir responsabilidades para una empresa colectiva, los participantes bien
intencionados presumiblemente intenten recordar las contribuciones de cada uno hechas para
el producto final, Algunos aspectos de la interacción pueden ser recordados más rápidamente,
ó estar más disponibles, que otros, sin embargo. Además, las características que son
recordadas fácilmente no pueden ser un subset aleatorio de la totalidad. Específicamente, una
persona puede recordar una mayor proporción de sus propias contribuciones que podrían
otros participantes.
Un prejuicio egocéntrico en la disponibilidad de información en la memoria, a su vez
podría producir atribuciones prejuiciadas de responsabilidad para un producto colectivo.
Como Kahneman y Tversky (1973, 11) han demostrado, la gente usa la habilidad, que
significa, “la facilidad con la cual instancias relevantes vienen a la mente” (1973, p. 209),
145

como un prejuicio para estimar la frecuencia. Por lo tanto, si las alimentaciones auto
generadas estuvieran ciertamente más disponibles, los individuos tendrían más probabilidad
de reclamar más responsabilidad para un producto colectivo que otros participantes podrían
atribuirles a ellos.
Existen al menos cuatro procesos que pueden ser operantes para incrementar la
disponibilidad de las propias contribuciones de uno: (a) codificación selectiva y
almacenamiento de información, (b) resarcimiento diferencial, (c) disparidad de información
y (d) influencias de motivación.

Codificación selectiva y almacenamiento

Por un número de razones, la disponibilidad de la persona de sus propios factores de


producción puede ser facilitada por codificación diferencial y almacenamiento de las
respuestas auto-generadas. Primero, los pensamientos propios de los individuos (sobre lo que
ellos van a decir a continuación, soñar despierto, etc.) ó acciones pueden distraer su atención
de las contribuciones de otros. Segundo, los individuos pueden ensayar ó repetir sus propias
ideas ó acciones, por ejemplo, pensar fuera de sus posiciones antes de expresarse y
defenderla. Consecuentemente, sus propios factores de producción pueden recibir más
“tiempo de estudio”, y el grado de retención está fuertemente relacionado al tiempo de
estudio (Carver, 1972). Tercero, las contribuciones de los individuos tienen la probabilidad de
ajustarse más rápidamente dentro de su propio esquema cognitivo, lo que significa, su única
concepción del problema basado en la experiencia pasada, valores, etc. Las contribuciones
que se ajustan dentro de tales esquemas preexistentes tienen más probabilidad de ser
retenidas (Bartlett, 1932; Bruner, 1961).

Recuperación diferencial

El prejuicio de disponibilidad puede también ser producido por la recuperación selectiva de


la información de la memoria. En la asignación de responsabilidad para un resultado
colectivo, la cuestión esencial desde el punto de vista de cada uno de los participantes puede
ser, “Cuánto contribuí yo?” Los participantes pueden, por consiguiente, intentar recordar
principalmente sus propias contribuciones para estimar sus contribuciones relativas, un juicio
que no puede ser apropiadamente hecho sin una consideración de los factores de producción
de otros también.

Disparidades de información

Es posible que haya diferencias en la información disponible para los contribuyentes que
pueden promover un recuerdo egocéntrico. Los individuos tienen más grande acceso a sus
propios estados internos, pensamientos y estrategias que hacen los observadores. Más aún,
los participantes en un esfuerzo común pueden diferir en su conocimiento de la frecuencia y
significancia de cada uno de las contribuciones independientes de cada uno de los otros. Por
ejemplo, los supervisores del cuerpo docente pueden estar menos concientes que sus colegas
estudiantes de la cantidad de tiempo, esfuerzo ó ingeniosidad que los estudiantes invierten en
sujetos corrientes, ejecutar análisis de datos y escribir borradores preliminares de un trabajo.
Por otro lado, los supervisores son menos conocedores de la cantidad y de la importancia del
pensamiento, lectura, etc. que ellos ponen al estudio antes que empiece el involucramiento de
los estudiantes.
Influencias de motivación
146

Los factores de motivación pueden también servir un prejuicio egocéntrico en la


disponibilidad. El sentido de la auto-estima de uno puede ser ensalzado focalizando sobre ó
pesando más grandemente en los propios factores de producción. Similarmente, una
inquietud para la eficacia personal ó control (vea deCharms, 1968; White, 1959) podrían
conducir a los individuos a detenerse en sus propias contribuciones para un producto
colectivo.
La discusión precedente delinea un número de procesos que pueden estar operando para
dar a los propios factores de producción de uno más disponibilidad (y más probable de ser
recordados) que la contribuciones de los otros. Consecuentemente, puede ser difícil imaginar
una desconfirmación de la hipótesis de que las memorias y las atribuciones son egocéntricas.
Como Greenwald (1978) ha observado, sin embargo, el carácter egocéntrico de la memoria
“no es una necesaria verdad”. Es posible, por ejemplo, concebir de una organización de una
experiencia pasada que es más probable que de un trabajo de referencia, tal como el texto de
una historia, ó el índice de un diccionario” (p. 4). Además, nosotros estamos incapacitados
para encontrar datos publicados directamente soportantes del prejuicio hipotetizado en
disponibilidad. Finalmente, recientes desarrollos en la literatura actor-observador parecen
inconsistentes con la hipótesis de que las memorias y las atribuciones son egocéntricas. Jones
y Nisbett (1971) especularon que los actores están dispuestos a localizar la causa de su
comportamiento en el entorno, mientras que los observadores atribuyen el mismo
comportamiento a características estables poseídas por los actores. Aunque una variedad de
explicaciones fueron avanzadas para contar por este efecto (Jones & Nisbett, 1971), el
reciente énfasis ha sido sobre el procesamiento de la información de percepción (Storms,
1973; Taylor & Fiske, 1975). Los receptores visuales del actor son lanzados hacia el medio
ambiente; un observador puede focalizarse directamente en el actor. Por tanto, aspectos
divergentes de la situación son salientes a los actores y observadores, una disparidad que es
reflejada en sus atribuciones causales. Esta propuesta parece contradecir la tesis de que los
actores en una interacción son grandemente auto-absorbidos.
Dos estudios ofrecen sugestiva evidencia ó la presente hipótesis. Rogers, Kulper y Kirker
(1977) mostraron que las características de los adjetivos fueron recordadas más rápidamente
cuando los sujetos habían sido requeridos para hacer un juicio sobre la auto-relevancia (para
decidir si cada característica fue descriptiva de ellos) más que sobre un número de otras
dimensiones, por ejemplo, juicios de sinonimidad). Estos datos implican que la auto-
relevancia incrementa la disponibilidad; sin embargo, Rogers et al. no contrastaron el
recuerdo de los adjetivos relevantes al yo con recuerdo de adjetivos relevantes a otras gentes
– una comparación que sería más pertinente a la corriente discusión.. Greenwald y Albert
(1968) encontraron que los individuos recordaron sus propios argumentos sobre un asunto de
actitud más exactamente que los argumentos escritos de otros sujetos. Desde que los
argumentos del yo y de otros fueron siempre sobre lados opuestos del asunto, el
descubrimiento de Greenwald y Albert podrían concebiblemente reflejar un incremento de la
familiaridad con, y una memoria para, argumentos consistentes con la propia posición de
actitud de uno más que la memoria intensificada por declaraciones auto-generadas (aunque la
evidencia por el aprendizaje de una actitud prejuiciada es equívoca, por ejemplo, Greenwald
& Sakumura, 1967; Malpass, 1969).
Nosotros condujimos un estudio piloto para determinar si podríamos obtener soporte para
el prejuicio hipotetizado en la disponibilidad. Los estudiantes en un seminario universitario
fueron requeridos a estimar el número de minutos que cada uno de los miembros del
seminario habían hablado sobre el inmediatamente precedente período de clase. Unos 26
sujetos adicionales fueron obtenidos de la ocurrencia natural de grupos de dos personas
aproximados en cafeterías y bares. Los participantes en estos grupos fueron requeridos a
147

estimar el porcentaje del tiempo total que cada persona había hablado durante la corriente
interacción.
Fue asumido que los sujetos basarían sus estimados del tiempo sobre aquellas porciones
de la conversación que ellos recordarían rápidamente. Por lo tanto, si existe un prejuicio en la
dirección del mejor recuerdo de las propias declaraciones de uno, los estimados de la
cantidad de tiempo que ellos mismos hablaron excedería el promedio del tiempo hablado
atribuido a ellos por los otros miembros del grupo.
Los resultados fueron consistentes con este razonamiento. Para siete de los ocho
estudiantes en el seminario universitario, las evaluaciones de su propio tiempo de discusión
excedió el tiempo promedio estimado atribuido a ellos por los otros participantes (p < .05,
señal de la prueba). Similarmente, en 10 de los 13 parejas, las estimaciones del propio tiempo
de discusión de uno excedió a ese proporcionado por los otros participantes (p < .05, señal de
la prueba). La magnitud del prejuicio fue altamente significante sobre las 13 parejas, F(1, 12)
= 14.85, p < .005; en promedio, los participantes estimaron que ellos hablaron 59% del
tiempo. Estos datos proveen preliminarmente, aunque indirecta, evidencia por el prejuicio de
disponibilidad hipotetizado en situaciones de cada día. . . .

Experimento 1

En este experimento, deseamos examinar prejuicios egocéntricos que ocurren naturalmente


en relaciones continuadas. Parejas casadas parecieron representar un grupo de objetivo ideal.
Loa esposos Los esposos se ocupan en muchas empresas conjuntas de variada importancia.
Esta circunstancia parecerá ser abundante con posibilidades de prejuicios egocéntricos.
Como corresponde, el primer experimento fue conducido (a) para determinar si los
prejuicios egocéntricos en reparticiones de responsabilidad ocurren en las relaciones
maritales; (b) para hacer una réplica, usando una medida dependiente diferente, el prejuicio
egocéntrico en la disponibilidad obtenido previo a la prueba; y (c) correlacionar el prejuicio
en la disponibilidad con el prejuicio en la responsabilidad. Si el prejuicio en la
responsabilidad es causado por un prejuicio en la disponibilidad, los dos sets de datos
estarían relacionados.

Método

Sujetos. Los sujetos fueron 37 parejas casadas viviendo en residencias de estudiantes. Veinte de las
parejas tenían niños. Los sujetos fueron reclutados por dos mujeres asistentes de investigación
quienes tocaron de puerta en puerta en las residencias y brevemente describieron el experimento. Si la
pareja estuviera dispuesta a participar, una cita fue acordada. El estudio fue conducido en el
apartamento de la pareja; a cada pareja se le pagó $ 5.00 por participar.

Procedimiento Un cuestionario fue desarrollado sobre la base de extensas entrevistas preliminares con
seis parejas casadas. En el propio experimento, el cuestionario fue completado individualmente por el
esposo y la esposa; su anonimato fue asegurado. Las primeras páginas del cuestionario requirieron de
los sujetos estimar la extensión de sus responsabilidad por cada una de las 20 actividades relevantes
de la parejas casadas, poniendo una reducción a través de una línea recta de 150-mm, los puntos
finales de las cuales fueron etiquetados “primariamente esposa” y “primariamente esposo”. 1 Las
veinte actividades fueron preparar el desayuno, lavar los platos, limpiar

1 En las entrevistas preliminares, utilizamos porcentajes estimados. Nosotros encontraos que los sujetos fueron
capaces de recordar el porcentaje que ellos grabaron y que las comparaciones post-cuestionario de los
porcentajes proveyeron una fuerte fuente de conflicto entre los cónyuges. El uso de las escalas de 150-mm
evitaron éstas dificultades; los sujetos no estuvieron inclinados a evitar sus gastos dentro de porcentajes exactos
que podrían entonces ser disputados
148

la casa, compra de abarrotes, cuidado de sus niños, planear actividades conjuntas de ocio, decidir
cuánto dinero debería ser gastado, decidir dónde vivir, escoger amistades, tomar decisiones
importantes que afectan a ambos, causar argumentos que ocurren entre ambos, resolver conflictos que
ocurren entre ambos, arreglar el desorden de la casa, lavar la ropa, mantener contacto con los
parientes, demostrar afecto por el cónyuge, sacar la basura, irritar al cónyuge, esperar al cónyuge,
decidir si tener niños.
Los sujetos fueron a continuación requeridos a grabar brevemente ejemplos de las contribuciones
que ellos ó sus cónyuges hicieron para cada actividad. Sus escritos grabados fueron subsecuentemente
examinados para evaluar si los factores de producción de la propia persona estuvieron generalmente
más “disponibles”.Eso es, los ejemplos reportados por los sujetos tendieron a focalizarse más en sus
propios comportamientos que en los de sus cónyuges? Un pagador de impuestos, ciego a la hipótesis
experimental, grabó el número de ejemplos discretos que los sujetos proveyeron de sus
contribuciones propias y de sus cónyuges. Un segundo pagador de impuestos codificó un tercio de los
datos, la fiabilidad (correlación producto-momento de Pearson) fue de .81.

Resultados

Las respuestas de ambos cónyuges a cada una de las preguntas de responsabilidad fueron
sumadas, de tal manera que el total incluyó la cantidad que la esposa consideró como su
contribución y la cantidad .que el esposo consideró como su contribución. Puesto que la
escala de respuesta fue de 150 mm. de largo, existieron 150 “unidades de responsabilidad”
para ser repartidas. Una suma mayor que las 150 indicaría un prejuicio egocéntrico en la
contribución percibida, en que al menos que uno de los cónyuges estuvo sobreestimando su
responsabilidad para esa actividad. Para evaluar el grado de sobre ó subestimación que los
cónyuges revelaron para cada actividad, 150 fue sustraído del total de cada una de las parejas.
Un punteo fue derivado para la pareja, promediando sobre las 20 actividades (ó 19 cuando la
pareja no tenía niños).
Un análisis de la variación, usando la pareja como la unidad de análisis reveló que los
punteos compuestos fueron significantemente mayores que cero, M = 4.67, F(1. 35) = 12.89,
p < .001, indicando un prejuicio egocéntrico en las contribuciones percibidas. Veintisiete de
las 37 parejas mostraron algún grado de sobreestimación (p < .025, prueba de señal). Más
aún, en el promedio de sobreestimación ocurrido en 16 de los 20 ítems del cuestionario,
incluyendo ítems negativos – por ejemplo, argumentos causantes entre los dos de ustedes,
F(1, 32) = 20.38, p < .001. Aunque la magnitud de la sobreestimación fue relativamente
pequeña, en el promedio, note que los sujetos tendieron a usar un rango restringido de la
escala. La mayoría de las repuestas estuvieron levemente arriba ó levemente debajo de la
marca a la mitad del camino en la escala. Ninguno de los ítems mostraron un significativo
efecto de subestimación.
El segundo set de ítems en el cuestionario requirió de los sujetos grabar ejemplos de sus
propias contribuciones y las de sus cónyuges para cada actividad. Un punteo de la diferencia
media fue obtenido sobre las 20 actividades (promediando sobre esposo y esposa), con el
número de ejemplos de contribuciones de los cónyuges sustraído del número de ejemplos de
las contribuciones propias. Una prueba de la gran media fue altamente significativa, F(1, 35)
= 36.0, p < .001; como se esperaba, los sujetos proveyeron más ejemplos de sus propios
factores de producción (M = 10.9) que de sus cónyuges (M = 8.1). La correlación entre ésta
diferencia entre el punteo de uno y del otro y la medida inicial de la responsabilidad
percibida fue determinada. Como si fuera una hipótesis, mientras mayor la tendencia a
recordar los comportamientos auto-relevantes, mayor fue la sobreestimación en la
responsabilidad percibida, r(35) = .50, p < .01.
El número de palabras contenidas en cada uno de los ejemplos reportados por los sujetos
fue también evaluado para proporcionar una medida de la elaboración ó riqueza del recuerdo.
149

El número medio de palabras por ejemplo no difirió como una función de si el


comportamiento fue reportado para ser emitido por uno (M = 10.0) ó por el cónyuge (M =
10.1), F < 1. Además, ésta medida no fue corregida con la medida de responsabilidad
percibida, r(35) = -.15, ns.
En resumen, ambas la medida de la responsabilidad y la medida reflejando la
disponibilidad de comportamientos relevantes mostraron los prejuicios egocéntricos de las
hipótesis. Más aún, existió una significativa correlación entre la magnitud del prejuicio en la
disponibilidad y la magnitud del prejuicio en la responsabilidad. Este descubrimiento es
consistente con la hipótesis de que los prejuicios egocéntricos en las atribuciones de
responsabilidad son mediados por los prejuicios en la disponibilidad. Finalmente, la cantidad
del comportamiento recordado pareció ser el factor importante, más que la riqueza del
recuerdo. . . .

Experimento 2

En el experimento 2, tuvimos a los jugadores de 12 equipos de basketball intercolegial que


individualmente completan un cuestionario en el cual ellos fueron requeridos a recordar un
importante punto decisivo en su último partido y a evaluar porqué su equipo había ganado ó
perdido.
Es un salto para ir de las comparaciones del yo y del otro que hemos considerado en los
estudios previos para las comparaciones del propio equipo y del otro. Existen, sin embargo,
un número de razones para esperar que las acciones del propio equipo de uno estaría más
disponible para el atribuidor que las acciones del otro equipo: Yo sé los nombres de mis
compañeros de equipo, y por consiguiente, yo tengo unos medios listos de organizar el
almacenamiento y retribución de los datos relevantes para ellos; nuestro éxito en futuros
partidos contra otros oponentes depende más de nuestras propias habilidades ofensivas y
defensivas que sobre las habilidades del equipo opuesto. Consecuentemente, yo puedo
atender más cercanamente a las acciones de mis compañeros, las cuales estimularían
codificar y almacenar. También existen disparidades de información: Las estrategias de mi
propio equipo son más importantes que las estrategias del equipo opositor (Tversky &
Kanhneman. 1973. 11). Si las iniciativas del propio equipo de uno están diferencialmente
disponibles, los jugadores recordarían un punto decisivo en términos de las acciones de su
equipo y la responsabilidad del atributo para el resultado del juego para su equipo. . . .

Método

Sujetos. Setenta y cuatro mujeres y 84 hombres jugadores del basketball intercolegial participaron en
el estudio. Los técnicos de los equipos fueron contactados por teléfono; todos acordaron seguir las
discusiones con sus jugadores para que sus equipos participen en el estudio.

Procedimiento. Lo s cuestionarios fueron administrados después de seis partidos en los cuales los
equipos participantes en el estudio jugaron unos contra otros. Por lo tanto, para los tres partidos
masculinos escogidos, tres de los seis equipos masculinos en el estudio estuvieron compitiendo contra
los otros tres equipos. Similarmente, los tres equipos femeninos seleccionados incluyeron todos los
seis equipos femeninos. Los cuestionarios fueron administrados en la práctica del primer equipo
siguiendo el objetivo del partido (1 ó 2 días después del partido), excepto en un caso donde, debido a
los calendarios de juego del equipo, fue necesario recolectar los datos inmediatamente después del
juego (dos equipos femeninos). Los cuestionarios fueron completados individualmente, y el
anonimato de los encuestados fue garantizado. Las preguntas relevantes, de la perspectiva corriente,
fueron las siguientes:
150

1. Por favor describa brevemente un importante punto decisivo en el último juego e indique en cual
período ocurrió.
2. Nuestro equipo ganó/perdió nuestro último partido debido a. . . .
Las respuestas a la primera pregunta fueron examinadas para determinar si el punto decisivo fue
descrito como precipitado por el propio equipo de uno, ambos equipos, ó el otro equipo. Las
respuestas a la segunda pregunta fueron examinadas para evaluar el número de razones para la
ganancia ó la pérdida que relacionó a las acciones de ya sea del propio de uno ó del equipo opuesto.
Los datos fueron codificados por una persona quién no estaba al tanto de las hipótesis experimentales.
Un segundo observador independientemente codificó las respuestas del 50% de los sujetos. Hubo
100% de concordancia para ambas interrogantes.

Resultados

No hubo una significativas diferencias en sexo en las dos medidas dependientes, los resultados son,
por consiguiente, reportados colapsados a través del género. Puesto que las respuestas de los
miembros del equipo no pueden ser vistas como independientes, las respuestas fueron promediadas, y
el equipo sirvió como la unidad de análisis.
Un examen preliminar de los datos del “punto decisivo” reveló que aún dentro de un equipo, los
jugadores fueron recordando eventos muy diferentes. A pesar de eso, 119 jugadores recordaron un
punto decisivo que ellos describieron como precipitado por las acciones de su propio equipo; 13
jugadores recordaron un punto decisivo que ellos lo vieron como causado por ambos equipos; 16
jugadores recordaron un punto decisivo visto al ser iniciado por las acciones del equipo opuesto (los
restantes 10 jugadores no respondieron la pregunta). Los sujetos describieron tales eventos como una
fuerte defensa durante los dos últimos minutos del partido, un robo defensivo, un cambio en las
estrategias ofensivas, etc.
El porcentaje de jugadores que recordaron un punto decisivo causado por sus compañeros de
equipo fue derivado por cada equipo. Estos 12 punteos fueron remitidos a un análisis que los comparó
a una expectante casualidad del 50%. La distribución obtenida fue significativamente diferente de la
casualidad, F(1, 11) = 30.25, p < .001, con una media del 80.25%. Como se formuló la hipótesis, la
mayoría de los reportes enfatizaron las acciones de los jugadores del propio equipo.
El porcentaje de jugadores que recordaron un punto decisivo causado por sus compañeros de
equipo fue examinado en relación al desenvolvimiento del equipo. El porcentaje promedio fue mayor
en el equipo perdedor que en el equipo ganador en cinco de los seis partidos (p < .11, prueba de
señal). La diferencia media entre los porcentajes de los equipos perdedor (M = 88.5) y ganador (M =
72) no fue significativa.
Las explicaciones de los jugadores de sus equipos ganadores ó perdedores fueron también
examinados. De los 158 participantes, solo 14 proporcionaron cualesquiera razones que involucraron
las acciones del equipo opuesto. En promedio, los sujetos reportaron 1.79 razones para el ganador ó el
perdedor que involucró a su propio equipo y .09 razones que involucraron al equipo opuesto, F(1, 11)
= 272.91, p < .001. Finalmente, la tendencia a imputar más razones al propio equipo de uno no fue
significantemente mayor después de una pérdida (M = 1.73) que después de una ganancia (M = 1.65),
F < 1.

Discusión

Las respuestas a la pregunta sobre el punto decisivo indican que los desenvolvimientos de los
compañeros de equipo de los sujetos estuvieron más disponibles que aquellos de los miembros del
equipo opuesto. Además, los sujetos le imputaron la responsabilidad. Por tanto, los prejuicios de
disponibilidad y los juicios de responsabilidad pueden ocurrir a nivel de grupo. Más bien y Heskowitz
(1977) proporciona otro ejemplo del egocentrismo de grupo: “CBS [noticias] llegó a ser un sólido
Número Uno después del lanzamiento del Apolo a la luna en 1968. Si ustedes son una persona CBS,
ustedes tienden a decir nuestra cobertura del alunizaje inclinó a todos sobre nosotros. Si ustedes son
151

una persona NBC, ustedes tienden a citar la desmembración del equipo Huntley-Brinkley como el
factor clave” (p. 307). . . .

Experimento 3

En el experimento 3, intentamos cambiar el foco de atención del individuo para afectar la


disponibilidad. Nosotros empleamos una manipulación designada para promover una
recuperación selectiva de la información directamente relevante a las atribuciones de la
responsabilidad.
En nuestro análisis inicial, sugerimos que la atribuciones egocéntricas de la
responsabilidad podrían ser producidas por la recuperación selectiva de información desde la
memoria y que la recuperación podría ser guiada por la forma de preguntas que los
individuos se preguntan a sí mismos. El experimento 3 fue conducido para probar ésta
hipótesis. Los sujetos fueron inducidos a comprometerse en aplazar la recuperación por
variaciones en la forma en la cual las preguntas fueron formuladas. Los estudiantes
graduados fueron estimulados a pensar sobre ya sea sus propias contribuciones a sus tesis de
BA ó las contribuciones de sus supervisores. La cantidad de responsabilidad para la tesis que
los sujetos asignaron a ya sea a sí mismos ó al supervisor fueron entonces evaluados. Se
formuló una hipótesis de que los sujetos aceptarían menos responsabilidad para el esfuerzo
de investigación en el foco del supervisor que en la condición del foco de sí mismo.

Método

Los sujetos. Los sujetos fueron 17 mujeres y 12 hombres estudiantes graduados en psicología. La
mayoría había completado 1 ó 2 años en la escuela de graduados. Todos éstos estudiantes habían
conducido experimentos que sirvieron con sus tesis de BA en su año final para graduarse.

Procedimiento. Los sujetos fueron aproximados individualmente en sus oficinas y requeridos


a completar un breve cuestionario sobre las relaciones supervisor-estudiante. Ninguno se
rehusó a participar. Las dos formas del cuestionario fueron distribuidas al azar a los sujetos; a
ellos se les aseguró que sus respuestas serían anónimas y confidenciales.
Una forma del cuestionario requería a los sujetos indicar su propia contribución a cada
uno de un número de actividades relacionadas a sus tesis de BA. Las preguntas fueron como
sigue: (a) “Yo sugerí el ___ por ciento de la metodología que fue finalmente empleada en el
estudio”. (b) “Yo proveí el ___ por ciento de la interpretación de los resultados”. (c) “Yo
inicié ___ por ciento de las discusiones de la tesis relevante con mi supervisor”. (d) “Durante
las discusiones de la tesis relacionada yo tendí a controlar el curso y contenido de la
discusión el ___ por ciento del tiempo”. (e) “De todas las cosas consideradas, yo fui
responsable del ___ por ciento del esfuerzo total de la investigación”. (f) “Cómo evaluaría
usted su tesis relativa a otras hechas en el departamento?”.
La segunda forma del cuestionario fue idéntica a la de arriba, excepto que la palabra yo
(condición de auto foco) fue reemplazada con mi supervisor (condición de foco mi
supervisor) en las Preguntas 1-5. Los sujetos fueron requeridos a llenar los espacios en
blanco con las respuestas a las primeras cinco preguntas y a poner un cheque a través de una
línea de 150-mm, con puntos finales etiquetados “inferior” y “superior”, en la respuesta a la
pregunta 6.

Resultados y discusión

Para propósitos del análisis, se asumió que la contribución del supervisor y el estudiante a
152

cada ítem se agregaría hasta el 100%. Aunque el experimento fue introducido como un
estudio de las relaciones supervisor-estudiante, es posible que los estudiantes puedan haber
considerado en sus estimaciones los factores de producción de otros individuos (por ejemplo,
estudiantes amigos). No obstante, el procedimiento corriente provee una prueba conservadora
de la hipótesis experimental. Por ejemplo, si un sujeto respondió el 20% de un ítem en la
versión “I” del cuestionario, se asumió que su supervisor contribuyó con el 80%. Aunque el
supervisor puede haber contribuido solo con el 60%, con una persona no especificada
proveyendo el remanente. Por posiblemente una sobreestimación de la contribución del
supervisor, sin embargo, estamos prejuiciando los datos contra la hipótesis experimental: La
versión “I” se esperaba que redujera el porcentaje de responsabilidad asignado al supervisor.
Las respuestas de los sujetos a las primeras cinco preguntas sobre la forma “I” del
cuestionario fueron sustraídas de 100, de tal manera que los números más altos reflejarían
mayores contribuciones del supervisor en ambas condiciones, La pregunta 5 trata con la
totalidad de la responsabilidad por el esfuerzo de la investigación. Como se anticipó, los
sujetos asignaron más responsabilidad al supervisor en la condición de la concentración del
supervisor (M = 33.3%) que en la condición de la auto-concentración (M = 16.5%), F(1, 27)
= 9.05, p < .01. Las primeras cuatro preguntas estuvieron relacionadas con diferentes
aspectos de la tesis, y la respuesta promedio reveló un resultado similar: concentración del
supervisor M = 33.34; auto-concentración M = 21.82; F(1, 27) = 5.34, p < .05. Finalmente,
los sujetos tendieron a evaluar sus tesis más positivamente en la condición de auto-
concentración que en la condición de concentración del supervisor; 112.6 versus 94.6,
F(1,27) = 3.59, p < .10.
Las contrastantes palabras de las preguntas tuvo el impacto anticipado sobre las
asignaciones de responsabilidad de los sujetos. La versión del cuestionario del supervisor
presumiblemente causó a los sujetos recordar una mayor proporción de las contribuciones de
los supervisores que la forma “I” del cuestionario. Esta disponibilidad diferencial estuvo
entonces reflejada en las asignaciones de responsabilidad. Note, sin embargo, que las
preguntas no fueron enteramente exitosas en controlar la reparación de los sujetos. Al
supervisor le fue asignada solo un tercio de la responsabilidad por la tesis en la condición de
la concentración del supervisor.
A la luz de los presentes datos, las atribuciones de responsabilidad de los jugadores de
basketball por el resultado del partido en el Experimento 2 necesitan ser reexaminadas.
Recuerde que los jugadores fueron requeridos a completar la frase: “Nuestro equipo
ganó/perdió nuestro último partido debido a. . . .”. Esta pregunta condujo a un altamente
significativo prejuicio egocéntrico. Con percepción retrospectiva, es evidente que la forma de
la pregunta – “Nuestro equipo , , , nuestro último partido” puede haber impulsado a los
sujetos a concentrarse en las acciones de sus propios equipos, aún cuando el palabreo no
excluye referencias al equipo opuesto. La pregunta del “punto decisivo” en el Experimento 2
fue más neutralmente palabreado y no es susceptible para ésta interpretación alternativa.
Las preguntas dominantes en éstos estudios emanan de una fuente externa; muchas de
nuestras preguntas de recuperación son auto-iniciadas, sin embargo, y nuestro recuerdo puede
bien ser prejuiciado por la forma en la cual formulamos las preguntas de recuperación a
nosotros mismos. Por ejemplo, los jugadores de basketball son probablemente más proclives
a pensar en términos de “Por qué nosotros ganamos ó perdimos?” que en términos de una
neutralmente fraseada “Cuál equipo fue responsable del resultado del partido?”. . .
La presente investigación demuestra la prevalencia de prejuicios auto-centrados en la
disponibilidad y en juicios de responsabilidad. En la vida diaria, éstas tendencias
egocéntricas pueden ser ignoradas cuando empresas conjuntas no requieren asignaciones
explícitas de responsabilidad. Si las asignaciones son establecidas distintamente, sin
embargo, existe un potencial para el disenso, y los individuos son improbables de darse
153

cuenta que sus diferencias en juicio podrían surgir de evaluaciones honestas de información
que están diferencialmente disponibles.
154

13. El prejuicio de disponibilidad en la percepción


social e interacción

Shelley E. Taylor

Todos los días el percibidor social hace numerosos, aparentemente complejos juicios sociales
– Predecir el comportamiento de otro, atribuir responsabilidad, categorizar a un individuo,
evaluar a otros, estimar el poder de influencia de una persona, ó atribuir una causalidad.
Hasta recientemente, la investigación sobre éste tópico fue marcada por un prejuicio
racionalista, la suposición de que los juicios son hechos usando perfectas, estrategias óptimas
(vea, por ejemplo, Fischhoff, 1976, para discusión sobre este punto). Los errores en juicios
fueron atribuidos a dos fuentes: (a) errores accidentales debido a problemas con la
información de los cuales el percibidor no estuvo presumiblemente consciente; y (b) errores
que resultaron de motivos irracionales y necesidades del percibidor.
Dentro de la psicología social ésta perspectiva está representada por la investigación de la
atribución causal. En las primeras formulaciones de la atribución (por ejemplo, Jones &
Davis, 1965; Kelley, 1967) el percibidor social fue caracterizado como un científico lego que
reunió información de múltiples fuentes en el medio ambiente para hacer atribuciones
considerando las relaciones causa-efecto. Cuando fueron observadas orientaciones de estos
modelos normativos, se creyó que ellos se derivan de prejuicios tal como la relevancia
hedónica (vea, Miller & Ross, 1975).
Sin embargo, a través de un período de años, un creciente cuerpo de evidencia sugirió no
solo que los juicios y decisiones de la gente son menos completos y racionales de lo que fue
pensado pero que no todos los errores pueden ser rastreados por factores de motivación. Aún
en la ausencia de motivos, los juicios están a menudo hechos sobre las bases de datos
escasos, los cuales aparentemente son casualmente combinados e influenciados por pre-
concepciones (vea, por ejemplo, Dawes, 1976). Estos descubrimientos condujeron a una vista
revisada del sistema cognitivo. La gente vino a ser vista como de capacidad limitada, capaz
de tratar con solo una pequeña cantidad de datos a la vez. Más que ser vista como un
científico lego que optimiza, la persona fue considerada para “satisfacer” (Simon, 1957) y
usar atajos que producirían decisiones y juicios eficiente y exactamente.
Una de las contribuciones más provocativas y que influyen para ésta opinión revisada del
proceso del juicio es el trabajo de Kahneman y Tversky sobre heurísticas cognitivas
(Kahneman y Tversky, 1974, 1). De acuerdo a Kahneman y Tversky (1974, 1), las heurísticas
son usadas bajo condiciones de incertidumbre, ó la no disponibilidad ó indeterminación de
información importante. En juicios no sociales, la incertidumbre se deriva primariamente del
hecho de que la información relevante a un juicio particular es casi siempre incompleta. El
material apropiado real puede ser inaccesible, el puede no ser agrupado en tiempo para
referirse a la decisión, ó el puede ser muy voluminoso para ser apropiadamente organizado y
La preparación de este trabajo fue patrocinada por NSF Research Grant No. BNS 77-09922
155

utilizado en una tarea de juicio.


Las heurísticas son probables estrategias para hacer juicios sociales así como para no
sociales por varias razones. Primera, la distinción entre juicios sociales y no-sociales es una
arbitraria, en que virtualmente cualquier juicio significativo tiene consecuencias sociales.
Segunda, los juicios sociales involucran las mismas formas de incertidumbre que caracteriza
a los juicios no-sociales. Tercera, los juicios sociales incluyen nuevas fuentes de
incertidumbre. La información sobre la gente es más ambigua, menos fidedigna y más
inestable que es la información sobre objetos ó eventos no-sociales, desde que la gente no usa
sus atributos personales sobre sus caras del modo que los objetos usan su color, forma ó
tamaño. Por lo tanto, los atributos personales deben ser inferidos más que observados
directamente. La gente tiene intenciones, de las cuales no todas son directamente
establecidas. Debido a que la mayoría de acciones sociales significativas pueden ser
comprometidas para una variedad de razones y producirá una variedad de consecuencias, el
significado de la acción social es fundamentalmente ambiguo. Aunque los objetos mantienen
sus atributos cruzados-en situación y fuera de hora, los motivos de la gente cambian de
situación en situación, y las metas cambian de minuto a minuto así como sobre el tiempo de
vida; por tanto, una inferencia exacta en una situación puede tener poca utilidad productiva.
La imposibilidad de tener información completa, segura, predecible sobre la gente y las
interacciones sociales sugieren que la gente adopta heurísticas que la posibilita a hacer
inferencias y predicciones de los escasos y no confiables datos que están disponibles.

La disponibilidad heurística

Una de tales heurísticas es la disponibilidad. “Una persona se dice que emplea la


disponibilidad heurística cada vez que él estima la frecuencia ó probabilidad por la facilidad
con la cual las instancias ó las asociaciones vienen a la mente” (Tversky & Kahneman, 1973,
p. 208, 11). Uno asume que si los ejemplos son traídos a la mente rápidamente, entonces debe
haber muchos de ellos, ó que si una asociación es hecha fácilmente, entonces debe ser exacta,
puesto que las uniones asociativas son construidas con experiencia. Además, es fácil de
restablecimiento, construcción y asociación que provee la estimación de la frecuencia ó de la
probabilidad, no la suma total de ejemplos ó asociaciones que vienen a la mente. Por tanto,
una importante diferencia entre el uso de la disponibilidad heurística y el uso de algún
proceso más elaborado es que el poco restablecimiento actual ó construcción necesita ser
completado, una estimación de la facilidad con la cual este proceso puede ser ejecutado es
suficiente como una base para la inferencia.
Tversky & Kahneman (1973, 11) sugieren dos clases generales de tareas en las cuales un
prejuicio de disponibilidad podría figurar prominentemente: la construcción de instancias y
asociaciones y el restablecimiento de asociaciones e instancias. Estas dos tareas generales son
también tareas del percibidor social. Bajo muchas circunstancias, podemos ser requeridos a
construir un comportamiento social, como en tratar de adivinar cómo algún amigo va a
comportarse él se da cuenta que su esposa lo está abandonando. En tales casos uno está
construyendo una realidad social contra la cual el evento social actual puede ser comparado.
En otros casos, uno puede sacar del pasado ejemplos del comportamiento de un individuo
para hacer inferencias, como en recordar instancias de cómo este mismo amigo se las arregló
con la crisis en el pasado como una base para inferir como él se las arreglará ahora.
Hasta cierto punto las suposiciones relacionadas entre la facilidad de construcción ó
restablecimiento y número de ejemplos ó asociaciones son exactas, y al grado que ellas son,
un individuo usando la disponibilidad heurística alcanzará las inferencias correctas ó al
menos inferencias que se asemejen a aquellas alcanzadas usando procedimientos más
exhaustivos y agotadores. Bajo otras circunstancias, sin embargo, aquellas inferencias pueden
156

no ser exactas debido a que existen prejuicios en los datos disponibles que son traídos para
ser apropiados al problema. Existen al menos tres maneras en las cuales un prejuicio en los
datos disponibles podrían prejuiciar a procesos sociales subsecuentes. Primero, datos
altamente importantes pueden estar más disponibles y por lo tanto ejercer una
desproporcionada influencia sobre los procesos de juicio. Segundo, prejuicios en el proceso
de restablecimiento en sí mismo puede conducir a una base de datos no-representativa.
Tercero, la perseverancia de las estructuras cognitivas del percibidor tales como creencias y
valores fomentan preconcepciones que aumentan la disponibilidad de cierta evidencia, por
tanto prejuiciando el proceso de juicio. La presencia de cualquiera de éstos prejuicios
evidenciales ó de procesamiento pueden conducir a inferencias prejuiciadas.

Disponibilidad y prejuicios salientes: Un ejemplo

Prejuicios salientes se refieren al hecho que el colorido, la dinámica ú otros estímulos


distintivos desproporcionadamente comprometen la atención y concordantemente afectan los
juicios desproporcionadamente. Un ejemplo de tal prejuicio a sido denominado el error de
atribución fundamental (vea Ross, 1977) y se refiere a un penetrante prejuicio de ver a la
gente como agentes causales en el medio ambiente. Lo que significa que, en un ajuste social
en el cual ya sea una persona ó alguna variable situacional es un plausible candidato causal
para un resultado, ahí existe un prejuicio general de ver a la gente como agentes causales,
particularmente sus atributos de tolerancia de disposición.
Algunas gentes son más sobresalientes que otras, y ésta diferencia de sobresaliente dentro
del entorno social puede también prejuiciar del proceso de juicio. Estudios que han aplicado a
principios de gestar una idea de énfasis de figura al mundo social (vea, por ejemplo,
McArthur & Post, 1977; Taylor & Fiske, 1975; Fiske et al., 1979) revelan que un individuo
que es brillantemente iluminan, moviéndose (como en una silla mecedora), muy contrastante
(a través de tales aparentemente triviales manipulaciones como el color de la camisa), ó
novela desviará una desproporcionada cantidad de atención.
Consecuencias sociales del prejuicio saliente son ilustradas por estudios que examinan el
impacto de la sola posición ó integración simbólica de las impresiones de la gente de los
individuos. Cuando una compañía está a punto de desintegrarse e incluye a miembros de un
grupo minoritario, tal como negros, mujeres ó los incapacitados, a menudo un paso
intermedio ocurre previo a la integración completa. En este paso, uno ó dos miembros de éste
grupo previamente excluido puede ser traído dentro de lo que ha de otro modo sido un grupo
de trabajo de hombres blancos, por tanto creando instancias de una sola posición. Una sola
posición puede presentarse por cualquiera de varias razones. Ahí debe de haber una ausencia
de aplicantes calificados del grupo minoritario particular; la organización puede desear evitar
el desafío sugerido por un grande influjo de miembros del grupo minoritario; ó uno solo
puede ser usado para prevenir las fuerzas de acción afirmativa. A pesar de las razones para la
integración simbólica, el símbolo ó solo individual es a menudo tratado como un
representativo de su grupo social. En consecuencia, las evaluaciones que son hechas de su
desenvolvimiento son a menudo usadas para predecir cuánto bien otros miembros de ese
grupo harían si ellos fueran a venir dentro de la organización también. La significación de la
sola posición es su novedad. En un distinto medio ambiente masculino, una mujer original,
como lo hace una negra, en un distinto medio ambiente blanco. Tal distinción fomenta un
prejuicio saliente.
157

En una analogía experimental de esta situación, los sujetos observaron una representación
audiovisual de un pequeño grupo (seis personas) teniendo una discusión informal. Algunos
sujetos vieron a un grupo que incluyó un negro, uno masculino ó uno femenino en un distinto
grupo blanco, femenino ó masculino, respectivamente (Taylor et al., 1976; Taylor, Fiske
Etcoff & Ruderman, 1978). Otros observaron grupos de comparación en los cuales el
contenido del grupo de discusión fue idéntico a ese de condiciones sola, pero la composición
del sexo ó raza del grupo fue igualada (por ejemplo, tres hombres y tres mujeres). Los sujetos
observaron el grupo de discusión y entonces grabaron sus impresiones de los individuos en
los grupos.
Consistente con el argumento que existe un prejuicio sobresaliente creado por posiciones
solas ó simbólicas, un comportamiento solo de un negro fue recordado de alguna manera
mejor que el comportamiento de ese mismo individuo en un igualmente comparable grupo
mixto, y el solo fue juzgado como haciendo más del parloteo comparado con un individuo
comparable en grupo mixto. 1 Este prejuicio saliente, a su vez, conduce a una extremidad
evaluativa. Cuando un individuo fue un solo en un grupo, el comportamiento de esa persona
fue evaluado más extremamente en ya sea una dirección positiva ó negativa, comparada con
el mismo comportamiento en un grupo mixto. Una persona desagradable fue percibida como
aún más cuando un solo; una persona agradable fue percibida como aún más agradable
cuando un solo.
Usando la disponibilidad heurística como un marco de trabajo explicatorio, uno puede
inferir que cuando los sujetos fueron requeridos a evaluar a un individuo en el grupo, ellos
trataron de acceder a ejemplos de comportamientos relevantes ó asociaciones para el
estímulo de las personas, y la facilidad con la cual tales instancias ó asociaciones vinieron a
la mente los condujeron a hacer evaluativamente juicios extremos. En el caso del solo, más
ejemplos de comportamientos relevantes están disponibles debido a que existe una gran base
de datos, conduciendo a una extremidad evaluativa. Estos resultados sugieren muy
fuertemente que un individuo distintivo que es un solo, quien es discapacitado, ó quién es de
otro modo diferente de otros individuos con quienes él interactúa, provocará evaluativamente
juicios extremos en aquellos alrededor de él. Las implicaciones de estos descubrimientos para
el mundo social son, por supuesto, profundos. Por ejemplo, si solos son usados como unas
bases para hacer decisiones de disgregación y percepciones de un solo son inherentemente
prejuiciadas, entonces decisiones equivocadas pueden ser hechas. Evaluaciones
exageradamente negativas de un solo pueden conducir a una terminación no garantizada de
un programa de disgregación.
Evaluaciones exageradamente positivas pueden finar falsas expectativas para el
comportamiento de otros miembros del grupo minoritario, expectativas que pueden no
ser encontradas.
Usando la disponibilidad heurística como un marco de trabajo explicatorio, uno puede
inferir que cuando los sujetos fueron requeridos a evaluar a un individuo en el grupo, ellos
trataron de acceder a ejemplos de comportamientos relevantes ó asociaciones a los estímulos
de las personas, y la facilidad con la cual tales instancias ó asociaciones vinieron a la mente y
los condujeron a hacer juicios extremos evaluativamente. En el caso del solo, más ejemplos
de comportamientos relevantes están disponibles debido a que existe una enorme base de
datos, conduciendo a la extremidad evaluativa. Estos resultados sugieren muy fuertemente
que un individuo distintivo quien es un solo, quien es discapacitado, ó quien es diferente de
otros individuos con quienes interactúa, evocarán evaluativamente los juicios extremos en
aquellos alrededor de él. Las implicaciones de estos descubrimientos para el mundo social
son, por supuesto, profundos. Por ejemplo, si los solos son usados como una base para
1
Medidas de recuerdo no fueron colectadas en los estudios sobre el solo masculino y el solo femenino.
158

hacer decisiones y percepciones de disgregación de un solo son inherentemente prejuiciadas,


entonces decisiones equivocadas pueden ser hechas. Las evaluaciones de un solo
exageradamente negativas pueden conducir a una finalización no garantizada de un programa
de disgregación. Evaluaciones exageradamente positivas pueden provocar falsas expectativas
para el comportamiento de otros miembros del grupo minoritario, expectativas que pueden
no ser experimentadas.
La motivación claramente no puede contar para estos prejuicios en las percepciones de
otros salientes. Aunque algunos procesos de motivación pueden ser comprometidos en
reacciones a los incapacitados ó a un solo, es difícil encontrarlos en las evaluaciones de una
persona quien es saliente por virtud del color de la camisa ó movimiento. Por consiguiente,
uno debe ver los factores cognitivos, y la disponibilidad heurística provee una posible
explicación para estos efectos.

Prejuicios de disponibilidad y restablecimiento: Dos ejemplos

Una segunda fuente de prejuicios de disponibilidad se deriva de cómo la información es


almacenada ó restablecida. Que significa, que la memoria está organizada en modos
particulares que pueden facilitar la recuperación ó construcción de ciertas formas de ejemplos
ó inferencias e interferir con otros. Una fuente de interferencia es la simple limitación en la
cantidad de información que puede ser sostenida en la memoria, la que puede conducir a
confusión en los rasgos asociativos o ejemplos que son almacenados.
Rothbart y sus colegas (Rothbart et al., 1978) demostraron este problema en un estudio de
los atributos de grupos sociales. A los sujetos se les dio información característica sobre
hipotéticos miembros del grupo (por ejemplo, Phil es perezoso) bajo una de dos condiciones.
Los sujetos tampoco vieron los nombres de varios diferentes miembros del grupo (Ed, Phil,
Fred; Joe) aparejados con un rasgo particular (perezoso) ó ellos vieron el mismo nombre del
rasgo aparejando (Phil es perezoso) un equivalente número de veces. Si los sujetos son
capaces de recordar exactamente cuales nombres fueron aparejados con cuales rasgos,
entonces las inferencias sobre el grupo como un todo deberían ser más fuertes si varios
miembros del grupo tienen un rasgo particular que si solo un miembro tiene el rasgo. Cuando
el número total de emparejamientos de rasgo de nombre a que los sujetos fueron expuestos
fue bajo, los sujetos mostraron esta cautela en sus inferencias sobre el grupo. Sin embargo,
cuando el número total de emparejamientos de rasgo de nombre fue alto, fue aparentemente
difícil para los sujetos conservarse seguros de cuántos individuos tenían esos rasgos, y ellos
empezaron a comportarse como si múltiples instancias del mismo aparejamiento del rasgo
del nombre fue tan informativo como varios diferentes nombres emparejados con ese
nombre. El grupo vino a ser caracterizado como perezoso aún cuando solo unos pocos de sus
miembros actualmente fueron perezosos.
El mundo social es activo y a menudo abrumadoramente informativo, y como tal
usualmente refleja Rothbart et al.’s (1978) condición de alta carga de memoria más que la
condición de baja carga de memoria. Estas condiciones facilitarían, entonces, la información
de estereotipos de grupo del comportamiento de unos pocos individuos cuyo comportamiento
muestra un gran número de veces. Como Rothbart et al. Notan, la media es más tomada con
eventos negativos que positivos, y concordantemente la totalidad de estos prejuicios podrían
favorecer la formación estereotipos de grupos negativos, particularmente si la membresía del
grupo es saliente cuando es mencionada en cobertura media.
El segundo ejemplo del impacto de prejuicios de recuperación de juicios sociales es el de
atribuciones egocéntricas (Ross & Sicoly, 1979, 12). En muchos contextos un individuo debe
hacer juicios en relación a quién es responsable por lo que ha transpirado. La autoría de un
159

trabajo debe ser decidida, unos honorarios de consultoría deben ser divididos entre
trabajadores, ó el crédito para un grupo ganador ó perdedor debe ser dividido. Excepto la
conservación de cada persona de una lista de sus contribuciones propias y las de las otras
personas (una estrategia algo desesperada que las víctimas han sido forzadas a adoptar), todas
las partes deben hacer una aproximación de quién lo hizo que en la empresa conjunta. La
disponibilidad heurística provee una estrategia potencial para hacerlo. Uno puede pensar
sobre ejemplos de las contribuciones propias y de las otras personas y sobre las bases de
cuántos ejemplos vienen a la mente decidir quién hizo más. Los prejuicios pueden estar
presentes, sin embargo, que interfieren con una exacta evaluación. Un prejuicio hipotetizado
es recuerdo egocéntrico, la habilidad de traer a la mente las propias contribuciones de uno un
tanto mejor que aquellas de otra persona. Este prejuicio en recordar puede, a su vez, producir
prejuicios en la responsabilidad percibida. Por ejemplo, si yo puedo recordar seis veces que
yo extraje la basura y solo tres veces que mi esposo lo hizo, yo puedo concluir que yo tengo
responsabilidad por extraer la basura. En una investigación reciente, las faenas maritales
probaron ser particularmente útiles así como el contexto eléctrico para examinar el prejuicio
de disponibilidad (Ross & Socoly, 1979, 12). Treinta y siete parejas casadas fueron
entrevistadas en relación a sus contribuciones a las variadas actividades que la gente casada
debe ejecutar, tales como hacer el desayuno ó lavar los platos. Cada miembro de la pareja fue
requerido a indicar si cada actividad fue ejecutada primariamente por el esposo ó
primariamente por la esposa. Cada persona entonces recordó ejemplos específicos de lo que
esa persona ó la esposa había contribuido a la actividad, una medida designada para utilizar
la relativa disponibilidad de las contribuciones propias versus la de la esposa.
Los resultados claramente indicaron que cada cónyuge pensó que él ó ella habían
contribuido más a las actividades conjuntas que el otro cónyuge. Cuando los punteos de
responsabilidad de los dos socios fueron agregados juntos, ellos excedieron el total posible de
responsabilidad que podría ser tomado. El número de ejemplos específicos de contribuciones
que cada cónyuge había hecho fue también calculado, y los resultados indicaron que el
número de contribuciones acreditadas a sí mismo excedieron por mucho del número de
contribuciones acreditadas al cónyuge. La correlación entre ejemplos recordados y
atribuciones de responsabilidad fue alto (+ .51), sugiriendo que el prejuicio en recordar puede
haber producido el prejuicio la responsabilidad.
Una posible explicación para estos efectos descansa en principios de motivación y
mantiene que las gentes toman más de su compartir justo del crédito para preservar ó
incrementar una positiva auto-imagen. Si esto es cierto, entonces deberíamos encontrar que
cuando un proyecto conjunto falla, la gente denegará el crédito personal por la falla y atribuir
la responsabilidad al otro. Por ejemplo, si una pareja hace una compra que llegó a ser un
limón, cada uno puede acreditar al otro por la decisión. Ross y Sicoly (1979, 12) examinaron
ésta posibilidad y encontraron que ella contribuye solo débilmente a atribuciones
egocéntricas. La gente estuvo cercanamente probable a tomar un crédito desproporcionado
para un mal proyecto conjunto como para uno bueno.
Una explicación cognitiva para estos efectos recurre a cómo la recuperación ó el
almacenamiento de información produce prejuicios en la responsabilidad percibida. Un
prejuicio expuesto puede estar presente tal que uno observe sus propias contribuciones más
cercanamente que aquellas de otros, y por tanto cuando se está reconstruyendo quién es
responsable por lo que, más de las contribuciones propias de uno vienen a la mente. Por
ejemplo, si ambos cónyuges están trabajando al mismo tiempo, uno puede ser distraído por
las contribuciones del otro y observar sus propias contribuciones más cercanamente.
Alternativamente, uno puede estar menos consciente las contribuciones del otro porque uno
no está físicamente presente cuando el cónyuge de uno está haciendo su repartición del
trabajo; por consiguiente, uno puede subestimar la cantidad de tiempo y esfuerzo que el
160

cónyuge ha actualmente invertido. Adicionalmente, el prejuicio puede estar presente si uno


ha reflexionado sobre las propias contribuciones más que las del otro. Esto es especialmente
probable de ser cierto cuando el proyecto conjunto involucra mucho de pensar, escribir ú otra
forma de trabajo extendido como en planificar una mayor reparación de la casa ú
organización de una fiesta. Una tercera posibilidad es que las contribuciones propias de uno
se ajusten construcciones ó esquemas de uno, lo que significa, maneras de dividir ó codificar
la información. La información que se ajuste a un esquema preexistente parece ser recordado
más fácilmente, y por lo tanto la disponibilidad realzada de las propias contribuciones de uno
pueden reflejar un prejuicio de recuperación (vea Taylor / Crocker, 1979b). Para resumir, los
prejuicios en cómo la información es almacenada ó recuperada puede conducir juicios
sociales prejuzgados. Un posible mediador es el uso de la disponibilidad heurística.

Disponibilidad y prejuicios debidos a estructuras cognitivas

Una tercera forma en la cual la disponibilidad puede prejuiciar los juicios sociales es a través
del uso del percibidor social de reglas bien practicadas, esquemas ú otras estructuras
cognitivas. La gente tiene estructuras resistentes para procesar la información entrante que
ellos emplean frecuentemente y de aquí que viene a utilizarse como hábitos cognitivos.
Sabemos, por ejemplo, que la gente está más inclinada a usar algunos rasgos como maneras
de organizar la información de la gente sobre otros rasgos. Por ejemplo, académicos a
menudo discriminan entre la gente sobre la característica de la inteligencia, mientras que para
los entusiastas del deporte, la habilidad atlética más que la inteligencia es un factor
discriminante. Esta clase de prejuicio en la tendencia a usar esquemas ó construcciones
particulares también pueden prejuiciar los juicios. Por ejemplo, si uno es requerido si uno es
preguntado de sus impresiones de un individuo particular, uno puede emplear sus
características favoritas (por ejemplo, la inteligencia) como una manera de buscar la memoria
y describir al individuo menos en términos de su actual comportamiento más que en términos
de los propios rasgos preferidos de uno(vea, por ejemplo, D’Andrade,1965). Un prejuicio
similar puede ocurrir en la construcción del comportamiento social, desde que la gente
también sus construcciones y esquemas personales cuando es enfrentado con nuevas
situaciones ó cuando es requerido a hacer predicciones sobre el futuro. Por ejemplo, un
académico puede predecir la habilidad de un amigo para salir de una mala situación sobre las
bases de cuán inteligente es el amigo, mientras que el entusiasta del deporte puede predecir la
habilidad del mismo amigo para salir de la situación sobre las bases de cuán rápido el amigo
puede correr. Por consiguiente, el uso de reglas, esquemas y construcciones personales puede
conducir a uno a hacer inferencias que un individuo quien no comparte las mismas cognitivas
no haría.
Talvez el más intrigante ejemplo de los efectos de estructuras esquemáticas resitentes
sobre la percepción de datos es proveída por el fenómeno de estereotipar. Esperando que una
persona se comprometa en un comportamiento particular puede conducir a inferencias que
una persona se ha comprometido en el comportamiento. Estereotipos son formas particulares
de expectativas que pueden funcionar para guiar y formar la realidad, y ellos pueden hacerlo,
al menos en parte, a través de un prejuicio de disponibilidad. Hamilton y Rose (1978)
exploraron esta posibilidad en su estereotipada investigación. En un estudio, a los sujetos se
les dieron listas de frases de la forma, “Carol, una bibliotecaria, es atractiva y seria”. En cada
una de las frases, un miembro de una ocupación fue descrito como poseyendo dos
características. Algunas de las características fastidian a una asociación estereotípica a la
ocupación como, por ejemplo, en el caso del rasgo “serio”, con la ocupación de
“bibliotecaria”; en otros casos los rasgos no fueron estereotípicos para esa ocupación (tal
como “atractiva” para una aeromoza). En todas las frases cada rasgo fue aparejado con cada
161

ocupación un número igual de veces. Cada rasgo fue aparejado con una ocupación
estereotipada un tercio del tiempo y con ocupaciones no estereotipadas dos tercios del
tiempo. Sin embargo, cuando los sujetos fueron requeridos a estimar el número de veces que
cada rasgo había descrito a un miembro de cada ocupación, ellos no recordaron el
aparejamiento rasgo-ocupación para favorecer las asociaciones estereotípicas. Por ejemplo,
ellos se inclinaron más a recordar que las bibliotecarias habían sido serias más que las
aeromozas habían sido serias.
Aunque factores de motivación pueden proveer una explicación para éstos estados, ellos
no están inclinados a hacerlo. Algunos estereotipos pueden figurar prominentemente en las
necesidades y metas de un individuo, pero estereotipos para ocupaciones tales como
aeromoza ó bibliotecaria son justamente banales y probablemente no. En consecuencia, éstos
resultados son mejor entendidos como un fenómeno cognitivo. La disponibilidad heurística
provee una posible explicación asumiendo que cuando los sujetos son preguntados sobre
cuán a menudo el rasgo y la ocupación son aparejados, ellos estiman la frecuencia usando la
fortaleza de la asociación entre la ocupación y el rasgo; bajo la mayoría las asociaciones son
más fuertes después de muchos aparejamientos. Sin embargo, en este caso, existe un
prejuicio en la fortaleza de la conexión asociada por virtud de la asociación estereotípica
entre algunos de los aparejamientos rasgo-ocupación. Por consiguiente, desde que aquellas
asociaciones son más fuertes, el percibidor estima que aquellos rasgos y ocupaciones han
sido más frecuentemente aparejados que el rasgo-ocupación no estereotípico. De nuevo, las
implicaciones sociales de esta forma de prejuicio son grandes. Estereotipos, una vez
formados, pueden prejuiciar el agrupamiento y almacenamiento de la información e
impresiones subsecuentes. Una consecuencia es que injustificadas inferencias sobre grupos
sociales ó individuales pueden ser perpetuados en la ausencia de cualquier base empírica.

Conclusiones

Las pasadas pocas décadas han testificado un lejano cambio de una visión de los juicios
como los productos de racionales, hacer decisiones lógicas desfigurada por la presencia
ocasional de necesidades irracionales y motivos hacia una visión de la persona como usuario
heurístico. El trabajo empírico sobre juicios no sociales indica que el percibidor emplea
atajos ó heurísticas para liberar capacidad y transmitir información tan pronto como le es
posible, y reciente investigación en psicología social sugiere que estos procesos también se
aplican a la formación y uso de juicios sociales. La facilidad con la cual los ejemplos ó
asociaciones son traídos a la mente proveen un estimado de probabilidad (por ejemplo,
frecuencia ó probabilidad), la cual a su vez provee una base para hacer otros juicios sociales
tales como evaluar a otro, imputando causalidad ó responsabilidad, describiendo los atributos
de otro, categorizando a otros, ó describiéndose a uno mismo.
Un crítico observante notará que en los estudios presentados, la evidencia para el uso de
la disponibilidad heurística es de inferencia más que directa, y uno puede razonablemente
demandar más clara evidencia que es la facilidad con la cual los ejemplos ó asociaciones
pueden ser traídos a la mente que es en realidad juicios mediadores. Existen varias razones
para la vaguedad. Primero, a diferencia de la investigación cognitiva sobre la disponibilidad,
ninguna de estas investigaciones sociales fueron designadas para examinar la disponibilidad
per se; más bien cada una fue designada para dilucidar algún intrínsicamente interesante
fenómeno social, y la disponibilidad heurística fue elevada como una de varias posibles
explicaciones para el fenómeno. Segundo, no ha habido hasta ahora acuerdo sobre la medida
de la disponibilidad. Algunos estudios han usado la velocidad con la cual la información es
162

recuperada como una medida de la disponibilidad (vea Pryor & Kriss, 1977), mientras que
otras investigaciones han visto al volumen de información recordada como un índice de la
disponibilidad de información (vea Ross y Sicoly, 1979, 12). Desde que las dos medidas no
siempre se correlacionan bien (vea Pryor & Kriss, 1977), la medición de la ambigüedad ha
entorpecido el progreso empírico.
Alguno de este problema de medición, sin embargo, es discutible debido a un tercer
problema, llamado, ambigüedad conceptual rodeando el uso del término disponibilidad.
Existe un sentido trivial en el cual toda inferencia social es mediada por la disponibilidad; los
juicios de uno están siempre basados en lo que viene a la mente. El uso del término
disponibilidad debe ser distinguido más cuidadosamente del uso de la disponibilidad
heurística a través de claros criterios para determinar si ó no y cómo la disponibilidad
heurística ha sido comprometida y si ó no la disponibilidad de ejemplos ó asociaciones está
mediando los juicios subsiguientes. Los psicólogos sociales han tendido a enfocarse en qué
información esta disponible y por qué; para avanzar el calibre de la explicación social
requiere redirigir esfuerzos a cómo la disponibilidad heurística ata el contenido de lo que está
disponible al procesamiento cognitivo.
El impacto del concepto de disponibilidad en psicología social ha de ninguna manera
sido grande por varias razones. Primero, el subraya errores en el procesamiento que pueden
ser entendidos sin recurrir a construcciones de motivación. Esto no quiere decir que el
impacto de motivos en juicios no es importante sino meramente señalar que mayores errores
en cognición también existen. Segundo, aunque las teorías racionales han proveído útiles
modelos normativos contra los cuales los juicios actuales pueden ser comparados, apartarse
de éstos modelos son tan comunes y evidentes que los modelos descriptivos son recordados.
En los ejemplos proveídos aquí así como en muchos otros, la disponibilidad heurística ha
proveído una posible descripción. Bajo algunas circunstancias, el uso de la disponibilidad
heurística conduce a perfectamente apropiadas conclusiones; sin embargo, bajo esas
circunstancias donde existe un prejuicio en que la información está disponible, inferencias
fallidas siguen. Específicamente, prejuicios en rasgos sobresalientes, prejuicios en
recuperación, y prejuicios debidos a estructuras cognitivas tales como esquemas, creencias y
valores pueden conducir a la disponibilidad intensificada de información incorrecta ó
engañosa en tareas de juicios sociales.
Dado que los prejuicios de disponibilidad pueden ser muy prevaleciente, por qué el uso
de la disponibilidad heurística persiste? Una razón obvia es que ella produce respuestas más
correctas que erradas, y en un sentido costo/beneficio, paga en tiempo y energía ahorrada.
Una segunda respuesta es que muchos errores en las conclusiones producidos por la
disponibilidad heurística no importarán. Por ejemplo, si las impresiones prejuiciadas de uno
no afectan el funcionamiento futuro de uno, como en formar una impresión incorrecta de una
persona lo encuentra una sola vez , entonces el prejuicio importará poco. Un prejuicio de
disponibilidad puede también importar poco si es constante con el tiempo. Por ejemplo, si
uno relaciona al jefe de uno como brusco, puede no importar que él es brusco solo cuando él
está en papel de jefe, si esa es la sola circunstancia bajo la cual uno interactúa con él. Una
tercera respuesta es que muchos errores serán corregidos. Cuando quiera que los prejuicios
de disponibilidad no son correlacionados con el tiempo, el proceso empezará a corregirse a sí
miso con repetidos encuentros. Por ejemplo, si varios amigos de uno no continúan el divorcio
indefinidamente, la estimación de uno de la tasa del divorcio puede ser temporalmente
exagerada, pero asumiendo que los amigos de uno no continúan el divorcio indefinidamente,
la tasa de divorcio estimada de uno debería venir eventualmente dentro de la línea con datos
objetivos. Finalmente, en algunos casos, el error será detectado a través de la comunicación.
Por ejemplo, si la aseveración de que uno está tratando de compartir el trabajo de la casa se
encuentra con objeciones furiosas de su cónyuge, esa posición es probable de ser modificada.
163

En resumen, las relaciones sociales normales proveen una base para realmente probar las
inferencias de uno, y evidentemente falsas conclusiones con implicaciones inalcanzables son
probables de ser corregidas.
Pero percepciones erróneas con severas consecuencias pueden, bajo algunas
circunstancias, persistir. Por ejemplo, como los estudios estereotípicos ilustran, si existe un
prejuicio en la formación de un juicio, el puede a su vez conducir a un prejuicio en mantener
ese juicio vía la estructura cognitiva (en este caso, un estereotipo) que es formada. Estas
íntimas cooperaciones ó prejuicios complementarios pueden, como una consecuencia, ser
altamente resistentes a la contra-evidencia. Hasta tal punto que ellos existen, ellos pueden
tener un efecto dañino en ambas percepciones individuales y política social. En resumen, uno
no puede confiar en que los prejuicios de disponibilidad sean inconsecuentes, y por
consiguiente, las estrategias para la detección y corrección de las inferencias prejuiciadas son
necesarias.
164

14. La simulación heurística

Daniel Kahneman y Amos Tversky

Nuestro tratamiento original de la disponibilidad heurística (Tversky & Kahneman, 1973, 11)
discutió dos clases de operaciones mentales que “traen cosas a la mente”: la recuperación de
instancias y la construcción de ejemplos ó escenarios. Recuerdo y construcción son muy
diferentes maneras de traer cosas a la mente: ellos son usados para responder diferentes
preguntas, y ellos siguen diferentes reglas. La anterior investigación a tratado principalmente
con la recuperación de instancias de memoria, y el proceso de construcción mental ha sido
relativamente abandonado. Para avanzar en el estudio de la disponibilidad para construcción,
hicimos un sketch de una operación mental que etiquetamos la estimulación heurística.
Nuestro punto de partida es una introspección común: Parece haber muchas situaciones en las
cuales las preguntas sobre eventos son respondidas por una operación que semeja la corrida
de un modelo de simulación. La simulación puede ser constreñida y controlada de varias
maneras: Las condiciones de arranque para una “carrera” pueden ser dejadas a sus
valores reales de incumplimiento ó modificados para asumir alguna contingencia especial;
los resultados pueden ser dejados no especificados, ó más un estado de objetivo puede ser
fijado, con la tarea de encontrar un atajo para ese estado partiendo de las condiciones
iniciales. Una simulación no necesariamente produce una simple historia, la cual se inicia al
principio y finales con un resultado definido. Más bien, construimos la producción de
simulación como evaluación de la facilidad con la cual el modelo podría producir diferentes
resultados, dadas sus condiciones iniciales y parámetros de operación. Por lo tanto,
sugerimos que la simulación mental conduzca a una medida de la propensión de la situación
del modelo de uno para generar varios resultados, tanto como las propensiones de un modelo
estadístico pueden ser evaluadas por técnicas Monte Carlo. La facilidad con la cual la
simulación de un sistema alcanza un estado particular es usualmente usada para juzgar la
propensión del sistema (real) para producir ese estado.
Nosotros argüimos que las evaluaciones de propensión y probabilidad se derivaron de
simulaciones mentales que son usadas en varias tareas de juicio y también que ellas juegan
un significativo en varios estados afectivos. Primero listamos algunas actividades de juicio en
las cuales la simulación mental parece estar involucrada. Entonces describimos un estudio de
las reglas cognitivas que gobiernan el deshacer mental de eventos pasados, y brevemente
discutimos las implicaciones de estas reglas por emociones que surgen cuando la realidad es
comparada con una alternativa favorecida, que uno ha fallado en alcanzar pero podría
165

Este capítulo es sacado de Katz-Newcomb Lecture in Social Psychology “Sobre la Psicología de Posibles
Mundos”, Ann Arbor, Michigan, April, 1979. El trabajo fue auspiciado por the Office of Naval Research bajo
Contrato N00014-79-C-0077 para la Universidad de Stanford.
fácilmente imaginar alcanzar.

Concluimos este breve sketch de la simulación heurística con algunas observaciones


sobre escenarios , y sobre los prejuicios que son probables de surgir cuando esta heurística es
utilizada.
1. Predicción. Imagine el primer encuentro entre dos personas que usted conoce bien,
quienes nunca se han conocido antes. Cómo genera usted predicciones tales como “Ellos se
desenvolverán famosamente” ó “Ellos se lastimarán el uno al otro?”
2. Evaluar la probabilidad de un evento especificado. Cómo evalúa usted la intervención
armada Americana para asegurar los campos de petróleo de Arabia Saudita en la próxima
década? Note la diferencia entre esta tarea y la precedente. La simulación el presente caso
tiene un estado objetivo especificado, y su objeto es obtener alguna medida de la “facilidad”
con la cual este estado objetivo puede ser producido, dentro de las restricciones de un modelo
realístico del sistema internacional.
3. Evaluar probabilidades condicionadas. Si la guerra civil estalla en Arabia Saudita,
cuáles son las probables consecuencias? Note que este ejercicio de simulación difiere de la
mera predicción, debido a que involucra a un estado inicial especificado, el cual puede
divergir más ó menos de la realidad actual. La evaluación de contingencias remotas, en
particular, involucra una interesante ambigüedad. Qué cambios deberían ser hechos en el
modelo actual de uno antes de “correr” la simulación? Debería uno hacer solo los cambios
mínimos que incorporen la contingencia especificada (por ejemplo, la guerra civil en Arabia
Saudita), sujetos a requerimientos elementales de consistencia? Ö debería uno introducir
todos los cambios que son hechos probables por la estipulación de la condición? En ese caso,
por ejemplo, el modelo de uno del sistema político debería primero ser ajustado a hacer la
guerra civil en Arabia Saudita tan no sorprendente como sea posible, y la simulación debería
emplear los parámetros del modelo revisado.
4. Evaluación de la causalidad. Cuán cerca estuvieron los científicos de Hitler de
desarrollar la bomba atómica en la Segunda Guerra Mundial? Si ellos la hubieran
desarrollado en Febrero de 1945, podría haber sido el resultado diferente? Evaluación de
hechos contrarios son también usados en muchos hechos mundanos, como cuando nosotros
juzgamos que “ella podría haberse enfrentado con la situación del trabajo si su niño no
hubiera estado enfermo”.
5. Evaluación de la causalidad. Para probar si un evento A causó un evento B, nosotros
podemos deshacer A en nuestra mente, y observar si B aún ocurre en la simulación. La
simulación puede también ser usada para probar si A marcadamente incrementa la propensión
de B, quizá aún hecho a B inevitable. Nosotros sugerimos que una prueba de causalidad por
simulación es involucrada en ejemplos tales como “Usted conoce muy bien que ellos habrían
peleado aún si ella no hubiera mencionado a su madre”.

Estudios de deshacer

Nuestras investigaciones iniciales de la simulación heurística se han focalizado en juicios en


contra de los hechos. En particular, nosotros hemos estado al tanto con los procesos por los
cuales la gente juzga que ese evento “estuvo cerca de ocurrir” ó “cercanamente ocurrió”.La
metáfora espacial es obligatoria y ha sido adoptada en muchas investigaciones filosóficas.
Parece razonable hablar de la distancia entre la realidad y algún una vez posible pero
166

irrealizado mundo. La significación psicológica de esta evaluación de la distancia entre lo


que sucedió y lo que podría haber sucedido es ilustrada en el siguiente ejemplo:

El Sr. Crane y el Sr. Tees fueron programados para abandonar el aeropuerto en diferentes vuelos, al
mismo tiempo. Ellos viajaron desde el pueblo en la misma limousina, fueron atrapados en el tráfico
pesado, y llegaron al aeropuerto 30 minutos después de la hora de partida programada de sus vuelos.

Al Sr. Crane se le dijo que su vuelo partió en tiempo.


Al Sr. Tees se le dijo que su vuelo fue retrasado, y que justo partió hace cinco minutos
Quién está más molesto?
El Sr. Crane El Sr. Tees

Vendrá no como sorpresa que el 96% de una muestra de estudiantes quienes respondieron
ésta pregunta establecieron que el Sr. Tees estaría más molesto. Qué es lo que hace el
estereotipo tan obvio? Note que la situación objetiva de los dos caballeros es precisamente
idéntica, como ambos han fallado en sus planes. Más aún, desde que ambos fallaron en sus
planes, la diferencia entre ellos no puede ser atribuida a disgusto. En cualquier sentido de la
palabra, la diferencia entre Tees y Crane es inmaterial. La única razón para el Sr. Tees de
estar más disgustado es que fue más “posible” para él alcanzar su vuelo. Sugerimos que el
ejercicio estándar emocional para esta situación llame a ambos viajeros a comprometerse en
un ejercicio de simulación, en el cual ellos prueben cuán cerca ellos estuvieron de alcanzar su
vuelo en tiempo. Las funciones de construcción del hecho contrario como sería una
expectativa. Aunque la historia deja claro que las expectativas del Sr. Tees y del Sr. Crane no
podrían ser diferentes, el Sr. Tees está ahora más disgustado porque es mas fácil para él
imaginar cómo él podría haber arribado 5 minutos más temprano que lo que es para el Sr.
Crane imaginar como los 30 minutos de retraso podrían haber sido evitados.
Existe una cualidad de Alicia en el País de la Maravillas para tales ejemplos, con su
extraña mezcla de fantasía y realidad. Si el Sr. Crane es capaz de imaginar unicornios – y
esperamos él es – porqué él encuentra relativamente difícil imaginarse a sí mismo evitando
un atraso de 30 minutos, como sugerimos que él lo hace. Evidentemente, existen
restricciones sobre la libertad de la fantasía, y el análisis psicológico de la simulación mental
consiste primariamente en una investigación de éstas restricciones.
Nuestra comprensión de las reglas de simulaciones mentales es todavía rudimentaria y
podemos presentar solo resultados tempranos y especulaciones tentativas en un dominio que
parece excepcionalmente rico y promisorio. Hemos obtenido observaciones preliminares
sobre las reglas que gobiernan una clase especial de actividad de simulación – deshacer el
pasado. Nuestros estudios de deshacer se han focalizado en una situación en la que ésta
actividad es especialmente común – la respuesta de parientes sobrevivientes de un fatal
accidente. Aquí de nuevo, como en el caso del Sr. Tees y del Sr. Crane, nosotros escogemos
estudiar lo que llamamos los ejercicios emocionales para una situación. Por ejemplo,
considere la siguiente historia:

El Sr. Jones tenía 47 años de edad, padre de tres hijos y un ejecutivo banquero exitoso. Su esposa
había estado enferma en casa por varios meses.
En el día del accidente el Sr. Jones abandonó su oficina a la hora regular. El algunas veces
abandonaba temprano la oficina para cuidar de las tareas de la casa a pedido de su esposa, pero esto
no fue necesario en aquel día. El Sr. Jones no manejó a casa por su ruta regular. El día estaba
excepcionalmente claro y el Sr. Jones contó a sus amigos en la oficina que él conduciría a lo largo de
la playa para disfrutar de la vista.
El accidente ocurrió en una intersección principal. La luz se tornó ámbar al tiempo que el Sr.
Jones se aproximaba. Testigos notaron que el frenó duro para parar en el cruce, aunque él pudo
fácilmente atravesarse. Su familia reconoció esto como una ocurrencia común en el manejo del Sr.
167

Jones. Cuando él comenzó a cruzar después que el semáforo cambió, un ligero camión cargó dentro
de la intersección a alta velocidad, y embistió al carro del Sr. Jones del lado izquierdo. El Sr. Jones
murió instantáneamente.
Más tarde fue comprobado que el camión era conducido por un muchacho adolescente, quien
estaba bajo la influencia de drogas.
Como comúnmente sucede en tales situaciones, la familia Jones y sus amigos a menudo pensaron
y a menudo dijeron, “Si solo . . .”, durante los días que siguieron al accidente. Cómo continuaron
ellos este pensamiento? Por favor escriba una ó más probables conclusiones.

Esta versión (etiquetada la versión “ruta”) fue dada a 62 estudiantes de la Universidad de


British Columbia. Otro grupo de 61 estudiantes recibió una versión “tiempo”, en la cual el
segundo párrafo se leía como sigue:

En el día del accidente, el Sr. Jones dejó la oficina más temprano que de costumbre, para atender a los
quehaceres de la casa a pedido de su esposa. El condujo a casa a lo largo de su ruta regular. El Sr.
Jones ocasionalmente escoge conducir a lo largo de la playa, para disfrutar de la vista en días
excepcionalmente claros, pero ese día fue justo el promedio.

El análisis de la primera conclusión del radical “Si solo” es dado en la Tabla 1. Cuatro
categorías de respuestas fueron encontradas: (i) Deshacer de la ruta; (ii) Deshacer del tiempo
de partida de la oficina; (iii) El Sr. Jones cruzando con la luz ámbar; (iv) Removiendo al
muchacho drogado de la escena.

Tabla 1. Análisis de la primera conclusión del radical “Si solo”


Categorías de respuesta Versión tiempo Versión ruta
_____________________________________________________________________
_
(i) Ruta 8 33
(ii) Tiempo 16 2
(iii) Cruzando 19 14
(iv) Muchacho 18 13
(v) Otra 1 3
=============================================================
=

Un particularmente impresionante aspecto de los resultados mostrados en la Tabla 1 es un


evento que falla al ocurrir. No un simple sujeto mencionó que si el Sr. Jones hubiera llegado
a la intersección dos ó tres segundos más temprano él la hubiera atravesado seguro. El
descubrimiento es típico: Los eventos no son mentalmente deshechos por alteraciones
arbitrarias en los valores de variables continuas. Evidentemente, los sujetos no ejecutan la
tarea de deshacer por eliminación de esa condición necesaria del evento crítico que tiene la
más baja probabilidad previa – un procedimiento que seguramente los conduciría a
focalizarse en la extraordinaria coincidencia de los dos carros encontrándose en la
intersección. Lo que sea que la gente haga, entonces, no está perfectamente correlacionado
con la probabilidad previa.
Las alteraciones que la gente introduce en las historias pueden ser clasificadas como
cuesta
abajo, cuesta arriba ó cambios horizontales. Un cambio cuesta abajo es uno que remueve un
aspecto sorprendente ó inesperado de la historia, ó de otro modo incrementa su coherencia
interna. Un cambio cuesta arriba es uno que introduce ocurrencias improbables. Un cambio
horizontal es uno en que un valor arbitrario es reemplazado por otro valor arbitrario, el cual
168

es ni mas ó menos probable que el primero. La manipulación experimental causó un cambio


de ruta para ser cuesta abajo en una versión, cuesta arriba en otra, con una correspondiente
variación en el carácter de cambios del cronometraje del fatal viaje del Sr. Jones. La
manipulación fue claramente exitosa: Los sujetos estuvieron más inclinados a deshacer el
accidente restaurando un valor normal de una variable que por la introducción de una
excepción. En general, los cambios cuesta arriba son relativamente raros en las respuestas de
los sujetos, y cambios horizontales son inexistentes.
La noción de cambios cuesta abajo y cuesta arriba es prestada de la experiencia del cruce
del pueblo del esquiador, y su propósito es ilustrar la especial naturaleza de relación de
distancia que puede ser definida para posibles estados de un sistema. La propiedad esencial
de esa relación es que no es simétrica. Para el esquiador que cruza el pueblo, una breve
carrera cuesta debajo de A a B es a menudo aparejada con una larga y laboriosa escalada de B
a A. En ésta metáfora excepcionales estados ó eventos son cumbres, estados ó eventos
normales son valles. Por tanto, proponemos que la distancia psicológica de una excepción a
la norma que ella viola es menor que la distancia de la norma a la misma excepción. La
preferencia por los cambios cuesta abajo es tal vez la mayor regla que las simulaciones
mentales obedecen; ella incluye las restricciones esenciales que dan realismo a las fantasías
contrahechas.
Un notable aspecto de los resultados mostrados en la Tabla 1 es la relativamente baja
proporción de respuestas en las cuales el accidente es deshecho eliminando el evento que es
naturalmente visto como su causa: El insano comportamiento del muchacho drogado en la
intersección. Este descubrimiento ilustra otra propiedad de la simulación mental, la cual
etiquetamos la regla del foco: Las historias son comúnmente alteradas por cambiar alguna
propiedad del objeto principal de preocupación y atención. En el presente caso, por supuesto,
el foco de atención fue el Sr. Jones, desde que los sujetos habían sido instruidos a enfatizar
con su familia. Para probar la regla del foco, una nueva versión de la historia del accidente
fue construida en la cual el último párrafo fue reemplazado por la información siguiente:

Fue más tarde asegurado que el camión era conducido por un muchacho adolescente, llamado Tom
Searler. El padre de Tom lo había encontrado justo en casa bajo la influencia de drogas. Esta fue una
ocurrencia común, ya que Tom usaba drogas pesadamente. Ahí había habido una pelea, durante la
cual Tom cogió las llaves que fueron dejadas sobre la mesa de la sala y se fue conduciendo
ciegamente. El fue severamente herido en el accidente.

A los sujetos les fue dada esta versión de la historia donde se les requirió completar el
radical “Si solo . . .”, ya sea en nombre de los parientes del Sr. Jones ó en nombre de los
parientes de Tom. Aquí de nuevo, consideramos la primera respuesta dada por los sujetos. La
mayoría de los sujetos que tomaron el papel de los parientes de Tom (68%) modificada la
historia por remoción de él de la escena del accidente - más a menudo por no tener en cuenta
las llaves fatales sobre la mesa. En contraste, solo una minoría (28%) de los sujetos
identificándose con los parientes del Sr. Jones mencionó a Tom en sus respuestas.
Hemos descrito este estudio de deshacer en algún detalle, a pesar de su carácter
preliminar, para ilustrar el sorprendente orden de las reglas que gobiernan la simulación
mental y para demostrar la existencia de ampliamente compartidas normas referentes a las
fantasías contrahechas que son apropiadas en ciertas situaciones. Creemos que las reglas
cognitivas que gobiernan el deshacer mental será de utilidad en el estudio de un grupo de
emociones que podrían ser llamadas emociones contrahechas, debido a su dependencia de
una comparación de la realidad con lo que podría ó debería haber sido: Frustración, pena y
algunos casos de indignación, pesar y envidia son todos ejemplos. La característica común de
éstos estados emocionales contrariados es que el nivel de adaptación hedónica de uno es
mayor que la realidad actual, como si las posibilidades irrealizadas fueran sopesadas dentro
169

del nivel de adaptación, por pesos que corresponden a la facilidad con la cual estas
posibilidades son alcanzadas en la simulación mental.

Observaciones sobre los escenarios

En el contexto de la predicción y planeamiento bajo incertidumbre, la deliberada


manipulación de los modelos mentales parecen ser suficientemente importantes para merecer
la etiqueta de una distintiva simulación heurística. El ejemplo más claro de tales actividades
es la explícita construcción de escenarios como un procedimiento para la estimulación de las
probabilidades.
Qué hace un buen escenario? En los términos ya introducidos, un buen escenario que
haga punte entre el estado inicial y el objetivo del evento por una serie de eventos, con una
tendencia general cuesta abajo y una movida insignificante cuesta arriba a lo largo del
camino. Observaciones informales sugieren que la plausibilidad de un escenario depende
mucho más de la plausibilidad de su vínculo más débil que del número de vínculos. Un
escenario es especialmente satisfactorio cuando el sendero que conduce del estado inicial al
estado terminal no es inmediatamente aparente, de tal manera que la introducción de etapas
intermedias actualmente elevan la probabilidad subjetiva del objetivo del evento.
Cualquier escenario es necesariamente esquemático e incompleto. Es por lo tanto de
interés descubrir las reglas que gobiernan la selección de los sistemas que son explícitamente
especificados en el escenario. Nosotros hacemos la hipótesis que los “vínculos” de un
escenario son eventos que son bajos en redundancia y altos en significado causal. Un evento
no redundante representa un mínimo local en lo predecible de la secuencia, un punto en el
que las alternativas significantes pueden surgir. Un evento significante causalmente es uno
cuya ocurrencia los valores que son considerados normales para otros eventos en la cadena
que eventualmente conduce al objetivo del escenario.
La elaboración de un simple escenario plausible que conduzca de condiciones realistas
iniciales as un estado final especificado es a menudo usado para soportar el juicio de que la
probabilidad del estado final es alto. Por otro lado, tendemos a concluir que un resultado es
improbable si el puede ser alcanzado solo invocando suposiciones cuesta arriba de eventos
raros y extrañas coincidencias. Por lo tanto, una evaluación de la “bondad” de los escenarios
pueden servir como una heurística para juzgar la probabilidad de los eventos. En el contexto
de planeamiento, en particular, los escenarios son a menudo usados para evaluar la
probabilidad de que el plan tendrá éxito y para evaluar el riesgo de varias causas de falla.
Hemos sugerido que la construcción de los escenarios sea usada como una heurística para
evaluar la probabilidad de los eventos por una evaluación mediática de la propensión de
algún sistema causal para producir estos eventos. Como cualquier otra heurística , la
simulación heurística debería estar sujeta a errores y prejuicios característicos. Investigación
está faltando en ésta área, pero la siguiente hipótesis parece prometedora: (i) La investigación
para los “vínculos” no redundantes y causalmente significantes en la construcción de un
escenario se espera que conduzca a un prejuicio por los escenarios (y estados finales) en los
cuales los eventos dramáticos marcan transiciones causales. Existirá una correspondiente
tendencia a subestimar la probabilidad de los eventos que son producidos por cambios lentos
y de incremento. (ii) El uso de escenarios para evaluar la probabilidad está asociado con un
prejuicio a favor de eventos por los que un escenario plausible pueda ser encontrado, con
correspondiente prejuicio contra los eventos que puedan ser producidos en una multitud de
modos improbables. Tal prejuicio podría tener especialmente perniciosas consecuencias en
un contexto de planificación, debido a que el produce estimaciones demasiado optimistas de
la probabilidad de que el plan tendrá éxito. Por su mera naturaleza, un plan consiste de una
cadena de vínculos plausibles. En cualquier punto de la cadena, existe una sensible esperanza
170

de que los eventos se desarrollarán como se planeó. Sin embargo, la probabilidad


acumulativa de al menos una falla fatal podría ser abrumadoramente alta aún cuando la
probabilidad de cada causa individual de falla es insignificante. Los planes fallan debido a
sorpresas, ocasiones en las cuales un inesperado cambio cuesta arriba ocurre. La simulación
heurística, la cual es prejuiciada a favor de cambios cuesta abajo, está por consiguiente,
asociada con un riesgo de grandes y sistemáticos errores.
171

Parte V

Covariación y control
172

15. Evaluación de la covariación informal: Basada en


datos versus la teoría basada en juicios

Dennis L. Jennings, Teresa M. Amabile y Lee Ross

El flujo de la experiencia social frecuentemente nos impulsa a reconocer covariaciones


empíricas. Algunas veces estas covariaciones son meramente otro resto de nuestros poderes
de observación y son imprácticas en lo que concierne a nosotros. En otros tiempos - por
ejemplo, cuando esas covariaciones involucran síntomas tempranos de problemas y más
adelante manifestaciones, ó estrategias de comportamiento empleadas y resultados obtenidos,
ó relativamente características evidentes de la gente ó situaciones, y relativamente
furtivas
unas – tal detección de habilidades puede ayudar a determinar nuestro éxito en adaptarse a
las demandas de la vida social de cada día. Mas generalmente, la detección de covariaciones
jugará un gran papel en nuestra continua lucha como “científicos intuitivos” (vea Nisbett &
Ross, 1980; Ross, 1977, 1978) para evaluar y actualizar la hipótesis que sostenemos sobre
nosotros mismos, nuestros compañeros y nuestra sociedad. Una pregunta obvia por
consiguiente se presenta a sí misma: Cuán productivos somos, como gente lega, en evaluar
las covariaciones empíricas por la evidencia experimental?
Antes de proceder a discutir la investigación pasada y presente, deberíamos notar que la
observación de cada día provee mucho de evidencia relevante; y da a entender que la
respuesta a la provechosa pregunta está lejos de una simple. Por un lado, ambas la
generalmente adaptable naturaleza del comportamiento social y la generalmente armoniosa
calidad de la interacción social dejan muy poca duda que los participantes en nuestra cultura
poseen muchas ideas sobre las causas del comportamiento y sus consecuencias. De hecho,
teóricos contemporáneos de la atribución (por ejemplo, Jones et al., 1971; Kelley, 1967,
1971, 1973; Weiner, 1974), quienes han estado raramente relacionados con los prejuicios por
tales ideas, generalmente parecen haber tratado la habilidad para detectar covariaciones como
una “dádiva” y procedieron al uso inferencial que es hecho de tales covariaciones percibidas.
Por otro lado, la experiencia diaria también ofrece excelente testimonio para la existencia de
prejuicios mal fundados, estrategias de comportamiento ruinosas de teorías causales ó de
correlación. Debería ser aparente, por consiguiente, que cualquier retrato de la evaluación de
una covariación debe dirigir la irregularidad de la persona lega. Debe de algún modo

Deseamos agradecer a los profesores Daniel Kahneman, Amos Tversky y Paul Slovic por sus provechosos
comentarios y sugestiones. También deseamos reconocer los incondicionales esfuerzos de Rita French y Julia
Steinmetz quienes fueron co-investigadoras en alguna de la investigación reportada adjunta. La investigación
fue patrocinada en parte por una Comunidad de Graduados de la Fundación Nacional de Ciencia al primer
autor y por el Instituto Nacional de Salud Mental Grant MH-26736 y la Fundación Nacional de Ciencia Grant
BNS-78-01211 para Lee Ross y Mark Lepper. La organización y contenido de este capítulo tiene una obvia
173

deuda a un tratado anterior del mismo tópico por L. Ross y R. E. Nisbett en Inferencia Humana: Estrategias y
Defectos del Juicio Social, Prentice-Hall, 1980.
reconciliar las ideas sutiles sobre alguna relación funcional con la ignorancia ó ilusiones
sobre otra relación.

Investigación previa de evaluación de la covariación

No es digno de atención, talvez, que aún los más fieles defensores de las capacidades de la
persona lega como un científico intuitivo (por ejemplo, Peterson & Beach, 1967) han tenido
poco favorecedor que decir sobre el manejo de la persona lega de expresiones bi-variables.
Revisaremos dos líneas de investigación que soportan este retrato no favorecedor,
focalizándose en cada caso en aspectos de procedimiento y resultados que probarán ser
pertinentes al subsiguiente reporte de nuestra propia investigación de la evaluación de la
covariación lega.

Leyendo tablas de contingencia: El asunto de la validez ecológica”

Una línea importante de investigación previa tiene que tratar con la habilidad de la gente para
reconocer relaciones funcionales presentadas en un simples tablas de contingencia 2 x 2.
Típicamente, éstas tablas resumen el número de instancias de la presencia y ausencia de la
variable X (por ejemplo, una enfermedad particular) intencionalmente asociada con la
presencia y ausencia de la variable Y (por ejemplo, un síntoma particular). Con datos bi-
variables nítidamente armados y “empaquetados”, la tarea de los sujetos fue un inusualmente
simple y sencillo. No obstante, la evidencia (por ejemplo, Jenkins & Ward, 1965; Smedslund,
1963: Ward & Jenkins, 1965), muestra que la gente lega generalmente lo ha hecho muy
pobremente en tales tareas.
Estrategias de juicio que ignoran una ó más de las cuatro células probadas de estar en la
raíz de la mayoría de las dificultades de los sujetos. Una falla común, por ejemplo, involucra
la virtualmente exclusiva confianza sobre el tamaño de la “presente-presente” célula relativa
a la población entera. Por lo tanto muchos sujetos pueden decir que el síntoma X está
asociado con la enfermedad A simplemente debido a que las tablas de contingencia reportan
un gran número de casos en los que la gente lo hace, de hecho, tienen ambos la enfermedad y
el síntoma. Los sujetos que ponen atención a solo dos de las cuatro células pueden ser
similarmente ser mal conducidos. Notando, por ejemplo, que la mayoría de la gente con la
enfermedad carecen del síntoma A que lo posee, ellos pueden por consiguiente concluir que
la relación relevante es una negativa; ó notando que más gente con el síntoma tienen la
enfermedad que las que están libres de ella, ellos pueden concluir que la relación es una
positiva.
Sin entrenamiento formal estadístico, sin embargo, muy poca gente aprecia el hecho que
las inferencias válidas en tales casos pueden ser solo por considerar todas las cuatro células.
Un método satisfactorio, por ejemplo, pueden involucrar proporciones comparables (por
ejemplo, comparando la proporción de la gente enfermada manifestando el síntoma particular
con la proporción de la gente no enfermada manifestando ese síntoma). La estrategia formal
dictada por los textos contemporáneos de inferencia estadística, por supuesto, involucrarían
similarmente atender a todas las cuatro células. Específicamente, uno sería requerido a notar
discrepancias entre frecuencias de células observadas y aquellas frecuencias a ser
“esperadas” sobre las bases de las frecuencias marginales relevantes ó probabilidades (de ese
modo proveyendo la información requerida por el cálculo de una letra-cuadrada estadística).
174

Los escépticos inclinados a defender la causa de las personas legas podrían ser tentadas a
desestimar tales demostraciones como evidencia solo que la gente sea pobre en la “lectura”
de las tablas de contingencia y a afirmar que los errores de los sujetos en tales tareas
primariamente son productos de la novedad y artificialidad de las tareas. La relación entre las
ejecuciones en el laboratorio y las ejecuciones diarias en el mundo real – que significa el
problema de la “validez ecológica” – es un importante problema y uno que no puede ser
evadido en la investigación reportada en este capítulo. Permítasenos, en consecuencia,
empezar a dirigir el problema aquí en la esperanza que el lector estará advertido y prevenido.
Primero, mientras que la tarea de leer la tabla es innegablemente inusual y
ecológicamente no representativa, permítasenos notar que la lógica (y los varios resúmenes
de la lógica) expuestos por los sujetos en aquellas tareas de laboratorio es muy consistente
con lo que expusieron en una variedad de inferencias diarias. Considere, por ejemplo, la
pregunta confusa, “Dios responde a las plegarias?” “Sí”, la persona lega quien consulta solo
la presente-presente célula puede responder, “porque muchas veces yo le he pedido a Dios
por algo, y El me lo ha concedido”. Su más sofisticado y escéptico compañero está pronto a
preguntar, “Pero cuán a menudo ha usted pedido a Dios por algo y no se lo ha concedido?”
La comparación de dos células, sin embargo, es absolutamente inadecuada por la tarea
inferencial a la mano. Aún la adición de una tercera célula – favorables resultados que
ocurrieron en la ausencia del orante – dejarían el asunto en duda, porque todas las cuatro
células son requeridas antes que cualquier inferencia sólida pueda ser hecha. Y aún el más
sofisticado de los psicólogos intuitivos probablemente se negaría a la sugerencia de que los
datos de la célula “ausente-ausente” (por ejemplo, resultados favorables que no fueron
pedidos y que no ocurrieron) son indispensables para evaluar el impacto de los oradores
sobre resultados de este mundo.
El cargo de la no-representatividad puede ser respondido aún más forzosamente, sin
embargo. Si la tarea de la tabla de cuatro pliegues crea algunos otros problemas la misma
tarea también ahorra a los sujetos de la mayoría de las demandas que contribuyen a la
dificultad de las evaluaciones de la covariación diaria. Estas demandas incluyen inicialmente
muestrear, codificar, almacenar y recuperar los datos relevantes y luego arreglarlos en una
forma que permita la evaluación de la covariación. Considere, por ejemplo, el hombre quien
emprende para probar la noción estereotipada que la gente pelirroja es de temperamento
irritable (ó, más precisamente, que la presencia de cabello rojo es positivamente
correlacionada con la presencia de mal genio). Primero, él debe decidir cuales datos deben de
ser considerados Deberá él intentar muestrear ó recordar instancias de gente pelirroja
impulsiva? O deberá él considerar alguna gente pelirroja y notar cuántos son de
temperamento irritable, ó alguna gente de temperamento irritable y notar cuántos tienen
cabello rojo? Muy probablemente él adoptará alguna estrategia ó combinación de estrategias
sin aún entretener la posibilidad de que la relativa frecuencia de aún morenas
temperamentales podría ser relevante a la tarea inferencial a mano. Este estado de situaciones
contrasta con la tarea de la tabla de cuatro dobleces que hace de todos los datos relevantes
igualmente disponibles a los sujetos, aún si ella no demanda que a todos ellos les sea dado
apropiadas consideraciones subsecuentes.
Permítasenos suponer que el individuo en cuestión de algún modo reconoce que probar
su estereotipo demanda que él considere los datos en todas las cuatro células. Cómo él sacará
una muestra apropiada de los datos de los cuales generar la relevante célula de frecuencias?
Deberá él simplemente el primer juego de gentes que le vienen a la mente? Deberá él
considerar a toda la gente en alguna clase restringida (por ejemplo, los miembros de su
familia, su círculo de amigos ó los inquilinos en su edificio de apartamentos)? O deberá él
intentar adoptar algún método “aleatorio” para generar casos de la totalidad de la población?
Las fuentes potenciales de prejuicios en la mayoría del muestreo informal son obvias.
175

Muestras de la gente que primero le viene a la mente son apropiadas para mostrar serios
prejuicios de “disponibilidad” (Tversky & Kahneman, 1973, 11). Y muestras de amigos ó
miembros de la familia ó vecinos son probables de que muestren el mismo prejuicio, así
como violar el requerimiento de la independencia (no un problema trivial, puesto que la
familia de uno, los amigos de uno ó aún los vecinos de uno pueden tender a compartir
tendencias de comportamiento, características físicas y aún correspondencias entre ellos). El
procedimiento “ingenioso” de la tabla de cuatro dobleces, por supuesto, dedica al asesor de
covariación la tarea de confrontar estos confusos y potencialmente abrumadores problemas.
Las tareas de codificación de datos, almacenamiento, y recuperación trae un montón de
factores adicionales y problemas dentro del juego en la evaluación de la covariación diaria.
Más importantemente, la hipótesis implícita que las pelirrojas son de temperamento irritable
puede prejuiciar las decisiones sobre quien es ó no es de temperamento irritable y cuyo
cabello es ó no es rojo. Este asunto recibe nueva atención más tarde en este capítulo. Por
ahora permítasenos meramente notar que las expectativas previas de uno ó hipótesis
constituyen una influencia de prejuiciar sobre cada estado del procesamiento de la
información, una influencia que está imposibilitada cuando es presentado con datos por los
cuales todos los del procesamiento involucrados en codificar, almacenar y recuperar ya han
sido completados. Más generalmente, permítasenos simplemente reiterar que tales
impedimentos del mundo real para asegurar la evaluación de la covariación están lejos de
probarlo luego el surgimiento de la artificialidad ó no familiaridad de la metodología de la
tabla de contingencia.

Correlación ilusoria: El impacto de las preconcepciones sobre las percepciones

Cuán exitosa es la gente que trata con distribuciones bi-variables cuando las observaciones
relevantes son presentadas individualmente más que preempaquetadas en la forma de tablas
de contingencia? Mucha de la evidencia existente del trabajo seminal de Chapman de
correlación ilusoria. Para un detallado informe de esta investigación vea Chapman &
Chapman, 1967, 1969; y vea el capítulo 17 de este volumen. Nuestra breve revisión aquí se
focaliza en los asuntos y descubrimientos particulares que fijan el estado para nuestros
propios y más recientes esfuerzos.
Talvez el más simple resumen de los descubrimientos y conclusiones de Chapman sobre
la habilidad de los sujetos para detectar covariaciones entre signos clínicos y síntomas es que
las covariaciones reportadas parecen reflejar verdaderas covariaciones menos lejos que las
preconcepciones basadas en la teoría ó basadas semánticamente sobre la naturaleza de las
relaciones que “deben” existir. Mientras que éstos descubrimientos fueron dramáticos,
controversiales y de considerable inmediata relevancia para los practicantes, el punto general
que ellos hicieron sobre los efectos de las preconcepciones sobre asociaciones observadas fue
esencialmente uno familiar.
Como el mismo L. J. Chapman anotó en su trabajo inicial (1967), las correlaciones
ilusorias no están restringidas al dominio del juicio clínico. La mayoría de las supersticiones
esencialmente son empíricamente creencias sin fundamento sobre la asociación entre
acciones ó eventos particulares y los resultados subsecuentes positivos ó negativos.
Estereotipos raciales, étnicos, regionales, religiosos ú ocupacionales similarmente son
creencias sobre covariaciones, creencias que son fuertemente sostenidas y marcadamente
resistentes al impacto de los datos no soportados (ref. Adorno et al., 1950; Allport, 1954; P.
Goldberg, 1968; J. M. Jones, 1972; Taynor & Deaux, 1973). Investigación sobre la “teoría de
la personalidad implícita” también puede ser citada en este contexto. Sobre medio siglo atrás
Thorndike describió el así llamado efecto halo, por el que los percibidores esperan y reportan
la asociación de todas las características positivas de la personalidad. Subsecuentes
176

investigadores (por ejemplo, Koltuv, 1962; Norman & Goldberg, 1966; Passini & Norman,
1966) han grandemente extendido este trabajo y explorado los esquemas conceptuales y
creencias sobre la personalidad que dispone a los percibidores a reportar relaciones
consistentes entre diferentes características ó diferentes indicadores de la misma
característica cuyas vinculaciones empíricas son muy débiles ó aún no existentes.
Existe por tanto una riqueza de evidencia empírica y anecdótica que, en la medida de lo
posible la evaluación de la covariación, la controversia entre expectativas y evidencia es
conveniente que sea única. Justo como en otros juicios perceptivos y cognitivos (ref. Bruner,
1957a, 1957b; Bruner, Postman & Rodrigues, 1951), las preconcepciones intuitivas de los
científicos sobre relaciones empíricas son convenientes para determinar lo que él detecta, lo
que falla en detectar, y lo que él ve que no está realmente allí para ser visto. Tales
generalizaciones superficiales sobre la supremacía de la teoría sobre los datos, sin embargo,
pueden conducirnos a pasar por alto una importante ambigüedad – ó al menos un importante
asunto irresoluto – en los estudios de Chapman. Específicamente, podemos identificar dos
puntos separados de interés sobre la evaluación de la covariación intuitiva que son, en un
sentido confundidos en aquellos estudios y en subsecuentes investigaciones (por ejemplo,
Golding & Rorer, 1972; Starr & Katkin, 1969). El primer punto involucra las dificultades de
la gente en detectar covariaciones presentadas en datos inmediatamente disponibles – que es,
su capacidad de reconocer y evaluar covariaciones cuando ellas no están “sobrecargadas” por
cualesquiera teorías ó expectativas específicas sobre la relación empírica en cuestión. El
segundo punto involucra la tendencia por las teorías ó intuiciones de los sujetos que los
conducen a asumir la existencia de fuertes correlaciones donde tales suposiciones son
desmentidas por la mejor evidencia “objetiva”.
La separación de estos puntos sugiere la necesidad de investigar las ejecuciones de los
sujetos en la evaluación de las covariaciones en dos muy diferentes tareas. La primera tarea
es esencialmente una “de psicología” produciendo evidencia sobre la relación entre juicios
subjetivos y medidas objetivas. En ésta tarea los sujetos son simplemente presentados con
juegos de observaciones bivariables sobre las cuales ellos no pueden sostener teorías
preconcebidas y luego ser requeridos a evaluar la fortaleza de la relación en cada juego. El
investigador puede entonces intentar medir la dificultad de la tarea de los sujetos
(primariamente notando el grado de variabilidad asociado con juicios particulares) y para
determinar la naturaleza de la función “psicométrica” relacionando las estimaciones
subjetivas a las medidas objetivas.
La segunda tarea trata con el extremo opuesto a tales puramente evaluaciones “basadas en
datos”; ella concierne a las evaluaciones que son exclusivamente , ó casi exclusivamente,
“basadas en la teoría”. Por lo tanto pares de variables ó medidas que pueden ser vinculadas
por las intuiciones ó teorías delos sujetos deben ser especificadas, pero no datos bivariables
relevantes deben ser suministrados por el investigador. Si cualesquiera datos son traídos para
llevar por los sujetos en tales evaluaciones, por consiguiente, ellos deben ser suministrados
de las experiencias y recolecciones diarias de los sujetos; y como tal ellos son susceptibles al
montón de errores de “procesamiento” y prejuicios aludidos anteriormente en nuestra
discusión. Para propósitos de evaluación y comparación, el experimentador debe tener
también algunos medios de evaluar la exactitud, ó la naturalezas de los errores, asociados con
tales evaluaciones intuitivas. Los que significa que él debe poseer alguna medida “objetiva”
de correlación para cada par de variables especificadas a los sujetos.

Comparación experimental de evaluación de covariación basada en datos y basada en


teoría
177

Recientemente condujimos un estudio siguiendo los puntos y empleando la estrategias básica


justo esbozada. Para la tarea basada en los datos, tres diferentes tipos de distribuciones
bivariables, descrita en más detalle en la siguiente sección, fueron empleados. Para las
evaluaciones basadas en la teoría, pares de variables asociadas fueron especificadas pero no
fueron presentados datos actuales por el experimentador. Para facilitar las comparaciones
entre evaluaciones basadas en los datos y basadas en la teoría, un diseño dentro de los sujetos
fue usado en el cual los sujetos emplearon la misma escala de puntuación para ambas tareas
(con contrabalanceo para el orden de la presentación.
En cada caso, variables continuas más que dicótomas (en contraste al trabajo de Chapman
& Chapman, 1967, 1969, y Jenkins y Ward, 1965) fueron usadas en las tareas de covariación
relevantes. Esta característica fue designada para capturar más fielmente la naturaleza de la
mayoría de las tareas de evaluación de cada día. 1

Los sujetos y las tareas de puntuación

Un total de 64 no graduados de Stanford, ninguno de los cuales había completado un curso


de estadística a nivel universitario, participó en este experimento designado para comparar
evaluaciones de covariación basadas en datos y basadas en teoría. Para ambos tipos de
evaluaciones, los sujetos utilizaron una simple escala de punteo para describir su impresión
subjetiva de la dirección y fortaleza de las relaciones entre pares de variables. En usar esta
escala, los sujetos los sujetos primero estimaron si la relación en cuestión era positiva ó
negativa. Ellos entonces estimaron cuán fuerte la relación fue por la colocación de una “X”
sobre una escala de punteo de 100 puntos anclada con “perfecta relación” y “ninguna
relación”.

Estimaciones de la covariación basada en datos. Una parte del experimento trata con
estimaciones de la covariación basada en juegos de observaciones bivariables proveídas por
el experimentador. Tres juegos de estímulos materiales fueron empleados para crear las
distribuciones bivariables relevantes. Para cada tipo de estímulo material, un juego de
distribuciones bivariables fue creado para representar diferentes covariaciones objetivas entre
las dos variables. Los sujetos fueron requeridos a estudiar cada distribución y a estimar la
relación que ella representaba utilizando la escala de punteo subjetiva de 100 puntos.
Anticipamos que la exactitud de las estimaciones de los sujetos en esta tarea dependería
en parte de las dificultades que ellos tenían en codificar, procesar y recordar los datos. Para
probar esta suposición, tres tipos de estímulos materiales difirieron marcadamente en las
demandas de procesamiento de la información que ellos colocaron sobre los sujetos previo a
la estimación de la covarición, particularmente con respecto a la demanda para la estimación
de las magnitudes del estímulo y para almacenar y recuperar la información de la memoria.
Por lo tanto, el primer tipo de juegos presentó juegos de 10 simples números de pares. El
segundo presentó dibujos, cada uno esbozando un juego de 10 hombres de alturas variables
sosteniendo bastones de varias alturas. El tipo final de distribución fue presentado en la
forma de cintas de audio en los cuales un juego de 10 individuos fueron cada uno escuchados
para decir alguna letra ocupando una posición ordinal particular en el alfabeto (a propósito la
letra inicial de su apellido) y luego cantar una nota musical de variable duración.

Estimaciones de la covariación basadas en la teoría. La otra parte del experimento


(orden de presentación de las dos partes fue contrabalanceado) trata con estimaciones de
covariación basadas en expectativas a priori de los sujetos ó teorías más que en cualesquiera
1
Nuestra búsqueda de literatura reveló que las tareas de estimación de la covariación caracterizando continuas
variables han sido muy raramente empleadas por investigadores previos. La excepción descubierta es que la
178

búsqueda fue un estudio citado muy raramente (reportado por Erlick, 1966; Erlick & Milla, 1967) que trató
primariamente con los efectos de variante sobre la desconexión percibida y produjo muy pocos datos al
presente asunto.
datos bivariables inmediatamente disponibles.
Pares de medidas de variables fueron especificadas, y los sujetos fueron requeridos a
estimar primero la dirección y luego la fortaleza de la relación para cada par, siempre
empleando la misma tabla simple de punteo subjetiva como esa empleada para las
evaluaciones basadas en datos. Algunos de estos pares en esta parte del experimento tratan
con divergentes medidas del comportamiento de disposiciones personales, por ejemplo, dos
consistencia del cruce situacional en el comportamiento moral, otros tratan con actitudes
medidas de honestidad usadas en el estudio clásico de Hartshorne y ay (1928) de la
personales, hábitos ó preferencias. En cada uno de los casos, sin embargo, la estimación de la
covariación subjetiva que obtuvimos podría ser comparada con correlaciones “objetivas”
escogidas de previos estudios empíricos. (Una completa lista de éstos pares variables y sus
correlaciones pertinentes es presentada la Tabla 1 en las páginas 231 y 232).

Resultados

Estimaciones de covariación basadas en datos

Nuestra primera inquietud involucra las estimaciones de la covariación que los sujetos
hicieron en respuesta a los inmediatamente disponibles datos bivariables. Dos preguntas
específicas pueden ser dirigidas: Primera, cuán rápidamente podrían los individuos detectar
la magnitud de las covariaciones en la ausencia de cualquier “teoría” sobre las distribuciones
de datos relevantes? Segunda, cuál fue la naturaleza de la “función psicofísica” relacionando
la media de los tasadores de las estimaciones subjetivas para una medida objetiva de la
covariación?
La estimación de los datos sugirió que la tarea de estimación fue muy difícil. Las
desviaciones estándar y los rangos intercuartiles asociados con la totalidad de las
estimaciones del grupo para cada uno de los datos fijados fueron extremadamente altos (vea
la Figura 1 en la página 232). Lo que es particularmente notable es la dificultad que muchos
sujetos experimentaron en simplemente reconocer la existencia de relaciones positivas, aún
aquellas de respetable magnitud. De hecho es solo cuando las correlaciones objetivas
alcanzan el nivel de +.6 a +.7 que el intervalo intercuartil consistentemente excluye las
estimaciones negativas de la relación. La inestabilidad de las estimaciones de covariación,
incidentalmente, no parecen diferir sistemáticamente para los tres tipos de distribuciones de
datos vibariables, a pesar de las diferencias aparentes en la cantidad de procesamiento de
información (y en consecuencia las posibilidades de error aleatorio ó sistemático) asociada
con estos tres tipos. Esta aparente insensibilidad a las demandas del procesamiento de
información incrementadas puede ofrecer algunas pistas sobre la naturaleza de la “estrategia”
de evaluación de los sujetos – una posibilidad que nosotros continuaremos más adelante en
este capítulo.

Tabla 1. Pares de variables descritas a los tasadores y sus correlaciones objetivas.


Variables especificadas Correlación
__________________________________________________________________________objetiva_
_
A Auto-puntajes de los estudiantes del liberalismo -.28 a
Puntajes de los estudiantes del cumplimiento de los líderes de negocios en la pasada
década
179

B Auto-puntajes de los estudiantes del intelectualismo -.19 a


Puntajes de los estudiantes del cumplimiento de los presidentes de EUA en la pasada
década
C Auto-puntajes de los estudiantes de la timidez -..12 a
Número de estados de EUA visitados por los estudiantes
a
D Auto-puntajes de los estudiantes de la ambición .01
Alturas de los estudiantes
E Puntajes de los estudiantes del cumplimiento de los presidentes de la universidad en .08 a
la pasada década
Tiempo empleado por semana por los estudiantes en recreación atlética
F Auto-puntaje de los estudiantes del intelectualismo .17 a
Ingresos de las familias de los estudiantes
b
G Deshonestidad de los niños medida por falso reporte del cumplimiento atlético .18
Deshonestidad de los niños medida por la cantidad de trampas al resolver un
rompecabezas
a
H Ingresos de las familias de los estudiantes .28
Puntaje de los estudiantes del cumplimiento de los líderes de negocios en la pasada
década
c
I Habilidad de los de sexto grado en “retrasar la gratificación” .31
Habilidad de los de sexto grado para resistir la tentación de hacer trampa
J Auto-puntaje de los estudiantes de la conciencia .35d
Puntaje de aquellos estudiantes de la conciencia por el compañero de cuarto
a
K Auto-puntajes de los estudiantes del intelectualismo .37
Auto-puntajes de los estudiantes de la ambición
L Puntajes de los estudiantes del cumplimiento del Congreso en la pasada década .40a
Puntajes de los estudiantes del cumplimiento de la labor de los líderes en la pasada
década

a
M Tiempo empleado por semana por los estudiantes en recreación atlética .52
Puntajes de los estudiantes de la aptitud física
N Puntajes de los estudiantes del cumplimiento de los presidentes de EUA en la .55a
pasada década
Puntajes de los estudiantes del cumplimiento de los líderes de negocios en la pasada
década
e
O Auto-puntaje del conservatismo político .57
Un compuesto de detalles de auto-puntaje de la escala de Etnocentricidad
P Altura de los estudiantes .79a
Peso de los estudiantes
a
Correlación obtenida de una encuesta (N=295) de estudiantes de la Universidad de Stanford.
b
Correlación obtenida de Hartshorne & ay (1928).
c
Correlación obtenida de Mischel & Gilligan (1964).
d
Correlación obtenida de Be & Allen (1974).
e
Correlación obtenida de Adorno et al. (1950).

Insertar aquí la Figura 1 de la página 220 del texto original.


180

Figura 1. Rangos de medias e intercuartiles para estimados de la covariación “basada en


datos”, reuniendo resultados para los tres tipos de distribución. La “función psicofísica”,
100 (1 - √1 – r2), es mostrada con una línea punteada.
También presentados en la Figura 1 están los datos relevantes a la segunda pregunta sobre
evaluación basada en datos, la pregunta de la “relación funcional”, el asunto de la “relación
funcional” entre indicadores de la covarición objetivos y subjetivos. (El lector notará que las
medias para los tres dominios del estímulo están reunidos en esta presentación de resultados.
Ni las pruebas de inspección ni de significación revelaron ninguna tendencia significante ó
consistente a distinguir los resultados para los tres dominios del estímulo, y el resultado de tal
reunión es una más llana y comprensible función que esa obtenida de los tres dominios
individuales). Para conveniencia de los lectores hemos fijado una curva de los puntos en
nuestra gráfica. Esta curva, debemos enfatizar, fue dibujada post hoc; no fue derivada de
ninguna “teoría psicofísica”.
Está claro por la inspección que, a pesar de la variabilidad dentro del grupo para las
estimaciones individuales, la función relacionando la media de las estimaciones subjetivas a
las correlaciones objetivas (Pearson r’s) fue una más fácil. Más específicamente, parece
haber una aguda aceleración de la función relacionando las dos variables. Por lo tanto, en el
rango comúnmente tratado por los psicólogos con la medición de rangos de personalidad ú
otras consistencias cruzadas en el comportamiento social (por ejemplo, (r = .2 a .4) son
apenas detectables, produciendo estimaciones medias en el rango de 4 a 8 en la escala de 100
puntos. Aún las relaciones consideradas muy fuertes por tales psicólogos (por ejemplo, r = .6
a .8) resultan en muy modestas estimaciones subjetivas de la covariación. Correlaciones
objetivas de .7, por ejemplo, produjeron una estimación subjetiva de 34 – un puntaje medio
entre los puntos etiquetados “muy débiles” y “moderado” en la escala subjetiva de 100
puntos. Solo cuando las correlaciones objetivas se aproximan al nivel .85 el grupo medio
alcanzó el punto medio de la escala subjetiva, y solo más allá de ese punto los sujetos
consistentemente clasificaron las relaciones como fuertemente positivas.
Una mirada cercana a las estimaciones sugiere que las clasificaciones subjetivas de la
relación ó covariación no son una función lineal de r ó aún de r al cuadrado. Más bien, el
patrón de las estimaciones medias reunidas parecen bien capturadas por la expresión, 1 - √1 –
r2. (El lector puede reconocer esta expresión como el “coeficiente de transferencia”, una
medida de la reducción en el error estándar asociado con la predicción de la variable Y
basado en el conocimiento de ambos de la variable X y la correlación entre X y Y
[Huntsberger, 1967)]. Ciertamente, la similitud entre las estimaciones medias actuales y
aquellas descritas por esta expresión fueron muy sorprendentes – para ser preciso, el 95% de
la variación entre medias está justificada por la función basada en el coeficiente de
transferencia. Nos apresuramos a recordar a nuestros lectores, sin embargo, que ellos no
deben malinterpretar el significado de este nítido acceso. La bondad del acceso retratado en
la Figura 1 se aplica solo al grupo de estimaciones; estimaciones individuales afirmaron las
dificultades de los sujetos en distinguir diferentes niveles de covariación.
Obviamente es prematuro concluir nada sobre la naturaleza precisa de la función
“psicofísica” relacionando repuestas subjetivas a medidas objetivas de covarición. Detalles
de la tarea, contexto, y talvez aún la población de clasificadores producirían indudablemente
diferencias en la función, diferencias que podrían ser capturadas solo a través de la inclusión
de parámetros apropiados. A pesar de eso, los presentes resultados probablemente satisfacen
para sugerir que las modestas correlaciones de la clase muy a menudo reportada por el cuadro
de asesores de la personalidad (cf. Mischel, 1968, 1969) son probables de ir grandemente sin
detectar ó dejar la más débil de las impresiones en la persona lega que encuentra tales
covariaciones en la ausencia de teoría basada en preconcepciones.
181

Es valioso más adelante re-enfatizar que las tareas de estimación de la covariación basada
en datos produjeron notablemente similares resultados de la grandemente diferencia de las
demandas de procesamiento de información que ellos colocaron sobre los sujetos. Por lo
tanto, la función psicofísica, ilustrada en la Figura 1, exactamente refleja la relación entre los
estimados subjetivos y las medidas subjetivas para cada una de las tres tareas emprendidas
por los sujetos. La correlación entre las medias de los actuales estimados de los sujetos y los
estimados predichos por la función se clasifica de r = .91 para los pares de estilo de letra a r =
.98 para el número de pares.

Estimados basados en teoría

Hasta aquí hemos presentado evidencia de que las correlaciones objetivas relativamente
fuertes (en términos de Pearson’s r) son requeridas para impulsar evaluaciones subjetivas aún
modestamente diferentes de cero. Considerada en aislamiento, la función psicofísica para
evaluaciones basadas en datos podría ser simplemente evidencia de que la métrica de la
persona lega es una cautelosa ó conservadora relativa a esa empleada por la mayoría de
estadísticos formales. (Ciertamente pocos disputarían que r2 es un índice más apropiado de
relación que r, desde que el puede ser mucho más rápidamente relacionado a una utilidad de
predicción ó reducción en la incertidumbre sobre el valor de una variable basada en el
conocimiento de otro, asociado, variable). En resumen, los estimados obtenidos basados en
datos no sugieren ninguna falta de parte del psicólogo intuitivo, aunque la variabilidad
asociada con tales estimados deje poca duda sobre las dificultades e incertidumbres de la
tarea de estimación.
Con estos descubrimientos y posibles interpretaciones en mente, podemos ahora retornar
a los resultados para los estimados subjetivos de la covariación sobre las relaciones listadas
en la Tabla 1. Estas estimaciones, deberían recordar, que fueron hechas en la ausencia de
datos inmediatamente disponibles; presumiblemente, ellos fueron hechos solo sobre las bases
de las teorías ó intuiciones de los clasificadores informales, sin datos que salvan esos datos
altamente “procesados” notados y recordados de la experiencia diaria. La Figura 2 provee
una primera vista de estos resultados. Está claro, inmediatamente, que ninguna función
simple – lineal ó de otro modo – captura la relación entre estimados subjetivos y medidas
objetivas. No obstante, existe una innegable tendencia para los estimados de los sujetos
basados en teoría a mostrar una difícil correspondencia con la evidencia objetiva. Eso es que,
las relaciones empíricas positivas fueron estimadas a ser positivas; las relaciones negativas
fueron estimadas a ser negativas; relativamente fuertes relaciones empíricas generalmente
fueron estimadas para ser más fuertes que las relativamente débiles; etc.

Insertar aquí la Figura 2 de la página 223 del texto original.

Figura 2. Medias de estimaciones de la covariación “basada en teoría”.(ver Tabla 1


para la clave de variables especificadas).

Talvez la más notable característica de éstas estimaciones basadas en teoría, sin embargo,
es que una vez liberada de las restricciones impuestas por los inmediatamente disponibles los
sujetos dejaron de ser precavidos ó conservadores. Ellos voluntariamente se aventuraron
dentro de las regiones centrales ó aún regiones superiores de la escala subjetiva de 100
puntos aún cuando están tratando con pares de variables que objetivamente fueron solo
modestamente correlacionados. Varios pares de variables correlacionados a niveles que, en el
caso de las evaluaciones basadas en datos, habían producido estimaciones subjetivas muy
182

cercanas a 0 (por ejemplo, r = .3) ahora produjeron estimaciones de 30, 40 ó más, en la escala
subjetiva de 100 puntos.
Los pares de variables G e I ameritan especial énfasis, puesto que ellos tratan con
estimados basados en teoría de la consistencia del comportamiento de situación cruzada y de
ese modo hablar de un asunto de interés teórico particularmente activo en el tiempo presente
(cf. Alker, 1972; Allport, 1966; Be & Allen, 1974; Be & Funder, 1978; Be & Lord, 1979;
Mischel, 1968, 1969). El mensaje transportado por los estimados subjetivos para éstas dos
relaciones es claro y dramático. Cuando se encara con datos objetivos inmediatamente
disponibles presentando correlaciones en el rango r = .2 a r = .3, los sujetos habían
proporcionado estimaciones medias promediando entre 0 y 10 en la escala de clasificación de
100 puntos. Ahora, en la ausencia de datos inmediatamente disponibles, pero tratando con
dominios bivariables presentando el mismo rango de r = .2 a r = .3, las teorías de
personalidad implícitas de los sujetos los condujeron a ofrecer estimados de covariación que
promediaban en el rango de 50 a 60. Qué grado covariación en inmediatamente disponibles
datos bivariables habrían sido requeridos para impulsar similares estimados en la ausencia de
“teorías” ó preconcepciones? La respuesta como podemos ver en la Figura 2, es que solo las
correlaciones empíricas en el rango de r = .90 podrían haber impulsado tales estimados.
Los resultados de nuestra propia investigación por tanto pueden ser resumidos con un par
de generalizaciones empíricas.

1. Donde los datos bivariables inmediatamente disponibles son examinados en la ausencia de


cualesquiera teorías ó preconcepciones sobre sus relaciones, el psicólogo intuitivo tiene gran
dificultad en detectar covariaciones de las magnitudes que son viables de caracterizar un amplio
rango de relaciones funcionales presentadas por la experiencia social diaria. En particular,
covariaciones en el rango de magnitudes comúnmente tratadas por los psicométricos tratando de
buscar consistencias comportamientos de situación cruzada son más probables de ir no detectados ó
percibidas cercanas a cero.
2. Cuando datos bivariables, no objetivos, inmediatamente disponibles pueden ser examinados,
pero teorías ó preconcepciones previas pueden ser traídas para vencer, los psicologistas intuitivos son
viables para esperar y predecir covariaciones de considerable magnitud – a menudo de mayor
magnitud que son probables de haber sido presentadas de pasadas experiencias ó ser vencidas por una
experiencia futura.

Tomadas juntas éstas generalizaciones ayudan a afinar el centro del presente contraste
entre evaluaciones basadas en datos y basadas en teoría. Las teorías que aparentemente
sostenemos nos conducen a esperar y predecir más fuertes relaciones empíricas que
actualmente existen, aún unas de magnitud de consecuencia, son viables de ir sin detectar a
menos que ya esperáramos encontrarlas.

Sobre el origen y supervivencia de las teorías

Estrategias de evaluación de la covariación

Más allá de ofrecer generalizaciones sobre los resultados de varias tareas de evaluación, es
importante empezar considerando los procesos de juicios y estrategias que podrían subrayar
tales resultados. Una vez más la distinción entre evaluaciones basadas en datos y
evaluaciones basadas en teoría una crítica, y una vez más los descubrimientos seminales de
Chapman proveen un punto conveniente de partida.

Datos versus teorías. Estuvo claro de los estudios de Chapman que las preconcepciones
superaron a la información proveída por los datos inmediatamente disponibles. Menos claro,
183

sin embargo, fue la manera en la cual esto ocurrió. “Vieron” los sujetos la relación que ellos
reportaron? O ellos meramente reportaron la relación que ellos esperaban estar presentes en
los datos, sin ninguna impresión subjetiva correspondiente? O lo hizo el “compromiso” de
los sujetos entre sus percepciones y expectativas subjetivas, dando algún peso a cada una? Es
imposible dar una respuesta definitiva sobre las bases de los resultados reportados, aunque
existe una clara evidencia de que los sujetos dieron al menos algún peso a sus percepciones
inmediatas de los datos y que sus percepciones no fueron totalmente determinadas por sus
expectativas. Específicamente, notamos que los reportes de Chapman que repetida
exposición a las no relaciones ultimadamente redujeron los reportes de la correlación ilusoria.
Sin embargo, estuvo también claro que los datos nunca podrían totalmente triunfar sobre las
preconcepciones de los sujetos, para aún una extendida exposición a relaciones negativas no
podrían completamente eliminar reportes de positivas correlaciones ilusorias.
Las interrogantes concernientes a estrategias intuitivas para la evaluación de la
covariación vienen rápidamente dentro del foco. Cómo los sujetos deciden qué gradeo de
relación está presente en los datos a mano? Cómo ellos deciden qué grado de relación “debe”
estar presente en un juego de observaciones bivariables que son dirigidas por sus teorías
intuitivas ó preconcepciones? Cuándo y cómo, las preconcepciones transforman las
experiencias subjetivas de covariación de uno? Principiando a especular sobre las respuestas
a tales interrogantes es una vez de nuevo útil focalizar inicialmente sobre evaluaciones
puramente basadas en datos y puramente (ó al menos grandemente) basadas en teoría, y solo
entonces retornar al caso cuando los datos inmediatamente disponibles y las expectativas
basadas en teoría entran en conflicto.

Evaluación de estrategias basadas en datos. Talvez nuestro más sorprendente


descubrimiento en relación con la evaluación basada en datos involucró las repuestas de los
sujetos a las distribuciones bi-variables ofreciendo covariaciones de magnitudes que son
viables a ser encontradas en la experiencia diaria y son relevantes a las teorías sociales
informales – específicamente, los sujetos encontraron muy difícil de detectar tales relaciones
y, en promedio, ellos clasificaron las covariaciones relevantes de ser muy cercanas a cero.
Qué implicaciones tienen tales resultados concernientes a las estrategias de evaluación de la
covariación informal que podrían haber sido empleadas por nuestros sujetos?
En especular sobre este asunto, es importante recordar que los clasificadores individuales
generalmente no estimaron objetivamente las débiles correlaciones ser cercanas a cero. En su
lugar, ellos ofrecieron un completamente amplio rango de estimaciones para los cuales solo
las medias relevantes estuvieron cercanas al punto cero. Una vez de nuevo, es difícil de
discernir exactamente lo que los sujetos actualmente “vieron” y lo que ellos estimaron en
lugar de lo que ellos vieron. La sorprendentemente suave y consistente función
“psicómétrica” relacionando las estimaciones medias a las correlaciones actuales deja poca
duda de que los sujetos hicieron uso de las características de los datos que fueron
consistentemente relacionados a la correlación objetiva. La cantidad de variabilidad en sus
estimaciones, sin embargo, indican que las características de los datos utilizados fueron solo
muy aproximadamente relacionadas a medidas objetivas de la covariación.
Nuestra sospecha, apoyada por las introspecciones de algunos clasificadores ingenuos
quienes han emprendido la tarea, es que las impresiones de los sujetos de la “relación” no
reflejan ningún intento de considerar la muestra total observaciones bivariables relevantes.
Más bien, los sujetos pueden transmitir sobre unos pocos casos especiales, probablemente los
casos extremos de la variable X ó de la variable Y. Por tanto, ellos pueden simplemente
observar la dirección y extremidad del valor de las Ys asociado con los valores extremos de
X, y viceversa. Los factores influenciando la atención y la memoria podrían también jugar un
184

papel; por tanto la vividez y concretividad, así como la primacía y el carácter reciente de la
presentación, podrían influenciar cuales puntos de datos son apoyados.
Confianza sobre un limitado número de casos ó “probados” en este estilo.
Particularmente la confianza sobre puntajes extremos, produciría ciertas consecuencias que
parecen altamente consistentes con nuestros propios descubrimientos: Primero,
manipulaciones del dominio del estímulo (por ejemplo, números vrs. imágenes vrs. cintas de
audio) que fueron designados para variar la necesidad por la magnitud de la estimación y
memoria previa a la evaluación de la covariación debería de haber producido pequeño
impacto, puesto que éstas demandas adicionales fueron consideradas triviales si los
calificadores meramente se apoyaron sobre un muy limitado número de casos especiales.
Segundo, dependiendo sobre cuales casos particulares ellos tomaron nota, los sujetos
tratando con débiles relaciones podrían ser esperados a estimar las relaciones ser
moderadamente positivas ó moderadamente negativas más que cero. Por contraste, los
sujetos tratando con fuertes relaciones deberían mostrar del todo estimaciones consistentes y
extremas, puesto que las relaciones altamente positivas permiten poca variabilidad en los
valores de una variable que puede ser asociada con los valores extremos de otra variable. La
forma de nuestra función psicométrica, y la reducida variabilidad asociada con estimaciones
de la más fuerte relación empírica presentada, son consistentes con estas consecuencias
postuladas de apoyarse sobre casos extremos, aunque tal evidencia está lejos de ser
conclusiva. Claramente, más respuestas definitivas podrían venir solo de diseños de
investigación que deliberadamente manipulara los valores de casos extremos, ó de otro modo
desproporcionadamente disponibles.

Estrategias para la evaluación basada en teoría. Cuando tornamos nuestra atención a la


evaluación basada en teoría, la interrogante obvia a ser planteada involucra la extensión a la
cual cualesquiera datos pueden haber sido utilizados en adición a la pura teoría. En algunos
casos, por supuesto, es probable que los datos no son consultados del todo. Los
clasificadores, por ejemplo, pueden haber confiado solamente sobre semánticamente ó
intuiciones y expectativas basadas en teoría; que son criterios de “representatividad”
aplicados (cf. Kahneman & Tversky, 1973, 4) en considerar la relación entre dos variables en
cada par. Pocos lectores son probables de disputar la controversia que la gente sostiene – ó al
menos puede rápidamente generar – teorías sociales que tienen tales orígenes. Ciertamente,
cualquiera persona lega puede generar nuevas teorías ó predicciones sobre relaciones
funcionales muy rápidamente para aquellas teorías que dependen sobre la generación y
análisis de casos actuales.
Por consiguiente, no cuestionamos la posibilidad que algunas estimaciones de
covariación basadas en teoría puedan involucrar recurso a la evidencia actual. Una vez más,
sin embargo, sospechamos que la persona lega es más probable de apoyarse sobre casos de
prueba particulares – sujetos a muchas fuentes de prejuicios significantes en codificar,
almacenar y recordar – que generar e informalmente analizar alguna muestra completa de
datos bivariables.
Algunas teorías ó creencias sobre relaciones particulares pueden por tanto estar basadas
la menos parcialmente sobre datos. Otras pueden estar basadas en deducciones de más
amplias creencias sobre el mundo, sabiduría convencional de la gente, asociaciones
semánticas, ó comunicaciones persuasivas por la familia, amigos ó los medios masivos. Sin
importar de sus orígenes, sin embargo, está claro que muchas de tales creencias son ambas
erróneas y capaces de sobrevivir y talvez aún florecer enfrente de la evidencia que crearía
graves dudas en cualquier observador no prejuiciado – ciertamente en cualquier observador
no prejuiciado quien poseyó una calculadora, un texto introductorio de estadística, y algún
conocimiento convencional sobre cómo usarlas. Nosotros, por consiguiente, concluiremos
185

este capítulo dirigiendo brevemente un par de interrogantes relacionadas sobre el conflicto


entre teorías intuitivas y experiencias diarias con las covariaciones empíricas que “prueban”
esas teorías: Primera, cuáles son los mecanismos por los cuales las creencias erróneas ó
grandemente exageradas sobre relaciones funcionales pueden sobrevivir al frente de
aparentemente desafíos obligados de lógica ó de evidencia? Segunda, cómo puede nuestro
emergente retrato de las deficiencias de la persona lega ser reconciliado con la obvia
capacidad del organismo de mostrar aprendizaje (en particular, condicionamiento operante y
respondente) y con la obvia exactitud y adecuación de tantas de nuestras creencias diarias y
estrategias sociales?
Estas interrogantes pueden solo ser tocadas aquí, y referimos a los lectores interesados en
más comprensivas discusiones al Capítulo 9 de este volumen y a otras publicaciones (por
ejemplo, Nisbett & Ross, 1980).

Mecanismos de la teoría de la perseverancia

Teorías sobre relaciones empíricas, como impresiones sobre individuos particulares, a


menudo muestran una asombrosa capacidad de sobrevivir al enfrentar desafíos empíricos. Un
juego de mecanismos que cuentan para tal perseverancia tienen su origen en el simple hecho
de que la gente característicamente actúa sobre sus creencias; éstas acciones pueden tener un
rango desde una simple recomendación pública a la inversión del tiempo de uno, energías,
riqueza ó reputación. Tal compromiso de comportamiento lo hace altamente “disonante”
(Abelson et al., 1968; Festinger, 1957, 1964) para el actor simplemente para actualizar sus
creencias a la luz de la nueva evidencia. Ciertamente, las creencias ó expectativas de un actor
pueden constituir una profecía de auto-llenar, por la que creencias inicialmente infundadas
causan que el actor se comporte de una manera que produce resultados ó datos que
ultimadamente validan sus creencias (Merton, 1948; Rosenhan, 1973; Rosenthal & Jacobson,
1968; Snyder & Swann, 1976; Snyder, Tanke & Berscheid, 1977).
Una reciente investigación por Lepper; Ross y sus colegas ha ilustrado mecanismos ó
procesos adicionales que pueden subrayar la perseverancia en la creencia. Estos mecanismos
involucran las propensiones de los científicos legos para asimilar nuevamente puntos de
información como una función de su consistencia con creencias previas e ir más allá de la
asimilación de datos para el desarrollo de explicaciones causales capaces de explicar porqué
el estado hipotetizado de los asuntos se sostendría (vea el Capítulo 9 de este volumen y
Anderson, Lepper & Ross, 1980; Jennings, Lepper & Ross, 1980; Lord, Ross & Lepper,
1979; Nisbett & Ross, 1980; Ross, 1977; Ross, Lepper & Hubbard, 1975; Ross, Lepper,
Strack & ]Steinmetz, 1977).

Detección de la covariación, acondicionamiento y otros sucesos del mundo real Nuestro


retrato poco prometedor de las capacidades de la persona lega para detectar y evaluar la
covariación pueden parecer a la primera ojeada ser incongruentes con la evidencia de un
enorme cuerpo de laboratorio, y aún una más amplia base de experiencia diaria, ilustrando
acondicionamientos clásicos y operantes. Cada rata que nunca ha aprendido a escapar de una
ratonera, cada niño que siempre ha discernido las ventajas de agregar azúcar a su cereal del
desayuno, cada enamorado que ha descubierto que la honestidad no siempre es la mejor
política, cada madre que siempre ha mostrado un reflejo de lactancia en respuesta al llanto
del niño, prueban que los organismos reconocen covariaciones entre los estímulos del medio
ambiente. Puede el trabajo de Chapman y ese de la presente investigación por consiguiente
tratar con alguna muy estrecha y aberrante clase de problemas de evaluación de covariación a
los cuales la persona lega es extraordinariamente deficiente? Nisbett & Ross (1980) han
discutido este asunto y sostuvieron que la respuesta es no. En su lugar, ellos afirmaron que,
186

es el fenómeno del acondicionamiento el que constituye la “excepción”, y es la limitada


capacidad para detectar y evaluar la covariación descrita a través de este capítulo que ilustra
la “regla”.
Nosotros no podemos revisar los argumentos relevantes en detalle, pero la esencia de la
tesis de Nisbett y Ross es que el acondicionamiento clásico y operante generalmente son
obtenidos bajo agudas circunstancias restringidas involucrando un estímulo sobresaliente y
distinción, estímulos óptimos e intervalos dificultosos internamente y una ausencia de
eventos irrelevantes ó de estímulos que distraen. Dos factores adicionales citan ellos, sin
embargo, ameritan especial atención. Primero, valioso notar que mientras el
acondicionamiento puede ser mantenido con relativamente baja covariación entre estímulos
condicionados (CS) y estímulos no condicionados (UCS) ó respuesta y refuerzo, el casi
invariablemente es obtenido con condiciones de perfecta covariación – que es que, el CS ó
respuesta es invariablemente seguido por un UCS ó refuerzo, y el segundo nunca es
presentado en la ausencia del anterior. La asimetría entre las condiciones necesarias para la
adquisición de una respuesta condicionada y el mantenimiento ó “perseverancia” de tal
respuesta por tanto puede ilustrar, hasta cierto punto, la misma asimetría entre la evaluación
de la covaración basada en datos y la basada en teoría que ha sido explorada en el presente
capítulo. Lo que significa que, durante el mantenimiento el organismo puede continuar
esperando, y talvez aún percibiendo, una mayor covariación entre CS y UCS ó entre
respuesta y refuerzo que objetivamente está justificada. El puede aceptar intentos reforzados
de cara al valor mientras atribuye intentos no reforzados a circunstancias extenuantes,
influencias de la tercera variable, ó aún oportunidad.
Finalmente, y talvez más importante, es el montaje de la evidencia del que se benefician
ambos acondicionamientos operante y clásico, y en algunos casos pueden aún demandar, un
razonablemente buen ajuste entre las contingencias a ser aprendidas y las teorías ó
expectativas previas que el organismo trae al laboratorio. A lo muy menos, está claro que no
todos los CS-UCS ó las contingencias respuesta-refuerzo son igualmente aprendibles. Talvez
las más impresionantes de este punto han sido proveídas por Garcia y sus colaboradores (por
ejemplo, Garcia, McGowan & Greene, 1972). Estos investigadores han reportado que las
ratas pueden aprender, en un simple intento, a evitar un nuevo sabor de comida que es
seguido de una enfermedad gastrointestinal, aún si el intervalo entre comer y enfermarse es
tanto como 12 horas; en contraste, un animal que se enferma varias horas antes de consumir
una comida de gusto familiar pero de nueva forma no muestra tal evitar el aprendizaje. Por
otro lado, cuando un dolor inmediato reemplaza a la enfermedad demorada como el UCS, un
patrón opuesto de resultados es obtenido; lo que significa que, la rata rápidamente aprende a
evitar nuevas formas pero no nuevos sabores cuando tales estímulos están inmediatamente
seguidos por una descarga eléctrica. Como Nisbett & Ross (1980) resumen, la rata puede ser
caracterizada como poseyendo dos “teorías”, ambas de las cuales están bien ajustadas a las
actuales contingencias de su ecología: (a) Distintas pistas gustativas, cuando son seguidas por
una tardía (aún más tardía) molestia gástrica, deberían ser consideradas sospechosas; (b)
Distintas pistas táctiles ó espaciales, cuando son seguidas por un dolor somático inmediato
debería ser considerado sospechoso.
El argumento, en términos más generales (cf. Testa, 1974) es por tanto que los
organismos – de la gente así como de las ratas – son proclives a ver aquellas covariaciones, y
solo aquellas covariaciones, que su propia historia ó la historia de sus especies los dispone a
ver. Cuando no son guiados por “teorías”, la detección de la covariación viene a ser muy
difícil y es probable que ocurra solo cuando las correlaciones relevantes se aproximan a la
unidad, y/ó cuando las condiciones para aprender son óptimas en términos de los factores que
han sido explicados en los laboratorios de una larga y distinguida línea de Hullians y
Skinnerians.
187

Algunas veces, por supuesto, las circunstancias de cada día son óptimas para aprender.
Por lo tanto, en nuestra experiencia diaria aprendemos que incontables cambios, apoyos,
botones y otras manipulaciones hace, y que una desconcertante variedad de signos, símbolos
y señales significan, porque las covariaciones relevantes están muy cerca de las perfectas.
Igualmente importante, talvez, es el hecho de que la persona lega, igual que el científico
normal, a menudo puede “probar” nuevas hipótesis que él ha traído para entretención. Las
muestras de datos pueden deliberadamente ser generadas que son mejor adaptadas para la
tarea de inferencia a mano que las muestras ofrecidas por experiencia accidental y
recolección fortuita.
Ciertamente, nuestra maestría de nuestro ha crecientemente dependido sobre nuestra
capacidad para sustituir relativamente herramientas formales de inferencia por informales.
Nuestro éxito refleja el legado de generaciones de hombres y mujeres ordinarios quienes han
cuidadosamente notado y grabado sus descubrimientos y, más recientemente, esa de
incontables científicos entrenados en las artes de experimentación formal y análisis
estadístico.
188

16. La ilusión del control

Ellen J. Langer

Mientras la gente concuerda que existe mucho traslape entre habilidad y suerte, un completo
entendimiento de cómo inextricablemente los une a los dos está aún por ser logrado. En
principio la distinción parece clara. En situaciones de habilidad existe un vínculo causal entre
el comportamiento y el resultado. Por tanto, el éxito en las tareas de habilidad es controlable.
La suerte, por otro lado, es un suceso fortuito. El éxito en la suerte ó actividades de
probabilidad es aparentemente incontrolable. El asunto de la presente inquietud si sí ó no esta
distinción es generalmente reconocida. La posición tomada aquí es que no es. mientras la
gente puede pagar fingir estar de acuerdo con el concepto de probabilidad, ellos se
comportaron como si los eventos de probabilidad son sujetos de control. Si esto es correcto,
es de interés determinar las variables responsables por esta confusión.
Algún soporte de observación para esta aseveración de que la gente trata los eventos de
probabilidad como controlables viene de los psicólogos Goffman (1967) y Henslin (1967).
Mientras efectuaba prácticas de juego en Las Vegas, Goffman notó que negociantes quienes
experimentaban períodos de mala suerte se corrían el riesgo de perder sus trabajos. Henslin
estudiaba el juego de dados y notó que los jugadores de dados claramente se
comportaban como si ellos estuvieran controlando el resultado de la tirada. Ellos son
cuidadosos en tirar el dado suavemente si ellos desean números bajos ó tirarlo duro para
números altos. Ellos creen que el esfuerzo y concentración rendirán frutos. El control puede
también ser ejercido cuando se apuesta; por ejemplo, siempre apuestan con la persona que
luce como que él tiene el mayor control. Estos comportamientos son todos muy racionales si
uno cree que el juego es un juego de habilidad.
Si uno estuviera tratando de ejercer control sobre un evento de oportunidad, uno ejercería
influencia antes que el resultado del evento estuviera determinado. Strickland, Lewicki, y
Katz (1966) probaron esta noción. Los sujetos fueron involucrados en un juego de tiro de
dados en el cual ellos seleccionaron de un número de apuestas alternativas ya sea antes de
que el dado fuera tirado ó justo después de la tirada pero antes que el resultado fuera
descubierto. Ellos encontraron que los riesgos más grandes, que es, apuestas más grandes
colocadas, cuando se apuesta antes más que después de la tirada.
La investigación previa muestra que la gente a menudo falla al responder
diferencialmente a los eventos controlables e incontrolables. Sin embargo, los factores que
gobiernan este ilusorio control del comportamiento no ha sido estudiado sistemáticamente.
Un modo de identificar estos factores es explorar las características de las situaciones de la
habilidad. En situaciones de habilidad la gente se compromete en varios comportamientos
189

evidentes. Y secretos designados para maximizar la probabilidad de éxito: escogiendo cuáles


materiales son apropiados para la situación y cuáles respuestas hacer, familiarizándose uno

Extractos de un trabajo que apareció en The Journal of Personality and Social Psychology, 1975, 32, 311-328.
Derechos de autor © 1975 por la Asociación Americana de Psicología. Reimpreso con permiso.
mismo con éstos materiales y respuestas, perdiendo algún tiempo pensando sobre la tarea
para arribar a posibles estrategias que pueden ser empleadas, y ejerciendo esfuerzo mientras
está comprometido activamente en la tarea para incrementar la probabilidad de éxito.
Además, las situaciones de habilidad tienen ciertas características no necesariamente
instigadas por el individuo en orden de maximizar la probabilidad de éxito. La competencia
es uno de tales factores.
Estos factores relacionados a la habilidad pueden ser responsables por inducir una ilusión
del control. Una ilusión del control es definida como expectativa de un éxito personal de
probabilidad inapropiadamente más alto que la probabilidad objetiva garantizaría. Los
siguientes estudios fueron diseñados para evaluar la efectividad de estos factores
relacionados con la habilidad en ocasionar una ilusión del control. Específicamente, la
investigación a ser descrita fue designada para probar la siguiente hipótesis. Animando ó
permitiendo a los participantes en un evento de probabilidad a comprometerse en
comportamientos que ellos se comprometerían donde ellos participando en un evento de
habilidad, uno incrementa la probabilidad de inducir una orientación de habilidad; que es
que, uno induce una ilusión del control. Por tanto, uno debería ser capaz de introducir
cualquiera de los aspectos previamente mencionados en una situación de habilidad –
escogencia, estímulo ó familiaridad de respuesta, involucramiento pasivo ó activo,
competencia – dentro de una situación de posibilidad donde los participantes no influencien
más el resultado y ocasionen un comportamiento más apropiado a un evento de habilidad.
Una fuerte prueba de ésta hipótesis es la introducción de éstos factores dentro de
situaciones tales como loterías, donde los resultados son probabilidades completamente
determinadas. Si éstos factores son exitosos en inducir una ilusión de control en éstas
situaciones mecánicas, entonces los efectos deberían ser mucho más grandes cuando ellos
son introducidos dentro de situaciones donde ya existe un elemento de control. . . .

Experimento 1: Efectos de la competencia sobre la ilusión del control

Desde que la gente a menudo se ocupa de la competencia cuando ellos están evaluando su
habilidades, es hipotetizado que la introducción de este factor de habilidad relacionado dentro
de una probabilidad fijada induce una ilusión de controlabilidad. La cantidad de control que
uno actualmente tiene en producir un resultado exitoso en una competencia de probabilidad
varía como una función de la habilidad del oponente de uno. Si la gente responde a los
eventos de probabilidad en los cuales existe una competencia como si éstos eventos fueran
determinados por la habilidad, entonces la ilusión del control debería también variar como
una función de las características del oponente de uno.
En el siguiente estudio los sujetos compiten en una tarea de probabilidad contra ya sea un
atractivo, confidente confederado ó un difícil y nervioso confederado. Si la tarea es
respondida como si el resultado es incontrolable, entonces los factores otros que de la
probabilidad de ganar juegan un papel mayor en influenciar las apuestas de los sujetos. Bajo
estas circunstancias, los sujetos son probables de apostar mucho cuando están compitiendo
contra el confidente confederado ya sea porque el confederado se espera que apueste mucho
y los sujetos desean aparentar similar a él ó porque el riesgo es un valor en nuestra sociedad
(Wallach & Wing, 1968) Los sujetos pueden también apostar mucho cuando están apostando
contra el difícil y nervioso porque él se espera que apueste menos, por lo que los sujetos
190

pueden arriesgarse menos y aún aparentar ser riesgosos. En cualquier caso, los sujetos no
deberían apostar más contra el confederado difícil que contra el confederado confidente. Por
otro lado, si, como se predijo, la competencia induce a una orientación de habilidad, los
sujetos apostarán sobre las bases de la probabilidad de ganar. Desde que el oponente de uno
es menos competente, la mayor probabilidad de uno es ganar, los sujetos deben apostar
menos cuando compiten contra el confederado difícil que cuando compiten contra el
confederado confidente.

Método

Sujetos: Los sujetos fueron 36 hombres no graduados enrolados en el curso de psicología


introductoria en la Universidad de Yale. Ellos fueron reclutados por un anuncio que ofrecía el crédito
de un curso y una posibilidad de ganar dinero por la participación en un estudio sobre la relación
entre respuestas cognitivas y psicológicas. Ellos fueron asignados al azar a una de dos condiciones
experimentales, con 18 sujetos en cada una.

Procedimiento. Cuando cada sujeto entró al cuarto en el cual el experimento iba a tener lugar, él
encontró esperando a un confederado presumiendo como otro sujeto. El confederado, un hombre no
graduado ciego a la hipótesis experimental, jugó el papel de ya sea una persona segura de sí misma ó
de una persona de confianza (condición apuesta ó estúpida).
Condición apuesta. En ésta condición el confederado apareció seguro y sociable y fue vestido con
un saco sport bien ajustado. El se introdujo a sí mismo al sujeto y señaló un anuncio fijado en el
salón. El anuncio decía que la experimentadora estaría atrás y requeriría a los sujetos llenar un breve
cuestionario mientras esperaba. Hacer el estudio parece estar relacionado con asuntos psicológicos, el
cuestionario requería sobre dieta, enfermedades familiares, etc. El sujeto y el confederado
completaron el formulario e interactuaron durante este tiempo por aproximadamente 10 minutos. La
conversación no fue estructurada pero sí focalizada principalmente en eventos deportivos. Después de
ésta interacción el confederado con indiferencia tocó con los nudillos la pared que lo separaba de
experimentadora y del sujeto a la señal de ella de retornar al salón.
Condición estúpida: En esta condición el confederado apareció más bien tímido, se comportó
torpemente, tuvo una contracción nerviosa y fue vestido con un saco sport que era muy pequeño para
él. En todos los otros aspectos esta condición fue idéntica a la de la condición apuesta.
En ambas condiciones el confederado se quitó el saco antes de que la experimentadora entrara al
salón. Después de que ella se disculpó por la tardanza, la experimentadora instruyó a los sujetos a
sentarse y no platicar mientras ella preparaba los materiales para el estudio. Empleando estas
medidas, fue posible conservar a la experimentadora ciega a la precedente manipulación
experimental. El sujeto y el confederado se sentaron en una mesa uno frente al otro. Después la
experimentadora colocó un televolter, alcohol, esponjas de gasa, electrodos, gel de electrodo y tape
sobre la mesa, ella les dio las siguientes instrucciones.
Nosotros estamos interesados en los efectos de ciertas respuestas motoras y
cognitivas sobre respuestas psicológicas. Específicamente, estamos interesados en
cambios en la resistencia de la corteza como una función de tareas presurizadas y no
presurizadas. El estudio fue diseñado de tal manera que, esperanzadoramente, usted
va a disfrutar de las tareas mientras yo consigo la información que necesito. Usted
tendrá la posibilidad de ya sea ganar ó perder dinero por lo que deberá ser divertido
– pero no hay garantía de que usted saldrá de aquí con dinero extra. De acuerdo,
ahora la primera cosa que yo quiero que ustedes hagan es pegar con tape estos
electrodos a sus manos. Yo quiero ponerlo sobre la mano con que ustedes no
escriben. Son ustedes derechos ó zurdos? No se preocupen, nada de esto los herirá.
[La experimentadora puso tape a los electrodos, los conectó en el televolter y trajo
un mazo de cartas de juego].
191

La primera tarea es un juego de cartas. Las reglas son que ustedes escogerán
cada uno una carta del mazo, y quienquiera que seleccione la carta más alta gana.
Habrá cuatro rounds, y antes de cada uno ustedes escribirán cuánto desean apostar.
Ustedes pueden apostar lo que sea de 0 a 25 centavos en cada round. Luego ustedes
me mostrarán sus apuestas a mí pero no a cada uno de los otros. No miren a las
cartas que ustedes escogieron. De este modo sus apuestas y los resultados no
influenciarán sus respuestas psicológicas en la tarea siguiente. Yo le daré vuelta a
las cartas para ustedes y se den cuenta más tarde cuánto fue ganado ó perdido con
cada uno de ustedes individualmente. La apuesta es justo entre cada uno de ustedes
y yo, de modo que si usted ganan yo les pagaré y si ustedes pierden ustedes me
pagarán ya sea en dinero ó tiempo del sujeto. Están ustedes dispuestos a participar?
[los confederados rápidamente respondieron, “Seguro”]. Bueno, ahora podemos
empezar. No escriban su apuesta hasta que yo diga listos de tal modo que yo pueda
conseguir una línea base de lectura.
La experimentadora luego instruyó a los sujetos a grabar sus apuestas y mostrarlas a ella.
Las apuestas fueron grabadas, y luego los sujetos alternativamente sacaron un a carta y, a
requerimiento, simultáneamente se las mostraron a la experimentadora, quien grabó el
resultado y a continuación colocó las cartas boca abajo en una mesa vecina. Antes de cada
paso la experimentadora pareció estar grabando las fluctuaciones de la resistencia resistencia
de la piel. Este procedimiento fue repetido en cuatro intentos.

Chequeo de la medida y manipulación dependiente. La medida dependiente fue la cantidad de dinero


que los sujetos apostaron en cada round.
Después de que cada juego de cartas terminó, a los sujetos se les dijo que la próxima tarea sería
hacerla individualmente, de tal modo que uno de los sujetos habría de ir a otro salón donde otro
experimentador le daría instrucciones. A ellos también se les dijo que una vez este experimento
estuviera terminado, este experimentador le contaría al otro el resultado del juego de cartas de tal
modo que las deudas podrían ser satisfechas. El experimentador requirió al confederado a irse y les
dijo a él y al sujeto que se despidieran el uno del otro, puesto que su participación conjunta había
finalizado. A cada uno de los sujetos les fue dado luego una tarea interpolada en la que él ganaría
aproximadamente $ 2.00 sin importar sus apuestas previas. El sujeto examinó una jarra de gelatina
con granos de frijol y estimó el número presente mientras el experimentador grababa las fluctuaciones
de la resistencia de la piel. Luego al sujeto le fue dado otro cuestionario que era psicológico por
naturaleza. Después de queel fue requerido que si el pensó que la presencia del otro sujeto había
tenido algún efecto en sus respuestas psicológicas, él fue requerido a clasificar al otro sujeto sobre
una escala de 6 puntos partiendo de 1 (una personalidad no muy competente) a 6 (interpersonalidad
muy competente), las restantes preguntas fueron llenadas con cosas que se relacionaban con asuntos
psicológicos. Después que éstas medidas fueron obtenidas, todos los sujetos fueron agradecidos y se
les dijo que llamaran al autor el próximo mes si ellos deseaban conocer el propósito y resultados del
estudio.

Resultados

Antes de examinar sí ó no las cantidades de dinero apostadas cariaron como una función de la
competencia del confederado, es importante estar seguro que el confederado fue ciertamente
percibido diferencialmente en las dos condiciones. La clasificación media de la competencia del
confederado fue 4.8 cuando él fue supuesto a ser apuesto y 3.17 cuando él estuvo jugando a estúpido.
Casi no hubo traslape entre las dos condiciones. La diferencia entre los dos significados es altamente
significante (t = 5.46, p < .005). Por consiguiente, es seguro decir que los sujetos en la condición
apuesta se vieron a sí mismos como compitiendo contra un individuo más competente que los sujetos
en la condición estúpida.
192

Deberá ser recordado que los sujetos podían apostar cualquier cantidad de nada a 25 centavos en
cada uno de los cuatro rounds de apuesta. Estas cuatro apuestas fueron promediadas para dar un
simple punteo para cada sujeto. La apuesta media para los sujetos en la condición apuesta fue 11.04
centavos comparada con 16.25 centavos para los sujetos en la condición estúpida (t = 2.39, p < .025).
La diferencia entre los dos grupos debería ser aún más aparente cuando examinamos las primeras
apuestas hechas, puesto que el primer round de apuesta siguió más cercanamente la manipulación
experimental. La media de la primera apuesta para la condición apuesta fue 9.28 centavos, mientras
que la media de la primera apuesta para la condición estúpida fue 16.72 centavos (t = 3.16, p < .005).
Prueba conceptual de la manipulación. En orden de estar seguro que la suposición que los sujetos de
Yale esperan al atractivo confederado para apostar más que al no atractivo confederado fue cierta, dos
cuestionarios fueron administrados para muestras aleatorias de los estudiantes no graduados de Yale.
En el primer cuestionario, la tarea y los participantes fueron descritos y los sujetos se les preguntó
quién pensaban ellos que apostarían más. Doce de los 16 sujetos esperaban a la persona atractiva para
apostar más (X2 = 4, p < .05). El segundo cuestionario describía la tarea y preguntaba a la gente
cuánto ellos pensaban que apostarían en cada intento. Todos de los 15 sujetos preguntados
respondieron con la máxima apuesta (25 centavos).

Experimento 2: Efectos de la selección en la ilusión del control

Una vez más, se creó una hipótesis que cuando una situación de probabilidad ficticia una
situación de habilidad, la gente se comporta como si ellos tienen el control sobre el evento
incontrolable aún cuando el hecho de que el suceso ó falla depende de la probabilidad, es
destacado. Una lotería provee un vehículo para estudiar esta ilusión del control porque, aparte
de la decisión de sí ó no comprar un ticket, el resultado es enteramente gobernado por la
probabilidad Si uno pudiera ejercer control sobre el resultado de una lotería, uno
incrementaría la probabilidad de tener un ticket seleccionado. Este ticket sería entonces de
muy grande valor que un ticket perteneciente a alguien sin este control. Y si el fuera de un
valor mayor entonces se sigue que uno requeriría un precio más alto de un comprador
potencial.
En el siguiente estudio una lotería fue conducida para evaluar los efectos de la
escogencia, como un importante factor en una situación de habilidad, en la ilusión del
control. Se predijo que a los sujetos a quienes se les dio su escogencia del ticket de la lotería
requerirían un precio más alto por el.

Método

Los sujetos. Los tickets de la lotería estuvieron disponibles para adultos hombres y para mujeres
trabajadoras de oficina empleadas por una ó dos firmas localizadas en Long Island, una agencia de
seguros y una compañía manufacturera. 1 Puesto que varios sorteos y quinielas de deportes no eran
comunes a estas oficinas, una justificación elaborada para correr la presente lotería fue necesaria. Con
la excepción de cuatro mujeres, toda la gente aproximada por la pretendida agente de ventas de tickets
compró tickets de la lotería. Los sujetos fueron asignados aleatoriamente a las condiciones con el
resultado que existieron 24 hombres y 3 mujeres en la condición de escogencia y 23 hombres y e
mujeres en la condición de no escogencia.

Materiales. Los tickets de la lotería fueron tarjetas de football estándar 4 x 2 pulgadas (10.16 x 5.08
cms,). En cada una de las tarjetas aparecía un famoso jugador de football, su nombre y su equipo. Las
tarjetas fueron arregladas alfabéticamente primero por el nombre del equipo y luego por el nombre
individual del jugador. Existieron dos juegos aparejados de tickets, cada uno comprendiendo 227
tarjetas de football. Cada uno de los sujetos guardó el ticket de un juego mientras que el mismo ticket
del otro juego fue depositado en un tablero de tarjetas de cartón de la cual el ticket ganador sería más
tarde seleccionado.
193

Procedimiento. La lotería fue conducida por un empleado de la agencia de seguros y una empleada
de la firma manufacturera 1 semana previa al juego del Supertazón de 1973. Ambos experimentadores
estuvieron ciegos a la hipótesis del estudio. Cada uno de ellos se aproximó a los

1
Las firmas desean permanecer en el anonimato.
miembros de sus respectivas oficinas y les preguntaron si ellos deseaban comprar un ticket de
la lotería a un costo de $ 1.00. A los sujetos se les dijo que los tickets estuvieron vendiéndose
en ambas de sus oficinas y en otra oficina (la otra oficina fue nombrada) y que el premio
completo, aproximadamente $ 50.00, sería para el ganador. Los sujetos fueron también
informados de la fecha del sorteo. Después de haber estado de acuerdo en participar en la
lotería, al primer sujeto aproximado se le dio la caja con las tarjetas y se le dijo que
seleccionara los tickets que él quisiera. El sujeto nombró la tarjeta de manera que el
experimentador pudiera seleccionar la misma tarjeta del segundo juego y depositarla en la
caja de cartón cerrada. En este momento el experimentador también grabó el nombre de los
sujetos y la tarjeta seleccionada. El segundo sujeto aproximado fue tratado de la misma
manera excepto que después de estar de acuerdo de participar en la lotería, a él ó a ella se
entregó una tarjeta la cual aparejaba la escogencia del sujeto anterior. El día después que los
tickets fueron vendidos en una oficina, el mismo procedimiento fue llevado a cabo en la
segunda oficina.

Medida dependiente. Todos los sujetos fueron individualmente aproximados por el


experimentador de quienes ellos compraron sus tickets la mañana del sorteo de la lotería. A
ellos se les dijo: “Alguien en la otra oficina quería participar en la lotería, pero puesto que yo
no estoy vendiendo más tickets, él me preguntó si yo podría averiguar por cuánto venderían
ustedes sus tickets. Eso no hacía ninguna diferencia para mí, pero cuánto le diría yo a él?” La
cantidad cotizada constituyó la medida dependiente. En el caso que un sujeto dijo que él no
vendería su ticket, el experimentador fue instruido a estimularlo hasta que él diera una cifra y
entonces grabar la respuesta “no venderé” junto a la cantidad que él finalmente ofreció.

Resultados

Como se dijo, la manipulación de la escogencia tenía un considerable efecto sobre el valor


del ticket de la lotería. La cantidad media de dinero requerida para el sujeto para vender su
ticket fue $ 8.67 en la condición de escogencia y solo $ 1.96 en la condición de no
escogencia (t = 4.33, p < .005). Aunque a ellos se les preguntó en cuánto venderían sus
tickets si ellos los venderían, 15 sujetos inicialmente respondieron que ellos no los venderían.
De éstos, 10 sujetos estuvieron en la condición de escogencia y 5 en la condición de no
escogencia (p < .10). La diferencia previamente citada, sin embargo, no fue simplemente una
función de las cantidades cotizadas por éstos sujetos después de estimularlos, puesto que sus
respuestas van de un rango de $ 3.00 al premio entero de $ 53.00, con solo 3 sujetos en la
última categoría.
Mientras no sea específicamente probado hasta el siguiente estudio, uno de los resultados
obtenidos es este estudio concierne al efecto de familiaridad en la ilusión del control. Las
mujeres no están tan proclives como los hombres a estar familiarizadas con el juego de
football. Por lo tanto, ellas deberían ser menos probables de entrar a la lotería en primer
lugar, y si ellas entran, ellas requerirían menos dinero para vender su ticket. Debe recordarse
que solo cuatro personas se rehusaron a participar en la lotería y que cada una de ellas fue
mujer. De los seis mujeres que sí entraron, cuatro requirieron $ 1.00 y dos requirieron $ 2.00
194

por sus tickets. Por lo tanto la cantidad media para las mujeres fue de $ 1.33 comparada con $
5.89 para los hombres (t = 2.14, p < .05). . . .

Implicaciones y aplicaciones

Sobre las bases de la evidencia presentada, parece que los sujetos no distinguen los eventos
de probabilidad – de los de determinada habilidad del modo que es sugerido por sus
definiciones. La contingencia objetiva no parece ser una variable crucial que gobierna el
comportamiento de los sujetos. En vez de eso, si un evento es ó no reaccionado como si es
grandemente controlable depende de factores como la competencia, la escogencia, la
familiaridad y el involucramiento, los cuales pueden ser ortogonales a la contingencia actual.
Esto ha sido mostrado ser el caso aún en situaciones que son tan claramente gobernadas por
la probabilidad como una lotería.
Porqué ocurre esto? Las gentes están motivadas a controlar su medio ambiente. La
importancia del control en este contexto ha sido ampliamente discutida por ambos terapistas
e investigadores de ciencia social. Si ella es vista como una necesidad de competencia
(White, 1959), un instinto por manejar (Hendrick, 1943), una rivalidad por la superioridad
(Adler, 1930), ó una rivalidad por una causalidad personal (deCharms, 1968), la mayoría de
científicos sociales están de acuerdo en que existe una motivación para manejar el medio
ambiente de uno, y un completo dominio incluiría la habilidad para “vencer las
probabilidades”, que significa, controlar los eventos de probabilidad. Mientras más difícil es
un problema, más competente se siente uno en ser capaz de resolverlo. La mayor satisfacción
ó sentimiento de competencia resultaría por consiguiente de estar dispuesto a controlar lo
aparentemente incontrolable.
Además de la motivación para controlar, existe otra razón para la falta de discriminación
entre eventos controlables e incontrolables. Este es el hecho de que los factores de habilidad
y probabilidad están tan cercanamente asociados a la experiencia de la gente. Que es, que no
existe solo una motivación no para discriminar, pero hay a menudo una verdadera dificultad
en hacer la discriminación, puesto que existe un elemento de probabilidad en cada situación
de posibilidad y un elemento de posibilidad en casi toda situación de posibilidad. Lo anterior
es obvio y no necesita mayor explicación aquí. Ejemplos de la última son conocer que una
buena apuesta es en un juego de dados (por ejemplo, conocer las diferencias) ó conocer
cuales máquinas traganíqueles están montadas para dar las mayores recompensas. . . .
195

17. Los resultados de las pruebas son los que usted piensa
que son

Loren J. Chapman y Jean Chapman

Cada día los psiquiatras y los psicólogos clínicos deben tomar decisiones vitales:
Cuál es su problema? Debería él ser internado en un hospital mental? Corre él riesgo de
cometer suicidio ó riesgo de cometer un homicidio? Está este paciente suficiente bien para
ser dado de alta del hospital ó debería permanecer ahí?
Para ayuda con sus decisiones los clínicos casi siempre utilizan pruebas psicológicas.
De acuerdo a un estudio de Norman Sundberg, las dos pruebas de cualquier forma más
ampliamente usadas son la prueba de mancha de tinta de Rorschach y la prueba de hacer
hablar a una persona [Draw-a-Person (DAP)]. Ambas son pruebas proyectivas, basadas en la
premisa de que una persona proyecta parte de su personalidad cuando él responde a una
situación ambigua no estructurada. Por ejemplo, puesto que no existen formas objetivas en
una mancha de tinta, cualquier persona ve un presumiblemente reflejo de sus propios
manejos, conflictos y personalidad. Similarmente, cuando uno dibuja un retrato de una
persona en una hoja de papel en blanco, se piensa que él proyecta un poco de sí miso dentro
de su creación.

Personalidad

Nuestra reciente investigación sugiere que el Rorschach y el DPA pueden ser pruebas
proyectivas de más maneras que una. En la interpretación de los resultados de éstas pruebas,
el promedio clínico puede proyectar sus propias preconcepciones y suposiciones dentro de
su descripción del paciente.
Nuestros primeros estudios en ésta área fueron con la prueba DAP, en la cual el clínico da
al sujeto un lápiz y una hoja de papel en blanco y le requiere que dibuje a una persona. Karen
Machover publicó la prueba en 1949. Ella describió los retratos típicamente dibujados por
personas con varios problemas emocionales y explicó cómo interpretar varias características
de retratos como claves de la personalidad. Ella dijo, por ejemplo, que “la paranoia individual
da mucho énfasis gráfico a los ojos”, y “el sexo dada la proporcionalmente cabeza grande es
el sexo que está más acorde con la autoridad intelectual y social”.
196

El manual de la prueba de Machover es llenado con generalizaciones lejos de alcanzar


sobre las clases de personas que dibujan que clases de retratos, pero ella presenta muy pocos
datos de soporte.

Este trabajo originalmente apareció en Psychology Today, Noviembre de 1971, pp. 18-22, 106-110. Derechos
Reservados © 1971 por Ziff-Davis Publishing Co. Reimpreso con permiso.

Partes

Algunos clínicos no han estado dispuestos a tomar por cierta la palabra de Machover; ellos
han ensayado sus aseveraciones experimentalmente. Jules Holzberg y Murray Wexler, por
ejemplo, trataron de determinar si las personas paranoicas realmente dibujan ojos elaborados.
Ellos compararon los dibujos de 18 pacientes paranoicos esquizofrénicos y 76 estudiantes de
enfermería, pero ellos no encontraron diferencia en el modo en que los dos grupos dibujaron
los ojos.
Docenas de estudios similares han ensayado las predicciones de Machover sobre otras
características de los retratos –cara, orejas, labios, cabello, ropa, bocas, etc. – pero una y otra
vez los signos del DAP han fallado en sostenerlas. Unos pocos experimentadores han
encontrado que los sujetos mejor ajustados tienden a producir mejores dibujos completos,
pero la sorprendente conclusión de la evidencia de la investigación es que el contenido
específico de un dibujo no es un válido indicador de las características de la personalidad.

Signo

Debería ser señalado que este tipo de investigación no demanda una perfecta discriminación.
Si el 50% de personas homosexuales dibujan figuras de una cierta modo, y solo el 25% de
otras personas dibujan figuras de ese modo, la característica de dibujar puede aún ser
considerada un válido signo de diagnóstico, puesto que con el tiempo puede contribuir con
información hacia un diagnóstico de homosexualidad.
La mayoría de los clínicos conocen sobre la investigación mostrando que los signos del
DAP son inválidos, aunque muchos miles continúan el uso de la prueba regularmente porque
ellos reclaman que han visto el trabajo de los signos en su propia práctica clínica. “Yo
confiaré en mis propios sentidos antes de que yo confíe en algún artículo de revista”, dijo un
psicólogo clínico. “Yo sé que los paranoicos no parecen dibujar ojos grandes en los
laboratorios de investigación”, dijo otro, “pero ellos seguro que lo hacen en mi oficina”.

Ilusión

Algunos críticos dicen que los clínicos están tan envueltos en sus teorías y tradiciones que
ellos no están influenciados por los hechos. Pensamos que existe otra explicación, sin
embargo. Los clínicos quienes continúan confiando en los signos del DAP de cara a una
evidencia negativa pueden estar experimentando una correlación ilusoria, un fenómeno que
nosotros descubrimos varios años atrás en la investigación sobre asociaciones de palabras.
Encontramos que cada una de las palabras que altamente asociadas las unas con las otras
tienden a ser vistas como ocurriendo juntas más a menudo que lo que realmente están. En
estos experimentos un sujeto se sentó en una confortable silla mientras proyectábamos varios
pares de palabras (por ejemplo, tocino-tigre) sobre una gran pantalla enfrente de él. Los pares
de palabras cambiaban cada dos segundos. La palabra al lado izquierdo de un par fue siempre
una de cuatro posibles palabras: tocino, león, flores ó barco. Cada palabra apareció tan a
197

menudo como cualquier otra (25 por ciento del tiempo), pero ella apareció siempre en el lado
izquierdo de la pantalla. La palabra al lado derecho de un par fue ya sea huevos, tigre ó
libreta de notas, con iguales probabilidades.
Nosotros arreglamos los pares de palabras sistemáticamente de tal forma que cada una de
las palabras del lado izquierdo apareciera igual número de veces con cada palabra del lado
derecho. Por ejemplo, cuando tocino aparecía en el lado izquierdo, huevos fue apareada con
ella en un tercero de los intentos. Pero cuando nosotros preguntamos a los sujetos
posteriormente sobre los pares de palabras, ellos respondieron que cuando tocino aparecía a
la izquierda, huevos fue apareada con ella 47 por ciento del tiempo, y que cuando león estaba
a la izquierda, tigre fue la palabra que más a menudo aparecía a la derecha. Aún cuando cada
par de palabras aparecía tan a menudo como cada otra, los sujetos reclamaban que los pares
con fuerte asociación verbal ocurrían más a menudo que las otras.
La tendencia a ver dos cosas como ocurriendo juntas más a menudo que lo que ellas
actualmente lo hacen nosotros le llamamos correlación ilusoria.
Parece haber una similitud esencial entre los estudiantes quienes pretenden que ciertas
palabras ocurren juntas más a menudo que lo que actualmente hacen y los psicólogos clínicos
quienes reclaman ver validez en la prueba de signos DAP cuando la investigación dice que
no hay.

Reconocer

Los signos DAP e interpretaciones pueden ser diferentes hoy de lo que ellos fueron cuando
Machover introdujo la prueba 20 años atrás, por supuesto, así que preguntamos a los
profesionales modernos cómo usaron ellos la prueba. Enviamos cuestionarios a 110 clínicos
quienes estuvieron activos en la prueba de diagnóstico. Escribimos breves descripciones de
seis tipos de pacientes y requerimos a cada clínico decirnos qué características él había visto
en cada uno de los dibujos. Las seis descripciones fueron (1) “El está preocupado sobre cuán
varonil es él”, (2) “El sospecha de la otra gente”, (3) “El está preocupado sobre cuán
inteligente es él”, (4) “El está preocupado por ser alimentado y cuidado por otra gente”, (5)
“El ha tenido problemas de impotencia sexual”, y (6) “El está muy preocupado de que la
gente diga malas cosas sobre él”. Les dijimos a los clínicos que asumieran en cada uno de los
casos que el paciente era un hombre que dibujó un retrato de un hombre.
Recibimos 44 cuestionarios completados, y fue claro que los clínicos generalmente
concuerdan con cada otro como las características del dibujo que ellos habían visto en cada
caso. Por ejemplo, la mayoría de los clínicos (91 por ciento) que el paciente suspicaz ojos
grandes ó atípicos. Ochenta y dos por ciento dijeron que una persona preocupada sobre su
inteligencia tendería a dibujar una cabeza grande ó enfatizada (ver Tabla 1).
El acuerdo no fue perfecto, pero fue impresionante. En general, los clínicos estuvieron de
acuerdo en dos ó tres dibujos característicos que ellos esperarían de cada tipo de paciente.

Pares

La mayoría de los clínicos tenían un Doctorado (Ph, D.) y ellos promediaban 8.4 años de
experiencia en psicodiagnóstico. Nos preguntábamos qué clase de signos DAP los
observadores encontrarían cuando ellos casi no tenían experiencia del todo.
Para averiguar juntamos 45 dibujos de figuras de hombres – 35 de pacientes psicóticos de
un hospital cercano y 10 de estudiantes graduados en psicología clínica. Medimos cada
retrato por tamaño de la cabeza, tamaño de los ojos, etc., y tuvimos un índice de juicios
independientes de los dibujos sobre las características más subjetivas, tales como
musculatura y feminidad.
198

Para cada retrato adjuntamos dos de las seis declaraciones que nosotros habíamos fijado
para los clínicos – por ejemplo, “El hombre que dibujó este (1) sospecha de la otra gente, y
(2) ha tenido problemas de impotencia sexual”. Hubo distintos pares que podrían ser hechos
de las seis declaraciones, de manera que utilizamos cada par en tres diferentes retratos.
Asignamos las declaraciones sistemáticamente a todos los tipos de retratos. Por ejemplo,
“El está preocupado sobre cuán inteligente es” apareció tan a menudo en los retratos con
cabezas pequeñas como en retratos con cabezas grandes.
A continuación tamizamos a un grupo de estudiantes universitarios y seleccionamos a
108 quienes afirmaban que ellos nunca habían oído de la prueba del Dibujo de Una Persona
(DAP) y no sabían nada sobre cómo ella era interpretada.
Ensayamos a los estudiantes en grupos. Antes de cada prueba les explicamos brevemente
lo racional de la prueba del DAP. Les dijimos a los estudiantes que verían una serie de
dibujos, junto con breves declaraciones sobre los hombres quienes los dibujaron. Les dijimos
que muchos de los hombres tenían los mismos problemas, y que los estudiantes deberían
examinar todos los retratos cuidadosamente y buscar las características comunes en los
dibujos por hombres con cada tipo de problema. Los estudiantes miraron luego los retratos en
un orden aleatorio pre-arreglado, permitiéndoles 30 segundos para ver cada uno de los
retratos.

Prueba

Aunque tuvimos cuidadosamente balanceados los retratos y sus declaraciones de forma que
existieran relaciones objetivas entre ellos, casi cada sujeto respondió que él vio las relaciones.
Y las relaciones que los estudiantes encontraron fueron marcadamente similares a las
relaciones que los clínicos reportaron ver en la práctica diaria. Existieron algunas diferencias,
por supuesto, pero los estudiantes tendieron a describir el dibujo típico de cada tipo de
paciente en los mismos términos que los clínicos habían usado. Y en el caso de los
estudiantes, sabemos que los signos fueron ilusiones, porque ellos no estuvieron en los datos.
Nuestra previa investigación en pares de palabras sugiere una explicación: recuerde que
encontramos que las palabras con fuertes conexiones asociativas tienden a ser vistas como
ocurriendo juntas. Talvez el mismo mecanismo estuvo detrás de los signos del DAP.
Elaboramos un cuestionario de asociación de palabras para determinar cuán cercanamente las
áreas de los síntomas (suspicacia, inteligencia, impotencia, etc.) están asociadas con varias
partes del cuerpo (ojos, cabeza, órganos sexuales, músculos, etc.). Las preguntas tomaron la
forma siguiente: “La tendencia la SUSPICACIA para llamar a la ente CABEZA es (1) muy
fuerte, (2) fuerte, (3) moderado, (4) liviano, (5) muy liviano, (6) ninguna tendencia del todo”.
Le dimos el cuestionario a 45 estudiantes quienes no habían participado en las otras
partes del experimento. Las asociaciones verbales que ellos reportaron nítidamente se
compararon a las correlaciones ilusorias que los simples estudiantes habían visto entre los
síntomas y las características del dibujo. Y las asociaciones verbales fueron un aún más
cercano aparejamiento con las correlaciones reportadas por los practicantes clínicos.

Pago

En nuestro siguiente experimento nosotros ensayamos 56 sujetos en tres días sucesivos para
ver si ellos se darían cuenta que no existen verdaderas correlaciones entre síntomas y retratos
si ellos tuvieron una posibilidad de mirar el ensayo de materiales más de una vez. Las
correlaciones fueron vistas como fuertemente en el tercer día como el primero. Nosotros
empezamos as darnos cuenta cuán fuerte una correlación ilusoria puede ser y nos
preguntamos en que condiciones, si las hay, permitiríamos a uno superarlas.
199

Nosotros ensayaos una serie de 41 nuevos sujetos individualmente y dejamos que cada
uno mirara a cada retrato tanto como el deseara. Para animarlos a estudiar los retratos
cuidadosamente, ofrecimos $ 20.00 al estudiante cuyos juicios fueran más exactos.
Esto no funcionó. Los estudiantes vieron las correlaciones ilusorias tan fuertemente como
siempre.
Finalmente empujamos todas las paradas y les dimos a los sujetos cada oportunidad que
podríamos pensar del chequeo de sus propias percepciones. Le dimos a cada sujeto la pila
Tabla 1. Porcentaje de clínicos y simples estudiantes reportando varias características de los dibujos como acompañamiento de seis declaraciones de los síntomas.
Preocupado Preocupado Preocupado con Tiene problemas Preocupado
sobre la Sospechoso sobre ser alimentado de impotencia sobre la gente
masculinidad de los otros la inteligencia y cuidado por sexual que dice cosas malas
___________ __________ ___________ _____________ _____________ ________________
Características de C S C S C S C S C S C S
los dibujos
1 Amplios hombros, muscular 80 76 0 6 0 8 0 12 25 31 0 6
2 Ojos atípicos 0 0 91 58 0 6 0 3 2 2 43 26
3 Cabeza grande ó enfatizada 0 5 0 13 82 55 2 7 0 3 9 10
4 Boca enfatizada 0 0 7 5 0 1 68 8 2 1 5 5
5 Área sexual elaborada 14 5 0 0 0 0 0 0 55 8 0 0
6. Orejas atípicas 0 0 55 6 0 3 0 0 2 0 64 7
7 Expresión facial atípica 0 17 18 44 2 21 2 21 2 14 18 52
8 Femenina, como una niña 23 22 7 12 2 11 32 39 23 25 11 13
9 Cabello distintivo 23 13 2 2 2 8 0 1 11 6 0 3
10 Dibujo detallado 20 8 2 6 2 13 0 3 7 3 2 6
11 Postura pasiva 5 4 2 8 34 2 36 21 2 2 0 8
12 Botones en las ropas 0 0 0 0 0 0 23 1 0 0 0 0
13 Área sexual no enfatizada 0 0 0 0 0 0 0 0 18 27 0 0
14 Nariz fálica 9 0 0 0 0 0 0 0 23 2 0 0
15 Obeso 0 2 0 1 0 0 7 16 0 4 0 1
Nota: C = clínico, S = estudiante. Las características listadas son aquellas mencionadas por al menos 15 por ciento de los clínicos ó de los estudiantes por al
menos un síntoma. Por cerca de cada característica del dibujo, el síntoma más a menudo asociado con el por los clínicos es el mismo síntoma asociado con el
por los estudiantes.
completa de dibujos para estudiarla por él mismo; le dijimos que él podría mirar a ellos en
cualquier orden hasta que él deseara. El podría escoger los retratos dentro de las pilas y hacer
comparaciones directas. Él podría poner todos los dibujos por hombres suspicaces en una pila
y estudiarlos por similitudes. Le dimos a cada sujeto un block de papel, un lápiz y una regla;
De nuevo les ofrecimos $ 20.00 a la persona cuyos juicios fueran más exactos, y le dimos a
cada sujeto una copia del cuestionario final de tal forma que él podría ver qué preguntas él
tendría que responder.

Masculinidad

En estas generosas condiciones la correlación ilusoria desestimaron significantemente la


mayoría de los síntomas, pero no desaparecieron. Por ejemplo, en condiciones normales el
76% de los estudiantes vieron una relación entre la preocupación sobre la masculinidad de
uno y la tendencia a dibujar figuras musculares; en las nuevas condiciones, 45% aún
reclaman ver la relación que no estaba allí. La correlación ilusoria es poderosa, y
marcadamente resistente a cualquier intento de cambiarla.
Los estudiantes aún reclaman ver las típicas correlaciones cuando las tarjetas son apiladas
en la dirección opuesta. En un estudio, por ejemplo, colocamos la declaración, “El está
preocupado por su inteligencia” solo en retratos con cabezas pequeñas; la declaración sobre
la suspicacia apareció exclusivamente en dibujos con ojos pequeños, etc. Esto redujo la
correlación ilusoria un poco, pero no la eliminó. Dieciseis por ciento aún dijeron que los
pacientes que se preocupaban por su inteligencia desestimaron figuras de cabezas grandes y
50 por ciento aún vieron una relación entre preocuparse por la masculinidad de uno y la
tendencia a dibujar figuras musculares – aunque la verdadera relación estuviera en la
dirección opuesta.
Está claro de nuestra investigación que las interpretaciones clínicas de la prueba del DAP
probablemente tienen un fuerte componente de correlación ilusoria. Y las decisiones que los
clínicos hacen sobre sus pacientes pueden ser proyecciones de las propias preconcepciones
de los clínicos.

Borrones

Nosotros nos preguntamos si existen correlaciones ilusorias en la mayoría de las pruebas


populares de todos – la tinta borrada de Rorschach – y si es así, si ellos serían vistos tan
claramente como correlaciones reales, los pocos signos de Rorschach que han sido
encontrados de ser válidos indicadores de ciertas características de la personalidad.
En los 50 años de historia de Rorschach, muchos clínicos han reportado, por ejemplo, que
ciertas respuestas son dadas más a menudo por homosexuales que por otros. En 1949,
William Wheeler resumió 20 signos de homosexualidad de Rorschach. Otros investigadores
han probado los signos de Wheeler, pero solo 2 de los 20 signos han sido encontrados válidos
por más de un investigador. Uno de éstos (el número 7) es una respuesta a la cuarta mancha
de tinta de “un humano ó animal-conformado, monstruo ó amenazado”. El otro signo válido
es el número 8 de Wheeler, el reporte de un ambiguo animal – figura humana en la sexta
tarjeta.

Signos

Para encontrar cómo los clínicos actualmente usan el Rorschach para diagnosis de
homosexualidad, enviamos cuestionarios a 76 clínicos, requiriéndoles describir dos
percepciones que los pacientes homosexuales típicamente usan en las 10 manchas de tinta de
203

Roschach. De los clínicos que retornaron los cuestionarios completados, 32 dijeron que ellos
habían visto los protocolos de Roschach de un número de homosexuales. Estos 32 clínicos
describieron varios signos de Roschach, pero los que mencionaron más a menudo fueron (1)
glúteos ó anos, (2) genitales, (3) ropa femenina, (4) figuras humanas de sexo indeterminado,
con no claras características de hombre ó mujer y (5) figuras humanas con ambas
características de hombre y de mujer. Todos éstos son signos de Wheeler que no han sido
apoyados en investigación. Por otro lado, solo dos clínicos mencionaron el signo válido
número siete - una deformada, monstruosa figura y ninguno mencionó el otro signo válido,
el número ocho – una figura parte humana-parte animal.
Algunos clínicos, parecerían, ver signos en el Rorschach que no están allí, y fallan al ver
los signos que están allí. De nuevo nuestro trabajo con asociaciones de palabras sugiere una
razón. Los dos signos válidos no son intuitivo: la homosexualidad no fácilmente trae a la
mente ya sean bestias gruñonas ó razas cruzadas humana-animal. Pero la homosexualidad
tiene una alta asociación verbal con los cinco signos que los clínicos reportaron más a
menudo. De alguna manera es intuitivamente razonable esperar que los homosexuales
podrían tender a ver glúteos, ropaje femenino ó figuras de sexo mixto en manchas de tinta.

Ideas

Nosotros ensayamos éstas nociones objetivamente preguntando a 34 estudiantes


independientes juzgar la proporción de cuán fuertemente la palabra “homosexualidad” tendió
a llamar a la mente varias ideas. Sus proporciones concordaron – los populares pero inválidos
signos tienen una más fuerte asociación verbal con la homosexualidad que los dos
impopulares pero válidos signos. Esto sugiere que los signos de homosexualidad que los
clínicos reclaman ver en el Rorschach pueden simplemente reflejar sus propias suposiciones
y expectativas.
Nosotros ensayamos esta contención con un diseño similar al que nosotros usamos para
estudiar la prueba Dibujar a una Persona (DAP). Obtuvimos varias tarjetas Rorschach y en
cada una adjuntamos una respuesta – alguna percepción que una persona supuestamente
había visto en la tarjeta. Había un círculo alrededor del área de la tarjeta a que la repuesta se
refería.
En algunas manchas de tinta la respuesta fue un válido signo de homosexualidad (por
ejemplo, “un gigante con brazos encogidos”), en otros la respuesta fue un signo no válido
(por ejemplo, “un corsé de mujer atado”), y en otras fue un signo neutro (por ejemplo, “un
mapa de España”). Debajo de la respuesta había dos descripciones de la persona quien había
hecho la respuesta. Seleccionamos estas descripciones en todos los pares posibles de un
grupo de cuatro: (1) “El tiene sentimientos sexuales hacia otros hombres”, (2) “El cree que la
otra gente está intrigando en contra de él”, (3) “El se siente triste y deprimido mucho del
tiempo”, y (4) “El tiene fuertes sentimientos de inferioridad”. Nosotros, por supuesto,
estuvimos más interesados en la primera declaración.

Mezcla

Como en los estudios del DAP, sistemáticamente asignamos las declaraciones de los
síntomas a las tarjetas de tal forma que allí no hubo una relación consistente entre cualquiera
de las declaraciones y entre cualquiera de los signos.
Después que los estudiantes miraron una serie de tarjetas, les preguntamos qué clase de
imágenes Rorschach habían sido reportadas por los pacientes con cada uno de los cuatro
tipos de síntomas. Los hombres homosexuales, los estudiantes reportaron más a menudo
vieron glúteos, genitales, etc. – en resumen, los mismos signos no válidos que los clínicos
204

habían reportado. Ninguno de los estudiantes vio una relación entre la homosexualidad y los
dos signos válidos.
En una posterior variación nosotros a propósito introducimos una correlación negativa
dentro de la prueba de materiales, de tal forma que la declaración “El tiene sentimientos
sexuales hacia otros hombres” nunca apareció en una tarjeta que había sido percibida como
vestimenta femenina, glúteos, etc. Esto no redujo la correlación ilusoria - los estudiantes lo
vieron justo como fuertemente como antes.

Atadura

Estos estudios muestran cuán fácil es creer que dos eventos independientes están conectados,
especialmente cuando existe alguna asociación verbal subjetiva entre los eventos. Nuestros
sujetos vieron masivas correlaciones ilusorias entre los síntomas y signos de una prueba
proyectiva en una breve, tarea estructurada. La tarea de los clínicos es mucho más compleja,
por supuesto. Los problemas reales de los pacientes son numerosos y vagos – raramente un
paciente tiene solo dos síntomas claramente definidos. Y los pacientes reales dan muchas
respuestas diferentes en pruebas proyectivas, no solo una. También parece probable que en la
práctica actual las correlaciones ilusorias que un clínico observa están reforzadas por los
reportes de sus colegas clínicos quienes ellos mismos están sujetos a las mismas ilusiones. El
consenso haría más fuertes las ilusiones de cada uno. A nuestros estudiantes, por otro lado, no
les fue permitido hablar uno con otro durante la prueba, de tal manera que cada uno tenía que
encontrar sus propias correlaciones ilusorias. Por todas éstas razones parece probable que los
clínicos practicantes traten con correlaciones ilusorias que son aún más fuertes que las que
nuestros sujetos reportaron.

Difícil

Nosotros no tenemos la intención de implicar que los psicólogos clínicos son incompetentes
ó insensibles a los hechos, como algunos podrían rápidamente concluir. Nuestros datos
apuntan no a la incompetencia de los clínicos, sino a la extrema dificultad de su tarea. Los
clínicos están sujetos a las mismas ilusiones como cualquier otro. Por analogía, casi cada uno
dice que dos líneas horizontales tienen diferentes longitudes cuando ellas aparecen en la
ilusión de Müller-Lyer.

>---------------------------<
<--------------------------->

pero ninguno llamaría a un carpintero un incompetente experto de distancias simplemente


porque él también ve la ilusión.
Los clínicos deben estar concientes de la correlaciones ilusorias si ellos están
compensados por ellas. Idealmente, los clínicos deberían experimentar tales ilusiones de
primera mano. Puede sonar como política de entrenamiento requerir a cada estudiante
graduado en psicología clínica servir como un observador en tareas como las que hemos
descrito. El podría entonces examinar muy de cerca el tamaño y la fuente de las correlaciones
ilusorias que él experimenta y por ello, uno espera, aprender a guardarse contra tales errores
en su práctica clínica.
La experiencia también le recordaría que sus sentidos son falibles, que sus juicios clínicos
deben ser chequeados continuamente contra medidas objetivas, y que su tarea profesional es
una de las más difíciles y complejas en toda la psicología.
205

18. Razonamiento probabilístico en medicina


clínica: Problemas y oportunidades

David M. Eddy

Por un gran período de tiempo, la calidad y costo del cuidado de la salud era determinados
por las decisiones hechas por los médicos cuyo último objetivo es designar y administrar un
programa de tratamiento para mejorar la condición de un paciente. La mayoría de decisiones
involucran muchos factores, gran incertidumbre, e interrogantes difícil de valuar.
Este capítulo examina un aspecto de cómo estas decisiones son hechas, estudiando el uso
del razonamiento probabilístico para analizar un problema particular: si ejecutar una biopsia
en una mujer quien tiene una masa en un pecho que podría ser maligna. Específicamente,
estudiaremos cómo la información de los procesos médicos tiene mayores errores en el
razonamiento probabilísitico, y que estos errores amenazan la calidad del cuidado médico.

El problema

Una biopsia de pecho no es un procedimiento trivial. El tipo más común (alrededor del 80%)
es la biopsia excisional, en la cual la masa sospechosa es removida quirúrgicamente por
examen microscópico y diagnóstico histológico por un patólogo. Usualmente el paciente es
admitido a un hospital y sometido a un completo juego de pruebas diagnósticas
preoperativas. La biopsia es casi siempre efectuada bajo anestesia general (con una
probabilidad de aproximadamente 2 de 10,000 de una muerte por la anestesia). Una pequeña
(1 – 2 pulgadas) incisión es hecha, y un tejido del tamaño de una nuez a una ciruela es
removido. En muchos casos (talvez 1 en 2) la pérdida de tejido es apenas notoria; en otros
existe un pérdida de sangre remanente. En un caso ocasional (talvez 1 en 200) existe una
infección ó drenaje que puede persistir por varias semanas. El costo es de aproximadamente $
700.00. Este procedimiento puede ser hecho sobre la base ambulatoria y bajo anestesia local.
Como una alternativa a la biopsia excisional, algunos cirujanos prefieren en algunos casos
obtener tejido usando una aguja. Esto puede ser hecho sobre la base ambulatoria, no deja
cicatriz ú otros efectos residuales, y es mucho menos caro. Sin embargo, el es considerado
por muchos médicos menos confiable en que una lesión maligna existente puede no ser
encontrada.
Un importante factor que afecta la necesidad de efectuar una biopsia es la posibilidad de
que la masa del seno sea un cáncer. Para estimar esta posibilidad, un médico puede listar las
posibles enfermedades, evaluar las frecuencias con la cual varios signos y síntomas ocurren
con cada enfermedad, comparar esta información con los descubrimientos en la paciente,
estimar la probabilidad que ella tiene de cada una de la enfermedades en la lista, y hacer una
biopsia si la probabilidad de cáncer ú otra lesión tratable es suficientemente alta. Para ayudar
al médico, muchos libros de texto describen cómo las enfermedades no malignas pueden ser
diferenciadas del cáncer. Por ejemplo, el siguiente párrafo describe una de tales

La preparación de este trabajo fue patrocinado por una subvención de Henry J. Kaiser Family Foundation.
206

enfermedades benignas – la enfermedad de absceso crónico..

La enfermedad de absceso crónico es a menudo confundida con un carcinoma del seno. Ella
usualmente ocurre en mujeres recién paridas con senos pequeños. Está presente más comúnmente en
el cuadrante externo superior pero puede ocurrir en otras partes y eventualmente involucra el seno
completo. Es a menudo doloroso. Particularmente en el período premenstrual, y acompañando
desordenes menstruales son comunes. El pezón segrega, usualmente serosidad, ocurre en
aproximadamente el 15% de los casos, pero no existen cambios en el pezón mismo. La lesión es
difusa sin aguda demarcación y sin fijación a la cubierta de la piel. Múltiples abscesos son firmes,
redondos y fluctuantes y puede ser explorados por medio de focos si ellos contienen un fluido claro.
Un gran absceso en un área de enfermedad de absceso crónico se siente como un tumor, pero es
usualmente más liso y bien delimitado. Los nódulos linfáticos auxiliares son usualmente no alargados.
La enfermedad de absceso crónico no frecuentemente muestra grandes abscesos azulados. Con más
frecuencia, los abscesos son múltiples y pequeños. 1 (del Regato, 1970, pp. 860-861).

Similares descripciones están disponibles para fibroadenomas, necrosis grasosa, trauma, y


otra media docena de otras condiciones del busto, así como para cáncer.
Los tipos de información probabilísticos pueden ser usados para ayudar a un médico a
analizar las posibles causas de una masa en el busto de la paciente. Con evaluaciones de los
valores de los posibles resultados (por ejemplo, diagnosticar apropiadamente un cáncer,
haciendo una biopsia innecesaria de una lesión no maligna, no hacer una biopsia y pasar por
alto una lesión maligna, y apropiadamente decidir no hacer una biopsia de una lesión
benigna), los médicos pueden evaluar la probabilidad de que la paciente, con sus signos
particulares y síntomas, tiene cáncer, y los médicos pueden seleccionar una acción.

El caso de la mamografía

Otras pruebas diagnósticas están disponibles para ayudar a los médicos a estimar la
probabilidad de que una lesión del busto de una mujer en particular es maligna. Quizás la
más importante y comúnmente usada es la mamografía. El valor de ésta prueba se apoya en
el hecho de que los componentes de las células malignas absorben los rayos X a diferencia de
los componentes de las células no malignas. Estudiando los mamogramas, un radiólogo
puede estar en capacidad de ver ciertos signos que ocurren con diferentes frecuencias en
diferentes lesiones, y de ésta información un juicio puede ser hecho sobre la naturaleza de la
lesión en cuestión. Típicamente los mamogramas están clasificados como positivos ó
negativos para cáncer. Ocasionalmente un esquema de clasificación expandido es usado, tal
como uno conteniendo las tres clases: maligno, sospechoso y benigno.
La prueba no es perfecta, en que algunas lesiones malignas son incorrectamente
clasificadas como benignas y algunas lesiones benignas son llamadas malignas. Por lo tanto,
un factor que es muy importante para los clínicos es la exactitud de la prueba.

Razonamiento probabilístico

Permítasenos desarrollar ésta noción más precisamente. El propósito de una prueba


diagnóstica es proveer información a un clínico sobre la condición de un paciente. El médico
utiliza esta información para revisar el estimado de la condición del paciente y para
seleccionar una acción basada en ese nuevo estimado. La acción puede ser una orden para
1
En esta y todas las subsecuentes citas, las cursivas son agregadas.
posteriores pruebas de diagnósticas, ó si el médico está suficientemente confiado de la
condición del paciente, una acción terapéutica puede ser tomada. El punto esencial es que el
207

médico puede tener grados de certeza sobre la condición del paciente. El médico recopilará la
evidencia para refinar esta certeza de que el paciente tiene ó no tiene cáncer, y cuando esa
certeza llega a ser suficientemente fuerte (en el contexto de la severidad de la enfermedad y
el cambio en la prognosis con el tratamiento), la acción será tomada.
Podemos asociar una probabilidad, la probabilidad subjetiva del médico de que el
paciente tiene cáncer, con este grado de certeza. El impacto en el cuidado del paciente de una
prueba diagnóstica tal como una mamografía, por consiguiente, descansa en el poder de
cambiar la certeza del médico ó probabilidad subjetiva de que el paciente tiene cáncer.
La noción de una probabilidad subjetiva ó grado de certeza aparece de muy diferentes
formas en la medicina vernácula. Por ejemplo, un autor escribe que “porque el grupo de edad
mayor tiene la mayor proporción de lesiones malignas, existe un elevado índice de sospecha
en la mente de un clínico quien se enfrenta a un paciente mayor” (Gold, 1969, p. 162). Otro
autor expone que el mamograma puede reducir el número de biopsias de seno “en muchas
instancias cuando la más bien firme opinión del médico de enfermedad benigna es soportada
por una firme diagnosis mamográfica de benignidad” (Wolfe, 1964, p. 253). Un tercero lo
describe de este modo: “si la impresión subjetiva del clínico da suficiente razón para
sospechar de carcinoma, los clínicos estarán obligados a efectuar una biopsia a pesar de un
mamograma negativo” (Clark, et al., 1965, p. 133). Otras expresiones que reflejan ésta
noción incluyen, “el nivel de confianza” (Byrne, 1974, p. 37), “impresión de malignidad”
(Wolfe, 1967, p. 138), “una diagnosis más positiva” (Egan, 1972, p. 392), etc. Estas
declaraciones no son precisas porque pocos médicos están formalmente al corriente con los
conceptos de la probabilidad subjetiva y análisis de decisión. No obstante, existe evidencia de
que las nociones de los grados de certeza son naturales a los médicos y son usados por ellos
para ayudar a seleccionar un curso de acción.

Interpretando la exactitud de la mamografía

Ahora considere a una paciente con una masa en un seno que los médicos piensan que es
probablemente benigno. Supongamos que ésta probabilidad sea de 99 de 100. Usted puede
interpretar la frase “que el médico piensa que es probablemente [99 de 100] benigna” como
sigue. Suponga que el médico ha tenido experiencia con un número de mujeres quienes, en
todos los aspectos importantes tales como la edad, síntomas, historia familiar, y
descubrimientos físicos son similares a esta paciente particular. Y suponga que el médico
conoce de esta experiencia que la frecuencia cáncer en este grupo es, digamos, 1 de 100.
Careciendo de cualquier otra información, los médicos por consiguiente asignarán (talvez
subconcientemente) una probabilidad subjetiva del 1% para el evento de que ésta paciente
tiene cáncer.
Ahora dejemos que el médico ordene un mamograma y reciba un reporte que en opinión
del radiólogo la lesión es maligna. Esta es una nueva información y las acciones a tomar
obviamente dependerán de la nueva estimación del médico de la probabilidad de que el
paciente tenga cáncer. Un médico quién consulta la literatura puede encontrar innumerables
declaraciones útiles, tales como la siguiente: “La exactitud de la mamografía es
aproximadamente del 90 por ciento (Wolfe, 1966, p. 214); “En [una paciente con una masa
en el busto] un [mamograma] positivo reporte de carcinoma es altamente exacto” (Rosato,
Thomas & Rosato, 1973, p. 491); y “La exactitud de la mamografía en diagnosticar lesiones
malignas del busto son de 80 a 85 por ciento de promedio” (Cohn, 1972, p. 98). Si se desea
más detalle, el médico puede encontrar muchas declaraciones como “El resultado mostró
que el 79.2 por ciento de 475 lesiones malignas fueron correctamente diagnosticadas y el
90..4 por ciento de 1,105 lesiones benignas fueron correctamente diagnosticadas, para una
exactitud total de 97 por ciento” (Snyder, 1966, p. 217).
208

En este punto usted puede incrementar su apreciación del problema del médico estimando
por usted mismo la nueva probabilidad de que este paciente tenga cáncer. El médico piensa
que la masa es probablemente (99%) benigna, pero el radiólogo ha producido un reporte
positivo de rayos X con la exactitud justamente dada.

Tabla 1. Exactitud de la mamografía en el diagnóstico de lesiones benignas y malignas.


Resultados de Lesión maligna Lesión benigna
rayos X (cáncer) (no cáncer)_______________
Positivo .792 .096
Negativo .208 .904
Fuente: Los números son de Snyder (1966).

La fórmula de Bayes puede ser aplicada para evaluar la probabilidad. Esta fórmula nos
dice que

Insertar aquí la fórmula de la página 253 del texto original

donde

P(ca/pos) es la probabilidad de que la paciente tenga cáncer, dado que ella tiene un
reporte positivo de rayos X (la probabilidad posterior)
P(pos/ca) es la probabilidad de que, si la paciente tiene cáncer, el radiólogo corregirá
el diagnóstico (la proporción de la verdad positiva, ó sensitividad)
P(ca) es la probabilidad de que la paciente tenga cáncer (probabilidad previa)
P(benigna) es la probabilidad previa de que la paciente tiene una enfermedad benigna
[P(benigna = 1 – P(ca)].
P(pos/benigna) es la probabilidad de que, si la paciente tiene una lesión benigna, el
radiólogo la diagnosticará incorrectamente como cáncer (la proporción falsa-
positiva).

La tabla 1 resume los números dados por Snyder. Las entradas en las celdas son las
probabilidades apropiadas (por ejemplo, P(pos/ca) = .792).
Usando el 1% como la estimación del médico de la probabilidad previa que la masa es
maligna y tomando en consideración la nueva información proporcionada por la prueba,
obtenemos

P(ca/pos) = _____(0.792)(0.01)______ = 0.077


(0.792)(.01) + (.096)(0.99)

Por lo tanto, el médico debería estimar que existe aproximadamente un 8% de posibilidad de


que el paciente tenga cáncer.

Razonamiento probabilístico incorrecto

Desafortunadamente, la mayoría de los médicos (aproximadamente 95 de 100 en una muestra


informal tomada por el autor) malinterpretan los informes sobre la exactitud de la prueba y
estiman P(ca/pos) ser de alrededor de 75%. Otros investigadores han observado resultados
similares (Cascells, Schoenberger & Grayboys, 1978). Cuando se les preguntó sobre esto los
médicos usualmente reportan que ellos asumieron que la probabilidad de cáncer dado que la
paciente tiene un resultado de rayos X positivo [P(ca/pos)] fue aproximadamente igual a la
209

probabilidad de un resultado de rayos X positivo en una paciente con cáncer [P(pos/ca)]. La


última probabilidad es la medida en programas de investigación clínica y es muy familiar,
pero es la última probabilidad que se necesita para tomar una decisión clínica. Parece que
muchos si no la mayoría de médicos confunden las dos.
Existen realmente dos tipos de exactitud para cualquier ensayo designado para determinar
si ó no una enfermedad específica está presente. La exactitud retrospectiva concierne a
P(pos/ca) y P(neg/no ca). (La abreviatura “no ca” se refiere al evento que el paciente no tiene
cáncer. Esto puede ocurrir porque ella tiene ya sea una enfermedad benigna ó no tiene
ninguna enfermedad del todo). Esta exactitud, la que usualmente se refirió en la literatura
sobre mamografía, está determinada mirando hacia atrás al diagnóstico de rayos X después
que el verdadero diagnóstico (histológico) es conocido. Permítasenos usar el término
exactitud predictiva para describir P(ca/pos) y P(benigno/neg), la exactitud importante para el
clínico que tiene un reporte de rayos X de una paciente aún no diagnosticada quien desea
predecir el estado de la enfermedad de la paciente.

Confundiendo la exactitud retrospectiva versus la exactitud predictiva. Una revisión de la


literatura médica sobre la mamografía revela una fuerte tendencia a igualar la exactitud
predictiva de un reporte positivo con la exactitud retrospectiva de un reporte de rayos X; que
es igualar P(ca/pos) = P(pos/ca). Existen muchas razones para sospechar que este error está
siendo cometido. Primero, la palabrería de muchas de las declaraciones en la literatura
sugieren fuertemente que los autores creen que la exactitud predictiva [P(ca/pos)] se equipara
a la exactitud retrospectiva [P(pos/ca)] que ellos reportan en sus estudios. Por ejemplo, un
artículo de Radiología de 1964 expuso , “la exactitud total del diagnóstico de rayos X fue de
674 de 759, ú 89 por ciento” (vol. 84, p. 254). Un contribuyente a la Obstetricia y
Ginecología Clínica en 1966 dijo, “Asch encontró un 90 por ciento de correlación de la
mamografía con los descubrimientos patológicos en 500 pacientes” (vol. 9, p. 217). “El
acuerdo en diagnosis radiológica y patológica fue 91.6 de 91.6 por ciento” (Egan, 1972, p.
379). Todos estos informes implican que si la paciente tiene una prueba positiva la prueba
será correcta y la paciente tendrá cáncer el 90% del tiempo. Esto no es cierto.
Segundo, algunos autores cometen el error explícitamente. Los siguiente apareció en una
publicación en 1972 de Cirugía, Ginecología y Obstetricia en un artículo titulado
“Mamografía en su Apropiada Perspectiva” y tuvo la intención de rectificar alguna confusión
que existió en la literatura: “En mujeres con carcinoma del busto probado, en quienes
mamogramas son ejecutados, no existe evidencia de rayos X de enfermedad maligna en
aproximadamente una de cinco pacientes examinadas. Si entonces sobre la base de un
mamograma negativo, nosotros aplazaremos la biopsia de una lesión sólida del busto,
entonces existe una probabilidad de uno en cinco que nosotros estamos posponiendo una
biopsia de una lesión maligna” (vol. 134, p. 98). El autor ha incorrectamente expuesto que
P(neg/ca) = .2 implica que P(ca/neg) = .2. Su error viene a ser muy serio cuando él concluye
que “para diferir una biopsia de una lesión sólida clínicamente benigna del busto que ha sido
llamada benigna en la mamografía es dar un paso atrás en la erradicación del carcinoma del
busto en nuestra población femenina”. La probabilidad de que tal paciente tenga cáncer
depende de la probabilidad previa, pero es menor que 1 en 100. Su análisis es un error de más
de un factor de 20.
Cirugía, Ginecología y Obstetricia publicado en 1970 (vol. 131, pp. 93-98) los
descubrimientos de otro grupo de investigación, quién computó la “correlación del
diagnóstico radiográfico con el diagnóstico patológico” como sigue. Ellos tomaron a todas
las pacientes con diagnóstico de probado histológicamente y los separaron dentro de tres
grupos sobre la base del diagnóstico de rayos X – “benigno”, “carcinoma”, y “carcinoma
sospechoso”. En el grupo de “rayos X benigno” (“negativo” en nuestra terminología), el lote
210

mostró que el 84% de hecho tenía lesiones benignas. También se notó que el 87.5% del grupo
de “carcinoma de rayos X” (ó “positivo”) tuvo en la biopsia lesiones malignas probadas. Por
lo tanto, P(ca/pos) = 87.5% y P(beningna/neg) = 84%. Pero los autores equivocaron esta
exactitud predictiva por la exactitud retrospectiva. Ellos informaron que “Un correcto
diagnóstico mamográfico fue hecho en 84 por ciento de aquellas con lesiones benignas y en
87.5 por ciento de aquellas con carcinoma”. De hecho, la proporción de verdadera-positiva
[P(pos/ca)] en este estudio fue del 66% y de verdadera-negativa [P(neg/benigna)] fue del
54%.
En una carta al editor de fecha 11 de septiembre de 1976, edición del National Observer,
un médico presentó cinco “observaciones de hechos” para sostener la opinión de que “la
mamografía [por ejemplo, ocultación] de rutina no está en el principal interés de la población
en general a cualquier edad”. Aquí está el primer juego de observaciones.

(1) La exactitud del examen de mamografía se reporta que está entre 80 y 90 por ciento, dependiendo
de tales factores como la edad de la paciente, si ella tiene ó no enfermedad fibrocística, el tipo de
equipo radiográfico, la experiencia del radiólogo y de lo que nuestra definición de “exactitud” es. . . .
Aún si concluimos que la exactitud es de 85% generalmente (y estoy seguro que no cada radiólogo en
la nación se puede aproximar a tal figura en su propia práctica), entonces que significa que el 15% de
las mujeres sometidas a rayos X concluirá con una interpretación incorrecta de los descubrimientos,
ó más probable, sus mamogramas simplemente fallarán en demostrar la enfermedad. Esto significa
que al 15 por ciento de las mujeres se les dará un falso sentido de seguridad si a ellas se les dice que
sus exámenes de rayos X están normales, si ciertamente ellas ya tienen cáncer. Es difícil evaluar el
daño hecho a este grupo, porque ellas obviamente estarán mejor sin ninguna información que con
información incorrecta. Habiéndole dicho que su mamograma está normal y que ella no necesita
regresar sino hasta dentro de un año, una mujer con cáncer de seno puede bien ignorar una
protuberancia en su pecho la cual podría de otra manera enviarla al doctor inmediatamente.

Existen varios errores en el razonamiento de este autor. Primero, la “exactitud” de la


mamografía no puede ser expresada como un simple número. Asuma que el autor piensa que
las proporciones de verdad positiva y verdad negativa ambas son iguales a 85%.
Segundo, estas proporciones (de 85%) son observadas cuando la mamografía es usada
para hacer un diagnóstico diferencial de signos y síntomas conocidos. Tales lesiones son
generalmente más avanzadas que las lesiones que están siendo buscadas en un examen de
ocultación, la cual es la situación que el autor está dirigiendo. Estimaciones más razonables
para las proporciones de la verdad positiva y de la verdad negativa en programas de
ocultación son 60/ y 98%, respectivamente.
Tercero, aún usando el 85%, encontramos varias inexactitudes en el razonamiento.
Considere el segundo error. Existen dos modos en que una interpretación incorrecta puede
ocurrir: (a) la paciente puede tener cáncer y un examen negativo P(ca,neg); ó ella puede tener
un examen positivo pero no tener cáncer, P(no ca,pos) 2 De la teoría de la probabilidad
elemental nosotros sabemos que

P(ca, neg) = P(neg/ca)P(ca)

P(neg/ca) es el complemento de P(pos/ca) y por consiguiente iguales a .15 en este caso. No


conocemos P(ca) precisamente, pero para una población protegida estamos razonablemente
ciertos que es menor que .005. Que es, menos que 5 de cada 1,000 mujeres tienen un
2
P(A, B) es la probabilidad conjunta que ambos eventos A y B ocurran.
asintomático cáncer de seno pero detectable en el mamograma.
Por tanto,
211

P(ca,neg) ≤ (.15)(.005) = .00075

También,

P(no ca,pos) = P(pos/no ca)P(no ca) ≥ (.15)(.995) = .14925

La probabilidad total de una interpretación incorrecta [por ejemplo, P(ca,neg) + P(no


ca,pos.] es la suma de estos dos números, la cual es 15%, como el autor informa. Sin
embargo, esto no significa que “más probable, sus mamogramas simplemente fallarán en
demostrar la enfermedad”. P(ca,neg) = .00075 no es más probable que P(no ca,pos) = .14925.
Es alrededor de 200 veces menos probable.
Otro problema es que 85% de “exactitud“ no significa que “al 15 por ciento de las
mujeres les será dado una falsa sensación de seguridad si a ellas se les dice que sus exámenes
de rayos X son normales”. El autor parece estar tratando de estimar P(ca/neg). Ahora por la
fórmula de Bayes.

Insertar aquí la fórmula de la página 256 del texto original

Que es, si 10,000 mujeres asintomáticas son seleccionadas, y si usamos la mala


estimación de la exactitud del autor, 8,458 de ellas partirán con un examen negativo. El autor
piensa que alrededor de 1,269 de ellas tendrán una falsa sensación de seguridad. De hecho,
solo alrededor de 9 la tendrán. Este número ha sido sobreestimado por un factor de alrededor
de 150.

Tabla 2. Presencia de cáncer y resultados de rayos X en 1000 mujeres quienes tienen exámenes
físicos anormales.
Mujeres con Mujeres sin
Cáncer cáncer Total
_________________________________________________________________________________
Mujeres con rayos X
Positivos 74 110 184
Mujeres con rayos X
Negativos 6 810 816
Total 80 920 1,000
Nota: Una proporción positiva de .92 (P(pos/ca) = 0.92) implica que de 80 mujeres quienes tienen
cáncer, 74 tendrán rayos X positivo y 6 tendrán rayos X negativo. De todas las mujeres con rayos X
positivo, 74/184 tienen cáncer, ó P(ca/pos) = 74/184 = 40%.
Fuente: Los números son de Wolfe (1964).

Finalmente agregando la frase, “si ciertamente ya tienen cáncer” adicional confunde el


significado de la frase. La frase “una falsa sensación de seguridad”, “si [dado] que a ellas se
les dijo que sus rayos X eran normales”, y “si ellas ya tienen cáncer” traducido
simbólicamente dentro de P(ca/neg.ca). Esta probabilidad es 1, no .15.

La importancia de P(c/a). Además de la confusión de las dos exactitudes, muchos autores no


parecen entender que, para una prueba de exactitud retrospectiva constante, el significado
para los médicos de la prueba resulta de (la exactitud predictiva) depende del riesgo inicial de
cáncer en la paciente en la paciente sometida a la mamografía. Aún si se asumió que las
proporciones de verdad positiva y verdad negativa son constantes para todos los estudios, la
interpretación apropiada de los resultados de la prueba – la probabilidad de que una paciente
212

con un mamograma positivo (ó negativo) tenga cáncer – dependerá de la prevalencia del


cáncer en la población de la cual la paciente fue seleccionada, sobre la probabilidad previa a
la prueba de que una paciente tiene cáncer. Esto puede ser extremadamente importante
cuando uno compara el uso de la prueba en un diagnóstico clínico (donde las mujeres tienen
signos y síntomas de enfermedad del seno) con su uso en una investigación clínica para
mujeres asintomáticas.
La importancia de esto es mostrada con un ejemplo. Suponga que una práctica clínica es
para practicar mamograma a mujeres que tienen un examen físico anormal. La frecuencia de
cáncer en tales mujeres ha sido encontrada en un estudio ser aproximadamente 8% (Wolfe,
1964). En unas series de mamogramas en esta población, una proporción verdadera-positiva
de 92% y una proporción verdadera-negativa de 88% fue obtenida.(Wolfe, 1964).
Permitamos ahora que el médico se enfrente a una paciente quien siente que es representativa
de esta población (por ejemplo, hagamos que P(ca) = 8%. Suponga que él ordena un
mamograma y recibe un resultado del radiólogo. Su decisión de ordenar una biopsia estaría
basada en la nueva probabilidad de que la pacienta tenga cáncer. Esa probabilidad puede ser
calculada en 40% (ver Tabla 2). Podría un reporte negativo descartar el cáncer? La
probabilidad de que esta mujer, dado un reporte negativo, aún tenga cáncer es ligeramente
menor de 1%. La lógica para este estimado se muestra en la Tabla 2.
Ahora, suponga que el médico ordena la prueba para eliminar la existencia de cáncer en
una mujer que no tiene síntomas y un examen físico negativo. La prevalencia de la
mamografía para detección de cáncer en tales mujeres es alrededor de .10% (por ejemplo,
Shapiro, Strax & Venet, 1967). Para los propósitos de este ejemplo, hagamos que la exactitud
retrospectiva del radiólogo sea incambiable – que es, en esta población de pacientes
permitámosle de nuevo tener una proporción verdadera-positiva de 92% y una proporción
verdadera-negativa (para el diagnóstico de lesiones benignas) de 88%. 3 La literatura provee
datos solo sobre la exactitud retrospectiva de la prueba en mujeres que tienen cáncer y
enfermedades benignas. En un estudio alrededor del 60% de éstas mujeres no tenían ninguna
enfermedad del todo (Wolfe, 1965). Por lo tanto, en este caso,

P(ca/pos) = [P(pos/ca)P(ca)] / [P(pos/ca) P(ca) + P(pos/benigno)P(benigno) + P(pos/no


enfermedad)P(no enfermedad)]

P(benigno), P(no enfermedad) y P(pos/no enfermedad) no son discutidos explícitamente en la


literatura. Esto es instructivo y nos conduce a sospechar que su importancia en el análisis de
éstos problemas no es comprendida. Para este ejemplo, usaremos los datos presentados por
Wolfe (1965) y asumiremos que P(no enfermedad) es alrededor de 60% y P(benigno) es
alrededor de 40%. Nosotros también haremos una suposición favorable a la mamografía y
haremos que P(pos/no enfermedad) sea 0%.
Para continuar con este ejemplo, digamos que los reportes del radiólogo que el
mamograma en esta mujer asintomática es positivo. Dado el reporte positivo de la
mamografía, la probabilidad que la paciente tenga cáncer [P(ca/po)] es alrededor de 1 en 49,
ó alrededor de 2% (Tabla 3). En el ejemplo previo que involucró a mujeres con síntomas,
P(ca/pos) fue de 40%. Por tanto, dependiendo de quién está siendo examinada, puede haber
una diferencia de casi veinte veces en la probabilidad de que una mujer con un mamograma
positivo tenga cáncer.
3
Esta no es una buena suposición, puesto que la “exactitud” cambia como la población que está siendo
examinada cambia. Por ejemplo, la proporción verdadera-positiva es más baja cuando uno está usando la
prueba en una población asintomática porque los cánceres tienden a ser mucho más pequeños y más difíciles
de detectar. La suposición está hecha solo para demostrar la importancia del P(ca).
213

Tabla 3. Presencia de cáncer y resultados de rayos X en 1,000 mujeres que no tienen síntomas
Mujeres con Mujeres fon Mujeres sin
Cáncer lesiones benignas cáncer Total
Mujeres con
rayos X positivo 1 48 0 49
Mujeres con
rayos X negativo 0 352 599 951
Total 1 400 599 1,000
Nota: Una proporción verdadera-positiva de 0.92 implica que los rayos X detectarán cáncer en la
mujer que tiene la enfermedad. Una proporción verdadera-negativa de 0.88 para enfermedad benigna
implica que de 400 mujeres con enfermedad benigna, 352 tendrán rayos X negativo, mientras que en
48 los rayos X serán positivos. Por tanto, 49 mujeres tendrán rayos X positivo, pero solo una tiene
cáncer, ó P(ca/pos) = 1/49 = 2%.

Esto levanta una mayor interrogante sobre el razonamiento médico – cuando tratando de
evaluar los signos y síntomas de una paciente, cuánta información usaría un médico sobre la
frecuencia básica de las posibles enfermedades en la población en general? La profesión
parece estar confundida sobre este asunto. Por un lado, los médicos hacen declaraciones de
que la relativa frecuencia de una enfermedad no debería afectar el estimado de la
probabilidad de que una paciente en particular tiene la enfermedad. Esta noción aparece en
varias máximas, tal como, “La paciente es un caso de uno” y, “Las estadísticas son para
muertes de hombres”. En la discusión de problemas específicos, la idea es a veces expresada
sutilmente como en la declaración, “Las mujeres más jóvenes obviamente tienen un menor
número de malignidades las cuales, sin embargo, ejercerían muy poca influencia sobre el
caso individual” (Wolfe, 1967, p. 138). Puede también estar establecido explícitamente y
presentado como una regla a ser obedecida. Por ejemplo, la siguiente apareció en un libro de
texto sobre diagnóstico clínico: “Cuando una paciente consulta a su médico con una
enfermedad no diagnosticada, ni ella ni el doctor conoce si es rara hasta que el diagnóstico es
finalmente hecho. Los métodos estadísticos pueden solo ser aplicados a una población de
millares. La paciente si tiene una rara enfermedad ó no la tiene; la relativa incidencia de dos
enfermedades es completamente irrelevante al problema de efectuar el diagnóstico”
(DeGowin & DeGowin, 1969, p. 6)
Por otro lado, éstas declaraciones son a menudo inconsistentes con el comportamiento de
los médicos quienes tratan, sin embargo imperfectamente, de usar ésta información
diagnóstica. Atestigüe las siguientes máximas que son pasadas en las escuelas de medicina:
“Cuando usted oye golpes de cascos, piensa en caballos no en cebras”, “Las cosas comunes
ocurren más comúnmente”, “Siga la ley de Sutton: vaya donde está el dinero”, etc. Parece
que muchos médicos sienten el valor de la información en la probabilidad previa de una
enfermedad pero que las lecciones formales de la teoría de la probabilidad no está del todo
bien comprendida Sin una teoría formal, los médicos tienden a cometer las mismas clases de
errores en un razonamiento probabilístico que ha sido observado en otros contextos
(Kahneman & Tversky, 1973, 4; Lyon & Slovic, 1976).

Implicaciones: Mamogramas y biopsias

Estos problemas pueden tener importantes implicaciones prácticas. Por ejemplo, en los
ejemplos citados dos autores basaron sus conclusiones en un razonamiento probabilístico
incorrecto. Uno incorrectamente arguyó que una mujer con una masa en un seno que parece
benigna en el examen físico y benigna en los rayos X aún tiene un 20% de probabilidad de
tener cáncer y recomendó que a ella se practicara una biopsia. Otro autor basó una
recomendación contra investigar un grueso cálculo erróneo de la frecuencia con la cual una
214

mujer tendría un falso sentido de seguridad (por ejemplo, tener un cáncer equivocado por el
mamograma). Ambos autores pueden haber llegado a la misma conclusión con un
razonamiento correcto, pero ellos pueden no tenerlo.

El valor de la información diagnóstica. El valor de la mamografía en mujeres quienes tienen


síntomas y signos de cáncer de seno descansa en su habilidad de proveer información
diagnóstica que afectará la decisión de los clínicos de efectuar una biopsia. Más
precisamente, el resultado de la prueba cambiaría el estimado del clínico de la probabilidad
de que la paciente tiene cáncer. Como un autor lo puso:

La mamografía puede asistir al clínico en diferenciar entre lesiones benignas y malignas. . . .


Algunas lesiones, especialmente las pequeñas, pueden carecer de características que den al
clínico un índice de alta sospecha suficiente para justificar una biopsia. Es aquí que el . . .
mamograma puede proveer una evidencia objetiva adicional. Por tanto, en el caso de una
lesión indeterminada del seno, la mamografía puede ayudar al médico en decidir si ejecuta un
estudio por medio de una biopsia (Clark & Robbins, 1965, p. 125).

Para que cualquier prueba diagnóstica sea útil debe proveer información que pueda
potencialmente cambiar una decisión sobre cómo la paciente debe ser manejada – para exigir
una biopsia en algunas pacientes quienes de otra manera serían sometidas a una biopsia, y,
esperaríamos, obviar biopsias en algunas mujeres quienes de otro modo la recibirían. Esta
noción es desarrollada formalmente en la teoría de decisión estadística y ha sido usada para
analizar algunos problemas médicos en un ajuste de la investigación (por ejemplo, Lusted et
al., 1977).
Muchos médicos reconocen que el reporte de rayos X acarrea información útil que
ayudaría en el manejo de la paciente, pero precisamente cómo la información debería ser
usada ordinariamente no está establecido. Las explicaciones dadas por la mayoría de autores
contiene pocas direcciones específicas. “La mamografía no está designada para dictar
procedimientos de tratamiento pero puede proveer, en ciertos casos, justo ese poco de
información más precisa, de modo que indeseables consecuencias sean evitadas” (Egan,
1972, p. 392). “La mamografía es un valioso añadido para el cirujano en el tratamiento y
diagnóstico de lesiones de seno” (Lyons, 1975, p. 231). “La mamografía puede asistir en
clarificar confusos palpables descubrimientos” (Egan, 1969, p. 146). Ella “desempeña un
soporte ó papel auxiliar. . . .” (Block & Reynolds, 1974, p. 589). La naturaleza y grado del
soporte es usualmente dejado al juicio del clínico.

Mamogramas y biopsias: La práctica. Parece que el papel de la mamografía en tales casos es


solo parcialmente comprendido. Para entender esto, permítasenos examinar el impacto que
los investigadores clínicos predicen que la mamografía tendrá en la necesidad de practicar
una biopsia de senos enfermos. Mientras que las declaraciones citadas arriba implican que el
uso de rayos X debería ayudar a seleccionar pacientes para una biopsia, un igual número de
declaraciones sugieren que la mamografía no puede, ciertamente no podría, desempeñar esta
función. “Cualquier lesión palpable requiere verificación por corte y biopsia a pesar de los
descubrimientos de los rayos X (Lesnick, 1966, p. 2007). “Mientras que la mamografía es
usualmente definitiva no es un sustituto para una biopsia” (Egan, 1969, p. 148). “De ninguna
manera podría este procedimiento disminuir la importancia de una biopsia. A propósito, el
uso de rutina de la mamografía reafirmará la importancia de la biopsia, puesto que la
evidencia de los rayos X de una lesión maligna requiere de una biopsia para confirmación. . .
Ella de ninguna manera disminuye la importancia de la biopsia. . . “Una biopsia es a lo sumo
una necesidad para la confirmación de los descubrimientos de los rayos X como lo es para la
215

confirmación de los signos físicos” (Gerson-Cohen & Borden, 1964, pp. 2753, 2754). “Es
aparente que la mamografía no es un sustituto para la cirugía” (DeLuca, 1974, p. 318).
“Permítasenos establecer enfáticamente que la mamografía no es un sustituto para la biopsia”
(McClow & Williams, 1973, p. 618).
Una de las más precisas declaraciones políticas de cómo la mamografía debería ser usada
para ayudar a seleccionar pacientes para una biopsia apareció en los Archivos de Cirugía en
1966 (vol. 93, pp. 853-856). Un cuidadoso examen de las directrices revelan que solo la
mitad de las pruebas potenciales son usadas. El esquema para usar la mamografía “para
determinar el tratamiento ó disposición de cada paciente” involucra tres categorías de
pacientes:
Categoría A: “Las pacientes con ‘una masa’ ó ‘lesión dominante’ en el seno son
primariamente problemas quirúrgicos y ahí no debería haber retraso en obtener una biopsia.
La mamografía, en esta instancia, es estrictamente complementaria. . . . Ella puede descubrir
tumores ocultos” (p. 854).
Categoría B: “Las pacientes tienen síntomas atribuibles al busto pero no una masa
discreta ó ‘lesión dominante’. . . . En esta categoría, el cirujano y el clínico encontrarán el
mayor rendimiento de la mamografía porque aquí la modalidad es confirmatoria”. Aquí el
mamograma dará confirmación y ánimo, “si la impresión clínica es benigna. No lo disuadiría,
sin embargo, de una previa opinión para la biopsia” (p. 855).
Categoría C: Estas pacientes no tienen signos ó síntomas, no existen indicaciones
clínicas para una biopsia, y un mamograma puede solo incrementar el número de biopsias.
Por tanto, el autor ha esbozado un plan que nulifica el valor de la información
mamográfica al seleccionar las pacientes en quienes una biopsia puede ser evitada. Solo la
poca agregada información que implica una biopsia es usada. La información que podría
eliminar una biopsia es ignorada.

Mamogramas y biopsias: El potencial. Para apreciar cómo los problemas en el razonamiento


probabilístico pueden afectar la actual distribución del cuidado médico, permítasenos
examinar el papel que la mamografía podría jugar en la diagnosis diferencial y en la
selección de pacientes para una biopsia. Como se describió arriba, el propósito de la prueba
es para cambiar la estimación subjetiva del que toma la decisión de que una paciente tiene
cáncer. Si esa probabilidad es suficiente alta (como se determinó por el médico y la paciente),
la biopsia es recomendada. Llámese a esta probabilidad el umbral de la biopsia. 4 Ahora
considere el impacto de la prueba en el manejo de dos grupos de pacientes.
El primer grupo consiste de aquellos pacientes quienes, sobre la base de una historia y un
examen físico, se piensa por los clínicos tener clínicamente un obvio cáncer. Usando los
datos publicados por Friedman et al. (1966), hagamos que la probabilidad previa (la
frecuencia) de cáncer en este grupo sea 90%. Si un mamograma fuera practicado a tal
paciente, un resultado positivo incrementaría la probabilidad de cáncer [P(ca/pos)] a 95%. Un
mamograma negativo dejaría aún a la paciente con un 71% de probabilidad de tener cáncer.
Esta alta probabilidad es la motivación de tales declaraciones como: “Si la impresión
subjetiva de los clínicos da suficiente razón para sospechar de cáncer, los clínicos estarán
obligados a practicar una biopsia” (Clark et al., 1965, p. 133). Un 71% de probabilidad de
malignidad es todavía suficiente alta que cualquiera querría ser sometido a una biopsia.
4
Cualquiera necesitando estar convencido de la existencia de un umbral de biopsia puede razonar como sigue.
Podemos estar de acuerdo en que ninguno está dispuesto a que le hagan una biopsia si la probabilidad de
cáncer es de 1 en 30 trillones? Y podemos estar de acuerdo en que virtualmente cada uno quiere confirmar el
diagnóstico y ser tratado si la probabilidad es de 98 en 100? Si es así, entonces en alguna parte entre 1 en 30
trillones y 98 en 100 todos tienen un umbral de biopsia. Por supuesto se rehusa a que le practiquen una
biopsia y tratamiento aún cuando la probabilidad de cáncer es cierta, entonces ella no tiene un umbral.
216

Ahora considere un segundo grupo de pacientes quienes tienen una dominante masa que
no es obviamente un carcinoma. En un estudio de probabilidad de que tal masa es maligna
fue 14% (Friedman et al., 1966). En la ausencia de mayor información, la política clínica en
tales casos es practicar una biopsia a la lesión: “Si una dominante masa se desarrolla, ella
deberá ser removida y examinada microscopicamente “ (del Regato, 1970, p. 861). Usando
esto como una guía, permítasenos suponer que el umbral de la biopsia de la paciente es 10%.
Lo que es, para el mejor conocimiento de los médicos, la probabilidad que su paciente tiene
cáncer está arriba del 10% entonces la paciente y el médico están de acuerdo que una biopsia
debe ser practicada. 5 Usando un umbral de biopsia de 10%, podemos determinar el impacto
de un mamograma en la atención de 1,000 de tales pacientes. Sin la prueba, todas las
pacientes tendrían que someterse a una biopsia, 860 de ellas inproductivamente. El destino
aproximado de las 1,000 pacientes originales con una lesión cuando la mamografía es usada
es presentado en la Figura 1. 6
5
El umbral de la biopsia es un muy fascinante e importante número. Cambiándolo ejerce gran influencia sobre
el número de mujeres a las que se les practicó una biopsia, la frecuencia de biopsias no productivas, el costo
de atender a una paciente, así como la prognosis de la paciente. Debido al riesgo de aversión y al hecho de
que ellos están tomando la decisión por alguien más, los médicos generalmente fijan el umbral de la biopsia
muy bajo. La declaración “si existe cualquier probabilidad de que la lesión es maligna, una biopsia debería
ser practicada” es típica. “si el médico no está completamente satisfecho de que la lesión es benigna, debe ser
practicada la biopsia sin demora (Allen, 1965, p. 640). Existe evidencia de que las mujeres por si mismas
fijan generalmente el umbral más alto del que lo hacen los médicos – aunque existe una amplia variación.
Por ejemplo, podemos examinar los datos de un gran proceso clínico en el cual la mamografía y el examen
físico del seno fueron utilizados para investigar mujeres asintomáticas por cáncer de seno (Shapiro, Strax &
Venet, 1971). Dependiendo de cómo la lesión del seno fue detectada (por ejemplo, por la cual la prueba ó
combinaciones de pruebas), la probabilidad de que la enfermedad del seno de una mujer fue cáncer varió de
15% a 54%. Sobre la base de un examen físico positivo, los médicos recomendaron que 545 mujeres quienes
tenían mamogramas negativos fueran sometidas a una biopsia. A pesar del hecho de que la frecuencia de
cáncer en este grupo fue 15%, 31% de las mujeres declinaron la biopsia recomendada. En mujeres quienes
tenían resultados positivos en ambas pruebas, la frecuencia de cáncer fue 54% y solo 5% de estas mujeres
prefirieron no someterse a una biopsia en el tiempo recomendado. Por lo tanto, de esta cruda información
aparece que el 31% de las mujeres tuvieron un umbral de biopsia mayor del 15%, 29% de las mujeres
tuvieron un umbral de biopsia mayor de 20%, y en 5% de las mujeres el umbral excedió de 54%.
6
Para esbozar el impacto de la mamografía en éstas pacientes (y las pacientes con otros signos y síntomas) se
necesita mucha información que no está directamente disponible en la literatura. Es afortunado que en un
estudio (Friedman et al., 1966) los datos sobre la frecuencia de cáncer y la exactitud retrospectiva de la
mamografía son presentadas separadamente para estos grupos de pacientes – aquellas con un obvio
carcinoma, aquellas con una masa dominante, y pacientes con otros signos y/ó síntomas de enfermedad del
seno. Los datos publicados están incompletos, sin embargo, y los datos sobre la frecuencia de un diagnóstico
incierto de rayos X en lesiones benignas y malignas no están incluidas. Los datos disponibles en el estudio de
Friedman fueron usados, y para este ejemplo las siguientes suposiciones fueron hechas: (1) lesiones sin
biopsia fueron de hecho benignas, (2) lesiones sin biopsia fueron codificadas negativas, (3) la mitad de las
lesiones benignas que no fueron codificadas negativas fueron codificadas positivas (la otra mitad siendo
codificada incierta), y (4) la mitad de las lesiones malignas que no fueron codificadas positivas fueron
codificadas negativas. Las primeras dos suposiciones son la mayor interpretación optimista de la exactitud de
la mamografía. Las tercera y cuarta suposiciones son muy importantes y como la falsa- (ó falsa-negativa) la
proporción tiende a cero, el poder de un reporte de rayos X positivo (negativo) de la regla del cáncer adentro
(afuera) se incrementa. Así mismo, como la proporción falsa-positiva ó falsa-negativa se incrementa, la
prueba pierde su poder predictivo. La interpretación de los datos de Friedman es hecha aún más difícil por su
presentación en términos de bustos más que de pacientes. A pesar de eso, existe mucha información en este
reporte y es razonable usarlo en este ejemplo siempre que el lector entienda que esto es una ilustración, no un
análisis formal. Un análisis formal de estas interrogantes requeriría mejores datos. Las figuras para la
exactitud usada en el texto para la evaluación de las pacientes en el grupo 2 son como sigue: P(pos/ca) = .52,
P(incierto/ca) = .24, P(pos/benigno) = .075, y P(neg/benigno) = .85.
Pacientes con mamogramas positivos tienen una probabilidad de 53% de tener cáncer y,
puesto que hemos asumido que ellas tienen un umbral de biopsia de 10% ellas deberían ser
217

sometidas a una biopsia. Debido a que la probabilidad es 34% de que una paciente con
mamograma incierto tiene cáncer, éstas pacientes deberían también ser sometidas a una
biopsia. Pacientes con un mamograma negativo tienen un 4% de probabilidad de tener
cáncer, y, puesto que este está por debajo de su asumido umbral de biopsia (10%), ellas no
desearían ser sometidas a una biopsia pero preferían ser seguidas muy de cerca. El número
total de biopsias inmediatas ha sido reducido de 1,000 a 240. Al menos 30 biopsias más
tendrán que ser hechas eventualmente porque 30 de las 760 pacientes restantes tienen cáncer.
De esta manera, los beneficios esperados de tener un mamograma (tal como una
reducción de la probabilidad de una innecesaria biopsia de aproximadamente 86% a un poco
sobre 13%) pueden ser comparadas con los costos (por ejemplo, un riesgo de radiación y
alrededor de $ 75.00), y el leve decremento en la esperada sobrevivencia (existe un 3% de
probabilidad de que el diagnóstico de una lesión maligna será pospuesto un mes ó
aproximadamente. Si la noción del umbral de una biopsia y alguna teoría de probabilidad
fuera usada, muchas pacientes en este grupo quienes tenían mamogramas negativos estarían
dispensadas de una biopsia. En la ausencia de este tipo de análisis “el consenso quirúrgico
aquí es que todas las pacientes [en este grupo] tendrían una biopsia, sin importar los
descubrimientos mamográficos” (Friedman et al., 1966, p. 889).

Insertar aquí la Figura 1 de la página 264 del texto original

Figura 1. Probabilidad de cáncer en mujeres con lesiones dominantes

La importancia del umbral de la biopsia en este ejemplo debería ser enfatizado. Si el


médico y su paciente habían fijado el umbral en 1% - que es, si la paciente sintió que una
probabilidad de 1 en 100 de tener cáncer fue suficiente para garantizar una biopsia – entonces
un reporte negativo del mamograma no habría eliminado la necesidad de una biopsia (un 4%
de probabilidad de cáncer excedería este umbral). El mamograma puede haber dado al clínico
alguna información pero esta información no habría contribuido a la decisión para la biopsia.
El uso de la mamografía en este caso habría de ser justificado en otros campos.

La práctica revisitada. Este tipo de análisis ayuda a hacer claro la potencial utilidad de la
mamografía en el diagnóstico diferencial de varias lesiones. El también nos ayuda a evaluar
las siguientes declaraciones políticas:
1. “La mamografía agrega poco para el manejo del clínicamente [por ejemplo,
físicamente] palpable nódulo del seno que, sobre la base de sus propias características,
requiere de una biopsia” (de los Archivos de Cirugía, 1974, vol. 108, p. 589). En el estudio
de las pacientes con una masa dominante, la biopsia fue requerida solo en los campos
clínicos. El uso de la mamografía divide al grupo dentro de sub-grupos con frecuencias de
cáncer que van del 53% al 4%. La biopsia puede ser evitada en el último grupo y el número
de biopsias podría ser reducido 73% (de 1,000 por 1,000 a 270 por 1,000).
2. “Para propósitos clínicos la mamografía debe proveer una exactitud de
aproximadamente el 100% del nivel antes que ella sola pueda dirigir directa” (de los
Archivos de Cirugía, 1974, vol. 108, p. 589). En una población como el segundo grupo
discutió arriba, podría ser muy racional para dejar a la mamografía seleccionar pacientes para
biopsia. Recuerde que la proporción de la verdad-positiva usada en ese ejemplo fue 52% y
que una prueba más acuciosa sería aún más valiosa.
3. “La mamografía no es un sustituto de la biopsia” (de Oncología, 1969, vol. 23, p. 148).
El propósito de ambas mamografía y biopsia es para proveer información sobre el estado de
la paciente. Algunas pacientes, en la ausencia de mamografía, requieren biopsia. En alguna
218

de estas pacientes un mamograma negativo obviaría la biopsia, y en estos casos el


mamograma reemplazaría la biopsia.
4. “Cada decisión para una biopsia debería ser precedida por un mamograma” (de
Oncología, 1969, vol. 23, p. 146). Considere clínicamente el carcinoma obvio. La
probabilidad de cáncer estará arriba de casi cualquier umbral de biopsia no importando cual
sea el resultado del mamograma. La justificación primaria para ésta política en tal caso debe
descansar en la probabilidad de que el clínicamente obvio es benigno (de otra manera la
paciente habría de tener una mastectomía [extirpación del seno] y que existe una lesión
maligna, escondida, no palpable. La probabilidad de este evento compuesto es el producto de
las probabilidades de los dos eventos, la cual es extremadamente pequeña (en el orden de 1
de 5,000).
5. Para diferir una biopsia de una lesión clínicamente benigna del seno la cual ha sido
llamada benigna en mamografía es dar un paso hacia atrás en la erradicación del carcinoma
del seno” (de Cirugía, Ginecología y Obstetricia, 1972, vol. 134, p. 98). Haga que
“clínicamente benigna” sea representada por un P(ca) de 5%. Después de un mamograma
negativo, la probabilidad que tal paciente tenga cáncer es aproximadamente 1%. De 100
biopsias, 99 serían improductivas. Es el aplazamiento de la biopsia aquí un paso hacia atrás ó
hacia delante? El otro punto es que si la política fuera seguida, todas las lesiones de
“clínicamente benignas” a través de un carcinoma obvio requeriría una biopsia no
importando cuál fue el resultado de la prueba. Esto parece contradecir la declaración del
autor que “cuando es usada en su apropiada perspectiva, la mamografía es una excelente
adición para el médico en el manejo del carcinoma del seno” (de Cirugía, Ginecología y
Obstetricia, 1972, vol. 134, p. 98).
6. “La mamografía no debe ser nunca usada en lugar de una biopsia cuando se está
tratando con una’lesión dominante’ del seno y no debería nunca cambiar la aproximación
quirúrgica en enfermedades del seno, por ejemplo, una ‘masa es una masa’ y debe ser
practicada una biopsia ya sea por incisión ó aspiración” (de Archivos de Cirugía, 1966, vol.
93, p. 854). Las pacientes con lesiones dominantes y umbral de biopsia arriba de 5% no
estarían de acuerdo con esta declaración.
7. “La falacia viene de apoyarse en [la mamografía] en casos dudosos. Es esencial
después de examinar y palpar el seno decidir ya sea si usted haría ó no haría una biopsia si
los rayos X no estuvieran disponibles. Si usted haría una biopsia, entonces hágala. Si usted
está seguro que no existe indicación para cirugía ó examen físico, entonces ordene un
mamograma. Tan pronto como uno se dice a sí mismo, y particularmente si él le dice a la
paciente, ‘Yo no estoy muy seguro sobre esto – hagamos un examen de rayos X’, uno
inconscientemente se ha obligado a sí mismo a confiar en la negatividad del mamograma,
cuando uno debería apoyarse solo en la positividad. Esto es una trampa psicológica dentro de
la cual todos tendemos a caer y es mucho más seria que un cierto número de diagnósticos
falso-positivo alcanzados con la mamografía” (Rhoads, 1969, p. 1182). Una simple biopsia
no será evitada por esta política. Esto es una vergüenza porque, como el autor de la
declaración de arriba lo puso el mismo, “existen pocas áreas en las cuales tanta cirugía se
necesita la cual podría ser evitada por mejores métodos de diagnóstico del seno”.
Estamos ahora en una posición de apreciar la siguiente historia que apareció en el San
Francisco Chronicle (Kushner, 1976). Una mujer reportera había descubierto una masa en su
seno y describió una consulta con su médico.

“Me gustaría que usted se hiciera un xeromamograma. Es un nuevo modo de hacer mamogramas
– fotografías de los senos”.
“Es exacto?”
219

El se encogió de hombros, “Probablemente casi tan exacto como cualquier fotografía puede ser.
Usted sabe”, él previno, “aún si la lectura es negativa – lo cual significa que la masa no es maligna –
la única manera de estar ciertos es cortar la masa y mirarla bajo el microscopio”.
La mujer entonces discutió el problema con su esposo.
“Qué dijo el doctor?”
“El quiere hacer un xeromamograma. Luego, cualquiera que sea el resultado es el masa la que
debe ser cortada”.
“Por tanto porqué la toma de rayos X en el primer lugar?”
“Es algo para continuar. Yo adivino. Y nuestro doctor dice que es correcto sobre el 85% del
tiempo. . . .Por tanto, primero programamos una cita para tener un termograma. Si ese es ya sea
positivo ó negativo, y si el concuerda con las fotografías Xerox del mamograma, las estadísticas dicen
que el diagnóstico sería 95% confiable”.

En resumen, parecería razonable preguntar que si el propósito de la mamografía es


ayudar a los médicos a distinguir una enfermedad del seno benigna de una maligna, de ese
modo reservando a algunas pacientes un más extenso y traumático procedimiento tal como
una biopsia, luego nosotros debemos dejar que la prueba ejecute esa función. Por otro lado el
médico debería siempre adherirse a una decisión de biopsia previa y ser inamovible por el
resultado del mamograma, entonces nosotros no debeos pretender que el propósito de la
prueba es ayudar a distinguir una enfermedad benigna de una maligna, puesto que la
distinción será hecha definitivamente de una biopsia. Finalmente, si el propósito de la prueba
es buscar el cáncer escondido y clínicamente insospechado en una diferente área del seno
(lejos de una masa palpable que necesita una biopsia de todas formas), debemos reconocer
explícitamente que las probabilidades de tal evento son extremadamente pequeñas y que el
uso de la prueba vale para una investigación.
Mi propósito no es argüir por una política específica de mamografía ó biopsia – para
hacerlo requeriría mejores datos y una mejor evaluación de los valores de la paciente. Es para
sugerir que no hemos desarrollado una manera formal de razonamiento probabilístico sobre
este tipo de problema, que el juicio clínico puede ser erróneo, y que las corrientes políticas
clínicas pueden ser inconsistentes ó incorrectas.

Discusión

Estos ejemplos han sido presentados para ilustrar la complejidad de la toma de decisión
médica y para demostrar cómo algunos médicos manejan un aspecto de esta complejidad – la
manipulación de las probabilidades. El caso que hemos estudiado es uno relativamente
simple, el uso de una simple prueba diagnóstica para escoger lesiones dentro de dos grupos,
benigno y maligno. Los datos base para este problema son relativamente buenos. La
exactitud y valor diagnóstico de la prueba ha sido estudiada y analizada en muchas
instituciones por muchos años. Como un investigador apuntó, “Yo no conozco de
procedimientos médicos que hayan sido probados y reensayados que la mamografía” (Egan,
1971, p. 1555).
Las herramientas probabilísticas discutidas en este capítulo han estado disponibles por
centurias. En las últimas dos décadas ellas han sido aplicadas crecientemente a problemas
médicos (por ejemplo, Lusted, 1968), y el uso de métodos sistemáticos para manejar la
incertidumbre ha estado creciendo en la currícula de las escuelas de medicina, artículos de
revistas y programas de educación de postgrado. Actualmente, sin embargo, la aplicación de
éstas técnicas ha sido esporádica y aún no se ha filtrado para afectar el pensamiento de la
mayoría de practicantes. Como se ilustró en el estudio de este caso, los problemas médicos
son complejos, y el poder del razonamiento probabilistico formal provee grandes
oportunidades para mejorar la calidad y efectividad del cuidado médico.
220

19. Aprendiendo de la experiencia y reglas sub-óptimas


en la toma de decisión

Hillel J. Einhorn

El trabajo corriente en la investigación de toma de decisión ha claramente cambiado de


representar procesos de escogencia vía modelos normativos (y modificaciones de ellos) para
un énfasis en los procesos heurísticos desarrollados dentro del marco general de la psicología
cognitiva y teorías de procesos de información (Payne, 1980; Russo, 1977; Simon, 1978;
Slovic, Fischoff & Lichtenestein, 1977; Tverky & Kahneman, 1974, 1, 1980). El cambio en
el énfasis en cuestiones sobre cuán bien la gente se comporta a cómo ellos se comportan es
ciertamente importante (por ejemplo, Hogarth, 1975). Sin embargo, la utilidad de estudiar
ambas cuestiones juntas es en ninguna parte más evidente que en el estudio de las reglas y
estrategias de la heurística. La razón para esto es que la comparación de la heurística y reglas
normativas le permite a uno examinar las discrepancias entre el actual y el óptimo
comportamiento, de los cuales entonces surgen cuestiones en relación a por qué tales
discrepancias existen. En este estudio yo me he focalizado en cómo uno aprende ambos tipos
de reglas de la experiencia. La relación con aprender de la experiencia hace que surja un
número de asuntos que no han sido adecuadamente dirigidos; por ejemplo, Bajo qué
condiciones son aprendidas las heurísticas? Cómo son ellas probadas y mantenidas a la luz de
la experiencia? Bajo qué condiciones fallamos en aprender sobre los prejuicios y
equivocaciones que pueden resultar de su uso?
La importancia de aprender para la comprensión heurística y escogencia del
comportamiento puede ser vista considerando los siguiente:
1. La habilidad de predecir cuando una regla particular será empleada es corrientemente
inadecuada (Wallstein, 1980). Sin embargo, la inquietud por cómo y bajo qué condiciones
una regla es aprendida incrementaría la habilidad de uno para predecir cuando es probable ser
usada. Por ejemplo, si una regla es aprendida en situaciones donde existe poco tiempo para
hacer una escogencia, la predicción del uso de tal regla es estimulada conociendo la presión
del tiempo involucrado en la tarea.
2. Una concomitante de (1) es que debería ser posible para influenciar cómo la gente
juzga y decide designando situaciones en las cuales las tareas incorporan ó imitan las
condiciones iniciales del aprendizaje. Las implicaciones de esto para ambos ayudar y
manipular a la gente son enormes (Fischhoff, Slovic & Lichtenstein, 1978, 1980).
3. La consideración del aprendizaje enfoca la atención en las variables del medio

Esta es una versión abreviada de un trabajo aparecido en T. S. Wallstein (Ed.), Procesos Cognitivos en la
Escogencia y Decisión del Comportamiento, Hillsdale, N. J.: Lawrence Erlbaum Association, Inc. 1980.
Reimpreso con permiso. Esta investigación fue apoyada por una concesión del Illinois Deaprtment of Mental
Health and Developmental Disabilities, Research and Development No. 740-02. Yo le agradecería a Robin
Hogarth por sus comentarios sobre una temprana versión de este trabajo.
221

ambiente y la estructura de la tarea. Por consiguiente, variables tales como cantidad de


refuerzo. Programaciones de refuerzo, número de pruebas (= cantidad de experiencia), etc.,
deberían ser considerados en el entendimiento del juicio y decisión del comportamiento (cf.
Estes, 1976). Aunque la importancia dela tarea para el entendimiento del comportamiento ha
estado continuamente presionado (Brunswick, 1943; Castellan, 1977; Cronbach, 1975;
Dawes, 1975b; W. Edwards, 1971; Einhorn & Hogarth, 1978; Simon & Newell, 1971), los
psicólogos parecen inclinados a lo que Ross (1977) llama el error de la atribución
fundamental (sopesando factores del medio ambiente en atribuir causas) como algo más.
4. Una mayor variable en el entendimiento de las heurísticas es el resultado del
reaprovechamiento de la información. Desde que el resultado del reaprovechamiento de la
información es la principal fuente para evaluar la calidad de nuestra decisión/reglas de juicio,
el conocimiento de cómo las variables de tarea ambas afectan los resultados e influencian la
manera como los resultados son codificados y almacenados en la memoria llegan a ser
críticos en explicar cómo las heurísticas son aprendidas y usadas.
5. El área del aprendizaje es el punto focal para considerar los méritos relativos de la
explicaciones psicológicas versus las económicas de la escogencia del comportamiento.
Algunas economistas han argüido que aunque uno no actúe “racionalmente” todo el tiempo,
uno aprenderá la regla óptima a través de la interacción con el medio ambiente. Vagas
aseveraciones sobre el equilibrio, eficiencia, y conceptos evolutivos son avanzados para
soportar este argumento. Por consiguiente, el estudio de cómo (y cuán bien) la gente aprende
de la experiencia es importante en arrojar luz en los méritos relativos de las teorías
psicológicas y económicas de la escogencia.

Aprendiendo de la experiencia: Cómo?

Es obvio que la toma de decisión es una acción orientada; uno tiene que escoger qué acción
tomar en orden de satisfacer las necesidades y deseos básicos. Por consiguiente, es
importante para cualquier organismo aprender el grado al cual las acciones conducirán
deseables ó indeseables resultados. Esto significa que una gran cantidad del aprendizaje de la
experiencia debe involucrar las cadenas del aprendizaje de acción-resultado. Más aún, puesto
que las acciones y resultados son contiguos, la gente está inclinada a ver las cadenas entre
ellos como representando relaciones de causa-efecto (Michote, 1963). Por consiguiente, la
fuerte tendencia a ver relaciones causales pueden ser vistas como un crecimiento más de la
necesidad de tomar acción para satisfacer las necesidades básicas. Más aún, como fue
señalado por Kahneman & Tversky (1979b), el aprendizaje de las relaciones causales y la
organización de eventos dentro de “esquemas” causales permiten a la gente adquirir una
interpretación coherente de su experiencia. Finalmente, el aprendizaje de las cadenas de
acción-resultado es importante para comprender cómo la gente aprende sus propios gustos y
utilidades. Por ejemplo, considere a un niño que escoge un vegetal particular para comer,
experimenta un sabor no placentero, y por consiguiente aprende a asociar una utilidad
negativa con ese alimento. Note que es típicamente por escoger que las consecuencias
pueden ser experimentadas y la utilidad aprendida. Por consiguiente, el aprendizaje de las
cadenas de acción-resultado y el aprendizaje de la utilidad están estrechamente atadas.
Aunque aprendemos de la experiencia tomando acción, cómo uno aprende inicialmente
cuál alternativa escoger? Indudablemente, mucho del aprendizaje inicial ocurre por prueba y
error; que es, la gente fortuitamente escoge una opción y observa el resultado (cf. Campbell,
1960). El proceso por el cual el aprendizaje por prueba y error da paso al desarrollo de
estrategias ó reglas no es bien conocido (cf. Siegler, 1979). Sin embargo, uno puede
especular que ambos refuerzos de prueba y error del aprendizaje y generalización (ambos
estímulo y respuesta) juegan un importante papel (Sataddon & Simmelhag, 1971). En
222

cualquier evento, las reglas que desarrollamos parecen directamente atadas al aprendizaje que
los resultados seguirán de acciones particulares. Como se describió arriba, el aprendizaje de
la experiencia es básicamente inductivo en naturaleza, que significa, que uno experimenta
instancias ó casos específicos y heurísticas son desarrolladas para proveer alguna manera
general de tratar con ellas. La naturaleza inductiva del aprendizaje de la experiencia tiene
varias implicaciones relacionadas con las heurísticas:
1. Especificación de las reglas. Si el aprendizaje ocurre inductivamente vía casos
específicos, entonces las reglas de heurística deberían ser extremadamente del contexto.
Mucha evidencia sugiere ahora que esto es ciertamente el caso (Grether & Plott, 1979;
Lichtenstein & Slovic, 1971; Simon & Hayes, 1976; Tversky & Kahneman, 1980). La
manera en la cual un problema es trabajado ó mostrado ó una respuesta particular es
preguntada a todos parece hacer una importante diferencia en la manera que la información
es procesada y las respuestas generadas. Un dramático ejemplo de esta especificación puede
ser visto en el trabajo de Simon y Hayes (1976) sobre “problemas isomorfos”. Ellos han
mostrado que diferentes superficies de palabreos de problemas idénticos estructuralmente
(por ejemplo, problemas que pueden ser resueltos usando principios idénticos) grandemente
cambia cómo la gente representa el problema en la memoria y consecuentemente resolverlo.
Una importante implicación de este resultado es que en orden de hacer modelos heurísticos
más predictivos, uno debe luchar con la tarea como representada y no necesariamente con la
estructura de la tarea como es vista por un experimentador. Un ejemplo particularmente
oportuno de la importancia de este fenómeno en predecir el comportamiento es
proporcionado observando que el comportamiento depende de si un recorte de impuesto está
representado como una ganancia ó una pérdida más pequeña (Kahneman & Tversky, 1979b).
2. Generalidad de las reglas. Si las heurísticas son reglas aprendidas a través de la
inducción, es necesario agrupar tareas por similitud ó más habría tantas reglas como
situaciones. Puesto que esta ultima posibilidad es inaceptable, las heurísticas deben tener
alguna generalidad sobre las tareas. Sin embargo, esta conclusión contradice lo que se ha
dicho sobre la dependencia del contexto y la especificación de reglas. Esta paradoja puede ser
resuelta si uno considera el rango de las tareas a las cuales una regla puede ser aplicada. Por
ejemplo, considere la regla “Nunca ordene pescado en un restaurante de carne”. Mientras que
tal regla es general con respecto a un cierto tipo de restaurante, es ciertamente más específica
que la regla “Juzgue la probabilidad con la cual el evento B viene del proceso A por sus
grados de similitud” (Tversky & Kahneman, 1974, 1). Puede ser que la heurísticas como La
última heurística está claramente a mucho más alto nivel de generalidad. De hecho, puede ser
que las heurísticas como la representatividad, disponibilidad, afianzamiento y ajuste
son”metaheurísticas”, que significa, que ellas son reglas de cómo generar reglas. Por
consiguiente, cuando se es confrontado por problemas que uno no ha encontrado antes (como
juzgar probabilidades de eventos), ó problemas cuya especificación lo hace parecer novel,
metaheurístico dirige la manera en la cual reglas específicas pueden ser formadas para
resolver el problema. La idea de una metaheurística permite a uno retener la generalidad que
cualquier regla necesariamente implica, aún al mismo tiempo facilita para los importantes
efectos del contexto, palabreo, modo de respuesta, etc. En orden para ilustrar , considere el
estudio de Slovic, Fischhoff y Lichtenstein (1976; vea también el Capítulo 33) en el cual la
gente fue preguntada requerida a juzgar las relativas probabilidades de la muerte por causas
inusuales. Por ejemplo, quién tiene una más alta probabilidad: ser muerto por un rayo ó morir
de enfisema? Cuando fueron confrontados con tal interrogante, existen muchas maneras de
intentar una respuesta. Una regla que podría ser usada sería: “Pienso en toda la gente que yo
conozco que ha muerto de las dos causas y escojo el evento que causó más muertes”. En i
propio caso, yo escogería el enfisema (el cual tiene una probabilidad más alta, aunque la
mayoría de la gente escoja ser muerte por un rayo). Sin embargo, yo podría tener como
223

fácilmente desarrollada una regla que podría conducir a la respuesta opuesta; por ejemplo,
“Pienso en todos los casos que fueron muertos por un rayo y de la muerte por enfisema sobre
lo que yo siempre he oído (periódicos, televisión, etc.)”. Si esta fuera mi regla. Yo escogería
ser muerto por un rayo como siendo más probable. Note que en ambos casos yo he usado una
disponibilidad heurística. Claramente, el camino en el cual una interrogante es expresada
podría inducir reglas específicas que conducen a diferentes resultados, aún estas reglas
específicas podrían ser clasificadas bajo un simple, más general estrategia ó metaheurística
(también ver, Einhorn, Kleinmuntz & Kleinmutz, 1979).
3. Fortaleza de las heurísticas. Si la heurísticas son aprendidas inductivamente, entonces
el aprendizaje ocurre sobre muchas pruebas con muchos refuerzos. Como será discutido,
debido a que la manera de proceder ocurre y porque los métodos que usamos para probar las
reglas vía la experiencia, refuerzos positivos pueden ocurrir aún por reglas incorrectas
(Wason, 1960). Más aún, en adición al gran número de refuerzos que experimentamos, el
tamaño ó intensidad del refuerzo puede ser grande. Por ejemplo, ganando una considerable
cantidad de dinero siguiendo el uso de alguna regla para escoger acciones debería tener un
efecto de refuerzo considerable. Por consiguiente, a diferencia de los estudios de laboratorio
del aprendizaje humano, donde las consideraciones éticas previenen grandes refuerzos
positivos y negativos, nuestra propia experiencia no plantea tales restricciones.

Aprendiendo de la experiencia: Cuán bien?

La interrogante de cuán bien aprendemos de la experiencia enfoca la atención sobre comparar


las reglas heurísticas con las reglas óptimas. Por consiguiente, debe ser preguntado cómo las
últimas son aprendidas y que las implicaciones son por aplicarlas en nuestra propia
experiencia? Las reglas óptimas, tal como el teorema de Bayes, organización, etc., son
aprendidas deductivamente. De hecho, mucho de lo que puede ser llamado aprendizaje
formal es de un carácter deductivo, que significa, que a nosotros se nos enseñan leyes
científicas, principios lógicos, reglas matemáticas y estadísticas, etc. Tales reglas son por su
misma naturaleza abstracta y de contexto independiente. Además, cuando el contexto puede
influenciar la forma de una regla, a uno frecuentemente se le dice que la regla sostiene “otras
cosas que son iguales”. Por supuesto, en nuestra propia experiencia otras cosas son raramente
iguales, lo cual hace que el aprendizaje de las reglas óptimas vía la inducción sean tan
difíciles. (Los descubridores ó inventores de las reglas óptimas se sobrepusieron a éstas
dificultades; sin embargo, esto los distingue del resto de nosotros).
La naturaleza abstracta de las reglas deductivas tiene importantes implicaciones
relacionadas con la dificultad que la gente tiene de aplicar métodos óptimos en situaciones
específicas. Esta dificultad se centra alrededor de la habilidad para discernir la estructura de
las tareas que están fijadas en una rica variedad de detalle. Por lo tanto, cuando uno se encara
con un problema específico que está rico en detalle y en el cual los detalles pueden ser
irrelevantes ó redundantes, la atención de uno a específicos es proclive a distraer la atención
de la estructura general del problema. De hecho, la misma condición de abstractas de las
reglas óptimas aprendidas deductivamente pueden prevenirlos de ser recuperados de la
memoria (cf. Nisbett et al., 1976, chap ref. 7). Reglas abstractas, por lo tanto, no pueden estar
muy “disponibles” en casos específicos. Sin embargo, pide la interrogante puesto que es
importante conocer por qué estas reglas no están disponibles.
Considere que las combinaciones acción-resultado son probables de ser organizadas y
almacenadas en la memoria. En particular, considere si tal información es más probable de
ser organizada y almacenada por el contenido ó tarea de la estructura. Parecería más fácil y
más “natural” organizar las combinaciones acción-resultado por el tema del asunto más que
por la estructura; por ejemplo, las experiencias con escuelas, padres, miembros del sexo
224

opuesto, etc, más que los problemas Bayesianos, situaciones de selección, problemas de
optimización, etc. El hecho que el contenido pueda diferir mientras la estructura permanece
la misma es muy difícil de ver (Einhorn et al., 1979; Kahneman y Tversky, 1979b; Simon &
Hayes, 1976). Por consiguiente, yo lo pienso improbable que la mayoría de la gente organice
sus experiencias por la estructura de la tarea. Esto no es decir que uno no podría ser
entrenado para hacerlo. De hecho, mucho del entrenamiento profesional es exactamente este:
por ejemplo, uno es enseñado a reconocer problemas como pertenecientes a una clase de
problemas teniendo una estructura dada y (algunas veces) de solución conocida. Las reglas
óptimas pueden por tanto estar “disponibles” a través de un extensivo entrenamiento. Por
supuesto, existe el peligro de que tales reglas estén muy fácilmente disponibles; que es, que
los problemas son forzados dentro de una estructura que no es apropiada porque una solución
dentro de esa estructura existe. Es un truismo que cuando se es presentado con un problema,
los profesionales ven el problema dentro de las estructuras que ellos han sido entrenados para
ver. Por consiguiente, aunque el entrenamiento profesional involucra un asunto de estructura,
tal entrenamiento es generalmente dentro de un estrechamente contenido de área.
Posterior evidencia ilustrando la necesidad de agrupar los problemas por contenido más
que estructura es proveído considerando la manera en que el conocimiento público sobre el
mundo está organizado y enseñado. Por ejemplo, educación por departamentos,
entrenamiento profesional, catalogación de información en bibliotecas y enciclopedias, etc.
ilustran la organización de la información por contenido más que por su estructura. Mientras
que existen grandes ventajas en organizar el conocimiento de este modo, existen también
costos. La dificultad de aplicar reglas óptimas se desarrolló en un contenido de área para
estructuralmente problemas similares en otro contenido de áreas puede ser tal costo. Sin
embargo, al nivel del individuo que está aprendiendo otras dificultades son ahora
consideradas las cuales pueden ser aún más costosas.
Aunque la estructura de la tarea es difícil de discernir, los resultados no lo son; ellos son
altamente visibles, disponibles y a menudo no ambiguos. Consideración del refuerzo vía la
retroalimentación del resultado es esencial en entender cómo las heurísticas son mantenidas a
la luz de la experiencia. Además, si los resultados son una función de la estructura de la tarea
en grado considerable y el conocimiento de la toma de decisión de tal estructura está
faltando, entonces las reglas que son irrelevantes ó aún pobres pueden aún ser reforzadas por
retroalimentación de un resultado positivo (Por ejemplo, comportamiento “supersticioso” en
el aprendizaje animal; ver Staddon & Simmelhag, 1971).
Dos ejemplos son presentados ahora donde normativamente pobres heurísticas pueden
conducir a buenos resultados y donde el conocimiento de la pobre calidad de la regla puede
estar faltando. Considere comprando en el supermercado y viniendo con latas de jugo con los
siguientes precios y completa calidad (adaptado de Tversky, 1969):
Marca Precio Calidad
X Q .60 Alta
Y Q .55 Mediana
Z Q .50 Baja

Asuma que yo uso la siguiente regla para escoger entre las tres marcas: Si la diferencia de
precio es cinco centavos ó menos, escojo la arca con la más alta calidad; si la diferencia de
precio es mayor de cinco centavos, escojo de acuerdo al precio. Tal simple regla (la cual es
un semiorden lexicográfico) conduce a: X > Y, Y > Z. Pero Z > X. Por consiguiente, esta
regla conduce a escogencias intransitivas, las cuales son claramente irracionales. Sin
embargo, note que después que yo escojo X sobre Y, yo puedo entonces eliminar Y del juego
restante y comparar X con Z. Por lo tanto, yo finalizo con Z, la cual puede ser muy aceptable
después que yo lo pruebo. Yo entonces me congratulo en lo buen comprador que yo soy – yo
225

ahorré dinero y conseguí un producto razonable. El punto importante de notar aquí es que por
no hacer la comparación entre la Y y la Z, yo permanezco inconsciente de que mi regla
conduce a una escogencia intransitiva. De todo lo que yo estoy consciente es que yo hice una
escogencia con mínimo alboroto y tensión, y el resultado fue satisfactorio. Retroalimentación
de un resultado positivo por tanto refuerza una normativamente pobre regla, y darse cuenta
que algo que está equivocado está faltando.
El segundo ejemplo es uno probabilístico (cf. Schum, 1980). Imagine que usted es un
general militar en una políticamente tensa área preocupado de que sus enemigos invadirán su
país. Además, de pasada experiencia es conocido que cuando una masa de tropas en la
frontera, la probabilidad de una invasión es de .75. Sin embargo, usted no tiene acceso
directo a la información sobre las tropas enemigas pero debe apoyarse en un reporte de tal
actividad de sus fuentes de inteligencia. Como ocurre, cada vez que sus fuentes de
inteligencia reportan que tropas se están agrupando, ellas están realmente allí. Considere que
usted ahora recibe un reporte de sus fuentes que las tropas enemigas están la frontera. Cuál es
la probabilidad de una invasión? Más formalmente, haga que

H = hipótesis de ser invadido


D = agrupando tropas en la frontera
D* = reporte de tropas agrupadas en la frontera

El problema establece que p(H/D) = .75 y p(D/D*) = 1.0 y pregúntese por p(H/D*). Si usted
es como la mayoría de la gente, usted probablemente contestará .75. Sin embargo, la
información dada no es suficiente para responder la pregunta en la normativamente correcta
manera. De hecho, es posible que en el problema de arriba p(H/D*) = 0! Puesto que la
mayoría de la gente encuentra esto muy difícil de creer, considere la Figura 1, la cual ilustra
el problema por medio de un diagrama Venn. Note que la intersección de H con D* es nula,
de tal manera que la probabilidad condicional, p(H/D*), es cero. La razón de que la gente
encuentre este resultado tan sorprendente es que ellos han hecho una falacia lógica de la
forma: si D*¨→ D, entonces D → D*. Aunque D ocurre dondequiera que D* es dada, a la
inversa no es necesariamente el caso. De hecho, una manera intuitiva de ver el asunto es
pensar que el enemigo es particularmente astuto por lo que sus fuentes de inteligencia ven sus
tropas solo cuando no existe invasión planificada. Sin embargo, cuando una invasión es
planificada y las tropas están en la frontera, ellas están escondidas para que sus fuentes no las
reporten.
Este ejemplo ilustra la dificultad de aplicar reglas óptimas (en este caso las reglas de
lógica formal) a una tarea específica. Mientras que muy poca gente cometería el error de
lógica cuando el es presentado en una forma reconocible, la importancia del ejemplo se
apoya en mostrar cómo los datos específicos del problema esconden su estructura real para
que las reglas óptimas sean fácilmente violadas (cf. Tversky y Kahneman, 1980). Un
segundo punto puede ser hecho con respecto a este ejemplo. Considere que el general comete
el error de lógica y estima la probabilidad de una guerra en .75. El entonces envía sus tropas
a la frontera de ese modo causando una invasión por el enemigo. Por consiguiente, el
razonamiento equivocado del general es reforzado por el reaprovechamiento del resultado:
“Después de todo”, él podría decir, “aquellos SOB’s nos invadieron, lo cual nosotros
pensamos que harían”.

Insertar aquí la Figura 1 de la página 275 del texto original

Figura 1. Diagrama de Venn mostrando la relación entre la hipótesis (H),


el dato (D), y el reporte del dato (D*).
226

Los dos ejemplos ilustran el punto básico de este capítulo: Sin conocimiento de la
estructura de la tarea, el reaprovechamiento del resultado puede ser irrelevante ó aún
perjudicial para corregir las heurísticas pobres. Más aún, el reaprovechamiento del resultado
positivo sin conocimiento de la tarea tiende a conservarnos ignorantes que nuestras reglas
son pobres, puesto que existe muy poca motivación para inquirir cómo los éxitos fueron
adquiridos. Las condiciones bajo las cuales el reaprovechamiento del resultado no juega un
papel corrector respecto a las heurísticas y estrategias que son denotadas estructuras del
aprendizaje del resultado irrelevante (OILS). Tales estructuras pueden ser mucho más
comunes de lo que pensamos. Antes de examinar tal estructura en detalle, considere los
juicios probabilísticos dentro del marco de las OILS, puesto que mucho del trabajo sobre las
heurísticas está directamente relacionado con los tipos de juicio. Considere que usted juzga la
probabilidad de algún evento ser .70. Digamos que el evento no sucede. Qué le dice a usted
este resultado sobre la calidad de las reglas usadas para generar el juicio? Uno podría argüir
que cualquier simple resultado es irrelevante en evaluar la “calidad” (por ejemplo, grado de
calibración) de los juicios probabilísticos. Por consiguiente, en un sentido importante, la
información del resultado inmediato es irrelevante para corregir pobres heurísticas. Es solo si
uno conserva una “caja de punteo” de la relativa frecuencia de los resultados cuando uno
juzga los eventos con una dada probabilidad de que uno puede obtener útil
reaprovechamiento de los resultados. Sin embargo, esto es probable que sea necesario pero
no una condición suficiente para hacer juicios bien calibrados. Primero, sobre qué período de
tiempo uno conserva la caja de punteo antes de decidir que el juicio está ó no calibrado?
Además, cuán cerca es “suficiente cerca” en orden de decir que el juicio es exacto (en el
sentido de estar bien calibrado)? Note que este modo total de evaluar resultados involucra
refuerzo que es retrasado por largos períodos de tiempo. Por tanto no está claro que tal
reaprovechamiento tendrá mucho de un efecto auto corrector. Segundo, en orden de aprender
sobre la calidad de las reglas para estimar la probabilidad, la caja de punteo de uno debe
incluir no solo los estimados de uno y los resultados resultantes pero también las reglas para
derivar aquellas estimaciones. Por ejemplo, si uno guarda un record de resultados para 100
casos en los cuales yo di estimados de .7 qué me diría la información de que 53 de aquellas
veces que el evento sucedió sobre la calidad de las reglas que yo usé? Puesto que es probable
que muchas reglas diferentes podrían haber sido usadas para estimar las probabilidades en las
100 situaciones diferentes, la información del resultado es irrelevante y el reaprovechamiento
de la información no es útil a menos que uno esté conciente de las reglas de uno y un record
sea guardado de su uso (cf. Nisbett & Wilso, 1977, sobre si estamos concientes de nuestros
propios procesos cognitivos).
Yo no quiero implicar que es imposible aprender a hacer juicios de probabilidad bien
calibrados. Si uno hace muchos juicios de probabilidad en la misma situación, tales como si
pronosticadores y aventajadores en carreras de caballos lo hacen, y el reaprovechamiento del
resultado es rápidamente recibido, tales condiciones pueden no ser un resultado irrelevante, y
el reaprovechamiento puede ser auto corrector. Sin embargo, tales condiciones parecerían ser
la excepción más que la regla para la mayoría de nosotros.
Aunque los juicios probabilísticos típicamente ocurren en las OILS, qué sobre los juicios
no probabilísticos? Seguramente, si uno hace una predicción sobre algo uno puede chequear
para ver si la predicción es correcta ó no. Por consiguiente, parecería que los resultados
serían relevantes para proveer un reaprovechamiento auto corrector. El remanente de este
capítulo discute este asunto dentro del contexto de una estructura de tarea general y
prevalente, aunque el contenido específico de tales tareas puede ser muy diferente.
227

Selección de tarea 1

Una tarea muy general involucrando juicios no probabilísticos es ahora examinada puesto
que el resultado de la información parece ambos disponible y relevante para proveer
autocorrección del reaprovechamiento. La tarea a ser considerada es una en la cual los juicios
son hechos para el propósito de escoger entre acciones alternativas. Por ejemplo, considere
una situación con dos posibles acciones, A y B. Denote por x un total, juicio evaluativo, el
cual puede por sí mismo ser una función de varios tipos y cantidades de información.
Además, haga que x, sea un punto límite tal que

si x ≥ xc, tome la acción A;


si x < xc, tome la acción B (1)

Aunque simplística, la Ecuación 1 se aplica a muchos situaciones de juicio/decisión, por


ejemplo: contratación de un trabajo, promoción, admisión a la escuela, concesión de
préstamo y crédito, asignación de programas curativos, admisión a programas sociales,
aceptación de artículos periodísticos, concesión de premios, etc. En estos casos, un juicio del
grado de “merecimiento del reconocimiento” típicamente determina cuál acción debe ser
tomada, puesto que la acción preferida no puede ser dada a todos.

Insertar aquí la Figura 2 de la página 277 del texto original

Figura 2. Combinaciones de acción-resultado que resultan del uso del juicio para
tomar una decisión de aceptar-rechazar.

En orden de comparar el juicio con un standard, la existencia de un criterio, denote que y,


se asume para servir como las bases para evaluar la exactitud del juicio. Mientras que las
dificultades prácticas de encontrar y desarrollar criterios adecuados son enormes, el foco aquí
es teórico: El concepto de un criterio es qué es necesario para este análisis. Para ser
consistente con la formulación del juicio, es posteriormente asumido que el criterio tiene un
punto límite (yc) tal que y ≥ yc y y < yc sirve como las bases para evaluar los resultados del
juicio. En lo que al aprendizaje sobre el juicio concierne, la representación de los resultados
en la memoria es a menudo de forma categórica, que significa, éxitos y fallas (cf. Estes,
1976).
Es muy importante notar que la estructura de la tarea es una en la cual los juicios
(predicciones) conducen a acciones diferenciales y que los resultados son entonces usados
como reaprovechamiento para determinar la exactitud de las predicciones. La estructura
formal puede ser vista considerando la regresión de y a x y los cuatro cuadrantes que resultan
de la intersección de xc y yc, como se ilustra en la Figura 2. Denote las predicciones correctas
como positivos y negativos aciertos y los dos tipos de errores como positivos falsos (y < y c/x
≥ xc) y negativos falsos (y ≥ yc / x < xc). Para estimar la relación entre x y y (por ejemplo, la
relación entre x y y, pxy) es necesario tener información sobre cada combinación
juicio/resultado. Asuma primero que tal información viene a estar disponible con el tiempo
(por ejemplo, secuencialmente), y considere la evidencia experimental relacionada con
aprender la relación entre x y y en tales circunstancias. La investigación sobre la habilidad
para juzgar la contingencia entre x y y de la información en tablas de 2 x 2 (Jenkins & Ward,
1965; Smedslund, 1963, 1966; Ward & Jenkins, 1965) indican que la gente juzga la fortaleza
de las relaciones por la frecuencia de los aciertos positivos (en la terminología de la Figura
1
Mucho de esta sección es sacada de Einhorn y Hogarth (1978).
228

2), mientras generalmente ignorando la información en las otras tres celdas. Estos resultados
son extremadamente importantes, puesto que ellos dicen que aún cuando toda la información
del resultado relevante está disponible, la gente no lo usa. Esto significa que tienen
estructuras de aprendizaje resultado-relevante, la gente las ha transformado dentro estructuras
de aprendizaje resultado-irrelevante. Cómo puede esto ser explicado?
La explicación avanzada aquí es que nuestra experiencia en las tareas del mundo real es
tal que nosotros desarrollamos reglas y métodos que parecen “trabajar” razonablemente bien.
Sin embargo, éstas reglas pueden ser muy pobres y nuestro conocimiento de su insuficiencia
es profundo. Esta falta de conocimiento existe porque el reaprovechamiento del resultado
positivo puede ocurrir a pesar de, más que debido a, nuestra habilidad predictiva. En orden de
ilustrar, considere el estudio de Wason (1960) él presentó sujetos con una secuencia de tres
números, por ejemplo: 2, 4, 6. Los sujetos fueron requeridos a descubrir la regla para la cual
los tres números conformados (la regla siendo de tres números ascendentes). Para descubrir
la regla, a ellos se les permitió generar juegos de tres números los cuales el experimentador
clasificó como conformando ó no conformando a la regla. En cualquier punto, los sujetos
podían parar cuando ellos pensaban que habían descubierto la regla. La solución correcta a
esta tarea involucraría una búsqueda para no confirmar la evidencia más que la acumulación
de confirmar la evidencia. Por ejemplo, si alguien creyó que la regla tenía algo que hacer con
números pares, esto podría solo ser probado tratando una secuencia involucrando un número
impar (por ejemplo, acumulando vastas cantidades de instancias confirmatorias de secuencias
de números pares no conducirían a la regla). El hecho de que solo 6 de 29 sujetos
encontraron la regla correcta la primera vez que ellos pensaron que lo harían, ilustra los
peligros de inducción por simple enumeración. Como Wason (1960) señaló, la solución a esta
tarea debe involucrar “una disposición a intentar falsificar hipótesis, y por tanto para probar
aquellas ideas intuitivas las cuales a menudo acarrean el sentimiento de certeza” (p. 139,
cursivas agregadas).
Es importante enfatizar que en el experimento de Wason, donde las acciones no están
involucradas, una búsqueda para desconfirmar la evidencia es posible. Sin embargo, cuando
las acciones están basadas en juicio, el aprendizaje basado en desconfirmar la evidencia viene
a ser más difícil de adquirir. Considere cómo uno podría erróneamente aprender una regla
incorrecta haciendo juicios y enfocándose en el caso hipotético de un gerente aprendiendo
sobre su habilidad predictiva concerniente a los “potenciales” candidatos para un trabajo. El
factor crucial aquí es que las acciones (por ejemplo, aceptar/no aceptar) son contingentes en
el juicio. En una fecha subsecuente el gerente puede solo examinar a candidatos aceptados
para ver cuántos son “exitosos”. Si existen muchos éxitos, cuál es probable, de todas estas
instancias que confirme la regla. Ciertamente, el punto importante aquí es que sería difícil
desconfirmar la regla, aún cuando podría ser errónea. Una manera en la cual la regla podría
ser probada sería para el gerente aceptar un subset de aquellas que él juzgó tener un bajo
potencial y entonces observar la proporción de sus éxitos. Si su proporción fue tan alta como
aquellas juzgadas ser de alto potencial, la regla sería desconfirmada. Sin embargo, una
búsqueda sistemática por desconfirmar la evidencia es rara y podría ser objetada en campos
utilitarios y aún éticos, que significa, que uno tendría que sostener la acción preferida de
algunas de aquellas juzgadas más meritorias y darle a ella algún juicio menos meritorio. Por
consiguiente, consideraciones utilitarias y/ó éticas pueden prevenirlo a uno de aún considerar
la colección de información posiblemente desconfirmatoria. Note que la tendencia a no
probar hipótesis desconfirmando instancias es una consecuencia directa de la estructura de la
tarea en la cual las acciones son tomadas sobre las bases del juicio. Wason (1960) señala, “En
la vida real no existe autoridad que pronuncie un juicio de inferencias: las inferencias pueden
solo ser chaqueadas contra la evidencia” (p. 139). Como una resultante, grandes cantidades
de reaprovechamiento positivo pueden conducir al refuerzo de una regla no válida.
229

Aunque los resultados contingentes de la acción no tomada pueden no ser vistos, es aún
el caso de que uno puede examinar el número de éxitos positivos y positivos falsos como un
modo de chequear la exactitud de las predicciones de uno. Por consiguiente, mientras tal
información esté incompleta para evaluar exactamente la relación entre predicciones y
resultados, tal información es la que la mayoría de la gente tiene disponible. Es por
consiguiente importante considerar los factores que afectan estas variables.

Factores que afectan los éxitos positivos y positivos falsos

Considere la Figura 2 de nuevo y note que existen tres factores que afectan las proporciones
de éxitos positivos y positivos falsos; la localización de x c, yc y la “inclinación” de la elipse
(la cual es la correlación entre x y y). Por ejemplo, si x c es movida a la derecha, manteniendo
a yc y pxy constantes, existe un punto en el cual no existirán positivos falsos. Por supuesto,
existirá un correspondiente incremento de negativos falsos. Sin embargo, si uno no tiene
información sobre estos casos (como es generalmente la situación), la experiencia de los
sucesos de uno pueden ser muy convincentes que la calidad del juicio es alta. Por
consiguiente, cuando el criterio para dar la acción preferida es incrementado (incrementando
xc), la probabilidad , p(x ≥ xc) (también llamada la proporción de selección, ф), es
decrementada y esto conduce a un éxito positivo alto y bajas proporciones de falso-positivo.
El segundo factor, yc, obviamente afectará los resultados, puesto que el nivel de y c define los
éxitos y las fallas. Note que cuando yc es disminuido, la probabilidad , p(y ≥ yc) (también
llamada la proporción base, br), es elevada y la experiencia de uno de los éxitos puede ser
alta sin tener en cuenta la habilidad del juicio; lo que significa que, si uno aleatoriamente
asigno a la gente varias acciones, uno experimentaría una proporción de éxito igual a (y ≥ y c).
Por consiguiente, para juzgar la habilidad predictiva de uno, la proporción de éxito positivo
con p(y ≥ yc) debería ser hecha y evaluada la habilidad de juicio sobre los incrementos en los
éxitos. El tercer factor pxy, afecta los resultados en una manera clara; a saber, mientras más
grande pxy, más grande la probabilidad del éxito positivo.
Los efectos de estos tres factores sobre la proporción de éxito positivo son bien
conocidos. Taylor y Russell (1939), por ejemplo, han mostrado que uno puede incrementar la
proporción de éxito positivo, para cualquier dado p xy y la proporción base, reduciendo la
proporción de selección (ф), que significa, dar a la acción preferida a un más pequeño
porcentaje (asumiendo que pxy ≠ 0). Por tanto, aún si pxy es bajo, es posible tener un alto
porcentaje de éxito positivo dependiendo de los valores de ф y br. Taylor y Russell (1939)
proveyeron tablas de proporciones de éxitos positivos para un amplio rango de valores de p xy,
ф y br. El examen de estas tablas muestra que bajas correlaciones entre juicios y criterios no
son incompatibles con grandes porcentajes de éxitos positivos.
En adición a los tres factores ya mencionados, un cuarto factor debe ser considerado. Este
puede ser ilustrado imaginando el siguiente experimento. Asuma que una serie de juicios es
hecha sobre algunas personas. De aquellas juzgadas estar arriba de x c, aleatoriamente asigne
la mitad a la acción A y la mitad a la acción B. Similarmente haga lo mismo para aquellas
juzgadas por debajo de xc. En algún último punto en tiempo, mida el desempeño y calcule la
proporción de personas con y ≥ yc, en cada celda (cada persona está asignada a 0 ó a 1 para
indicar si él ó ella está por debajo ó arriba del punto límite de y – la proporción arriba de y c
siendo la media de esa celda). Este es un diseño factorial 2 x 2 con un factor siendo el
“juicio” y el otro el “tipo de acción”. Note que debido al criterio no puede ser medido
inmediatamente antes de la decisión (ciertamente, si se pudiera, no habría necesidad de
juicio), gente recibiendo acciones A y B han también recibido diferentes tratamientos
experimentales. Si este experimento fuera hecho, uno podría ensayar por el principal efecto
de juicio (cuáles miden su exactitud); el principal efecto para la acción, que es que, si
230

recibiendo A ó B en sí mismas causa diferencias en el desempeño; y la interacción entre


juicio y acción. Observe que la ventaja del experimento es que permite a uno desenredar la
exactitud del juicio de los efectos del tratamiento de la acción. Sin embargo, tal experimento
es raramente hecho, aún conceptualmente, y especialmente no por gente sin un extenso
entrenamiento en diseño experimental. Por consiguiente, la exactitud de juicio será casi
siempre confundida con posibles efectos de tratamiento debidos a las acciones. Además, y
con referencia a la reciente discusión, este experimento le permite a uno examinar la
información desconfirmatoria. En contraste a las tareas de juicio más reales, por
consiguiente, le permitirían a uno desconfirmar la hipótesis de la exactitud del juicio así
como también estimar cualesquiera efectos de tratamiento debidos a la acción.
Un ejemplo de efectos del tratamiento es mostrado en la Figura 3. La elipse punteada es
esa mostrada en la Figura 2 y representa la “verdadera” relación entre juicios y resultados. La
porción sombreada indica aquellos resultados que pueden ser observados; de aquí que solo
los valores para los cuales x ≥ xc son mostrados. El efecto de tratamiento ocurre en que los
resultados (por ejemplo, el desempeño) de todos aquellos dados en la acción A son
incrementados en una cantidad constante de tal forma que el número de éxitos positivos es
mayor que los que habrían sido observados en la ausencia de efectos de tratamiento. Desde
un punto de vista psicológico, el aspecto clave de la Figura 3 es que la naturaleza del juicio
está contaminada; el número de éxitos positivos está inflado y el número de falsos positivos
está reducido.
En orden de cuantificar los efectos de los cuatro factores discutidos arriba de la
proporción de éxito positivo, Einhorn y Hogarth (1978) realizaron un experimento de
simulación en el cual varios niveles de efectos de tratamiento, proporciones de selección,
índices base y habilidades predictivas fueron variados en un diseño factorial. La variable
dependiente fue la proporción de éxito positivo. Los resultados de esa simulación pueden ser
resumidos como sigue: (a) En general, la proporción de éxito positivo es mayor de .50.
Cuando los efectos de tratamiento existen, la proporción de éxito positivo puede ser alta aún
cuando pxy = 0; (b) cuando ф < br, las proporciones de éxito positivo son particularmente
altas. Además, la proporción de éxito positivo es sensitiva a los efectos del tratamiento a
bajos valores de pxy. Esto significa que en situaciones altamente selectivas, pobre habilidad
predictiva es más probable de ser reforzada por el reaprovechamiento del resultado positivo;
(c) Cuando ф > br, las proporciones de éxito positivo son las más bajas. Sin embargo,
pequeños efectos de tratamiento tienen un impacto sustancial en elevar la proporción de éxito
positivo en éstas situaciones.
Los resultados de la simulación demuestran que el reaprovechamiento positivo puede
existir cuando la habilidad predictiva es pobre y que la conciencia de esto es usualmente muy
baja debido a la falla en adecuadamente comprender la estructura de la tarea. Por
consiguiente, aunque uno podría suponer que los juicios no probabilísticos en un resultado
relevante de la estructura del aprendizaje son hechos para el propósito de decidir entre las
acciones, la información del resultado puede ser irrelevante para proveer un
reaprovechamiento auto correctivo.

Insertar aquí la Figura 3 de la página 281 del texto original

Figura 3. Efecto del tratamiento en las proporciones de éxito positivo observado.


231

Conclusión 2
El tema básico de este capítulo que la información del resultado, sin el conocimiento de la
estructura de la tarea, puede ser irrelevante para proveer un reaprovechamiento auto
correctivo sobre heurísticas pobres. También ha sido argüido que el conocimiento de la
estructura de tarea es difícil de adquirir debido al modo inductivo por el cual aprendemos de
la experiencia. (cf. Hammond, 1978, sobre los modos de pensamiento Galileos y
Aristotélicos). Estas conclusiones hacen que surjan dos asuntos que discutiremos
brevemente.
Puede ser el caso que aún con el conocimiento de la estructura de tarea, uno escoja actuar
de tal manera que el aprendizaje esté impedido. Por ejemplo, considere a un mesero en un
restaurante ocupado. Debido a que él no tiene tiempo de dar un buen servicio a todos los
clientes de su puesto, él hace una predicción sobre cuales clientes son probables de dejar
buenas ó pobres propinas. Bueno ó mal servicio está entonces dependiendo de su predicción.
Si la calidad del servicio tiene un efecto de tratamiento en el tamaño de la propina, los
resultados “confirman” las predicciones originales. Note que el mesero podría ejecutar un
experimento para desenredar los efectos del tratamiento de calidad del servicio de sus
predicciones si él está conciente de la estructura de la tarea; que es, que él podría dar un
pobre servicio a alguien de aquellos que él juzgó dejaría buenas propinas y buen servicio a
alguien que él juzgó dejaría pobres propinas. Sin embargo, note que el mesero debe estar
dispuesto a arriesgar la posible pérdida de ingresos si su juicio es exacto, contra el
aprendizaje de que su juicio es pobre. La última información puede tener beneficios de largo
plazo en que podría motivar a la persona a tratar de hacer mejores predicciones ó, si esto no
es posible, usar una estrategia de dar un pobre ó un buen servicio aleatoriamente, por tanto
ahorrando mucho esfuerzo mental. En decisiones de organización, los grandes beneficios de
conocer sobre la exactitud de las predicciones de uno podrían ser sustanciales. Por ejemplo,
si las entrevistas de selección no predicen cumplimiento (independiente de los efectos del
tratamiento), por qué gastar dinero y tiempo usándolos? Por consiguiente, los costos y
beneficios de estrategias de corto plazo para el aprendizaje necesitan ser más completamente
investigados.
El segundo asunto puede surgir estableciendo la siguiente interrogante: Si la gente
aprende y continúa el uso de reglas pobres, esto no contradice el concepto evolucionario de
sobrevivencia de la mayor capacitación? Yo tomo ésta interrogante para significar que
aquellos quienes usan malas reglas deberían ser menos probables de sobrevivir que aquellos
quienes usan mejores reglas (ellos son más capaces). Sin embargo, el uso de mejores reglas
puede aún ser removido del uso de reglas óptimas. El concepto de más “capaz” involucra un
relativo ordenamiento mientras que optimización implica algún nivel absoluto. Por
consiguiente, el hecho que reglas subóptimas son mantenidas de cara a la experiencia no es
contradicho por la teoría Darwiniana. Talvez el más sucinto modo de poner esto es citar a
Erasmus: “En la tierra del ciego, el tuerto es rey”. 3
2
Quisiera agradecer a J. E. R. Staddon por la formulación de puntos discutidos en esta sección
3
El intento de ésta cita es señalar que las ventajas relativas con relación al ambiente de uno son importantes.
Ninguna mancha es mencionada ni intentada hacia la gente ciega. Tom Wallsten ha hecho el siguiente
comentario, “En la tierra del ciego el tuerto podría solo podría sobrevivir cerrando sus ojos, puesto que el
medio ambiente sería arreglado para descansar en otros sentidos”. Aunque este es un fascinante comentario,
yo no estoy de acuerdo, porque el tuerto aún tendría todos los otros sentidos en adición a ver una ventaja.

Parte VI
232

Exceso de confianza

20. Exceso de confianza en el caso de estudiar juicios


233

Stuart Oskamp

Es un fenómeno común de práctica clínica que como un psicólogo acumula material para el
caso de estudio sobre otro ser humano, él piensa que él conoce a esa persona bastante bien.
Consecuentemente, más pronto ó más temprano en la información recopilada en los procesos,
el psicólogo tiene suficiente confianza para hacer conclusiones diagnósticas, describe las
dinámicas principales del cliente y talvez se aventura a predecir su comportamiento futuro.
Aunque las conclusiones del psicólogo pueden permanecer tentativas, su incremento en
confianza de la primera aproximación al caso al tiempo de escribir su reporte está usualmente
muy marcado.
Este estudio investigó si ese incremento en la confianza está justificado por un
incremento correspondiente en la exactitud de las conclusiones. Aunque la confianza del
psicólogo en sus conclusiones ha sido a menudo mencionada como un importante sujeto de
investigación (Meehl, 1957), ella ha sido solo raramente estudiada intensivamente. Además,
cuando ella ha sido estudiada, muy a menudo sorprendentes descubrimientos han resultado.
Por ejemplo, L. R. Goldberg (1959) y Oskamp (1962) han mostrado que la confianza
diagnóstica de experimentados psicólogos es menor que la de personas menos
experimentadas. Los mismos estudios y muchos otros han mostrado también que los
psicólogos profesionales no son los mejores jueces interpersonales, y algunas veces son
peores que individuos no entrenados (Taft, 1955).
Otro factor raramente estudiado, el cual puede proveer un buen índice de la competencia
de un juicio, en la relación entre su nivel de confianza y su nivel de exactitud. Esta medida
muestra, por ejemplo, si el juicio es de exceso de confianza ó no confiable en hacer sus
decisiones. Sobre esta medida, la cual puede ser denominada conveniencia de confianza,
juicios experimentados se ha encontrado ser muy superiores a lo no experimentados
(Oskamp, 1962).
Un número de estudios (Hamlin, 1954; Hathaway, 1956; Kostlan, 1954; Soskin, 1954;
Winch & More, 1956) han investigado los efectos clínicas del juicio de diferentes cantidades
de información de estímulo. En el presente experimento este factor fue estudiado dando a
cada juicio cuatro juegos de acumulados incrementos de información como las bases para
toar sus decisiones, por tanto simulando el gradual crecimiento de la información como un
psicólogo trabaja a su modo a través de un caso típico.
Las hipótesis de este estudio fueron como sigue:
1. Más allá en un punto temprano en el proceso de recopilación de información, la
exactitud predictiva alcanza un techo.

Este capítulo originalmente apareció en The Journal of Consulting Psychology, 1965, 29, 261-265. Derechos
reservados © 1965 por American Psychological Association. Reimpreso con permiso.
2. No obstante, la confianza en las decisiones de uno continúan para escalar
persistentemente cuánta más información es obtenida.
3. Por lo tanto, hacia el final del proceso de recopilación de información, la mayoría de
los jueces tienen exceso de confianza sobre sus juzgamientos.

Procedimiento
234

Puesto que se deseó simular la situación clínica usual tan exactamente como fue posible, un
caso actual de estudio fe escogido como la información dada a los jueces. El caso finalmente
escogido fue seleccionado debido a su extensión, su descripción de muchos pertinentes
incidentes de la vida, y al hecho de que está involucrado un relativamente individuo normal.
(por ejemplo, un caso de un adolescente inadaptado quien nunca había estado
psiquiátricamente hospitalizado) Fue el caso de Joseph Kidd, reportado por White (1952) en
su libro Vidas en Progreso. 1
Material de antecedentes históricos de este caso fue resumido y organizado dentro de
juegos cronológicos de información los cuales fueron presentados a los jueces en cuatro
etapas sucesivas. La etapa I contiene solo breve información demográfica sobre el caso, en
orden de probar por el nivel de “posibilidad psicológica” de la exactitud predictiva
(Patterson, 1955).
Joseph Kidd (un pseudónimo) es un hombre de 20 años de edad. El es blanco,
soltero, y un veterano de la II Guerra Mundial. El es un graduado universitario, y
trabaja como un asistente de negocios en un estudio de decoración floral.
La Etapa 2 adicionó 1½ páginas escritas a máquina a espacio simple de material sobre la
niñez de Kidd, aunque a la edad de 12. La Etapa 3 (2 páginas) cubrió sus años de secundaria
y de universidad, y la Etapa 4 (1⅓ páginas) cubrió su servicio en el ejército y sus últimas
actividades hasta la edad de 29.

Prueba del caso en estudio

En orden de tener una base para determinar la exactitud de los jueces, una prueba de múltiple
escogencia del caso en estudio fue construida, usando un método similar a ese de Soskin
(1954). Puntos tratados con los patrones de comportamiento acostumbrado de Kidd,
actitudes, intereses, y reacciones típicas de la vida actual. Ejemplos de algunos de estos
puntos son dados en la Tabla 1.
Los puntos fueron construidos solo donde existió claramente un criterio objetivo de la
información presentada en el caso, ya sea datos de hechos ó conclusiones bien documentadas.
Las cuatro alternativas incorrectas para cada punto fueron hechas con la ayuda de respuestas
de frase-conclusión para los puntos troncales de los estudiantes graduados de psicología.
Ellos fueron construidos de tal manera como para estar claramente errados, basados en el
material del caso publicado, pero para ser de otro modo alternativas convincentes y
“seductivas”. Ninguno de los puntos tenía su respuesta contenida en el material del caso
resumido; en su lugar se esperaba que los jueces siguieran el procedimiento usual en el juicio
clínico (C. McArthur, 1954) formando un cuadro de la personalidad de Kidd del material
presentado y luego predecir sus actitudes y acciones típicas del cuadro de la personalidad de
él.
1
El uso de este caso tuvo la desventaja que unos pocos jueces recordaron leer este material en algún tiempo
durante su entrenamiento, pero de todos solo uno reportó que su anterior contacto no los ayudó del todo en el
presente estudio. Puesto que sus punteos de exactitud corroboraron esta impresión, sus resultados fueron
retenidos en el análisis de datos.
Tabla 1. Puntos de muestra del caso en estudio
5. Durante la universidad cuando en una situación social familiar y agradable, él a menudo:
a. Trató de dirigir al grupo e impuso sus deseos sobre el.
b. Permaneció apartado y abstraído del grupo.
c. Estuvo muy indiferente sobre cómo la gente reaccionó hacia él.
d. Tomó una parte activa en el grupo pero de un modo tranquilo y modesto.
e. Actuó el payaso y se marchó. a
235

10. Más tarde en su servicio en el ejército, como un oficial y comandante de destacamento, la actitud
de Kidd hacia el manejo y castigo fue:
a. El estuvo muy disturbado por el porque él prefería estar al mismo nivel de los otros hombres,
no sobre ellos. a
b. A él le disgustó eso porque él nunca podría tomar una decisión sobre qué hacer.
c. El lo evitó tan completamente como le fue posible porque él sintió que era erróneo castigar a
los hombres no importando lo que hubieran hecho.
d. El estuvo feliz porque le dio una posibilidad de estar en control de una situación y ser mirado
hacia arriba.
e. El tuvo un deleite sádico en disciplinar a otros para caracterizar las veces que él había sido
castigado.

15. La actitud presente de Kidd hacia su madre es una de:


a. Amor y respeto por los ideales de ella.
b. Tolerancia afectiva por las debilidades de ella.
c. Respeto y resentimiento combinados. a
d. Rechazo por ella y todas sus creencias.
e. Afecto deferente pero superficial.

20. En conversación con hombres, Kidd:


a. Prefiere contactarlos para hablar sobre su trabajo ó experiencias. a
b. Gusta hacer la mayoría de la plática sobre sujetos con cuales él es familiar.
c. Prefiere debatir con ellos sobre religión ó su filosofía de la vida.
d. Gusta alardear sobre sus días en el Ejército ó hazañas de la universidad.
e. Confina su discusión principalmente a deportes, sexo, y chistes sucios.

25. La actitud de Kidd hacia su vida como un asistente de negocios es mostrada por su reciente
decisión de:
a. Permanece en su presente posición por al menos unos pocos días más.
b. Expande los negocios construyendo otra tienda en un pueblo vecino.
c. Deja su trabajo y abre su propia floristería.
d. Hace aplicaciones de trabajo en varias compañías grandes en campos similares a su presente
línea de trabajo.
e. Planea por sí mismo y encuentra una diferente clase de trabajo. a

a
Respuesta correcta

Jueces

Los jueces fueron sacados de tres grupos con variadas cantidades de experiencia psicológica:
(a) 8 psicólogos clínicos empleados por un hospital del estado de California, todos tenían
varios años de experiencia clínica, y 5 tenían grados de doctor; 2 (b) 18 estudiantes graduados
en psicología; 3 y (c) 6 estudiantes no avanzados no graduados en una clase de personalidad.
Ninguno de los jueces de ningún modo familiarizado con la hipótesis del estudio.
Nota: Las llamadas 2 y 3 aparecen al final de la presente sección, inmediatamente antes de iniciar Resultados.
Los jueces tomaron parte en el experimento en pequeños grupos clasificados de cuatro a
nueve en tamaño, pero cada uno trabajó en su propia paz individual con su propio fajo de
materiales. Después de leer cada etapa del caso, el juez respondió todas las 28 preguntas de la
prueba del caso en estudio antes de continuar con la lectura de la etapa siguiente. Además,
para responder las preguntas, el juez también indicó sobre cada punto cuánta confianza él
tenía en que su respuesta era la correcta.
236

Juicios de confianza

Los juicios de confianza fueron hechos usando una escala dispuesta por Adams (1957) la
cual define la confianza en términos del porcentaje esperado de las decisiones correctas.
Debido a que existieron cinco alternativas para cada punto de la prueba, la escala empezó al
20% (representando un nivel de probabilidad completo de confianza) y extendido al 100%
(indicando absoluta certeza de exactitud). Además para proveer un claramente entendible
significado objetivo de confianza, esta escala tiene la gran ventaja de permitir una directa
comparación entre el nivel de exactitud y el nivel de confianza. Por tanto, por ejemplo, si un
juez consiguió 28% de los puntos correctos y tuvo un promedio del nivel de confianza de
43%, él podría ser considerado como teniendo un exceso de confianza.
2
Un psicólogo clínico adicional fue probado, pero los resultados tuvieron que ser descartados debido a falla
para entender y seguir las instrucciones. Este problema no ocurrió con cualquiera de los estudiantes.
3
Alrededor de la mitad de estos estudiantes graduados había tenido alguna experiencia clínica ó de asesoría, y
uno ó dos pueden posiblemente haber sido equivalentes a los psicólogos clínicos en nivel de experiencia
psicológica.

Resultados

Esta tarea de juicio probó ser una muy difícil, al menos con la cantidad de material del caso
proveída. Ningún juez alcanzó siempre el 50% de exactitud, y el promedio de exactitud final
fue menor del 28%, donde la probabilidad fue del 20% (una diferencia insignificante). Sin
embargo, este bajo nivel de exactitud sirve para proveer una aún más dramática prueba de la
hipótesis del estudio.
Un análisis preliminar fue llevado a cabo para comparar los punteos de los tres grupos de
jueces, aunque ninguna hipótesis había sido formulada sobre su relativo cumplimiento. Estos
resultados claramente indicaron que no existían diferencias significantes entre los tres grupos
de jueces ya sea en exactitud, en confianza, ó en el número total de las respuestas cambiadas.
En la Etapa 4 los punteos de confianza fueron consistentes con estudios previos (Goldberg,
1959; Oskamp, 1962) en mostrar a los jueces más experimentados ser menos confiables que
los jueces menos experimentados, pero en este estudio estos resultados no se aproximaron a
la importancia.
Los principales resultados de este estudio son mostrados en la Tabla 2 (página siguiente),
donde las columnas sucesivas muestran los punteos medios de los jueces como ellos
recibieron sucesivamente cantidades más grandes de información. Como un resultado de las
pruebas estadísticas previas, los resultados para todos los 32 jueces están combinados en ésta
tabla.
La primera línea de la Tabla 2 muestra que la fluctuación en exactitud sobre las cuatro
etapas del caso fue significante. Sin embargo, una prueba Duncan de rango múltiple (A. E.
Edwards, 1960, p. 136) mostró que esta significancia fue debida primariamente a la caída en
exactitud en la Etapa 2. Comparando la exactitud de la Etapa 1 con la exactitud de la Etapa 4
no mostró cambio significante (t = 1.13, df = 31). Por lo tanto, la primera hipótesis acerca de
Tabla 2. Ejecución de 32 jueces en los 25 puntos de la prueba del caso en estudio
M punteo_____________________________________________________
Medida Etapa 1 Etapa 2 Etapa 3 Etapa 4 F p
Exactitud (%) 26.0 23.0 28.4 27.8 5.02 .01
Confianza (%) 33.2 39.2 46.0 52.8 36.06 .001
Número de respuestas
237

Cambiadas ---- 13.2 11.4 8.1 21.56 .001

un techo en la exactitud no fue solamente soportado, sino que en este experimento no hubo
del todo un significante incremento en la exactitud con incrementar la información!
La hipótesis 2 es probada en la segunda línea de la Tabla 2. Allí vemos, como predicho,
un sorprendente y extremadamente significante incremento en la confianza de 33% en la
Etapa 1 a 53% en la Etapa 4.
Finalmente, los resultados de la hipótesis 3 son indicados en una comparación de la
primera y segunda líneas de la tabla. En la Etapa 1 el promedio de exceso de confianza fue de
7 puntos; en la etapa 4 fue de 25 puntos, una diferencia significante mucho más allá del
nivel .001 (t = 5.14, df = 31).
Algunas veces los grupos medios pueden ser significantes pero engañosos porque ellos
pueden ocultar a los sujetos individuales quienes se desempeñan contrarios a la predicción.
Que éste no fue el caso aquí es claramente mostrado por las siguientes figuras para jueces
individuales. De los 32 jueces, crecieron en exactitud de la Etapa 1 a la Etapa 4, mientras que
6 permanecieron lo mismo, y 12 decrecieron – un resultado completamente aleatorio. En
contraste, todos los jueces excepto 2 crecieron en confianza, y la mayoría creció en forma
apreciable. 4 En la Etapa 1 casi la mitad de los jueces (13 de 32) no tuvieron exceso de
confianza; por la Etapa 4 solo 2 permanecieron no seguros de sí mismos – un cambio
altamente significante (x2 = 9.1, p < .01).
Otro interesante resultado del estudio está contenido en la última línea de la Tabla 2, la
cual muestra el porcentaje del número de puntos en los cuales los jueces cambiaron sus
respuestas en cada etapa del caso. Esta medida muestra que a más información presentada, el
número de respuestas cambiadas descendió en forma apreciable y significantemente. Este
descubrimiento sugiere que los jueces pueden frecuentemente han formado conclusiones de
estereotipo más que firmemente de la primera información fragmentaria y entonces han sido
renuentes a cambiar sus conclusiones cuando ellos recibieron nueva información. En
cualquier proporción, la etapa final de información parece haber servido principalmente para
confirmar las impresiones previas de los jueces más que causarlas para renovar su cuadro de
la personalidad de Kidd.

Discusión

La generalización descuidada de estos descubrimientos debe ciertamente ser evitada. Existen


tres factores principales sobre los cuales este estudio el cual posiblemente limitarían la
generalidad de los resultados. (a) El caso puede no ser similar a los que la mayoría de los
psicólogos acostumbran trabajar. (b) Los puntos de la prueba pueden no representar las clases
4
Uno de los dos jueces quienes decrecieron en confianza, un estudiante no graduado, más tarde estableció que
él normalmente habría incrementado la confianza, pero él había estado comprometido en un proyecto de
investigación en computación en la cual la computadora había dado repetidamente resultados incorrectos,
hasta el punto donde el había perdido completamente su confianza aún en las computadoras.
de comportamientos a los cuales los psicólogos están acostumbrados a predecir. (c) Los
jueces pueden no haber tenido buenas representativas de los que toman una decisión
psicológica. En respuesta a estas posibles objeciones debería ser señalado que el caso, los
puntos de la prueba, y los juicios clínicos fueron todos escogidos con la intención de una
aproximación tan cerca como es posible a las situaciones encontradas en la práctica
psicológica actual.
238

Aún si éstas posibles objeciones tuvieran que ser admitidas aunque, algunas bien
definidas conclusiones pueden ser sacadas. Sin importar si la tarea pareció extraña ó los
materiales del caso atípicos, los punteos de la confianza de los jueces muestran que ellos
llegaron a convencerse de sus propio incremento en el entendimiento del caso. Como ellos
recibieron más información, su confianza se elevó. Además, su certeza sobre sus propias
decisiones llegó a estar enteramente fuera de proporción a la rectitud actual de esas
decisiones.
Por tanto, aunque este resultado puede no sostenerse para cada psicólogo y cada tipo de
decisión, puede claramente concluirse que un incremento de los sentimientos de confianza
del psicólogo cuando él trabaja a través de un caso no son un signo seguro de incremento en
la exactitud de sus conclusiones. La así llamada validación clínica, no es una evidencia
adecuada para la validez del juicio clínico en diagnosticar ó predecir el comportamiento
humano.

21. Un reporte de progreso sobre el entrenamiento de


asesores de probabilidad
239

Marc Alpert y Howard Raiffa

En los análisis prescriptivos de las decisiones bajo incertidumbre, los tomadores de la


decisión y sus consejeros expertos son a menudo llamados para asesorar distribuciones de
cantidades de probabilidad de juicios cuyos valores son desconocidos para ellos. Este
capítulo discute algunos descubrimientos empíricos dirigidos a tales preguntas como: Cuán
bien pueden ejecutar individuos no entrenados tales asesorías? Manifiestan ellos ciertos
prejuicios recurrentes? Cómo pueden los asesores ser calibrados? Cómo pueden ellos ser
enseñados para llegar a ser mejores asesores?
Este capítulo trata solo con evaluaciones de cantidades inciertas que pueden ser pensadas
como una serie continua de valores posibles. De aquí que trabajaremos solo exclusivamente
con funciones de densidad poco variable y sus funciones de distribución acumulativas.
Algunos procedimientos diferentes están disponibles para evaluar las distribuciones de
probabilidad de continuas, variables aleatorias poco variables, pero consideraremos solo un
procedimiento particular que nosotros y nuestros colegas han a menudo usado en la práctica.
Ese es llamado el método de evaluaciones directas fraccionables.

Procedimiento de evaluaciones directas fraccionables

Hagamos que x* sea el verdadero, valor objetivo de alguna cantidad y asumamos que x* es
desconocido para el asesor. El fraccionable kth de juzgamiento del asesor de x* (para k
dentro del intervalo de 0 a 1) es el número xk tal que la probabilidad de juicio que él le asigna
al evento [x* ≤ xk] es k; en símbolos, P [x* ≤ x k] = k. Los números x.50, x.25 y x.75 serán
referidos como la media crítica, el cuartil inferior y el cuartil superior respectivamente. Para
encontrar x.50, el sujeto debe pensar en un valor, tal que él lo crea como probable que x* está
debajo de x,50 como arriba de x.50.. Por tanto x.50 divide la serie continua dentro de dos
intervalos críticos igualmente probables; y el cuartil superior , x .75, divide el intervalo (x.50, ∞)
dentro de dos intervalos críticos igualmente probables. Para cada cantidad incierta, nuestros
sujetos experimentales fueron requeridos a evaluar sus media y cuartiles críticos. La
consistencia (ó “coherencia”, como algunos autores prefieren) requiere que el sujeto crea (a)
que cada uno de los cuatro intervalos

(−∞, x.25), (x.25, x.50), (x.50, x.75), (x.75, ∞)

sean probables de contener el verdadero el verdadero valor de x*, y (b) que es tan probable
como no que el verdadero valor de x* estará contenido en el intervalo (x.25, x.75) como el

Este artículo fue originalmente distribuido en 1969 como un reporte no publicado. El ha sido revisado para este
libro.
crítico rango intercuartil. En el futuro, nos referiremos al intervalo (x .25, x.75) como el crítico,
rango intercuartil. Los sujetos que participaron en nuestros ejercicios de entrenamiento todos
hablaron para chequear estos requerimientos de consistencia y fueron instruidos, en casos de
inconsistencias, a reevaluar sus evaluaciones de fractiles ? para adquirir consistencia.
Además para la media crítica y los dos cuartiles, los sujetos fueron requeridos a evaluar
varios fractiles ? en el punto bajo y en el punto alto de sus distribuciones. Más sobre esto más
adelante. Una vez que el asesor ha determinado varios puntos (x k, k) en su acumulativo, parte
240

inferior izquierda, distribución de la probabilidad crítica, él entonces puede usar el globo


ocular, proceso de manos libres para “acertar” en el remanente de su curva. En este capítulo,
sin embargo, nosotros estaremos relacionados solo con los puntos evaluados directamente
(xk, k) y no con la curva entera.

La posibilidad de la validación externa

Si todos hubiéramos tenido de sujeto dado una distribución de probabilidad para una cantidad
incierta, sería insignificante para nosotros decir que su distribución está “errada”. Podríamos
haber esperado que nuestro sujeto estuviera más informado sobre la cantidad en cuestión,
pero su distribución de probabilidad es una expresión formal de lo que él conoce – ó no
conoce – sobre esta cantidad. No podemos decir, por ejemplo, que su distribución es
“demasiado estricta”, ó “demasiado poco precisa” ó “muy desviada a la derecha”. Pero, en
contraste a este caso, suponga que nuestro sujeto nos da un millar de distribuciones de mil
cantidades inciertas diferentes. Si cada uno de los verdaderos valores actuales fueran a caer
ya sea debajo de su correspondiente fractile ? .01 ó arriba de su fractile ? .99, entonces
estaríamos obligados a decir que el no está calibrado externamente, que sus distribuciones
tienden a ser demasiado estrictas. O, en contraste a esto, si sucede que cado uno de sus
rangos de intercuartiles evaluados fueran a contener el verdadero valor, entonces esto
manifestaría su tendencia a ser demasiado poco precisa. Admitido, que estos son casos
extremos, pero ellos establecen el punto que es posible y relevante hablar sobre la validación
externa de un juego de distribuciones de probabilidad.

El propósito de los ejercicios y la composición de los grupos del sujeto

Sin entrar en mayores detalles, permítasenos darle a usted una breve orientación de lo que
hemos hecho. Por medio de una serie de cuestionarios le requerimos a un gran número de
sujetos (alrededor de un millar), grabar sus fractiles ? críticos para varias cantidades
desconocidas para ellos al tiempo de la evaluación. Entonces comparamos sus evaluaciones
con los verdaderos valores actuales; nosotros identificamos ciertos prejuicios persistentes;
investigamos procedimientos formales para modificar sus entradas de datos críticos;
informamos a cada uno de los sujetos sobre la calidad de las respuestas de los grupos y de su
propio juego particular de respuestas; y finalmente, sugerimos modos que cada uno de los
sujetos podría adquirir conocimiento de sus propias idiosincrasias pasadas y por lo tanto
modificar su siguiente juego de evaluaciones.
Nosotros condujimos cuatro separados pero relacionados ejercicios durante el año
académico 1968-1969, y por identificación de propósitos, los listamos ahora:

Grupo 1: Un total de 139 estudiantes enrolados en un curso electivo, Modelos para


Planificación bajo Incertidumbre, en el segundo año del programa MBA de la
Universidad de Harvard.
Grupo 2: Un total de 800 estudiantes, comprendiendo el cuerpo entero de
estudiantes del primer año en el programa MBA de Harvard.
Grupo 3: Un total de 67 “voluntarios” del Programa Gerencial Avanzado de la
Escuela de Negocios de Harvard.
Grupo 4: Un total de 60 estudiantes enrolados en un curso de análisis de decisión
dado en la Escuela de Graduados en Artes y Ciencias de Harvard y el Instituto
Tecnológico de Massachusetts (MIT): económicas, estadística, ingeniería,
matemáticas, leyes, gobierno, diseño, relaciones sociales, investigación de
operaciones.
241

Todos los sujetos en estos cuatro grupos habían sido expuestos, previo a su participación
en este ejercicio de entrenamiento, para los análisis de decisión básicos fundamentales:
construcción y análisis de árboles de decisión, distribuciones de probabilidad previas y
posteriores, teoría de utilidad (ó preferencia) y valor de información.
El Grupo 1 sirvió como un estudio piloto. Cada estudiante fue requerido
independientemente a evaluar las distribuciones para 20 cantidades inciertas. Para este grupo
variamos nuestras instrucciones sobre probabilidades finales; esto es discutido más adelante
en este capítulo. Todas las 20 evaluaciones fueron completadas en una sesión sin ningún
reaprovechamiento intercalado.
Los grupos 2, 3 y 4 fueron todos tratados igual. En la primera sesión a cada sujeto le
fueron dadas 10 cantidades inciertas para evaluar. Los sujetos fueron luego informados sobre
la ejecución de la totalidad de los grupos y su propio desenvolvimiento particular. Una
segunda vuelta de 10 cantidades diferentes inciertas les fueron luego administradas.
La ejecución del grupo 1 y de los grupos 2, 3 y 4 en sus primeras vueltas fueran
extraordinariamente similares. Las ejecuciones de los grupos 2, 3 y 4 en sus segundas
vueltas, después de las sesiones de información y retroalimentación, fueron de nuevo
extraordinariamente similares; pero marcadas mejoras fueron notadas entre sus primeras y
segundas vueltas. Debido a la similaridad del comportamiento de todos los grupos
discutiremos y concentraremos nuestras observaciones en el desenvolvimiento detallado del
más grande de estos grupos.

El ejercicio y resultados antes del reaprovechamiento

Reproducimos aquí las instrucciones dadas a la mitad de la clase de primer año de MBA
(Grupo 2). Esta mitad recibió lo que llamamos forma B; la otra mitad recibió la forma A, la
que fue idéntica en contenido pero la cual usó diferentes cantidades inciertas.

Instrucciones para la Forma B

El propósito de este ejercicio es ver cuán bien usted como individuo y la clase como un todo pueden
evaluar distribuciones de probabilidad para Cantidades Inciertas (uq’s). Nosotros listaremos abajo 10
(uq’s) y usted será requerido a evaluar la media, el .25 fractile ?, el .75 fractile ?, y los valores
extremos de cada uq. (Para su conveniencia breves definiciones de estos términos son dados abajo).
Debido al tipo de uq usado, usted tendrá la oportunidad de comparar sus evaluaciones con los
verdaderos valores. Usted por tanto será capaz de ver si usted tiende a ser “demasiado estricto”,
“demasiado poco preciso”ó tendencioso hacia arriba ó hacia abajo en ciertos tipos de preguntas. Más
tarde usted será requerido a repetir este ejercicio con otros uq’s. Para este ejercicio usted tiene que
responder las preguntas independientemente sin consultar cualquier fuente de materiales aunque
algunos simples cálculos pueden ser deseables para ciertas preguntas. Su conocimiento es de interés
para nosotros no importando cuán vago el sea ó cuán incómodo usted se pueda sentir.
Definiciones de fractiles ? . . . [Omitidas]
Abajo hay 10 cantidades las cuales esperanzadoramente son cantidades inciertas para usted.
Usted va a entrar su evaluación de estas en cada una de las hojas proveídas. Llene cada pregunta lo
mejor que usted pueda con su conocimiento presente pero no busque más información ó las discuta
con otros aún después de entregar sus respuestas. Se esperará que usted entregue una copia de la hoja
de solución antes de la clase mañana, conserve la segunda copia para que usted tenga un record de sus
respuestas. [Los estudiantes usarán su copia retenida para puntearse a sí mismos. Esto será descrito
más adelante].

Los valores de algunas de las variables serán determinadas por las respuestas de los estudiantes de
primer año a las siguientes preguntas:
242

Preguntas

A. Prefiere usted bourbon ó scotch?


B. Favorece usted tomar tragos para todos los estudiantes graduados mientras están en la facultad sin
importar el campo de concentración?
C. Aceptaría usted jugar 50-50 donde usted podría perder $50 ó ganar $100?

Lista de Cantidades Inciertas

1.El porcentaje de estudiantes de primer año que responden, excluyendo a aquellos que nunca beben,
quienes prefieren el bourbon al scotch.
2.El porcentaje de estudiantes de primer año que responden a quienes favorecen tomar tragos para
todos los estudiantes graduados mientras están en la universidad no importando el campo de
concentración.
3. El porcentaje de estudiantes de primer año que respondieron quién aceptaría el juego en cuestión C
de arriba.
4. El porcentaje de los que respondieron expresando su opinión en una encuesta Gallup en Julio de
1968 buscando una muestra representativa de Americanos adultos quienes sintieron que si en una
escala completa de guerra fuera a comenzar en el Medio Oriente , los Estados Unidos enviarían
tropas a ayudar a Israel.
5. El porcentaje de los que expresaron una opinión sobre en Marzo de 1968 sobre una encuesta
Gallup buscando una muestra representativa de Americanos adultos quienes sintieron que a los
maestros de escuelas públicas les debería ser permitido unirse a sindicatos.
6. El número de “Médicos y Cirujanos” listados en las Páginas Amarillas de 1968 del directorio
telefónico de Boston y sus vecindades.
7. El número total de estudiantes actualmente enrolados en el Programa de Doctorado en la facultad
de Negocios de Harvard.
8. La producción total de huevos en millones en los Estados Unidos en 1965.
9. El número de automóviles extranjeros importados a los Estados Unidos en 1965.
10. Lo recolectado por pontaje en el Canal de Panamá en el año fiscal 1967 en millones de dólares.

[Nueva hoja]
FORMA B (Hoja para ser conservada)
Sección ___
Estudiante Número ___
Por favor ponga un cheque a una respuesta para cada una de la preguntas A, B y C:
A. Bebida Bourbon ___ (1) Scotch ___ (2) Nuca bebe ___ (3)
B. Tomar tragos A favor ___ (1) Se opone ___ (2)
C. Jugar 50-50 Acepta ___ (1) Rechaza ___ (2)

Por favor evalúe todos los 5 valores para cada una de las 10 variables abajo. Note que el número más
alto en cada línea está a la derecha. (Los decimales son aceptables para las respuestas. Donde un
porcentaje es requerido las respuestas debería ser, sin embargo, de la forma 97.2 para 97.2 %, no .972.
Cantidad Incierta Fractiles ?
1. Bourbon (%).................................................................................................... (.01) (.25) (.75) (.99)

Memorandum de recuperación
243

Casi una semana después que los estudiantes completaron la Forma B el siguiente
memorandum fue distribuido a los estudiantes. Este memorandum fue también discutido en
clase antes que a los estudiantes les fuera dada la Forma A para completar.

El propósito de este memorandum es:


1. Describir la ejecución en agregado de aquellos completando la Forma B.
2. Indicar prejuicios sistemáticos en las respuestas.
3. Posibilitarlo a usted para calibrarse a sí mismo antes que usted repita este ejercicio una vez más con
la Forma A.

Tabla 1. Respuestas a las preguntas en la Forma B.


Número Título Valor verdadero
1 Bourbon 42-5
2 Tomar tragos 65.5
3 Juego 50-50 55.2
4 Israel 10-4
5 Sindicatos de maestros 63.5
6 Doctores listados 2,600
7 Estudiantes de doctorado 235
8 Huevos producidos (millones) 64,588
9 Automóviles importados (miles) 697
10 Ingreso por renta del canal (millones 82.3

Como usted recuerda para cada pregunta usted evaluó cinco fractiles ?: .01, .25, .50, .75, .99. Estos
fractiles ? dividen el intervalo de la línea dentro de seis categoría:
Categoría 1: Todos los números debajo del fractile .01
2: Todos los números entre los fractiles .01 y .25
3: Todos los números entre los fractiles .25 y .50
4. Todos los números entre los fractiles .50 y .75
5. Todos los números entre los fractiles .75 y .99
6. Todos los números arriba del fractile .99
Para cualquiera de las 10 preguntas, una vez que usted especifica sus cinco fractiles (ó
equivalentemente, una vez usted especifica las seis categorías) es posible indicar en cual categoría el
valor verdadero actual cae. Por ejemplo, el estudiante John Doe dio los siguientes fractiles para la
pregunta bourbon-scotch:

Evaluación: (.01) (.25) (.50) (.75) (.99)


5 15 30 40 45

El porcentaje actual favoreciendo el bourbon vino a ser 42.5; de aquí que en esta pregunta la
respuesta de r. Doe cae en la categoría 5.
Ahora antes de que discutamos más lejos cuán bien (ó pobremente) la clase lo hizo en
este ejercicio, por favor refiérase a su hoja de respuesta y para cada pregunta marque cuál de
sus seis categorías contiene el valor verdadero.

En la Tabla 1 listamos las respuestas verdaderas.


Análisis de los Rangos Intercuartiles ?

Permítasenos primero mirar a las columnas 3 y 4 de la Tabla 2. Para cualquier pregunta


particular usted debería haber escogido sus fractiles .25, .50, .75 de tal manera que en su
consideración sería tan probable que la verdadera respuesta caería dentro del rango .25 a .75
(por ejemplo, dentro de las categorías 3 y 4) como caería fuera de este rango. En una
244

totalidad de 1000 preguntas (100 x 10) tendríamos entonces una (matemática) expectativa de
500 respuestas en las categorías 3 u 4. Nosotros conseguimos 334 de tales respuestas. No
muy mal. Esta discrepancia podría posiblemente ser una aberración estadística pero lo
dudamos. Por ejemplo, un cuestionario similar les fue dado hace algunas semanas a una clase
grande de segundo año de MBA – ellos respondieron 20 en lugar de 10 preguntas – y el 33%
de sus respuestas cayeron dentro de las categorías 3 y 4. No deseamos implicar por ninguna
razón que el 33% es una “semi-constante universal” pero es más bien una sorprendente
coincidencia que se expresa observando. (El porcentaje correspondiente para aquellos que
completaron primero la Forma A fue 33%; el (Grupo 3) de AMP también produjo la figura
de 33% pero los estudiantes de artes y ciencias (Grupo 4) registraron una respuesta de 36%).

Tabla 2. Distribución de las respuestas de los sujetos a la Forma B por categoría


.01 .25 .50 .75 Arriba
Debajo a a a a de
Número Título de .01 .25 .50 .75 .99 .99 Total
1 Bourbon 3 16 20 40 11 10 100
2 Tomar tragos 15 12 35 19 10 9 100
3 Juego 50 – 50 11 8 28 29 13 11 100
4 Israel 51 41 6 1 1 0 100
5 Sindicato de maestros 1 1 13 28 29 28 100
6 Listado de doctores 24 14 12 13 10 27 100
7 Estudiantes de doctorado 1 3 11 9 15 61 100
8 Huevos producidos 9 2 13 10 8 58 100
9 Automóviles importados 25 15 18 9 7 26 100
10 Ingresos por el Canal 18 8 8 12 16 38 100

Total 158 120 164 170 120 268 1,000


Frecuencia esperada 10 240 250 250 240 10 1,000

En el agregado, los intervalos de los fractiles ? del .25 al .75 estuvieron muy apretados.
Justo como muchos valores verdaderos hubieran caído fuera de los rangos del intercuartil ?
(el rango de .25 a .75) cayó adentro, pero a propósito tanto como el doble cayeron afuera
como adentro. Pero no es los suficiente bueno para nosotros decir, “Disemine sus rangos del
intercuartil ?” porque existe mucha variación de pregunta a pregunta y de individuo a
individuo.
Comparemos las preguntas 1 y 10. En la pregunta 1 usted podría sentir que conoce
mucho sobre las preferencias de beber de sus amigos compañeros de clase – al menos mucho
en comparación a lo que usted conoce sobre los ingresos del Canal. Usted podría sentir que
por consiguiente existe una gran probabilidad (ex ante) para usted capturar en su rango
intercuartil la verdadera proporción de bourbon que los verdaderos ingresos del Canal. Pero
es ésta la manera que usted sentiría? Si usted siente ese modo ex ante, usted habría
diseminado su rango intercuartil por ingresos del Canal. Cuando usted llene la Forma A
asegúrese que usted siente, sin importar su estado de información, que:
a. Para cualquier pregunta es tan probable que el valor verdadero caiga adentro ó afuera
de su rango intercuartil; y
b. Es tan probable que el verdadero valor caerá dentro de su rango intercuartil para una
pregunta que usted conoce mucho como para una pregunta que usted conoce poco sobre ella.
(Este último punto sobre las preguntas 1 a 10 fue insensatamente discutido con los
estudiantes de Artes y Ciencias antes mejor que después que ellos completaron su primera
245

vuelta de evaluaciones. Esto podría haber contado para la discrepancia entre 33% y 36%.
Veremos un mucho más dramático cambio cuando miremos las probabilidades finales).
Algunos de ustedes fueron realmente demasiado rígidos. Por ejemplo, 13 de 100
capturaron 0 ó 1 valores verdaderos en sus rangos de 10 intercuartiles. Para cada individuo
haga que su punteo intercuartil sea el número de veces que los valores verdaderos caen sus
rangos de intercuartil. Los punteos cerca de 0 implican que el individuo es “demasiado
rígido”; los punteos cerca de 10 implican que el individuo es “demasiado flojo”; y punteos
cerca de 5 implican que él está “justo casi correcto”. La distribución de punteos se da en la
Tabla 3. En la tercera columna de la tabla listamos el número esperado de participantes
quienes darían cualquier punteo intercuartil bajo la simplificada suposición que existe un .33
de probabilidad de que cualquier rango intercuartil incluya el valor verdadero y que éstas
respuestas dicótomas son independientes de pregunta a pregunta. Asegúrese de conseguir su
punteo intercuartil.

Tabla 3. Distribución de punteos intercuartiles para la Forma B


Número actual Número esperado
Punteo de de individuos
Intercuartil individuos usando p = .33
0 3 1.9
1 10 9.0
2 22 19.9
3 20 26.1
4 23 22.5
5 11 13.3
6 9 5.5
7 2 1.5
8 0 .3
9 0 .0
10 0 .0

Total 100 100.0

Análisis de Extremos

Presumiblemente usted fije sus fractiles .01 y .99 de tal forma que usted se “sorprendería”
con una respuesta realmente baja (respuesta categoría 1) y con una respuesta realmente alta
(respuesta categoría 6). En mil preguntas nosotros habríamos “esperado” un total de 20
sorpresas, 10 a la izquierda y 10 a la derecha (vea la Tabla 2). Hubieron un total de 426
sorpresas! Eso no solo lo sorprendería sino lo escandalizaría! Usted puede tomar alguna
pequeña comodidad, sin embargo, que ustedes no son tan malos como los de la clase de
segundo año (Grupo 1) a los que nos referimos arriba. Alrededor de 35 estudiantes fueron
requeridos, al igual que ustedes fueron, a listar fractiles de .01 a .99 para 20 preguntas. Ellos
registraron 46% de sorpresas – un poco peor que su 42.6%. Otros estudiantes fueron
requeridos a registrar fractiles de .001 a .999 y en vez de un “esperado” .2% de sorpresas
ellos registraron 40%. Otros 35 fueron instruidos en términos más bien vagos a listar valores
“mínimos” y “ máximos” – nosotros no sabemos realmente lo que eso significa – ellos
registraron 47% de sorpresas. Finalmente otros 35 fueron instruidos a dar valores
“asombrosamente bajos” y “asombrosamente altos” y ellos registraron 30% de sorpresas.
Evidentemente “asombrosamente bajos” es menor que “mínimos”.
246

Por el amor del cielo, Diseminen Aquellos Fractiles Extremos! Sean honestos con ustedes
mismos! Admitan lo que ustedes no saben!
Echemos una mirada a la pregunta 6. Existen 2600 doctores en medicina listados en las
páginas amarillas de Boston y vecindades. La mitad de ustedes estaría sorprendido de este
resultado. De esta mitad, una mitad fue sorprendida en el bajo final y una mitad en el alto
final. Cincuenta y ocho por ciento de ustedes fueron asombrados ante el fantásticamente
gran número de huevos producidos – pero aún nueve por ciento de ustedes fueron igualmente
asombrados ante el fantásticamente pequeño número de huevos producidos.

Tabla 4. Distribución de índices de sorpresa para la Forma B


Número actual Número esperado
Índice de de de individuos
sorpresa individuos usando p = .43
0 1 .4
1 9 2.7
2 15 9.3
3 13 18.7
4 17 24.6
5 15 22.3
6 16 14.0
7 4 6.0
8 9 1.7
9 1 .3
10 0 .0

Total 100 100.0

Permítasenos definir para cada individuo un índice de sorpresa el cual da el número de


veces (entre 10) que él registró una categoría 1 ó la respuesta 6. En el promedio sobre gran
cantidad de diferentes, preguntas independientes usted será sorprendido 1 de 50 veces. Los
índices de sorpresa de 0 ó 1 son lo que nos gustaría ver y existe causa para inquietar si este
índice de sorpresa le acierta a 3 ó más. La distribución de los índices de sorpresa está dada en
la Tabla 4. En la tercera columna de la Tabla listamos el número esperado de participantes
quienes registrarían índices de sorpresa dados bajo la suposición simplificada de que existe
un .43 de probabilidad de una sorpresa en cada pregunta y existe independencia de pregunta a
pregunta. Cuarenta y cinco (45) individuos fueron sorprendidos sobre al menos la mitad de
las 10 preguntas!
Para la típica cantidad incierta, imaginemos que la mayoría de ustedes desea evaluar una
curva de densidad (ó equivalente a una distribución acumulativa en forma de S vínculo
izquierdo) donde el punto más alto de la curva de densidad (ó la porción más empinada de la
curva acumulativa en forma de S) ocurre en algún lugar en el intervalo de su .25 a .75
fractiles. Un buen número de ustedes, nosotros imaginamos inadvertidamente, registró curvas
bimodales. Este debería ser el caso si la longitud de su intervalo de categoría 2 1 es menor
1
Haga que 1i designe la longitud de categoría 1. Tendríamos bimodalidad si 12 y 15 son cada uno menores que
(l3 + l4)/2. (Nota: Llamada de la página anterior).

que su intervalo categoría 3 y la longitud de su intervalo categoría 5 es menor que la longitud


de su intervalo categoría 4. Un caso en el punto sería el siguiente juego de evaluaciones
fractiles:
247

Fractile: .01 .25 .50 .75 .99

Evaluación: 5 15 30 40 45

Longitud de Categoría: 10 15 10 5

Tabla 5. Comparación de resultados en los rounds 1 y 2


Forma A________________ Forma B____________________
Round 1 Round 2 Round 1 Round 2
Valores cayendo dentro de
los rangos intercuartil (%) 32.9 40.3 33.4 46.4
Valores cayendo fuera de los
rangos de .01 a .99 (%) 38.8 24.9 42.6 22.2

Tabla 6. Comparaciones de resultados de las vueltas 1 y 2


Grupo 3_________________ Grupo 4____________________
Round 1 Round 2 Round 1 Round 2
Valores cayendo dentro de
Los rangos intercuartil (%) 33.4 44.8 35.6 42.5
Valores cayendo fuera de los
Rangos de .01 a .99 (%) 35.6 22.8 20.8 8.7

En la ilustración de arriba la relación de las longitudes del intervalo de probabilidad .98 (de .
01 a .99 fractiles) al intervalo de probabilidad .50 (de .25 a .75 fractiles) es (45-5/(40-15) ó
1.6. Este es un número demasiado pequeño para una curva unimodal. Por ejemplo, para la
normal, curva en forma de campana esta relación es alrededor de 3.5. Las relaciones de 2.5 a
4.5 puede servir como una guía gruesa – pero las guías deberían ser rotas a veces. Recuerde:
Diseminar aquellas distribuciones!

Resultados después del reaprovechamiento

Después de discutir en clase el memorandum de reaprovechamiento, cambiamos formas y


repetimos el ejercicio. Después de analizar las respuestas, distribuimos el siguiente
memorandum:

Memorandum número 2

Cada uno de ustedes ha ahora participado en la siguiente secuencia:


a. (Round 1): A ustedes se les dio una de las dos Formas (A ó B) y ustedes dieron evaluaciones
fractil para 10 cantidades inciertas;
b. (Reaprovechamiento): A ustedes entonces se les dieron los verdaderos valores de éstos diez
cuartiles y fueron requeridos a puntearse ustedes mismos sobre dos factores: (1) cuántas de sus
respuestas cayeron dentro de sus rangos intercuartil, y (2) cuántas de sus respuestas cayeron fuera de
sus rangos de .01 y .99. Ustedes también fueron informados sobre la ejecución agregada de la clase:
alrededor de dos veces como mucho las respuestas cayeron fuera de los rangos intercuartil como
cayeron dentro, y hubo un realmente sorprendente número de sorpresas – aproximadamente 40% de
las respuestas cayeron fuera de los rangos .01 y .99.
c. (Round 2): A ustedes se les dio la otra Forma y se les requirió las evaluaciones de fractil.
248

Tabla 7. Proporción de sorpresas para diferentes interpretaciones de “baja” y “alta”


Interpretación Interpretación Tamaño Porporción
De de de de
“bajo” “alto” la muestra sorpresas
Fractile - .01 Fractile - .99 44 .46
Fractile - .001 Fractile - .999 25 .40
Valor mínimo Valor máximo 35 .47
Asombrosamente bajo Asombrosamente alto 35 .38

Nosotros hemos ahora calculado sus respuestas para la parte (c) y están listas para
comentar sobre ejecución de agregado. Pero, primero que todo, listamos los verdaderos
valores de las cantidades inciertas para que usted pueda calibrarse a sí mismo [una tabla
presentando esta información fue mostrada en el memorandum].
Cuán bien lo hizo la clase como un todo? La sesión de reaprovechamiento ayudó? Ayudó
un poco pero no tanto como esperábamos. La mayoría de sus distribuciones son demasiado
rígidas. La Tabla 5 resume los resultados.
Si agregamos las Formas A y B, entonces el porcentaje de veces que los valores
verdaderos caen dentro de los rangos intercuartil saltaron de 33% a 43%. La dirección del
cambio es buena pero nosotros aún estamos avergonzados de ese 50% que nos habría
gustado. El porcentaje de veces que los valores verdaderos cayeron fuera de los valores
extremos (por ejemplo, los rangos .01 y .99) cayeron de un escandaloso 41% a un depresivo
23%. Algo tiene que ser hecho sobre esos finales! Necesitamos otra sesión de
reaprovechamiento y un tercer round de práctica; pero desafortunadamente esto no es
administrativamente factible. Nosotros proponemos empezar experimentos con otros grupos
para conseguir más evaluaciones realísticas de probabilidades finales.
(Para propósitos de comparación la Tabla 6 exhibe las ejecuciones antes versus después
de la AMP [Grupo 3] y de los estudiantes de Artes y Ciencias [Grupo 4]).

Más sobre los extremos finales

En el estudio piloto (Grupo 1) variamos las instrucciones concernientes a los extremos


finales en orden de ver que efectos tendría sobre las distribuciones de respuestas de
estadística. Todos nuestros sujetos, sin embargo, fueron requeridos a dar sus medianas de
juicio y dos cuartiles. Nuestros resultados son resumidos en las Tablas 7 y 8, las cuales
explicaremos en su oportunidad.
De los 139 sujetos, 44 fueron requeridos a dar fractiles de .01 y .99 y este subgrupo
registró 40% de sorpresas (más que el .2%). Treinta y cinco sujetos fueron requeridos a dar
un “valor mínimo” y un “valor máximo” y cuando algunos sujetos preguntaron por una
clarificación de lo que aquellos términos significaban, nosotros minimizamos las dificultades
con algún comentario evasivo, tal como, “Seguro ellos son términos vagos, pero trate de
responder la pregunta de todas maneras”. Nosotros les dimos el mismo ambiguo consejo a
los restantes 35 sujetos quienes fueron requeridos por valores “asombrosamente bajos” y
“asombrosamente altos”. Estos dos últimos grupos registraron 47% y 38% respectivamente.
Las diferentes instrucciones tuvieron algún efecto pero, como usted ve, no demasiado efecto.

Tabla 8. Distribución de evaluaciones “altas” para la pregunta 10


249

Interpretación de “alto”______________________________________
Puntos para el ganador .99 .999 Máximo Asombrosamente alto
<29 8 1 6 2
29 - 35 15 6 7 6
6 - 42 10 5 7 11
43 – 49 2 6 5 4
50 – 56 7 3 8 7
57 – 63 2 0 2 4
64 – 70 0 4 0 1

Total 44 25 35 35

Otra manera de examinar el efecto de estas cuatro instrucciones sobre los extremos es
mirar en detalle la Tabla 8, la cual dada la distribución de respuestas a los valores “altos” para
la siguiente cantidad: El número de puntos para el equipo ganador en el siguiente partido de
football Harvard-Dartmouth. (Esto fue preguntado una semana antes del partido). Por
ejemplo, de los 25 individuos a quienes se les pidió un fractil .999, 1 registró un punteo
menor que 29, 6 registraron punteos entre 29 y 35, 5 entre 36 y 42, etc. Parece como si el
término vago “máximo” es interpretado como un fractil .99 y el término vago
“asombrosamente alto” es interpretado como un fractil .999.
Nosotros no duplicamos estas instrucciones sobre valores extremos con los Grupos 2, 3 y
4; más bien, consistentemente requerimos a aquellos sujetos por fractiles .01 y .99.

22. Calibración de probabilidades: El estado del


arte en 1980
250

Sarah Lichtenstein, Baruch Fischoff y


Lawrence D Phillips

Desde el punto de vista subjetivista (de Finetti, 1937 / 1964), una probabilidad es un grado de
creencia en una proposición. Ella expresa un estado puramente interno, no existe
probabilidad “derecha”, “correcta” ú “objetiva” residiendo en algún lugar “en la realidad”
contra la cual el grado de creencia de uno pueda ser comparado. En muchas circunstancias,
sin embargo, puede llegar a ser posible verificar la verdad ó falsedad de la proposición a la
cual una probabilidad fue vinculada. Ahora, uno evalúa la probabilidad de la proposición
“lloverá mañana”. Mañana, uno mira al calibrador de lluvia para ver si ó no ha llovido.
Cuando es posible, tal verificación puede ser usada para determinar las adecuaciones de las
evaluaciones de la probabilidad.
Winkler y Murphy (1968b) han identificado dos clases de “bondad” en evaluaciones de la
probabilidad : bondad normativa, la cual refleja el grado al cual las evaluaciones expresan las
verdaderas creencias del asesor y conforme a los axiomas de la teoría de la probabilidad, y
bondad sustantiva, la cual refleja la cantidad de conocimiento del tópico del área contenida
en la evaluaciones. Este capítulo revisa la literatura concerniente sin embargo a otro aspecto
de bondad llamado calibración.
Si una persona evalúa la probabilidad de una proposición siendo verdadera como .7 y
más tarde encuentra que la proposición es falsa, esa en sí misma no invalida la evaluación.
Sin embargo, si un juez asigna .7 a 10,000 proposiciones independientes, solo 25 de las
cuales subsecuentemente son encontradas ser ciertas, existe algo errado con estas
evaluaciones. El atributo que a ellas les falta es llamado calibración; el también ha sido
llamado realismo (Brown & Shuford, 1973), realismo de confianza (Adams & Adams, 1961),
conveniencia de confianza (Oskamp, 1962), validez secundaria (Murphy & Winkler, 1971) y
veracidad (Murphy, 1973). Formalmente, un juez es calibrado si, a largo plazo, para todas las
proposiciones asignó una probabilidad dada, la proporción que es verdadera iguala la
probabilidad asignada. La calibración de los jueces pude ser empíricamente evaluada
observando sus evaluaciones de probabilidad, verificando las proposiciones asociadas y
luego observando la proporción verdadera en cada categoría de respuesta.
La literatura experimental sobre la calibración de asesores haciendo juicios de
probabilidad sobre proposiciones discretas es revisada en la primera sección de este capítulo.
La segunda sección mira a la calibración de funciones de densidad de probabilidad evaluadas
para cantidades numéricas inciertas. Aunque la calibración es esencialmente una propiedad
de individuos, la mayoría de los estudios revisados aquí han reportado datos agrupados a
través de asesores en orden de asegurar gran cantidad de datos necesarios para estimaciones
Esta es una versión revisada del trabajo que originalmente apareció en H. Jungernann y G. deZeeuw (Eds.),
Decision Making and Change in Human Affairs. Dordrecht-Holland: D. Reidel Publishing Co., 1977.
Reproducida por premiso.
estables de calibración.

Proposiciones discretas
251

Las proposiciones discretas pueden ser caracterizadas de acuerdo al número de alternativas


que ellas ofrecen:

Ninguna Alternativa: “Qué es ajenjo?” El asesor provee una respuesta, y luego da


la probabilidad de que la respuesta dada es correcta. El rango entero de respuestas
de probabilidad, de 0 a 1, es apropiado.
Una alternativa: “El ajenjo es una piedra preciosa. Cuál es la probabilidad de que
ésta declaración sea verdadera?” De nuevo, el rango relevante de la escala de
probabilidad es de 0 a 1.
Dos alternativas: “el ajenjo es (a) una piedra preciosa; (b) un licor”. Con el método
de medio rango, el asesor primero selecciona la alternativa más probable y luego
declara la probabilidad (≥ .5) que esta escogencia es correcta. Con el método del
medio rango, el sujeto da la probabilidad (de 0 a 1) que la alternativa pre-
especificada es correcta.
Tres alternativas: “El ajenjo es (a) una piedra preciosa; (b) un licor; (c) una isla
Caribeña; (1) el asesor selecciona la más simple probable alternativa y declara la
probabilidad que es correcta, usando una respuesta ≥ 1/k para k alternativas ó (2)
el asesor asigna probabilidades para todas las alternativas, usando el rango de 0 a
1.

Para todas estas variaciones, la calibración puede ser reportada vía una curva de
calibración. Tal curva es derivada como sigue:

1. Colecte muchas evaluaciones de probabilidad para puntos cuya respuesta correcta es


conocida ó será conocida dentro poco para el experimentador.
2. Evaluaciones de Grupos similares, usualmente dentro de rangos (por ejemplo, todas
las evaluaciones entre .60 y .69 son colocadas en la misma categoría).
3. Dentro de cada categoría calcule la proporción correcta (por ejemplo, la proporción
de los puntos para los cuales la proposición es verdadera ó la alternativa es correcta).
4. Para cada categoría, plotee la respuesta media (en la abcisa) contra la proporción
correcta (en la ordenada).

La perfecta calibración será mostrada por todos los puntos cayendo sobre la línea de
identidad.
Para las tareas de medio rango, las evaluaciones mal calibradas pueden ser ya sea muy
confiadas, por medio de las cuales las proporciones correctas son menores que las
probabilidades evaluadas, de tal forma que la curva de calibración cae debajo de la línea de
identidad, ó poco confiadas, por medio de las cuales las proporciones correctas son mayores
que las probabilidades evaluadas y la curva de calibración descansa arriba de la línea de
identidad.
Para las tareas de rango completo con cero ó una alternativa, la demasiada confianza tiene
dos posibles significados. Los asesores podrían ser demasiado confiados en la verdad de la
respuesta; tal exceso de confianza podría ser indicada por una curva de calibración cayendo
siempre debajo de la línea de identidad. Alternativamente, podrían ser muy confiados en su
habilidad para discriminar las verdaderas de las falsas proposiciones. Tal exceso de confianza
sería mostrado por una curva de calibración debajo de la línea de identidad en la región arriba
de .5 y debajo de la línea de identidad en la región debajo de .5.
Varias medidas numéricas de calibración han sido propuestas. Murphy (1973) ha
explorado el caso general de los puntos k-alternativos, empezando con el punteo Brier
252

(1950), una medida general de la totalidad de la bondad ó probabilidad de las evaluaciones


tal que el punteo más pequeño, el mejor. El punteo Brier para N puntos es:

Insertar aquí la fórmula de la página 308 del texto original

Donde r, es un vector de las probabilidades evaluadas para las alternativas k del punto i, r i =
(r1ir . . . rki)), ci, es el vector del resultado asociado, ci = (c1ir . . ., cji, . . ., cki), donde cji es igual a
uno para la verdadera alternativa y cero lo contrario, y el número primo ( ̀′) denota un vector
de columna. Murphy mostró que el punteo Brier puede ser partido dentro de tres partes
aditivas. Para hacerlo, escogió los N vectores de respuesta dentro de sub-colecciones T tal
que todos los vectores de respuesta, rt, en la sub-colección t son idénticas. Hagamos que nt
sea el número de respuestas en la sub-colección t, y dejemos que ct‾ sea el vector de
proporción correcta para la sub-colección t:

Insertar aquí la segunda fórmula de la página 308 del texto original

Haga que c‾ sea el vector de proporción correcta a través de todas las respuestas,

Insertar aquí la tercera fórmula de la página 308 del texto original

Finalmente, haga que u sea el vector de unidad, un vector de fila cuyos k elementos son
todos uno.
Entonces la partición de Murphy del punteo Brier es:

Insertar aquí la primera fórmula de la página 309 del texto original

El primer término no es una función de las evaluaciones de probabilidad; más bien, el


refleja la frecuencia relativa de los eventos verdaderos a través de k alternativas. Por ejemplo,
suponga que todos los puntos que están siendo evaluados tuvieran las dos alternativas,
[lluvia, no lluvia]. Entonces el primer término de la partición es una función de la proporción
base de lluvia a través de N puntos (ó días). Si siempre (ó nunca), llovió este término sería
cero. Su máximo valor, (k – 1)/k, indicaría máxima incertidumbre sobre la ocurrencia de
lluvia. El segundo término es una medida de calibración, el promedio pesado de la diferencia
al cuadrado entre las respuestas en una categoría y la proporción correcta esa categoría. El
tercer término, llamado resolución, refleja la habilidad del asesor para escoger los eventos
dentro de sub-categorías para las cuales la proporción correcta es diferente de la completa
proporción correcta.
La partición de Murphy fue designada para predicciones repetidas del mismo juego de
eventos (por ejemplo, lluvia vrs. no lluvia). Cuando las alternativas no tienen significado
común a través de los puntos (por ejemplo, en un examen de escogencia múltiple), entonces
todo lo que el primer término indica es la extensión a la cual la respuesta correcta aparece
igualmente a menudo como la primera, segunda, etc., alternativa.
Cuando solo una respuesta por punto es punteada, la partición de Murphy (Murphy, 1972)
se reduce a:

Insertar aquí la segunda fórmula de la página 309 del texto original


Donde c‾ es la proporción total correcta y c‾t es la proporción correcta en la sub-categoría t.
Cuando las respuestas punteadas son las respuestas que son mayores que ó iguales a .5 (como
con las dos alternativas, tarea de rango medio), el primer término refleja la habilidad del
253

sujeto para coger la alternativa correcta y por tanto podría ser llamado conocimiento. Como
antes, el segundo término mide la calibración y el tercero la resolución.
Similares medidas de calibración han sido propuestas por Adams y Adams (1961) y por
Oskamp (1962). Ninguna de estas medidas de calibración discrimina entre exceso de
confianza y poca confianza. Las propiedades de muestreo de estas medidas no son conocidas.

Investigación meteorológica

En 1906, W. Ernest Cooke, astrónomo gubernamental de Australia Occidental, recomendó


que cada predicción meteorológica sea acompañada por un simple número que “indicaría,
aproximadamente, el peso ó grado de probabilidad el cual el pronosticador mismo vincula a
esa particular predicción”. Cooke, 1906b, p. 274). El reportó (Cooke, 1906a, 1906b) los
resultados de 1,951 predicciones. De éstos a los cuales él había asignado el más alto grado de
probabilidad (“casi cierto de ser verificado”), .985 fueron correctos. Para su grado intermedio
de probabilidad (“probabilidad normal”), .938 fueron correctos, mientras que para su más
bajo grado de probabilidad (“dudoso”), .787 fueron correctos.
En 1951, Williams preguntó a 8 profesionales si la agencia de pronosticadores en Salt
Lake City para evaluar la probabilidad de precipitación por cada uno de los 1095 pronósticos
de 12 horas, usan uno de los números 0, .2, .4, .6, .8 y 1.0. A través de la mayoría del rango,
la proporción de los días de precipitación fue más baja que la probabilidad asignada. Esto
podría reflejar una claramente natural forma de parapetarse en pronunciamientos públicos. La
gente está mucho más proclive a criticar un pronóstico del clima que los deja sin una sombría
cuando llueve que uno que los conduce a llevar una sombría en días secos.
Similares resultados emergieron de un estudio efectuado por Murphy y Winkler (1974).
Sus pronosticadores evaluaron la probabilidad de precipitación para el día siguiente dos
veces, antes y después de ver el resultado de un sistema computarizado de predicción del
clima (PEATMOS). Las 7,188 evaluaciones (antes y después de PEATMOS) mostró la
misma sobre-estimación de la probabilidad de lluvia encontrada por Williams.
Sanders (1958) coleccionó 12,635 predicciones, usando las 11 respuestas 0, .1, ... .9, 1.0,
para una variedad de eventos dicotomizados : dirección del viento, velocidad del viento,
aguaceros, temperaturas, cantidad de nubes, techo, visibilidad, ocurrencia de precipitación,
tipo de precipitación, y tormenta eléctrica. Estos datos revelaron solo una ligera tendencia de
las evaluaciones de probabilidad de los pronosticadores que excedieron la proporción de los
eventos climáticos que ocurrieron. 1 Root (1962) reportó un patrón simétrico de calibración
de 4,138 pronósticos de precipitación: Probabilidades evaluadas estuvieron muy bajas en el
rango bajo y muy altas en el rango alto, relativas a las frecuencias observadas.
Winkler y Musrphy (1968a) reportó curvas de calibración par un año entero de
predicciones de precipitación en Haartford, Connecticut. Cada pronóstico fue ya sea para un
período de tiempo de 6 horas ó 12 horas, con un tiempo dominante variando de 5 a 44 horas.
Desafortunadamente, no quedó claro si los pronosticadores habían incluido “un gráfico de
precipitación” (menor de .01 pulgada) en sus predicciones. Los datos fueron analizados dos
veces, una vez asumiendo que “la precipitación” incluyó la ocurrencia de gráficos otra vez
sin gráficos. La inclusión ó exclusión de gráficos tenía un efecto sustancial sobre la
calibración, como lo hizo el período de tiempo. Pronósticos de 6 horas con gráficos incluidos
1
Las referencias de Cooke (1906), Williams (1951), y Sanders (1958) fueron traídas a nuestra atención por
Raiffa (1969),
y pronósticos de 12 horas excluyendo gráficos exhibieron excelente calibración. La curva de
calibración para pronósticos de 12 horas con gráficos descansa arriba de la línea de identidad;
254

la curva para pronósticos de 6 horas excluyendo gráficos descansa bien debajo de ella. Las
variaciones en el tiempo dominante no afectaron la calibración.

Insertar aquí la Figura 1 de la página 311 del texto original

Figura 1. Datos de calibración para pronósticos de precipitación. El número de pronósticos


está mostrado para cada punto. (Fuente: Murphy & Winkler, 1977a).

Pronosticadores del National Weather Service han estado expresando sus pronósticos de
ocurrencia de precipitación en términos probabilísticos desde 1965. La calibración para
algunas partes de esta masiva base de datos ha sido publicada (Murphy & Winkler, 1977a;
U. S. Weather Bureau, 1969). Con los años la calibración ha mejorado. La Figura 1 muestra
la calibración por 24,859 pronosticadores de precipitación hecha en Chicago durante los
cuatro años finalizando en junio de 1976. Esto muestra extraordinariamente buena
calibración; Murphy (1980) dice que los datos para los recientes años son aún mejores! El
atribuye esta ejecución superior a la experiencia con evaluación de probabilidad que los
pronosticadores han ganado con los años y al hecho de que estos datos fueron recopilados del
desenvolvimiento real en el trabajo.

Investigación temprana en el laboratorio

En 1957, Adams reportó la calibración de sujetos quienes usaron una escala de confianza de
11 puntos. El sujeto fue “instruido a expresar su confianza en términos del porcentaje de
respuestas, hecho a ese nivel particular de confianza, que él esperó ser correcto. . . . De estas
respuestas hechas con confianza p, alrededor de p% serían correctas” (pp. 432-433).
En la tarea de Adams, cada una de las 40 palabras fueron presentadas tachistoscopically ?
10 veces sucesivamente, con creciente iluminación cada vez, a 10 sujetos. Después de cada
exposición los sujetos escribieron el trabajo que ellos pensaron que vieron y dieron un juicio
de confianza. La curva de calibración resultante mostró que las proporciones que fueron
correctas grandemente excedieron las clasificaciones de la confianza a lo largo de la entera
escala de respuesta (excepto por las respuestas de 100). Gran precaución debe ser tomada en
la interpretación de estos datos. Debido a que cada una de las palabras fue mostrada 10 veces,
las respuestas son altamente interdependientes. No es conocido cuál efecto tal
interdependencia tiene sobre la calibración. Los sujetos pueden haber escogido “abstenerse”
en anteriores presentaciones, no dispuestos a dar una respuesta alta cuando ellos sabían que la
misma palabra que la misma palabra sería presentada varias veces más.
El siguiente año, Adams y Adams (1958) reportaron un experimento de entrenamiento,
usando la misma escala de respuesta pero una nueva, tres alternativas, tarea de respuesta
simple. Para cada una de los 156 pares de palabras por sesión, los sujetos fueron preguntados
si las palabras eran antónimos, sinónimos ó sin relación. Los punteos medios de calibración
(basados en la absoluta diferencia, rt – c‫־‬t ) de 14 sujetos experimentales, a quienes les
fueron mostradas cuentas de calibración y curvas de calibración después de cada una de las
cinco sesiones, decrementadas en 48% de la primera sesión a la última. Seis sujetos de
control, cuya sola retroalimentación fue una cuenta de sus respuestas no punteadas, mostró
un 36% de incremento medio en punteos discrepantes.
Adams y Adams (1961) discutió muchos aspectos de calibración (usando el término
realismo de confianza), anticipando mucho del trabajo hecho por otros en años recientes, y
presentó más partes de datos, incluyendo la excesivamente muy confiable curva de
calibración de un esquizofrénico que creía que él era Jesucristo. En una tarea de aprendizaje
de sílabas sin sentido, ellos encontraron gran exceso de confianza en le primer intento y
255

mejoramiento después de 16 intentos. Ellos también describieron brevemente una


transferencia de entrenamiento de aprendizaje: En el día 1, los sujetos tomaron 108
decisiones sobre el porcentaje de puntos azules en un arreglo de puntos azules y rojos. En los
días 2 y 4, los sujetos decidieron sobre la verdad o falsedad de 250 declaraciones de
conocimiento general. En el día 3, ellos levantaron pesas, con los ojos vendados. En el día 5,
ellos tomaron 256 decisiones (sinónimos, antónimos, ó no relacionados) sobre pares de
palabras. Ocho sujetos experimentales, a quienes se les dio retroalimentación de calibración
después de cada uno de los primeros cuatro días, mostraron en el quinto día mostraron una
media absoluta de discrepancia del punteo significantemente menor que esos 8 sujetos de
control (sin retroalimentación), sugiriendo alguna transferencia de entrenamiento.
Finalmente, Adams y Adams reportaron que a través de 56 sujetos tomando un examen final
de escogencia múltiple en psicología elemental, la calibración más pobre fue asociada con un
miedo enorme a fallar (r = .36). Ni el conocimiento ni el exceso de confianza fueron
relacionados con el miedo de fallar.
Oskamp (1962) presentó sujetos con perfiles de 200 MMPI 2 como estímulos. La mitad
de los perfiles fueron de hombres admitidos a un hospital de la Administración de Veteranos
(VA) por razones psiquiátricas; los otros fueron de hombres admitidos por razones puramente
médicas. La tarea de los sujetos fue decidir, para cada perfil, si el status del paciente fue
psiquiátrico ó médico y establecer la probabilidad de que sus decisiones fueran correctas.
Cada perfil ha sido categorizado independientemente como difícil (61 perfiles), mediano
(88), ó fácil (51) sobre las bases de un sistema de clasificación derivado actuarialmente, el
cual correctamente identificó 57%, 69% y 92% en los perfiles difícil, mediano y fácil,
respectivamente.
Todos los 200 perfiles fueron juzgados por tres grupos de sujetos: 28 no graduados
especializándose en psicología, 23 entrenándose en psicología clínica trabajando en un
hospital de la Administración de Veteranos (VA) y 21 experimentados psicólogos clínicos.
Los 28 jueces inexpertos fueron más tarde divididos dentro de dos grupos combinados a
quienes se les dieron los mismos perfiles de nuevo. La mitad fueron entrenados durante esta
segunda ronda para mejorar la exactitud; el resto fueron entrenados para mejorar la
calibración.
Oskamp usó tres medidas de la ejecución de los sujetos: exactitud (porcentaje correcto),
confianza (media probabilidad de respuesta) y conveniencia de confianza (un punteo de
calibración):

Insertar aquí la fórmula de la página 313 del texto original

Todos los tres grupos tendieron a ser excesivamente confiados, especialmente los no
graduados en sus primera sesión (exactitud 70%, confianza .78). Sin embargo, todos los tres
grupos bajos en confianza en los perfiles fáciles (exactitud 87%, confianza .83).
Los sujetos entrenados para exactitud incrementaron su exactitud de 67% a 73%,
aproximando su nivel de confianza, .78, el cual no cambió como un resultado del
entrenamiento. 3 Los sujetos entrenados para calibración bajaron su confianza de .78 a .74,
trayéndola más cerca de su exactitud, 68%, la cual permanece invariable. Como debería
esperarse de estos cambios, el punteo de calibración de ambos grupos mejoró.
2
La MMPI (Inventario de Personalidad Multifásica de Minnesota) es un inventario de personalidad
ampliamente usado para la diagnosis psiquiátrica. Un perfil es un gráfico de 13 sub-punteos del inventario.
3
Los entusiastas del MMPI podrían notar que con este entrenamiento mínimo los no graduados se
mostraron tan altos en exactitud como los mejores expertos ó los mejores en sistemas de predicción actuarial.
Investigación de la señal de detección
256

En días tempranos la investigación de la señal de detección, los investigadores vieron la


posibilidad de usar clasificaciones de confianza más que respuestas sí ó no en orden de
características de operar (ROC). Swets, Tanner y Birdsall (1961) requirieron cuatro
observadores para indicar su confianza de que ellos habían oído ruido de señal positiva más
bien que ruido solo por cada uno de los 1,200 intentos. Aunque tres de los cuatro sujetos
fueron terriblemente calibrados, las cuatro curvas de calibración fueron ampliamente
diferentes. Un sujeto exhibió una severa tendencia a asignar muy pequeños probabilidades
(por ejemplo, la señal estuvo presente sobre el 70% de las veces cuando ese sujeto usó la
categoría de respuesta “.05 - .19”).
Clarke (1960) presentó una de cinco diferentes palabras, mezcladas con ruido, a los
escuchas a través de audífonos. Los escuchas seleccionaron la palabra que ellos pensaron que
oyeron y entonces clasificaron su confianza indicando una de cinco categorías definidas por
partir la escala de probabilidad dentro de cinco rangos. Después de cada una de las 12
pruebas prácticas de 75 puntos, los escuchas clasificaron sus propios resultados y notaron que
el porcentaje de identificaciones correctas en cada categoría de clasificación, por lo tanto
permitiéndoles cambiar las estrategias en la siguiente prueba. Clarke encontró que aunque
todos los cinco escuchas parecieron bien calibrados cuando los datos fueron promediados
sobre las cinco palabras de estímulo, los análisis para palabras individuales mostraron que los
escuchas tendieron a un exceso de confianza por palabras de relativamente alta
inteligibilidad.
Pollack y Decker (1958) usaron una verbalmente definida escala de clasificación de
confianza de 6 puntos cuyo rango va de “Positivo yo recibí el mensaje correctamente” a
“Positivo yo recibí el mensaje incorrectamente”. Con esta escala de clasificación es
imposible determinar si un individuo está bien calibrado, pero es posible ver cambios en la
calibración a través de condiciones. Las curvas de calibración para palabras fáciles
generalmente se descansan arriba de aquellas para palabras difíciles, no importando la
proporción señal-a-ruido, y las curvas para altas proporciones de señal-a-ruido descansan
arriba de aquellas para bajas proporciones de señal-a-ruido sin importar la dificultad de la
palabra.
En la mayoría de estos estudios, la calibración fue de interés secundario, la pregunta
importante fue si las clasificaciones de confianza conducirían a las mismas curvas ROC
como los procedimientos Si-No. En 1966, Green y Swets concluyeron que, en general, las
escalas de clasificación y los procedimientos Si-No conducen a casi idénticas curvas ROC.
Desde entonces, los estudios de calibración han desaparecido de la literatura de detección de
señal.

Reciente investigación de laboratorio

Exceso de confianza. El más penetrante descubrimiento en reciente investigación es que las


gentes tienen un exceso de confianza con los puntos de conocimiento general de moderada ó
extrema dificultad. Algunos resultados típicos mostrando exceso de confianza son
presentados en la Figura 2. Hazard y Peterson (1973) requirieron 40 miembros del personal
de las fuerzas armadas estudiando en la Escuela de Inteligencia de Defensa para responder
con probabilidades ó con posibilidades a 50 temas de dos alternativas de conocimiento
general (por ejemplo, “Cuál revista tenía la circulación más grande en 1970, Playboy ó
Time?). Lichtenstein (no publicado) encontró similares resultados, usando los mismos temas
pero solo la respuesta de probabilidad, con 19 empleados del Instituto de Investigación de
Oregon, como lo hicieron Phillips y Wright (1977) con diferentes temas, usando estudiantes
no británicos no graduados como sujetos.
257

Otros numerosos estudios de conocimiento general han mostrado el mismo exceso de


confianza (Fischoff, Slovic & Lichtenstein, 1977; Koriat, Lichtenstein & Fischoff, 1980;
Lichtenstein & Fischoff, 1977, 1980a, 1980b; Nickerson & McGoldrick, 1965). Cambridge y
Shreckengost (1980) encontraron exceso de confianza con analistas de la Agencia Central de
Inteligencia (CIA). Fischoff y Slovic (1980) encontraron severo exceso de confianza usando
una variedad de imposibles ó casi imposibles tareas (por ejemplo, prediciendo a los
ganadores en carreras de caballos de 1,206 metros, diagnosticar la malignidad de úlceras).
Pitz (1974) reportó exceso de confianza usando un método de rango completo.

Insertar aquí la Figura 2 de la página 315 del texto original.


Figura 2. Calibración para rango completo, temas de conocimiento general.

Fischoff, Slovic y Lichtenstein (1977) se centraron en la conveniencia de expresiones de


incertidumbre. Usando una variedad de métodos (sin alternativas, una alternativa y dos
alternativas con la mitad del rango y el rango completo), ellos encontraron que solo el 72% al
83% de los temas a los cuales las respuestas de 1.0 que fueron dadas fueron correctas. En las
tareas de rango completo, los temas que asignaron el otro extremo de respuesta, cero, fueron
correctos 20% a 30% del tiempo. Usando una respuesta de posibilidades con corrigió el
exceso de confianza. Las respuestas que asignaron posibilidades de 1,000:1 de estar correctas
fueron solo 81% a 88% correctas; para posibilidades de 1,000,000:1 la alternativa correcta
fue escogida solo 90% a 96% del tiempo. Los sujetos no mostraron renuencia a usar
posibilidades extremas; en uno de los experimentos casi un cuarto de las respuestas fueron
1,000:1 ó mayores. Posteriores análisis mostraron que el exceso de confianza extremo no fue
confinado a solo unos pocos sujetos ó a unos pocos temas.

El efecto de la dificultad. El exceso de confianza es más extremo con tareas de gran


dificultad (Clarke, 1960; Nickerson & Mc}Goldrick, 1965; Pitz, 1974). Con tareas
esencialmente imposibles (discriminando entre escritura Europea y Americana, dibujos de
niños asiáticos y europeos y elevación y caída de precios de acciones) las curvas de
calibración no se elevan del todo; para todas las probabilidades evaluadas, la proporción de
alternativas correctas escogidas estuvo cerca de .5 (Lichtenstein & Fischoff, 1977). Los
sujetos no estuvieron reacios a usar altas probabilidades en éstos casos; 70% a 80% de todas
las respuestas fueron mayores de .5.
A medida que las tareas se vuelven más fáciles, el exceso de confianza se reduce.
Lichtenstein y Fischoff (1977) permitieron a un grupo de sujetos en la tarea de
discriminación de la escritura estudiar un correctamente etiquetado juego de estímulos de
muestra antes de hacer sus evaluaciones de probabilidad. Esta experiencia hizo la tarea
mucho más fácil (71% correcto vrs. 51% para el grupo de no estudio) y el grupo de estudio
estuvo levemente con exceso de confianza. Lichtenstein y Fischoff (1977) ejecutaron análisis
post hoc del efecto de dificultad en la calibración usando dos grandes colecciones de datos
del conocimiento general, tareas de dos alternativas de medio rango. Ellos separaron temas
fáciles (aquellos para los cuales la mayoría de los sujetos escoge la alternativa correcta) de
los temas difíciles y sujetos informados (aquellos quienes seleccionaron las alternativas más
correctas) de los sujetos menos informados. Ellos encontraron un decremento sistemático en
el exceso de confianza cuando el porcentaje correcto se incrementó. Ciertamente, la mayoría
de los sujetos respondiendo a los temas más fáciles fueron bajos en confianza (por ejemplo,
el 90% correcto cuando responden con una probabilidad de .80. Este descubrimiento fue
repetido con dos nuevos grupos de sujetos a quienes se les dio juegos de temas escogidos
para ser difíciles ó fáciles sobre las bases de la ejecución previa de los sujetos. Las curvas de
258

calibración resultantes son mostradas en la Figura 3, a lo largo con las correspondientes


curvas de calibración de los análisis post hoc.

Insertar aquí la Figura 3 de la página 317 del texto original.

Figura 3. Calibración para pruebas fáciles y difíciles y para sub-sets de una prueba fácil y difícil.

En la investigación citada, la dificultad fue definida sobre las bases del desenvolvimiento
de los sujetos (Clarke, 1960; Lichtenstein & Fischoff, 1977). Más recientemente,
Lichtenstein y Bischoff (1980a), siguiendo la dirección de Oskamp (1962), desarrollaron un
juego de 500 dos-alternativas de temas de conocimiento general par las cuales la dificultad
podría ser definida independientemente. Los temas fueron de tres tipos: Cuál de las dos
ciudades, estados, países ó continentes es más populoso (por ejemplo, Las Vegas vrs. Miami),
cuál de las dos ciudades está más lejana en distancia de una tercera ciudad (por ejemplo, “es
Melbourne más distante de Roma ó de Tokyo?”), y cuál evento histórico sucedió primero
(por ejemplo, la Carta Magna firmada vrs. el nacimiento de Mohammed). Por lo tanto, cada
tema estuvo asociado con dos números (poblaciones, distancias, ó tiempo transcurrido al
presente). La proporción del más grande al más pequeño de aquellos números fue tomada
como una medida de dificultad: Los 250 temas con las proporciones más grandes fueron
designadas como fáciles; los restantes como difíciles. Esta clasificación a priori fue bastante
exitosa; para alrededor de 35 sujetos, el porcentaje correcto fue 81 para los temas fáciles y 58
para los temas difíciles. Estos resultados, también, mostraron exceso de confianza para los
temas difíciles y baja confianza para los temas fáciles.
El efecto difícil-fácil parece surgir de la inhabilidad de los asesores para apreciar cuán
difícil ó fácil es una tarea. Phillips y Chew (no publicado) no encontraron correlación a
través de los sujetos entre el porcentaje correcto y las clasificaciones de los sujetos en una
escala de 11 puntos de la dificultad de un set de temas completados. Sin embargo, los sujetos
dan diferentes distribuciones de respuestas para diferentes tareas; Lichtenstein y Fischoff
(1977) reportaron una correlación de .91 entre el porcentaje correcto y la respuesta media a
través de 16 diferentes sets de datos. Pero las diferencias en distribuciones de respuesta son
menores de lo que ellas deberían ser: Sobre aquellos mismos sets de datos, la proporción
correcta varió de .43 a .92, mientras que la respuesta media varió solo de .65 a .86.
Ferrel y McGoey (1980) han desarrollado recientemente un modelo para la calibración de
evaluaciones discretas de probabilidad que dirigen el efecto difícil-fácil. El modelo, basado
en la teoría de detección de la señal, asume que los asesores transforman sus sentimientos de
incertidumbre subjetiva dentro de una decisión variable, X, la cual es dividida dentro de
secciones con valores cortados {x1}. Reportes de probabilidad del asesor r, siempre que X
caiga entre xi-1 y xi. Ferrell y McGoey asumen que, en la ausencia de retroalimentación sobre
la ejecución de la calibración, el asesor no cambiará el set de valores separados, {x i}, como
cambios en la dificultad de la tarea. Esta suposición conduce a una predicción de exceso de
confianza con temas difíciles y poca confianza en temas fáciles. La aplicación del modelo
para muchos de los datos de Lichtenstein y Fischoff (1977) mostraron un moderadamente
buen ajuste para ambas las curvas de calibración y la distribución de respuestas bajo la
suposición que los valores separados permanecen constantes cuando la dificultad cambió. Por
lo tanto, el efecto difícil-fácil es visto como una inhabilidad de cambiar los separados
involucrados en la transformación de sentimientos de incertidumbre a respuestas
probabilísticas.
259

Efecto de proporciones base. Las tareas de una alternativa (verdadero-falso) pueden ser
caracterizadas pueden ser caracterizadas por la proporción de declaraciones verdaderas en el
set de temas. Para estar bien calibrado en un particular set de temas uno debe tomar esta
información de proporción-base en cuenta. El modelo de la señal de detección de Ferrell y
McGoey (1980) asume que la calibración está afectada independientemente por (a) la
proporción de declaraciones verdaderas y (b) la habilidad del asesor para discriminar las
declaraciones verdaderas de las falsas. Suponiendo que los valores separados, [xi], son
mantenidos constantes, el modelo produce muy diferentes efectos en la calibración de
cambiar desde cambiar las proporciones de las declaraciones verdaderas (mientras sostiene la
discriminacionalidad constante). Ferrell y McGoey presentaron datos que soportan sus
modelos. Estudiantes en tres cursos de ingeniería evaluaron la probabilidad de que las
respuestas que ellos escribieron para sus exámenes serían juzgadas correctas por el
calificador. Los análisis post hoc separaron a los sujetos dentro de cuatro grupos (alto vrs.
bajo porcentaje de respuestas correctas y alta vrs. baja discriminacionalidad) revelaron las
diferencias de calibración predichas por el modelo. Datos sin publicar colectados por
Fischoff y Lichtenstein, mostrados en la Figura 4, también sugieren soporte para el modelo.
Cuatro grupos de sujetos recibieron 25 alternativas simples de temas de conocimiento general
(por ejemplo, “The Aeneid fue escrito por Homer”) difiriendo en la proporción de
declaraciones verdaderas: .08, .20, .50 y .71. Los grupos mostraron dramáticamente
diferentes curvas de calibración, de aproximadamente la misma forma como predijeron
Farrell y McGoey cambiante proporción base, el caso de la discriminacionalidad constante.

Diferencias individuales. Declaraciones no-calificadas que una persona está mejor calibrada
que otra persona son difíciles de hacer, por dos razones. Primera, al menos varios cientos de
respuestas son necesarias en orden de conseguir una medida de calibración estable. Segunda,
parece que la calibración depende fuertemente de la tarea, particularmente de la dificultad de
la tarea. Ciertamente, Lichtenstein y Fischoff (1980a) han sugerido que cada persona puede
tener una prueba “ideal” (por ejemplo, una prueba cuyo nivel de dificultad conduzca a ni un
exceso de confianza ni a una baja confianza, y por tanto la prueba la prueba sobre la cual la
persona será mejor calibrada). Sin embargo, la dificultad de la prueba “ideal” puede variar a
través de la gente. Por tanto, aún cuando una persona es mejor que otra en un particular set de
temas, el reverso puede ser cierto para un tema más difícil ó más fácil.

Insertar aquí la Figura 4 de la página 319 del texto original

Figura 4. El efecto en la calibración debido a cambios en el porcentaje de declaraciones


verdaderas. (Fuente: Fischoff & Lichtenstein, sin publicar).

Las comparaciones entre diferentes grupos de sujetos han generalmente mostrado pocas
diferencias cuando la dificultad fue controlada. Los estudiantes graduados en psicología,
quienes presumiblemente son más inteligentes que los sujetos usuales (no graduados quienes
respondieron un anuncio en el periódico de la universidad), no fueron diferentes en la
calibración (Lichtenstein & Fischoff, 1977). Tampoco hemos encontrado diferencias en la
calibración ó exceso de confianza entre hombres y mujeres (Lichtenstein & Fischoff, 1981).
Wright & Phillips (1976) estudiaron las relaciones entre varias medidas de la
personalidad (autoritarismo, conservatismo, dogmatismo e intolerancia a la ambigüedad), las
expresiones verbales de incertidumbre (por ejemplo, el número de palabras como las
improbablemente usadas en cortas respuestas escritas a 45 preguntas), y varias medidas de
calibración. Las únicas relaciones que ellos encontraron entre seis escalas de personalidad y
siete medidas de calibración fueron dos modestas correlaciones (.41 y .34) con la escala del
260

autoritarismo (F). La calibración de respuestas ciertas (por ejemplo, respuestas de 1.0) no


fueron correlacionadas con la calibración de respuestas de incertidumbre (< 1.0). Las
medidas de incertidumbre verbal no fueron correlacionadas con cualquiera de las medidas de
calibración numéricas. Los autores concluyeron que el pensar probabilístico ni es un simple
factor ni está fuertemente relacionado a diferencias individuales de las medidas de la
personalidad.
Wright et al. (1978) han estudiado diferencias culturales cruzadas en calibración. La
calibración de su muestra británica fue mostrada en la Figura 2 (identificada allí como
Phillips & Wright, 1977). Sus otras muestras fueron estudiantes de Hong Kong, Indonesia y
Malasia. Los grupos de Asia mostraron esencialmente curvas de calibración uniformes. Los
autores especularon que las filosofías asiáticas orientadas por el destino podrían contar para
estas diferencias.

Esfuerzos correctivos. Fischoff y Slovic (1980) trataron de prevenir el exceso de confianza en


la tarea de discriminar los dibujos de los niños asiáticos de los europeos usando
explícitamente instrucciones desalentadoras:

Todos los dibujos fueron tomados del Child Art Collection del Dr. Rhoda Kellogg, un líder
proponente de la teoría de que los niños de diferentes países y culturas hacen muy similares
dibujos. . . . Recuerde, puede ser muy posible hacer esta clase de discriminación. Trate de hacer lo
mejor que usted pueda. Pero si, en el extremo, usted se siente totalmente incierto sobre el origen de
todos estos dibujos, no vacile en responder con .5 para cada uno de ellos. (p. 792).

Estas instrucciones bajaron la respuesta media por alrededor de .05, pero el exceso de
confianza sustancial fue aún encontrado.
La motivación incrementará el mejoramiento de la calibración? Sieber (1974) comparó la
calibración de dos grupos de estudiantes en un set de curso-relacionado de temas de cuatro
alternativas. A un grupo se le dijo que ellos estaban tomando su examen de medio período. Al
otro grupo se le dijo que la prueba no era el examen de medio período pero se usaría para
prepararlos para el de medio período. Los dos grupos no difirieron en el número de
alternativas correctas escogidas, pero el grupo presumiblemente más motivado, cuya
ejecución determinaría su grado, mostró la peor calibración significantemente (mayor exceso
de confianza).
Los asesores de entrenamiento dándoles reaprovechamiento de información sobre su
calibración han mostrado resultados mezclados. Como se mencionó, Adams y Adams (1958)
encontraron modesto mejoramiento en la calibración después de cinco sesiones de
entrenamiento y, en un estudio posterior (1961), alguna generalización del entrenamiento.
Choo (1976), usando solo una sesión de entrenamiento con 75 temas de conocimiento
general de dos alternativas, encontró poco mejoramiento y ninguna generalización.
Lichtenstein y Fischoff (1980b) entrenaron dos grupos de sujetos dando extensa,
personalizada de reaprovechamiento de información después de cada una de ya sea 2 ó 10
sesiones compuestas de 200 temas de conocimiento general de 2 alternativas. Ellos
encontraron apreciable mejoramiento en la calibración, todas las cuales ocurrieron entre la
primera y la segunda sesión. Modesta generalización ocurrió para tareas con diferentes
niveles de dificultad, contenido, y modo de respuesta (cuatro más que dos alternativas), pero
no se encontró mejoramiento con una tarea de evaluación fractile (descrita en la siguiente
sección) ó en la discriminación de muestras de escrituras de europeos de americanos.
Otra aproximación para mejorar la calibración es reestructurar la tarea en una manera que
desaliente el exceso de confianza. En un estudio por Korat, Lichtenstein y Fischoff (1980),
los sujetos primero respondieron a 30 temas de conocimiento general de dos alternativas de
la manera usual. Luego ellos recibieron 10 temas adicionales. Para cada uno de los temas
261

ellos escribieron todas las razones ellos podrían pensar de esas dos posibles respuestas ya sea
respaldada ó contradicha, y luego realizaron la escogencia usual y evaluaciones de
probabilidad. Este procedimiento significantemente mejoró su calibración. Un estudio
adicional ayudó a señalar el ingrediente efectivo de ésta técnica. Después de responder como
es usual a un set inicial de 30 temas, a los sujetos se les dieron 30 temas más. Para cada uno,
ellos escogieron primero una respuesta preferida, luego escribieron (a) una razón de apoyo a
su respuesta escogida, (b) una razón contradiciendo su respuesta escogida, ó (c) dos razones,
una apoyando y una contradiciendo. Luego ellos evaluaron la probabilidad de que su
respuesta escogida fuera correcta. Solo el grupo requerido a escribir razones contradictorias
mostró una mejorada calibración. Este resultado, así como los análisis correlativos de los
datos del primer estudio, sugieren que un remedio parcial efectivo para el exceso de
confianza es buscar las razones por las que uno podría estar equivocado.

Pericia. Los estudiantes tomando un curso universitario, presumiblemente, expertos, al


menos temporalmente, en el tópico del material del curso. Sieber (1974) reportó una
excelente calibración para estudiantes tomando una práctica de examen de medio período
(por ejemplo, el grupo de estudiantes a quienes se les dijo que la prueba no era su examen de
medio período). Alrededor del 98% de sus respuestas 1.0 y solo .5% de sus respuestas 0
fueron correctas. Pitz (1974) requirió a sus estudiantes predecir su grado para su curso; ellos
también fueron bien calibrados.
Habrían estado estos sujetos tan bien calibrados en temas de dificultad equivalente que no
fueron de su área de expertaje? Lichtenstein y Fischoff (1977) requirieron a los estudiantes
graduados en psicología responder a 50 temas de conocimiento general de dos alternativas y
50 temas cubriendo el conocimiento de la psicología (por ejemplo, “la prueba Ishihara es (a)
una prueba perceptual, (b) una prueba de ansiedad social”). Los dos sub-tests fueron de igual
dificultad, y la calibración fue similar para las dos tareas.
Christensen-Szalanski y Bushyhead (1981) reportaron nueve evaluaciones de médicos de
la probabilidad de pneumonía para 1,531 pacientes quienes fueron examinados debido a una
tos. Su calibración fue abismal; la curva se elevó tan suavemente que por el nivel más alto de
confianza (aproximadamente .88), la proporción de pacientes actualmente padeciendo
pneumonía fue menor que .20. Resultados similares han sido reportados para diagnósticos de
fractura de cráneo y pneumonía por Lusted (1977) y para diagnósticos de fractura de cráneo
por DeSmet, Fryback y Thornbury (1979). Los resultados de estos estudios con médicos
están en marcado contraste con la excelente calibración de las predicciones de precipitación
de los pronosticadores del clima. Primero, ellos han estado haciendo pronósticos
probabilísticos por años. Segundo, la tarea es repetitiva; la pregunta a ser contestada
(Lloverá?) es siempre la misma. En contraste, un médico practicante está hora por hora
considerando un amplio arreglo de posibilidades (Es una fractura de cráneo? Tiene ella strep?
Necesita ella hospitalización posterior?) Finalmente, el resultado del reaprovechamiento para
pronosticadores del clima está bien definido y recibido prontamente. Esto no es siempre
verdadero para los médicos; los pacientes fallan en retornar ó son referidos a otra parte ó los
diagnósticos permanecen inciertos.
La gente que apuesta ó establece las disparidades para las carreras de caballos podrían
también ser considerados expertas. Bajo el método de apuesta mutua (ó totalizador), las
disparidades finales están determinadas por la cantidad de dinero apostado a cada caballo,
permitiendo una forma de curva de calibración de grupo a ser computada. Tales curvas
(Fabricand, 1965; Hoerl & Fallin, 1974) muestran excelente calibración, con solo una ligera
tendencia por la gente a apostar mucho en las distancias largas. Sin embargo, tales datos son
solo inferencialmente relacionados a la evaluación de probabilidad. Más relevantes son los
resultados de calibración reportados por Dowie (1976), quien estudió la predicción de precios
262

impresa diariamente por un periódico de deportes en Inglaterra. Estas predicciones, en la


forma de disparidades, son hechas por una persona para todos los caballos en una carrera
dada; alrededor de ocho personas hicieron las predicciones durante el año estudiado. La
calibración de las predicciones para 29,307 caballos mostró una modesta poca confianza para
probabilidades mayores de .4 y excelente calibración para probabilidades menores de .4 (la
cuales comprenden 98% de los datos).
El desarrollo de la investigación sobre la calibración ha conducido al desarrollo de una
nueva forma de pericia: expertos en calibración, quienes conocen sobre los errores comunes
que la gente comete en la evaluación de probabilidades. Lichtenstein y Fischoff (1980a)
compararon la calibración de 8 de tales expertos con 12 sujetos ingenuos y 15 sujetos quienes
habían sido entrenados previamente para estar bien calibrados. La normativa de los expertos
no solo superó el exceso de confianza mostrado típicamente por los sujetos ingenuos sino que
aparentemente los sobre-compensó, debido a que ellos estuvieron bajos en confianza. Los
expertos Los expertos estuvieron también ligeramente más sensitivos al tema de la dificultad
que los otros dos grupos.

Eventos Futuros. Wright y Wishudha (1979) han especulado que la calibración para futuros
eventos puede ser diferente de esa para las preguntas de conocimiento general. Si es cierto,
esto podría limitar la interpolación de la investigación con las preguntas de conocimiento
general para la predicción de eventos futuros. Desafortunadamente, los temas de
conocimiento general de Wright y Wishudha fueron más difíciles que sus eventos futuros, los
cuales podrían contar para la calibración superior de los últimos.
Fischoff y Beyth (1975) requirieron a 150 estudiantes israelíes evaluar la probabilidad de
15 entonces eventos futuros, los posibles resultados de los viajes muy publicitados del
Presidente Nixon a China y Rusia (por ejemplo, “El Presidente Nixon se encontrará con Mao
al menos una vez”). La curva de calibración resultante estuvo muy cerca de la línea de
identidad. Sin embargo, Fischoff y Lichtenstein (sin publicar) han recientemente encontrado
que la calibración de eventos futuros mostró el mismo exceso de confianza como fue
mostrado para los temas de conocimiento general de comparable dificultad. Phillips y Chew
(sin publicar) obtuvieron curvas de calibración para tres juegos de temas: conocimiento
general, eventos futuros y eventos pasados (por ejemplo, “un jumbo jet se estrelló matando
más de 100 personas alguna vez en los pasados 30 días”). Todas las tres curvas mostraron
exceso de confianza. La calibración para eventos futuros y eventos pasados eventos fue
idéntica y de alguna manera mejor que para los temas de conocimiento general. Los niveles
de dificultad de los tres juegos de temas podrían no contar para estos resultados.
Jack Dowie y colegas están ahora colectando datos de calibración en la Universidad
Abierta en Milton Keynes, Inglaterra, de varios cientos de estudiantes en el curso de riesgo,
usando preguntas relacionadas con el curso, preguntas de conocimiento general y preguntas
de eventos futuros. Los estudiantes recibieron una introducción general al concepto de
calibración y les fueron dados reaprovechamientos de información sobre su
desenvolvimiento y calibración. Resultados preliminares (Dowie, 1980) sugieren que ellos
tuvieron moderadamente exceso de confianza. La calibración fue mejor en los temas de
conocimiento general y peor en los temas relacionados con el curso, pero la significancia y
orígenes de estas diferencias esperan ser investigadas.

Proposiciones continuas: Cantidades inciertas

El método fractile
263

La consideración del aprendizaje enfoca la atención en las variables del medio ambiente
y la estructura de la tarea. Por consiguiente, variables tales como cantidad de
incertidumbre sobre el valor de una cantidad incierta continua (por ejemplo, Qué proporción
de estudiantes prefieren Scotch al bourbon? Cual es la distancia más corta de Inglaterra a
Australia?) puede ser expresada como una función de probabilidad de densidad a través de
posibles valores de esa cantidad..Sin embargo, los asesores no son usualmente requeridos a
extraer la función entera. En vez de eso, el procedimiento de obtención más comúnmente
usado es alguna variación del método fractile. En este método, el asesor establece valores de
la cantidad de incertidumbre que están asociados con un pequeño número de determinados
fractiles de la distribución. Para la media ó fractile.50, por ejemplo, el asesor establece un
valor de la cantidad tal que el valor verdadero es igualmente probable de caer encima ó
debajo del valor establecido; el fractile .01 es un valor tal que existe solo 1 chance en 100 que
el valor verdadero sea más pequeño que el valor establecido. Usualmente tres ó cinco
fractiles, incluyendo la media, son evaluados. En una variante llamada el método tertile ?, el
asesor establece dos valores (los fractiles .33 y .67) tales que el rango entero está dividido
dentro de tres secciones igualmente probables.
Dos medidas de calibración son comúnmente reportadas. El índice intercuartil ? es el
porcentaje de temas para los cuales el valor verdadero cae dentro del rango intercuartil (por
ejemplo, entre los fractiles .25 y .75). La persona perfectamente calibrada tendrá, a largo
plazo, un índice intercuatil de 50. El índice de sorpresa es el porcentaje de valores
verdaderos que caen fuera de los más extremos fractiles evaluados. Cuando los fractiles más
extremos evaluados son .01 y .99, la persona perfectamente calibrada tendrá un índice de
sorpresa de 2. Un índice de sorpresa grande muestra que los límites de confianza del asesor
han sido demasiado estrechos para abarcar suficiente de los valores verdaderos y por lo tanto
indica exceso de confianza (ó hiperprecisión; Pitz, 1974). La poca confianza estaría indicada
por un índice intercuartil mayor de 50 y un índice de sorpresa bajo; tales datos no han sido
reportados en la literatura.
El ímpetu por investigar las funciones de densidad de probabilidad de la calibración
vinieron de un trabajo de 1969 por Alpert y Raiffa (1969, 21). Alpert y Haiffa trabajaron con
estudiantes de la Escuela de Negocios de Harvard, todos familiarizados con el análisis de
decisión. En el grupo 1, todos los sujetos evaluaron cinco fractiles, tres de los cuales fueron .
25, .50 y .75. Los fractiles extremos fueron, sin embargo, diferentes para cuatro sub-grupos: .
01 y .99 (Grupo A); .001 y .999 (Grupo B); “el mínimo valor posible! Y “el máximo valor
posible” (Grupo C); y “sorprendentemente bajo” y “sorprendentemente alto” (Grupo D). El
intercuartil y los índices de sorpresa para estos cuatro sub-grupos son mostrados en la Tabla
1. Desanimados por el enorme número de sorpresas, Alpert y Raiffa entonces corrieron tres
grupos adicionales (2, 3 y 4) quienes, después de evaluar 10 cantidades inciertas , recibieron
reaprovechamiento de información en la forma de un reporte extendido y explicación de los
resultados, junto con peroraciones para “Extender Aquellos Fractiles Extremos!”. Los sujetos
respondieron luego a 10 nuevas cantidades inciertas. Los resultados antes y después del
reaprovechamiento son mostrados en la Tabla 1. Los sujetos mejoraron, pero aún mostraron
considerable exceso de confianza.
Hession y McCarty (1974) recolectaron datos comparables al primer experimento de
Alpert y Raiffa, usando 55 cantidades inciertas y 36 estudiantes graduados como sujetos. Sus
instrucciones urgieron a los sujetos a estar seguros que el intervalo entre el fractile .25 y el
fractile .75 ciertamente capturaron la mitad de la probabilidad. “Posterior discusión con
sujetos individuales dejó claro que este chequeo de consistencia resultó en la mayoría de los
casos en un reajuste, reduciendo el rango intercuartil originalmente evaluado” (p. 7) – por lo
tanto haciendo las cosas peor! Este énfasis en la instrucción, no usado por Alpert y Raiffa,
264

puede explicar por qué los sujetos de Hession y McCarty fueron tan malamente calibrados,
como se muestra en la Tabla 1.
Hession y McCarty también dieron a sus sujetos un número de diferencia de medidas:

Tabla 1. Resumen de calibración para temas continuos: Porcentaje de valores verdaderos cayendo
dentro del rango intercuartil y fuera de fractiles extremos.
Ïndice
Intercuartil Ïndice de sorpresa_______
N observadoa Observado Ideal
Alpert & Raiffa (1969)
Grupo 1-A (.01, .99) 880 46 2
Grupo 1-B (.001, .999) 500 33 40 .2
Grupo 1-C (“mín.” & “máx.”) 700 47 ?
Grupo 1-D (“sorprendentemente
Alto/bajo”) 700 38 ?
Grupos 2, 3 & 4
Antes del entrenamiento 2,270 34 34 2
Después del entrenamiento 2,270 44 19 2

Hession & McCarty (1974)


Cinco fractiles 400 56 10 2
Siete fractiles 520 50 7 2

Moskowitz & Bullers (1978)


Proporciones
Tres fractiles 120 -- 27 2
Cinco fractiles 145 32 42 2

Dow-Jones
Tres fractiles 210 -- 38 2
Cinco fractiles 210 20 64 2

Pickhardt & Wallace (1974)


Grupo 1,
Primera ronda ? 39 32 2
Quinta ronda ? 49 20 2
Grupo 2,
Primera ronda ? 30 46 2
Sexta ronda ? 45 24 2

T. A. Brown (1973) 414 29 42 2

Lichtenstein & Fischoff (1980b)


Antes de la prueba 924 32 41 2
Después de la prueba 924 37 40 2

Seaver, von Winterfeldt, & Edwards


(1978)
Fractiles 160 42 34 2
Odds fractiles 160 53 24 2
Probabilidades 180 57 5 2
Odds 180 47 5 2
Log odds 140 31 20 2
265

Schaefer & Borcherding (1973)


Fractiles, primer día 396 23 39 2
Fractiles, cuarto día 396 38 12 2
Primer día, muestra hipotética 396 16 50 2
Tabla 1. (Continuación)
Ïndice
Intercuartil Ïndice de sorpresa_______
N observadoa Observado Ideal
Cuarto día, muestra hipotética 396 48 6 2

Larson & Reenan (1979)


“Certeza razonablemente” 450 __ 42 ?

Pratt (1975)
“Sorprendentemente alto/bajo” 175 37 5 ?

Murphy & Winkler (1974)


Los extremos fueron .125 & .875 132 45 27 25

Murphy & Winkler (1977b)


Los extremos fueron .125 & .875 432 54 21 25

Staël von Holstein ((1971a) 1,269 27 30 2

Nota: N = número total de distribuciones evaluadas.


a
El porcentaje ideal de eventos cayendo dentro del rango intercuartil es 50, para todos los experimentos
excepto Brown (1973). El obtuvo los fractiles .30 y .70, de tal manera que el ideal sea 40%.

autoritarismo, dogmatismo, rigidez, la categoría de Pettigrew de escala ancha e inteligencia.


Las correlaciones de los punteos de las pruebas de los sujetos con su intercuartil e índices de
sorpresa fueron la mayoría muy bajos, aunque la escala autoritaria correlacionada -.31 con el
punteo intercuartil y +.47 con el punteo de sorpresa (N = 28). Esto es consistente con Wright
y Phillips (1976) encontrando que el autoritarismo fue modestamente relacionado a la
calibración.
Selvidge (1975) extendió el trabajo de Alpert y Raiffa, requiriendo de los sujetos primero
cuatro preguntas sobre sí mismos (por ejemplo, “Usted prefiere Scotch ó bourbon?”). Sus
respuestas determinaron la verdadera respuesta para estas proporciones de grupo–generado
(por ejemplo, qué proporción de los sujetos respondiendo el cuestionario prefirieron el
Scotch al bourbon?). Un grupo dio cinco fractiles .01, .25, .50, .75 y .99. Otro grupo dio
aquellos cinco más otros dos: .1, y .9. Como se muestra en la Tabla 1, el grupo de siete
fractiles lo hizo un poco mejor. Los resultados de los cinco fractiles no son tan diferentes de
los resultados de Alpert y Raiffa como ellos aparentan. Tres cantidades inciertas de Alpert y
Raiffa fueron proporciones de grupo-generado similares a los puntos de Selvidge. Sobre estos
tres temas, Alpert y Raiffa encontraron 57% en el rango intercuartil y 20% de sorpresas.
Finalmente, para uno de los temas, la mitad de los sujetos en el grupo de cinco-fractiles
fueron requeridos a dar .25, .50 y .75 primero, y luego dar .01 y .99, mientras la otra mitad
fue instruida a evaluar primero los extremos. Selvidge encontró muy pocas sorpresas para el
orden anterior (8%) que para el último (16%).
Moskowitz y Bullers (1978) también usaron proporciones de grupo-generado pero
encontraron mucho más sorpresas que Selvidge. Un grupo dio los mismos cinco fractiles que
Selvidge usó (en el orden .50, .25, .75, .01, .99). Otro grupo fue requerido para solo tres
evaluaciones (el modo de la distribución y los .01 y .99 fractiles). Antes de hacer sus
266

evaluaciones, el grupo tres-fractile recibió una presentación y discusión de algunos eventos


de referencia típica (por ejemplo, “Considerar una lotería en la cual 100 gentes están
participando. Su posibilidad de sostener el ticket ganador es 1 en 100”) designado para dar a
los asesores un mejor entendimiento del significado de una probabilidad de .01. Como se
muestra en la Tabla 1, el grupo tres-fractile tuvo más pocas sorpresas que el grupo cinco-
fractile. En otro experimento usando los mismos dos métodos, Moskowitz y Bullers
requirieron 44 estudiantes no-graduados en comercio para evaluar el valor promedio del
índice industrial Dow-Jones para 1977, 1974, 1965, 1960 y 1950. Cada sujeto dio
evaluaciones antes y después de comprometerse en discusiones de tres-personas. Puesto que
diferencias no sistemáticas debido a las discusiones fueron encontradas, los datos han sido
combinados en la Tabla 1. De nuevo, el grupo tres-fractile (que había recibido la
presentación sobre el significado de .01) tuvo más pocas sorpresas que el grupo cinco-
fractile. El desenvolvimiento del grupo cinco-fractile fue extremadamente malo.
Pickhardt y Wallace (1974) hicieron una réplica del trabajo de Alpert Y Raiffa con
variaciones. A través de varios grupos ellos reportaron 38% a 48% sorpresas antes del
reaprovechamiento de la información y no menos de 30% sorpresas después del
reaprovechamiento. Dos variaciones, usando ó no usando crédito de grado del curso como un
premio por buena calibración y usando ó no usando el reaprovechamiento de la regla de
puntuación, no hicieron diferencia en el número de sorpresas. Pickhardt y Wallace también
estudiaron los efectos del entrenamiento extendido: Dos grupos de 18 y 30 sujetos (número
de cantidades inciertas no reportadas) respondieron por cinco ó seis sesiones con
reaprovechamiento de calibración después de cada sesión. Modesto mejoramiento fue
encontrado, como se muestra en la Tabla 1.
Finalmente, Pickhardt y Wallace (1974) estudiaron los efectos de incrementar el
conocimiento sobre calibración en el contexto de una producción del juego de simulación
llamado PROSIM. Treinta y dos estudiantes graduados hicieron cada uno 51 evaluaciones
durante una simulada programación de producción de 17 “días”. Cada evaluación
concerniente a un evento que ocurriría 1, 2, ó 3 “días” de aquí en adelante. Mientras más
cercano el tiempo de evaluación al tiempo del evento, más sabía el sujeto sobre el evento. El
exceso de confianza decreció con esta información incrementada: Hubo 32% de sorpresas
con espacios de 3 días, 24% con espacios de 2 días y 7% con espacios de 1 día. No fue
observado mejoramiento sobre los 17 “días” de la simulación.
T. A. Brown (1973) requirió a 31 sujetos a evaluar siete fractiles (.01, .10, .30, .50, .70, .
90, .99) para 14 cantidades inciertas. Los resultados, mostrados en la Tabla 1, son
particularmente desalentadores, porque cada pregunta fue acompañada por datos históricos
extensos (por ejemplo, para “Dónde estará el Índice de Precios al Consumidor en Diciembre,
1970?” a los sujetos les fue dado el índice de precios al consumidor para cada trimestre entre
marzo de 1962 y junio de 1970). Para 11 de las preguntas, se les había dado a los sujetos el
mínimo histórico como su .01 fractile y el máximo histórico como su .99 fractile, ellos no
habrían tenido sorpresas del todo. Las otras tres cantidades mostraron historias de
estrictamente incremento ó estrictamente decremento, y el valor verdadero estuvo cerca a
cualquier simple aproximación a la tendencia histórica. Los sujetos deben haber estado
apoyándose grandemente en su propio conocimiento erróneo para haber dado distribuciones
tan ajustadas para producir 42% de sorpresas.

Otros métodos

Seaver, von Winterfeldt y Edwards (1978) estudiaron los efectos de cinco diferentes modos
de respuesta sobre la calibración. Dos grupos usaron el método fractile, ya sean cinco
fractiles (.01, .25, .50, .75, .99) ó las probabilidades equivalentes a aquellos fractiles (1:99,
267

1:3, 1:1, 3:1, 99:1). Otros tres grupos respondieron con probabilidades, desigualdades, ó
desigualdades sobre una escala log-odds a una-alternativa de preguntas que especificaron un
valor particular de la cantidad incierta (por ejemplo, “Cuál es la probabilidad que la
población de Canada en 1973 excedió los 25 millones?). Cinco de tales valores fijados fueron
dados para cada cantidad incierta y de las respuestas los experimentadores determinaron el
intercuartile y los índices de sorpresa. Para cada método, de siete a nueve estudiantes
respondieron a 20 cantidades inciertas. Como se muestra en la Tabla 1, los grupos dando
respuestas probabilísticas y desigualdades tuvieron distintamente mejores índices de sorpresa
que aquellos usando el método fractile. No está claro si esta superioridad es debida a la
información comunicada por los valores escogidos por el experimentador. El modo de
respuesta log-odds no trabajó bien.
Schaefer y Borcherding (1973) requirieron a 22 estudiantes a evaluar a 18 proporciones
de grupo-generado en cada una de las cuatro sesiones. Cada sujeto utilizó dos evaluaciones
técnicas: (a) el método fractile (.01, .125, .25, .50, .75, .875, .99), y (b) el método de la
muestra hipotética. En el último método, el asesor establece el tamaño, n, y el número de
éxitos, r, de una muestra hipotética que mejor refleje el conocimiento del asesor sobre la
cantidad incierta (por ejemplo, yo siento como cierto sobre el valor verdadero de la
proporción como yo sentiría si fuera yo a observar una muestra de n casos con r éxitos).
Valores mayores de n reflejan mayor certeza sobre el valor verdadero de la proporción. La
relación r/n refleja el significado de la función de densidad de probabilidad. Los sujetos
tuvieron gran dificultad con este método, a pesar de la instrucciones que incluyeron ejemplos
de las distribuciones beta subrayando este método. Después de cada sesión , a los sujetos se
les dio extenso reaprovechamiento, con énfasis en su propia calibración y la del grupo. Los
resultados de la primera y última sesión son mostrados en la Tabla 1. Mejoramiento fue
encontrado para ambos métodos. Los resultados del método de la muestra hipotética
empezaron peor (50%) sorpresas y solo 16% en el rango intercuartile) pero finalizaron mejor
(6% sorpresas y 48% en el rango intercuasrtile) que el método fractile.
Barclay y Peterson (1973) compararon el método tertil (por ejemplo, los fractiles .33 y .
67) con un método del “punto” en el cual el asesor es requerido a dar el valor modal de la
cantidad incierta, y luego dos valores, uno arriba y uno abajo del modo, cada uno de los
cuales son la mitad como probables de ocurrir como es el valor modal (por ejemplo, puntos
para los cuales la función de densidad de probabilidad es la mitad tan alta como en el modo).
Usando 10 preguntas de almanaque como cantidades inciertas y 70 estudiantes de la escuela
de Inteligencia de la Defensa en un diseño dentro-sujetos, ellos encontraron para el método
tertile que 29% (mejor que 33%) de las respuestas verdaderas cayeron en el intervalo central.
Para el método del punto, solo 39% cayeron entre los dos puntos medio-probables, mientras
que, para la mayoría de distribuciones, aproximadamente el 75% de la densidad cae entre
estos puntos.
Pitz (1974) reportó varios resultados usando el método tertile. Para 19 sujetos estimando
las poblaciones de 23 países, él encontró solo 16% de los valores verdaderos cayendo dentro
del tercio central de las distribuciones. En otro experimento él varió los temas de acuerdo a la
profundidad y riqueza del conocimiento que el presumió sus sujetos lo tienen. Con
poblaciones de países (bajo conocimiento) el encontró 23% de los calores verdaderos en el
tercio central; con alturas de edificios bien conocidos (mediano conocimiento), 27%; y con
edades de gente famosa (alto conocimiento), 47%, el último estando bien arriba del esperado
33%. En otro estudio, él requirió a 6 sujetos evaluar tertiles y unos pocos días después a
escoger entre apuestas basadas en sus propios valores de tertile. Él encontró una fuerte
preferencia por apuestas involucrando a la región central, justo el reverso de lo que sus
demasiado rígidos intervalos los conducirían.
268

Los sujetos de Larson y Reenan (1979) primero dieron su mejor adivinación a la


respuesta verdadera (por ejemplo, el modo) y luego dos valores más que definieron un
intervalo dentro del cual ellos estuvieron “razonablemente ciertos” la respuesta correcta cae.
Cuarenta y dos por ciento de los valores verdaderos caen dentro de esta región. Note cuan
similar este índice de sorpresa es a los índices de los sujetos de Alpert y Raiffa dadas las
frases verbales “mínimo/máximo” (47%) y “sorprendentemente alto/bajo” (38%).

Tareas reales con expertos

Pratt (1975) requirió un simple experto para predecir la asistencia al cine para 175 cines ó
dobles características mostradas en dos teatros locales sobre un período de más de un año. El
experto evaluó valores de la media, cuartiles y “sorprendentemente altos” y
sorprendentemente bajos. Como se muestra en la Tabla 1, el rango intercuatile tendió a ser
demasiado pequeño. Aún cuando el experto recibió el resultado del reaprovechamiento a
través del experimento, la única evidencia de mejoramiento en la calibración sobre el tiempo
vino en los primeros pocos días.
Tres experimentos usaron por sujetos, pronosticadores del clima. En dos experimentos,
Murphy y Winkler (1974, 1977b) requirieron pronosticadores del clima para dar cinco
fractiles (.125, .25, .50, .75, .875) para la temperatura alta de mañana. Los resultados,
mostrados en la Tabla 1, indican excelente calibración. Estos sujetos tuvieron muy pocas
sorpresas en el extremo 25% de la distribución que lo hizo la mayoría de los sujetos de Alpert
y Raiffa en el extremo 2%! Murphy y Winkler encontraron que los cinco sujetos en los dos
experimentos quienes usaron el método fractile estuvieron mejor calibrados que otros cuatro
sujetos quienes usaron un método de ancho-fijado. Para el método de ancho-fijado, los
pronosticadores primero evaluaron la temperatura media (por ejemplo, la alta temperatura
para la cual ellos creyeron existió un .5 de probabilidad que sería excedido). Luego ellos
establecieron la probabilidad que la temperatura caería con intervalos de 5º F y de 9º F
centradas en la mediana. Estos pronosticadores tuvieron exceso de confianza; la probabilidad
asociada con la temperatura cayendo dentro del intervalo tendió a ser demasiado grande. La
superioridad del método sobre el método de ancho-fijado se mantiene en contraste con el
encuentro de Seaver, von Winterfeldt y Edwards que los métodos de valor-fijado eran
superiores, talvez porque los intervalos fijados usados por Murphy y Winkler (5º F y 9º F) no
eran informativos.
Staël von Holstein (1971a) usó tres tareas de valor-fijado: (a) promedio de la temperatura
mañana y el siguiente día (dividiendo el rango de respuesta entera dentro de ocho categorías),
(b) promedio de la temperatura 4 y 5 días a partir de ahora (ocho categorías), y (c) cantidad
total de lluvia en los siguientes 5 días (cuatro categorías). Para cada set de respuestas (cuatro
ú ocho probabilidades resumiéndolas a 1.0) él estimó subrayando la función de densidad
acumulativa. El luego combinó las 1,269 funciones dadas por los 28 participantes. A partir de
la función del grupo de densidad acumulativa mostrada en este artículo, hemos estimado la
sorpresa y los índices intercuartile (vea la Tabla 1). En contraste a otros pronosticadores de
clima, estos sujetos fueron muy pobremente calibrados, talvez debido a que las tareas les
fueron menos familiares.

Resumen de calibración con cantidades inciertas

La sorprendente evidencia de la investigación usando fractiles para evaluar cantidades


inciertas es que las distribuciones de probabilidad de la gente tiende a ser demasiado rígida.
La evaluación de fractiles extremos está particularmente propensa al prejuicio. El
entrenamiento mejora la calibración de algún modo. Los expertos algunas veces se
269

desenvuelven bien (Murphy & Winkler, 1974, 1977b), algunas veces no (Pratt, 1975; Staél
von Holstein, 1971a). Existe alguna evidencia de que la dificultad está relacionada a la
calibración por proposiciones continuas. Pitz (1974) y Larson y Reenan (1979) encontraron
tal efecto, y el descubrimiento de Pickhardt y Wallace (1974) de que intervalos de 1 día
conducen a menores sorpresas que intervalos de 3 días en su juego de simulación es relevante
aquí. Varios estudios (por ejemplo, Barclay & Peterson, 1973; Murphy & Winkler, 1974 han
reportado una correlación entre la propagación de la distribución evaluada y la diferencia
absoluta entre la media evaluada y la respuesta verdadera, indicando que los sujetos tienen
una sensitividad parcial a cuánto ellos hacen ó no conocen. Este descubrimiento se compara a
la correlación entre el porcentaje correcto y la respuesta media con proposiciones discretas.

Discusión

Por qué ser bien calibrado?

Por qué debería un asesor de probabilidad preocuparse sobre ser bien calibrado? Von
Winterfeldt y Edwards (1973) han mostrado que en la mayoría del mundo real los problemas
de decisión con opciones de decisión continua (por ejemplo, invertir X dólares) claramente
grandes errores de evaluación hacen relativamente poca diferencia en la ganancia esperada.
Sin embargo, varias consideraciones arguyen contra esta visión tranquilizadora. Primero, en
una situación de dos-alternativas, la función de rentabilidad puede estar muy pendiente en la
región crucial. Suponga que su doctor debe decidir la probabilidad que usted tiene la
condición A, y debe recibir el tratamiento A, versus tener la condición B y recibir el
tratamiento B. Suponga que las utilidades son tales que el tratamiento A es mejor si la
probabilidad de que usted tenga la condición A es mayor que ó igual a .4; de otra manera el
tratamiento B es mejor. Si el doctor evalúa la probabilidad de que usted tenga A como p(A) =
.45 pero está pobremente calibrado, de tal modo que la probabilidad apropiada es .25,
entonces el doctor usaría el tratamiento A en lugar del tratamiento B y usted perdería casi una
parte de la utilidad esperada. Las funciones de utilidad de este tipo son mostradas por
Fryback (1974).
Además, cuando las rentabilidades son muy grandes, cuando los errores son muy grandes
ó cuando tales errores se combinan, la pérdida esperada surge grande. Por ejemplo, en el
Estudio del Reactor de Seguridad (U.S. Nuclear Regulatory Comission, 1975) “a cada nivel
del análisis una distribución log-normal de porcentaje de falla de datos fue asumida con
límites definidos de percentile de 5 y 95” (Weatherwax, 1975, p. 31). La investigación
revisada aquí sugiere la construcción de distribuciones partiendo de evaluaciones de los
fractiles .05 y .95 puede ser enormemente prejuiciada. Si tales evaluaciones son hechas a
varios niveles de un análisis, con cada una de la evaluaciones de distribución siendo
demasiado estrechas, los errores no se cancelarán uno a otro pero se combinarán. Y debido a
que los costos de una falla de potencia de una planta nuclear son grandes, la pérdida esperada
de tales errores podría ser enorme.
Si una buena calibración es importante, cómo puede ella ser adquirida? Cox (1958)
recomendó que las evaluaciones de la gente externamente calibradas por ajustar un modelo a
un set de evaluaciones para temas con respuestas conocidas. De aquí en adelante, el modelo
es usado para corregir ó ajustar respuestas dadas por el asesor. Las dificultades técnicas
confrontando la re-calibración externa son sustanciales. Cuando se obtienen las evaluaciones
a ser modeladas, uno tendría que ser cuidadoso en no dar a los asesores ningún
reaprovechamiento adicional de la información que ellos normalmente reciben, por miedo de
su cambio de su calibración como ella está siendo medida. Como Savage (1971) señaló,
“Usted podría descubrir con experiencia que su experto es optimista ó pesimista en algunos
270

aspectos y por consiguiente suavizar sus juicios. Sospecharía él de usted de esto, sin
embargo, usted y él pueden estar en la escalera eléctrica hacia la perdición” (p. 796).
Además, desde que la investigación ha mostrado que el tipo de calibración errónea observada
depende del nivel de dificultad de las tareas, uno también tendría que creer que el futuro
equiparará la dificultad de los eventos usados para la re-calibración.
Las objeciones teóricas a la calibración externa pueden ser aún más serias que las
objeciones prácticas. Los números producidos por un proceso de re-calibración no seguirán,
en general, los axiomas de la teoría de la probabilidad (por ejemplo, los números asociados
con eventos comúnmente exclusivos y exhaustivos no siempre sumarán uno, ni serán
generalmente verdaderos que P(A) · P(B) = P(A,B) para eventos independientes), de aquí
que estos nuevos eventos no pueden ser llamados probabilidades.
Una aproximación más fructífera sería entrenar asesores que lleguen a estar bien
calibrados. Bajo qué condiciones podría uno esperar que los asesores podrían adquirir esta
meta? Uno no podría esperar que los asesores estén bien calibrados cuando las recompensas
explícitas ó implícitas por sus evaluaciones no los motivan a ser honestos es sus
evaluaciones. Como un ejemplo extremo, un asesor quién es amenazado con decapitación
ocurriría cualquier evento cuyas probabilidades fueran evaluadas en < .25 tendrían buena
razón de no estar bien calibrados con evaluaciones de .20. Aunque este ejemplo parece
absurdo, más presiones sutiles tales como “evitar estar hecho para mirar lo tonto” ó
“impresionar a su jefe” podría también proveer fuertes incentivos para una mala calibración.
Cualesquiera recompensas para ya sea ilusoria ó negativa podría también prejuiciar las
evaluaciones.
Recibir la recuperación del resultado después de todas las evaluaciones es la mejor
condición para un entrenamiento exitoso. Dawid (en impresión) ha mostrado que bajo tales
condiciones los asesores quienes son subjetivistas honestos y coherentes esperarán estar bien
calibrados sin importar la independencia entre los temas que están siendo evaluados. En
contraste, Kadane (1980) ha mostrado que en la ausencia de intento por intento de la
recuperación del resultado, subjetivistas honestos, coherentes esperarán estar bien calibrados
si y solo si todos los temas que están siendo evaluados son independientes. Este teorema puso
fuertes restricciones a situaciones bajo las cuales sería razonable esperar de los asesores
aprender a estar bien calibrados. Aún si el proceso de entrenamiento fuera conducido usando
solo eventos que los asesores creyeron eran independientes, allí puede estar una buena razón
para dudar de la independencia de las tareas de la vida real a las cuales los asesores aplicarían
su entrenamiento. Importantes eventos futuros pueden ser independientes ya sea porque ellos
están influenciados por un causa común fundamental ó porque el asesor evalúa todas ellas
inspirándose en un común almacén de conocimiento. En tales circunstancias, uno no desearía
ó esperaría estar bien calibrado.
La posibilidad de que los prejuicios de la gente varíen como una función de la dificultad
de las tareas plantea un posterior obstáculo al entrenamiento de calibración en la ausencia de
una inmediata recuperación del resultado. El nivel de dificultad de tareas futuras puede ser
imposible de predecir, por lo tanto interpretando el entrenamiento inefectivo.

Calibración como psicología cognitiva

Experimentos de calibración pueden ser usados para aprender cómo la gente piensa. Aún si la
significación práctica de cada estudio está limitada, puede proveer mayor entendimiento de
cómo la gente desarrolla y expresa sentimientos de incertidumbre y certeza. Sin embargo, un
impresionante aspecto de mucha de la literatura revisada aquí es su “terreno-vacío
empirismo”. La teoría psicológica está a menudo ausente, ya sea como motivación ó como
explicación de los resultados.
271

No todos los autores han evitado teorizar (Slovic (1972) y }Tversky y Kahneman (1974,
1) arguyeron que, como un resultado de las habilidades de procesar información, la gente
adopta simplificar reglas ó heurísticas. Aunque generalmente muy útiles, estas heurísticas
pueden conducir a severos y sistemáticos errores. Por ejemplo, la tendencia de la gente a dar
impropiamente correctas distribuciones al evaluar cantidades inciertas podría reflejar la
heurística llamada “anclaje y ajuste”. Cuando uno es preguntado sobre una cantidad incierta ,
uno naturalmente piensa primero en estimar un punto tal como la mediana. Este valor
entonces sirve como un ancla. Para dar el 25º ó el 75º percentile, uno ajusta hacia abajo ó
hacia arriba del ancla. Pero el ancla tiene tal influencia dominante que el ajuste es
insuficiente; de aquí que los fractiles juntos, conduciendo a un exceso de confianza.
Pitz (1974), también, aceptó que la capacidad de procesamiento de información de la
gente y la capacidad y la capacidad de trabajo de la memoria son limitados. El sugirió que la
gente aborde los problemas complejos serialmente, trabajando a través de una poción a un
tiempo. Para reducir la tensión cognitiva, la gente ignora la incertidumbre en sus soluciones
para las pociones tempranas del problema en orden de reducir la complejidad del cálculo en
porciones posteriores. Esto podría conducir a distribuciones demasiado ajustadas y un exceso
de confianza. Pitz también sugirió que un modo en que la gente estima su propia
incertidumbre es observando a cuántos muchos modos diferentes ellos pueden llegar en una
respuesta, que es, cuántos modos diferentes de soluciones seriales ellos pueden construir. Si
muchos son encontrados, la gente reconocerá su propia incertidumbre; si pocas son
encontradas, ellos no la reconocerán. Mientras más rica es la base del conocimiento desde la
cual construir estructuras alternativas, menor es la tendencia hacia el exceso de confianza.
Phillips y Wright (1977) presentaron un modelo serial de tres etapas. Su modelo distingue
a la gente que tiende naturalmente a pensar sobre la incertidumbre en un modo probabilístico
de aquellas que responden en un estilo más negro y blanco. Su trabajo en diferencias
culturales e individuales (Wright & Phillips, 1976, Wright et al., 1978) ha intentado, con
éxito parcial, identificar distintos estilos cognitivos en procesar este tipo de información.
Koriat et al. (1980) también tomó una aproximación al procesar información. Ellos
discutieron tres etapas para evaluación de probabilidades. Primero uno busca en la memoria
de uno por una evidencia relevante. A continuación uno evalúa esa evidencia para llegar a un
sentimiento de certeza ó duda. Finalmente, uno traduce el sentimiento de certeza dentro de un
número. Las manipulaciones usadas por Koriat et al. fueron designadas para alterar las
primeras dos etapas, forzando a la gente a buscar y a atender la evidencia contradictoria, por
tanto decrementando su confianza.
El modelo de Ferrell y McGoey, por otro lado, trata enteramente con la tercera etapa,
traducción de sentimientos dentro de respuestas numéricas. Asumiendo que, sin
recuperación, las gentes son incapaces de alterar sus estrategias de traducción como ya sea la
dificultad de los temas ó la proporción base de los cambios de eventos, el modelo provee
fuertes predicciones que han recibido soporte de los datos de calibración.
Evaluaciones de estructuras y procesos de la teoría de la probabilidad están empezando a
emerger, esperamos que el posterior desarrollo de tales teorías servirán para integrar este
más bien especializado campo dentro del más amplio campo de la psicología cognitiva.
272

23. Para aquellos condenados a estudiar el pasado:


Heurísticas y prejuicios en retrospectiva

Baruch Fischhoff

Benson (1972) ha identificado cuatro razones para estudiar el pasado: entretener, crear una
identidad de grupo (ó nacional), para revelar la extensión de la posibilidad humana, y
desarrollar el conocimiento sistemático sobre nuestro mundo, conocimiento que puede
eventualmente mejorar nuestra habilidad para predecir y controlar. En un nivel conciente, al
menos, nosotros en nombre de los científicos nos restringimos al último motivo. En su
realización, nosotros hacemos estudios de casos, evaluaciones de programas y revisiones de
literatura. Nosotros aún conducimos experimentos, creando historias artificiales sobre las
cuales podemos realizar nuestras autopsias.
Tres interrogantes básicas parecen surgir en nuestras retrospecciones: (a) Existen allí
patrones sobre los cuales podamos capitalizar como para hacernos más astutos nosotros
mismos en el futuro? (b) Existen instancias de desatino en las cuales podamos identificar
equivocaciones para evitarlas? Estamos realmente condenados a repetir el pasado si no lo
estudiamos? Eso es, aprendemos realmente cualquier cosa mirando hacia atrás?
Cualquiera que sea la interrogante que estamos preguntando, es generalmente asumido
que el pasado rápidamente revelará las respuestas que el sostiene. De percepción y previsión,
la última aparece como la perspectiva del problema. Uno puede explicar y entender cualquier
viejo evento si un esfuerzo apropiado es aplicado. La predicción, sin embargo, es admitir ser
más bien más habilidoso. El presente ensayo investiga esta presunción, tomando una cercana
mirada a algunos arquetipos intentos para utilizar el pasado. Talvez su conclusión más
general es que sostendríamos el pasado con un poco de más respeto cuando intentamos
sondear sus secretos. Mientras el pasado entretiene, ennoblece y expande muy rápidamente,
el ilustra solo con delicada adulación.

En busca de la sabiduría

Aunque el pasado en sí mismo nunca se repite en detalle, el es a menudo visto como teniendo
elementos repetitivos. La gente toma las mismas clases de decisiones, se encara a las mismas
clases de desafíos y sufre las mismas clases de infortunios a menudo suficiente para los
científicos del comportamiento para creer que ellos pueden detectar patrones recurrentes. Tal
fe inspira a los psicometristas a estudiar los diagnósticos secretos de los clínicos ases,
clínicos que buscan correlaciones de conducta aberrante, agentes comerciales a la caza de
incrementos de precios y dictadores para reflexionar sobre situaciones revolucionarias. Su
búsqueda usualmente tiene un lógico paralelismo ese de múltiple regresión ó correlación. Un

Esta es una versión revisada del trabajo “Para Aquellos Condenados a Estudiar el Pasado: Reflexiones sobre
Juicios Históricos”, en R. A. Shweder y D. W. Fiske (Eds.), Nuevas Direcciones para la Metodología de
Ciencia del Comportamiento: Juicios Falibles en la Investigación del Comportamiento, San Francisco: Jossey--
Bass, 1980. Reimpreso con permiso.
273

set de casos relevantes es recolectado y cada miembro está caracterizado por una variedad de
Dimensiones. La matriz resultante es registrada significantes relaciones que podrían
ayudarnos a predecir el futuro. . . .

Modelación formal

La Daily Racing Form, por ejemplo, ofrece a los ardientes más discapacitados algunas 100
piezas de información sobre cada caballo en cualquier carrera dada. El más discapacitado con
un talento para el procesamiento de datos podría confiar en alguna memoria de computadora
los contenidos de un determinado volumen de la Forma y tratar de derivar una fórmula
prediciendo la velocidad como una pesada suma de punteos de varias dimensiones. Por
ejemplo:

y¯ = b1x1 + b2x2 + b3x3 (1)


donde y¯ es nuestra mejor creencia de la velocidad de un caballo, x 1 es su porcentaje de
victorias en carreras previas, x2 es su porcentaje de carreras ganadas por el jockey y x3 es el
peso que el cargará en la presente carrera. Asumiendo que los punteos estandarizados 1 son
usados, los pesos (b1) reflejan la importancia de los diferentes factores. Si b1 = 2b2, entonces
un cambio dado en el porcentaje de triunfos afecta nuestra predicción de velocidad tanto
como dos veces tanto como un cambio equivalente en el porcentaje de triunfos del jockey,
porque ejecuciones pasadas han proveído dos veces más sensitivo a x1 como a x2..
Suena fácil, pero existen un millar de dificultades. Uno emerge cuando los
pronosticadores (x1) están correlacionados, como podría (y de hecho así sucede) pasar siendo
caballos ganadores para sacar jockeys ganadores (ó viceversa). En tales casos de
multicolinearidad, cada variable tiene una alguna habilidad independiente para explicar la
ejecución pasada y los dos tienen alguna habilidad compartida. Cuando los pesos son
determinados, que compartieron una capacidad explicativa estarán de algún modo separadas
entre los dos. Típicamente, esa separación presenta a la ininterpretable (b 1) con ningún grado
de precisión. Por lo tanto la ecuación de regresión no puede ser tratada como una teoría de
carrera de caballos, mostrando la importancia de varios factores.
Una más modesta meta teórica sería simplemente determinar cuáles factores son y cuáles
factores no son importantes, sobre las bases de cuánto agrega cada uno a nuestro
entendimiento de y. La lógica aquí es esa de un paso inteligente de regresión; variables
adicionales son agregadas a la ecuación hasta que ellas agreguen algo a su total poder
predictivo (ó explicativo). Aún cuando esta mínima estrategia pueda correr en un enredo de
multicolinearidad. Si muchas reflexiones de un factor particular (por ejemplo, diferentes
aspectos de educación) son incluidos, su habilidad explicatoria compartida puede ser dividida
dentro de tan pequeñas piezas que ningún aspecto hace una “significante” contribución.
Por supuesto, estos matices pueden ser de relativamente poco interés para los más
discapacitados en tanto la fórmula funcione bien, suficiente para ayudarlos de alguna manera
en vencer las dificultades. Nosotros científicos, sin embargo, queremos sabiduría así como
eficacia de nuestras técnicas. Es difícil para nosotros rendirnos interpretando pesos.
Procedimientos de regresión no solo expresan, sino también producen, comprensión (ó, al
menos, resultados) en un mecánico, repetitivo estilo. Pequeña maravilla entonces que ellos
hayan sido perseguidos tenazmente a pesar de sus limitaciones. Una de las mejor documenta-
1
Para estandarizar punteos sobre una variable particular, uno sustrae la media de todos los punteos de cada
punteo y luego lo divide por la desviación estándar. El resultado es un set de punteos con una media de 0 y
una desviación estándar de 1.
das persecuciones ha sido en el estudio del juicio clínico. El juicio clínico es ejercido por un
radiólogo quien clasifica los rayos X de úlceras dentro de “benignos” y “malignos”, por un
274

personal oficial quien escoge a los mejores aplicantes de un set de candidatos, ó por un
consejero de un centro de crisis quien decide cuales personas que llaman intentando suicidio
son serias. En cada uno de estos ejemplos, el diagnóstico incluye tomar una decisión sobre
las bases de un set de señales ó atributos. Cuando, como en estos ejemplos, la decisión es
repetitiva y todos los casos pueden ser caracterizados por las misma señal, es posible modelar
la política de toma de decisión del juicio estadísticamente. Uno colecta un set de casos para
los cuales el experto ha hecho un juicio resumido (por ejemplo, benigno, serio) y luego
deriva una ecuación de regresión, como la Ecuación 1, cuyos pesos muestran la importancia
que el juicio ha asignado a cada señal.
Dos décadas de tales estudios de capturar políticas persistentemente produjo un
disturbante par de conclusiones: (a) Simples modelos lineales, usando una pesada suma de
las señales, dieron un excelente trabajo de predecir decisiones de juicios, aunque (b) los
juicios exigieron que ellos estuvieran usando mucho más complicadas estrategias (L. R.
Goldberg, 1968b, 1970); Slovic & Lichtenstein, 1971). Una comúnmente sostenida forma de
complejidad es llamado juicio configuracional, en el cual el significado diagnóstico de una
señal depende sobre el significado de otras señales (por ejemplo, “ese tono de voz me hace
pensar ‘no de suicidio’ a menos que la llamada venga en las tempranas horas de la mañana”).
Dos razones para el conflicto entre políticas de juicio medidas y reportadas han emergido
de una subsecuente investigación, cada una con implicaciones negativas para la utilidad del
modelo de regresión para “capturar” la sensatez de decisiones pasadas. Uno fue la realización
del crecimiento que combinando enormes cantidades de información en la cabeza de uno,
como se requiere para tales fórmulas, abruma la capacidad de cómputo de cualquiera excepto
la de un sabio idiota. Un juez tratando de implementar una estrategia compleja simplemente
no estará en capacidad de hacerlo con gran consistencia. Ciertamente, es difícil aprender y
usar aún una regla de decisión no configural, de suma pesada, cuando existen muchas señales
ó relaciones inusuales entre las señales y variables predichas (Slovic, 1974).
La segunda realización que ha emergido de la investigación del juicio clínico es que los
modelos lineales simples son extraordinariamente poderosos pronosticadores (ver el Capítulo
28). Una simple teoría sustantiva indicando qué variables la gente cuida cuando toma
decisiones puede ser toda una necesidad de hacer muy buenas predicciones de su
comportamiento. Si algunos signos estimulan un diagnóstico ó una decisión y otros lo
desestimulan, simplemente contando el número de signos estimulantes y desestimulantes
proveerán una buena adivinación del comportamiento del individuo. El resultado, sin
embargo, será una más modesta teoría que uno puede derivar modelando una ostentosa
regresión (Fischoff, Goitein & Shapira, en impresión). Por lo tanto, mientras el pasado parece
ser correcto fuera de allí para ser entendido, nuestros procedimientos de estadística estándar
no siempre nos dicen lo que queremos conocer. Si no son usados cuidadosamente, ellos
pueden equivocarnos, dejándonos menos acertados que cuando empezamos. Nosotros
estamos tentados a abrazar teorías altamente complicadas en su totalidad, sin darnos cuenta
que su poder viene de nociones muy simples más que de tener capturada la esencia del
pasado.

Buscando por desatinos

Centrarse en falla

Buscando por un buen juicio en eventos históricos requiere un acto de fe – una creencia en la
existencia de patrones recurrentes esperando a ser descubiertos. Buscando por un buen juicio
en el comportamiento de caracteres históricos requiere de algún modo un diferente acto de fe
– confianza en que nuestros predecesores sabían cosas que nosotros no sabemos. La primera
275

de estas fees está fundada en la filosofía; ella distingue aquellos quienes visualizan la historia
como una ciencia social, no un estudio ideográfico de eventos únicos. La segunda de estas
fees está fundada en la claridad y modestia. Ella distingue aquellos quienes esperan ver más
adelante permaneciendo sobre los hombros de aquellos que vinieron antes, de aquellos
satisfechos con permanecer en sus caras. Aforismos como “aquellos quienes no estudian el
pasado están condenados a repetirlo” sugiere que la fe en la sabiduría de nuestros
predecesores es relativamente rara.
Una activa búsqueda por desatinos es, por supuesto, no sin mérito. No solo lo hacen los
individuos para quienes las cosas no van correctas y a menudo tienen mucho que explicar,
pero tales explicaciones son cruciales para aprender de su experiencia. Viendo cómo las cosas
fueron erróneas, esperamos hacerlas ir correctas en el futuro. La búsqueda por infortunios
para explicar es duramente difícil. El ojo, periodista e historiador son todos incitados al
desorden. Un accidente-libre de manejo al almacén ó a un reino sin guerras, depresiones ó
terremotos es para ellos sin incidentes.
Aunque tiene metas legítimas, centrarse en fallas es probable que nos equivoquemos
creando una visión distorsionada de la prevalencia del infortunio. La posibilidad de eventos
percibidos está determinada en parte por la facilidad con la cual ellos son imaginados y
recordados (Tversky & Kahneman, 1973, 11). Extendiéndose sobre las fallas debería, por
consiguiente, desproporcionadamente acrecentar su frecuencia percibida en el pasado (y
talvez el futuro).
Es también probable que promueva una apreciación no balanceada del desenvolvimiento
de nuestros predecesores. El revelador de escándalos en cada uno de nosotros es sacado de
historias de timadores del bienestar ó de la “sobre-regulación” de peligros particulares del
medio ambiente (por ejemplo, el infame estándar para un lugar de trabajo para el diseño de
asientos de inodoro de la Administración Ocupacional de Seguridad y Salud). Nosotros
tendemos a olvidar, aunque, cualquier falible, pero no diabólico, sistema de toma de decisión
produzca errores de ambas formas. Para cada timador acumulando beneficios inmerecidos,
existen uno ó varios ó una fracción de trampas, negando sus derechos por el mismo sistema
imperfecto. De hecho, la proporción de los dos errores están enlazados en un de algún modo
no intuitivo estilo dependiente sobre la exactitud del juicio y los recursos totales disponibles,
que es, el porcentaje de indigentes elegibles ó peligros que pueden ser tratados (Einhorn,
1978). Antes de precipitarnos a criticar el sistema de asistencia social para permitir a unos
pocos estafadores, deberíamos considerar si ó no allí podrían no haber también pocas
historias de horror de ese tipo, dada la relación de errores de comisión a errores de omisión.
En general, existe una buena posibilidad de ser al conducido cuando examinamos en
aislamiento decisiones que solo “trabajan” en una base de porcentaje.

Qué fue el problema?

Existen otros contextos en los cuales los errores en lo pequeño pueden mirar diferente cuando
algún contexto más largo es considerado. Por ejemplo, se nos enseña que las teorías
científicas deberían derribar a la muerte una vez cualquier evidencia inconsistente está
presente. Como resultado, estamos prestos a condenar el desatino de los científicos quienes
persisten en sus teorías a pesar de haber sido “probadas” erróneas. Kuhn (1962), sin embargo,
arguyó que tal desatino local podría ser consistente con más sabiduría global en las
investigación del conocimiento científico. Otros (por ejemplo, Feyerabend, 1975; Lakatos,
1979) han, de hecho, han encomiado el papel de la anarquía disciplinada en el crecimiento
del entendimiento y han dudado de la posibilidad de emerger de la sabiduría de la adherencia
ordenada a cualquier método favorecido de investigación. Ellos arguyen que el rechazo
276

obstinado a mirar la evidencia contraria ó a abandonar las teorías aparentemente


desconfirmadas es a menudo necesario para el progreso científico.
Los 125 millones de dólares impuestos contra Ford Motor Company en el caso Pinto hizo
que la decisión de la compañía para salvar unos pocos dólares en el diseño de ese tanque de
combustible parezca como un desatino. Aún en términos puramente económicos, un ahorro
garantizado de, digamos, $15 en cada uno de los 10 millones de Pintos hace que el riesgo de
un pleito legal un poco largo parezca como un juego más razonable. Desde que el juicio en
este bien publicitado pleito fuera reducido a 6 millones de dólares mediante una apelación, la
compañía puede actualmente estar a la cabeza en términos estrictamente económicos a pesar
de haber tenido el peor de los casos. Donde la compañía puede estar en falta es en ver un
contexto más grande (el número de carros (el número de carros en los cuales ahorraría
dinero), pero no otra (las consecuencias no económicas de su decisión). Parece no haberse
dado cuenta del impacto que la publicidad adversa tendría en la imagen de Ford como un
seguro conciente del fabricante de autos ó los precios de los Pintos usados (aunque ese precio
nació de propietarios de Pinto no de los productores).
Si reprobación es el nombre del juego, un error es un error. Aún si uno está interesado en
aprender de la experiencia de otros, es importante determinar qué problema ellos estuvieron
intentando resolver. Sobre un cuidadoso examen, muchos errores aparentes prueban
representar una hábil resolución del problema equivocado. Por ejemplo, si es para ser
criticado del todo, Ford podría ser mantenido culpable de juicio táctico y desatino estratégico
(ó talvez de poner la salud institucional sobre el bienestar de la sociedad)..
Esta distinción es importante, no solo por evaluar el pasado, sino también para conocer
qué medidas correctivas necesitan ser tomadas en el futuro. Usualmente, las equivocaciones
de táctica son más fáciles de corregir que los errores de estrategia. Una vez tenemos
apropiadamente caracterizada una situación, puede haber allí un “libro”, grabando la
sabiduría convencional como acumulada a través de experiencia de prueba y error, ó al
menos fórmulas para óptimamente combinar la información a nuestra disposición (Hexter,
1971). Directores de baseball, por ejemplo, pueden ya sea conocer lo que ha sido probado
exitoso para tener el sacrificio de bateo con un corredor en primera y nadie fuera (out) en un
juego apretado ó más tener las estadísticas necesarias para calcular cómo “ir con los
porcentajes”. Estas guías son, sin embargo, inútiles ó erróneas si el problema reala ser
solucionado es mantener la moral (el corredor tiene una posibilidad para conducir la liga en
bases robadas) ó ayudar a la taquilla (los fanáticos necesitan ver algún balanceo). Estudios de
ataques de sorpresa en relaciones internacionales revelan que las naciones sorprendidas han a
menudo hecho un buen trabajo de jugar por su propio libro pero no han identificado la arena
en la cual ellas estuvieron jugando (Ben Zvi, 1976; Lanir, 1978). En un sentido, ellos
estuvieron leyendo el libro equivocado; mientras ellos leen lo mejor, más fácil ellos
encuentran su cesión.
Una razón para la dificultad planteada por problemas estratégicos es que ellos deben ser
“pensados hasta el fin” analíticamente, sin el beneficio de acumulativa (estadística)
experiencia. Una segunda limitación es que los conceptos erróneos son a menudo
ampliamente compartidos dentro de un grupo ó comunidad de toma de decisión. Uno es
consultado sobre decisiones solo después que uno ha completado el catecismo en el libro.
Piezas recurrentes de consejo para instituciones interesadas en evitar sorpresas son (a) fijar
varios cuerpos analíticos separados en orden de proveer múltiples, independientes miradas al
problema ó (b) designar a un miembro para servir como “abogado del diablo” para puntos de
vista impopulares (Janis, 1972). En la práctica, la primera estrategia puede fallar porque
conceptos erróneos compartidos hacen a los grupos muy parecidos el uno al otro, creando
redundancia más que pluralismo (Chan, 1979). El segundo falla porque los abogados se
inclinan a un grupo de presión ó son condenados al ostracismo si ellos toman sus posiciones
277

impopulares seriamente, aún cuando aquellas posiciones “extremas” no desafíen


drásticamente las preconcepciones del grupo.
Fallas en distinguir entre decisiones tácticas y estratégicas pueden también crear una
inmerecida ilusión de sabiduría. Bancos y compañías de seguros son usualmente
considerados ser extremadamente racionales y hábiles en sus procesos de toma de decisiones.
Aún una cercana mirada revela que esta reputación viene de sus éxitos en hacer muy
repetitiva las decisiones tácticas en las cuales ellos casi no pueden perder. Hipotecas de casas
y pólizas de seguro de vida son emitidas sobre las bases de interpretaciones conservadoras
de tablas estadísticas adquiridas y ajustadas a través de una masiva experiencia de prueba y
error. Estas aventuras de las instituciones dentro de las decisiones más especulativas
requiriendo analíticas decisiones estratégicas, sugieren que ellos nos son más ingeniosos que
el resto de nosotros. Los bancos comerciales perdieron grandes sumas de dinero en los años
60’s a través insensatas inversiones otorgando créditos para bienes raíces; un similar pequeño
porcentaje de sus decisiones totales en los años 70’s ha encadenado la economía de EUA al
futuro de semi-solventes países del tercer mundo a quienes enormes ($ 60 billones de
dólares) en préstamos han sido concedidos (Aunque este encadenamiento puede ser por el
largo alcance bueno de humanidad, ese no fue necesariamente el problema que los bancos
estuvieron resolviendo). La lenta y errática respuesta de las compañías de seguros a cambios
en lo económico del seguro de accidente y sus casi peligrosos métodos no analíticos para
tratar con muchos riesgos no rutinarios, deben dejar al resto de nosotros sentirnos no tan
estúpidos cuando nos comparamos con estas encomiadas instituciones.

Retrospectiva: Pensando hacia atrás?

Si nosotros sabemos qué ha pasado y qué problema un individuo estaba tratando de resolver,
deberíamos estar en una posición para explotar la sabiduría de nuestra propia retrospectiva en
explicar y evaluar su comportamiento. Sobre un examen más cercano, sin embargo, las
ventajas de conocer cómo las cosas resultaron pueden ser haber hecho una propaganda
excesiva (Fischoff, 1975). En retrospectiva, la gente consistentemente exagera lo que podría
haber sido anticipado en previsión. Ellas no solo tienden a ver lo que ha pasado como
habiendo sido inevitable pero también como para verlo como teniendo parecido
“relativamente inevitable” antes de que sucediera. La gente cree que otros habrían estado
capaces de anticipar los eventos mucho mejor que lo que fue actualmente el caso Ellos aún
recuerdan mal sus propias predicciones como para exagerar en retrospectiva lo que ellos
sabían en previsión (Foschoff y Beyth, 1975).
Como fue descrito por el historiador Georges Florovsky (1969):

La tendencia hacia el determinismo está de algún modo implícito en el método de retrospectiva en si


mismo. En retrospectiva, parecemos percibir la lógica de los eventos los cuales se desvelan a sí
mismos en un estilo regular ó lineal de acuerdo a un reconocido patrón con una pretendida necesidad
interna. De tal manera que conseguimos la impresión de que realmente no podría haber pasado de
otro modo. (p. 369)

Un nombre apto para esta tendencia a ver resultados reportados como habiendo sido
relativamente inevitables, podría ser determinismo progresivo, en contraste con el
determinismo filosófico, la creencia conciente que lo que sea que pase tiene que pasar.
Una tendencia corolaria es telescopiar la proporción de procesos históricos exagerando la
velocidad con la cual “inevitables” cambios son consumados (Fischer, 1970). Por ejemplo, la
gente puede ser capaz de señalar el momento cuando los latifundios estuvieran condenados,
sin darse cuenta que ellos tomaron dos y media centurias para desaparecer. Otra tendencia es
recordarle a la gente como habiendo sido mucho más parecida a sus corrientes personalidades
278

de lo que era actualmente el caso (Yarrow, ]Capbell & Burton, 1970). Un tercera podría ser
vista en la crítica de Barraclough (1972) de la historiografía de la raíces ideológicas del
Nacismo. Mirando atrás del Tercer Reich, uno puede trazar sus raíces de los escritos de
muchos autores de cuyos escritos uno no podría tener proyectado el Nacismo. Una cuarta es
imaginar que los participantes en una situación histórica estuvieron totalmente concientes de
su eventual importancia (“Querido Diario, Los Cien Años de Guerra empezaron hoy”,
Fischer, 1970). Una quinta es el mito del experimento crítico, inequívocamente resolviendo
el conflicto entre dos teorías ó estableciendo la validez de una. De hecho, “el experimento
crucial es visto como crucial solo décadas después. Las teorías no se dan por vencidas, desde
que unas pocas anomalías están siempre permitidas. Ciertamente, es muy difícil derrotar un
programa de investigación soportado por talentosos e imaginativos científicos” (Lakatos,
1970, pp. 157-158).
En el corto plazo, una falla para ignorar el conocimiento del resultado sostiene
sustanciales beneficios. Es muy favorecedor creer, ó conducir a otros a creer, que nosotros
habríamos conocido todo a lo largo de lo que solo podríamos conocer con el conocimiento
del resultado , que es, que nosotros poseemos previsión de percepción retrospectiva total. En
el largo plazo, sin embargo, el determinismo progresivo no detectado puede seriamente
impedir nuestra habilidad de juzgar el pasado ó aprender de el.
Considere a los que toman decisiones quienes han sido cogidos no preparados por algún
cambio de eventos y quienes tratan de ver dónde ellos estuvieron equivocados por recrear su
conocimiento en el pre-resultado del estado de la mente. Si, en retrospectiva, el evento parece
haber parecido relativamente probable, ellos pueden hacer poco más que regañarse a sí
mismos por no tomar la acción que su conocimiento parece haberle dictado. A ellos podría
decírseles que agreguen el insulto de pesar a la injuria inflingida por el evento mismo.
Cuando la segunda pensada por un observador de percepción retrospectiva, su infortunio
aparece como incompetencia, desatino ó peor.
En situaciones donde la información es limitada e indeterminada, sorpresas ocasionales y
fallas resultantes son inevitables. Es ambos injusto y derrotarse a sí mismo castigar a los que
toman decisiones quienes han errado en sistemas falibles, sin admitir esa falibilidad y hacer
algo para mejorar el sistema. De acuerdo con la historiadora Roberta Wohlstetter (1962), la
lección a ser aprendida de la sorpresa Americana en Pearl Harbor es que debemos “aceptar el
hecho de incertidumbre y aprender a vivir con el. Desde que ninguna magia proveerá certeza,
nuestros planes deben trabajar sin el” (p. 401).
Cuando intentamos entender eventos pasados, nosotros implícitamente probamos las
hipótesis ó reglas que usamos para interpretar y anticiparnos al mundo que nos rodea. Si, en
percepción retrospectiva, sistemáticamente subestimamos las sorpresas que el pasado sostuvo
y sostiene para nosotros, estamos sujetando aquellas hipótesis a desmesuradamente débiles
pruebas y, presumiblemente, encontrando poca razón para cambiarlas. Por lo tanto, el
verdadero conocimiento del resultado el cual nos da el sentimiento de que entendemos lo que
el pasado fue puede prevenirnos de aprender algo de el.
Protegiéndonos a nosotros mismos contra este prejuicio requiere algún entendimiento de
los procesos psicológicos involucrados en su creación. Parece que cuando recibimos el
conocimiento del resultado, inmediatamente le damos sentido integrándolo dentro de lo que
ya conocemos sobre el sujeto. Habiendo hecho esta reinterpretación, el resultado reportado
ahora parece un más ó menos crecimiento inevitable de la situación reinterpretada. “Dándole
sentido a lo que se nos ha dicho del pasado es, a su vez, tan natural que debemos estar
ignorantes que el conocimiento del resultado ha tenido cualquier efecto en nosotros. Aún si
estamos concientes de haber tenido un efecto, podemos estar ignorantes de lo que fue
exactamente. En tratar de reconstruir nuestra predicción del estado de la mente,
279

permaneceremos anclados en nuestra perspectiva de percepción retrospectiva, dejando el


resultado reportado muy probable de mirar.
Como un resultado, meramente previniendo a la gente sobre los peligros del prejuicio de
la percepción retrospectiva tiene poco efecto (Fischoff, 1977b). Una manipulación más
efectiva es forzarse uno mismo a argüir contra lo inevitable de los resultados reportados. Que
es, tratar de convencerse uno mismo que el podría haberse vuelto de otro modo.
Cuestionando la validez de las razones que usted ha recopilado para explicar su condición de
inevitable podría ser un buen punto de partida (Koriat, Lichtenstein 6 Fischoff, 1977). Aún
desde que este inusual paso parece no enteramente adecuado, uno podría más adelante tratar
de rastrear algo de la incertidumbre rodeando eventos pasados en su original forma. Existen
transcripciones de la información llegando al Comando de Pearl Harbor previos a las 7 A.M.
del 7 de Diciembre? Existe un libro de notas mostrando las existencias que usted consideró
antes de establecerse en la Industrias Waltham? Existen diarios capturando la visión de
Chamberlain de Hitler en 1939? Una interesante variante fue la determinación de Douglas
Freeman de no conocer sobre cualesquiera eventos subsecuentes cuando se encontraba
trabajando sobre cualquier período dado en su biografía definitiva de Robert E. Lee
(Comager, 1965). Aunque admirable, esta estrategia requiere algunas simples suposiciones
sobre la prevalencia del conocimiento respecto a quién se rindió en Appomattox.

Mirando a todo

Porqué mirar?

El estudio del pasado es predicado en la creencia de que si miramos, estaremos en capacidad


de discernir algunos patrones interpretables. Considerable investigación sugiere que esta
creencia está bien fundada. La gente parece tener una extraordinaria habilidad para encontrar
algún orden ó significado en datos aún aleatoriamente producidos. Uno de los ejemplos más
familiares es la falacia de los jugadores. Nuestro sentimiento es que lanzando una moneda al
aire, cuatro sucesivas “caras” serán seguidas por una “cruz” (Lindman & Edwards, 1961).
Por tanto en nuestras mentes, aún procesos al azar están constreñidos a tener propiedades
internas ordenadamente. Kahneman y Tversky (1972b, 3) han sugerido que de las 32
secuencias posibles de seis eventos binarios solo 1 luce actualmente “aleatorio”.
Aunque la falacia de los jugadores es usualmente citada en el contexto de picantes pero
triviales ejemplos, puede ser encontrado en intentos más serios para explicar los eventos
históricos. Por ejemplo, después de inteligentemente mostrar que las vacantes en la Suprema
Corte aparecen más ó menos al azar (de acuerdo a un proceso de Poisson), con la
probabilidad de la menos una vacante en cualquier año dado siendo .39, Morrison (1977)
demandó que:

El Presidente Roosevelt anunció su plan para llenar la Corte en Febrero de 1937, poco después de
empezar su quinto año en la Casa Blanca. 1937 fue también el año en el cual hizo su primer
nombramiento en la Corte. Que él tuvo esta oportunidad en 1937 no caería de sorpresa, porque la
probabilidad de que él iría cinco años consecutivos sin nombrar a uno ó más jueces fue sino .08, ó una
posibilidad en doce. En otras palabras, cuando Roosevelt decidió cambiar la Corte creando asientos
adicionales, las probabilidades eran ya de once a uno en su favor de que él estaría en capacidad de
nominar uno ó más jueces por medios tradicionales ese año (pp. 143-144)

Sin embargo, si las vacantes aparecen al azar, entonces este razonamiento está
equivocado. Se asume que el proceso probabilístico creando vacantes, como ese de gobernar
con monedas lanzadas al aire, tiene una memoria y un sentido de justicia, como si el conoce
que se está moviendo dentro del quinto año de la presidencia de Roosevelt y que el “debe” a
280

FDR una vacante. Sin embargo, el 1 de enero de 1937, los pasados cuatro años fueron
historia, y la probabilidad de al menos una vacante en el año venidero estaba aún en .39
(Fischoff, 1978).
Feller (1968) ofrece la siguiente anécdota involucrando aún más altos juegos: Los
Londinenses durante los bombardeos, dedicaron considerable esfuerzo a interpretar el patrón
de bombardeo de los Germanos, desarrollando elaboradas teorías de dónde estuvieron
apuntando (y cuando tomar el poder). Sin embargo, cuando Londres fue dividido dentro de
pequeñas, áreas geográficas contiguas, la distribución de frecuencia de bombas cayendo por
área fue casi una perfecta aproximación a la distribución de Poisson. Kates (1962) sugiere
que los desastres naturales constituyen otra categoría de eventos consecuentes donde
(desafiados) la gente lega ve orden cuando los expertos ven aleatoriedad.
Un secreto para mantener tales creencias es una falla en guardar grabaciones completas
suficientes para forzarnos nosotros mismos a confrontar irregularidades. Los historiadores
admiten el papel de la evidencia perdida facilitando sus explicaciones con comentarios como
“la historia de la Edad Victoriana nunca será escrita. Conocemos demasiado sobre ella. Por
ignorancia es el primer requisito de los historiadores – ignorancia la cual simplifica y
clarifica, la cual selecciona y omite, con plácida perfección no alcanzable por el arte más
alto” (Strachey, 1918, prefacio).
Aún cuando grabaciones están disponibles e inevitables, nos parece tener una remarcada
habilidad para explicar ó proveer una interpretación causal para cualquier cosa que vemos.
Cuando los eventos son producidos por procesos probabilísticos con propiedades intuitivas,
una variación aleatoria puede aún no ocurrirnos como una hipótesis potencial. Por ejemplo,
el hecho de que los atletas castigados por pobre ejecución tienden a hacerlo mejor la vez
siguiente se ajusta a nuestras ingenuas teorías de recompensa y castigo. Esta cómoda
explicación nos ciega a la posibilidad de que el mejoramiento es debido en vez de regresión a
la ejecución media de aquellos jugadores (Furby, 1973; Kahneman & Tversky, 1973, 4).
Fama (1965) ha forzosamente argüido que las fluctuaciones de precios del mercado de
valores son mejor entendidas como reflejando como un proceso de paseo aleatorio. Los
paseos aleatorios, sin embargo, tienen siempre más propiedades no intuitivas que los
procesos binarios para los cuales ellos están formalmente relacionados (Carlson, 1972).
Como resultado, encontramos que los analistas del mercado tienen una explicación para cada
cambio en el precio, ya sea a propósito ó no. Algunas explicaciones, como aquellas
mostradas en la Figura 1, son inconsistentes, 2 otros parecen negar la posibilidad de cualquier
componente aleatorio, por ejemplo, ese último factor amañado, el “ajuste técnico”.
El pseudo poder de nuestras explicaciones puede ser ilustrado por analogía con el análisis
de regresión. Dado un set de eventos y un suficientemente grande ó rico set de posibles
factores explicativos, uno puede siempre derivar postdicciones ó explicaciones para cualquier
grado de rigidez deseado. En términos de regresión, expandiendo el set de variables
independientes uno puede siempre encontrar un set de predictores con cualquier deseada
correlación con la variable independiente. El precio que uno paga por sobre ajustar es, por
supuesto, disminución, falla de la regla derivada para el trabajo de una nueva muestra de
casos. La frecuencia y vehemencia de las precauciones metodológicas contra el sobre ajuste
Insertar aquí la Figura 1 de la página 346 del texto original.
2
Uno de mis contrastes favoritos es que cuando el mercado se eleva siguiendo buenas noticias económicas, es
dicho para estar respondiendo a la noticias; si falla que es explicado diciendo que las buenas noticias habían
ya sido descontadas.
sugiere que la capacidad destructiva de la correlación es un prejuicio que es muy resistente
para también un extenso entrenamiento profesional (para referencias, ver Fischoff & Slovic,
1980).
281

Una teoría sobreajustada es como un traje elaborado tan precisamente a un individuo en


una postura particular que no se ajustará a nadie más ó aún ese mismo individuo en el futuro
ó aún el presente si nueva evidencia sobre él sale a luz (por ejemplo, si él mantiene la
exhalación para revelar una barriga). Un historiador quien había construido un caso
hermético contando con toda la evidencia disponible en explicar cómo los Bolcheviques
ganaron podría estar en una triste posición en que fueron los de la USSR para liberar
documentos ocultados mostrando que los Menshevics fueron más serios adversarios de lo
que previamente se había pensado. El precio que los analistas de inversiones pagan por
sobreajustar es su falla de largo plazo para predecir algo mejor que los promedios del
mercado (Dreman, 1979) – aunque el cínico podría decir que ellos actualmente se ganan la
vida a través de la generación de esperanza (y comisiones). 3
Sobreajustar ocurre debido a la capitalización de fluctuaciones de probabilidad. Si la
medida es suficiente fina, dos casos difiriendo en una variable también diferirán en casi
cualquier otra variable que uno escoja nombrar. Como un resultado uno puede calcular una
correlación no cero (actualmente, en este caso, perfecta) entre las dos variables y derivar una
teoría “interesantemente” sustantiva. Procesos análogos a este trabajo de un caso de dos
dimensiones con cualesquiera observaciones m en el espacio definido n por nuestro juego de
posibles conceptos explicativos.
En estos ejemplos, los datos son fijados e innegables, mientras el set de posibles
explicaciones es relativamente ilimitado; uno busca hasta que uno encuentra una explicación
que se ajuste. Otra forma popular de capitalización de probabilidades deja el juego de
explicaciones fijado (usualmente a un candidato) y es examinado cuidadosamente a través de
los datos hasta que la evidencia de soporte es encontrada. Aunque las más ignorantes formas
de este procedimiento son bien conocidas, otras son más sutiles y aún de algún modo
ambiguas en su caracterización. Por ejemplo, usted corre un experimento y falla en recibir un
resultado anticipado. Pensando sobre el, usted nota un elemento de su procedimiento que
podría haber mitigado el efecto de la variable manipulada. Usted corrige; otra vez no resulta
pero, de nuevo, un posible problema. Finalmente, usted (ó sus sujetos) lo consigue correcto y
el efecto anticipado es obtenido. Ahora, es correcto ejecutar su prueba estadística sobre esa na
muestra (para la cual muestra significancia) ó el lote completo de ellas? Había usted hecho el
experimento correcto primero, la interrogante aún no habría surgido. Ö como un toxicólogo,
usted está “cierto” que la exposición al químico X es mala para la salud de uno, por lo tanto
usted compara los trabajadores quienes sí trabajan y los que no trabajan con el en una planta
particular por cáncer de la vejiga, pero aún no tiene efecto. Por lo tanto trata cáncer intestinal,
enfisema, mareo, etc. hasta que finalmente usted consigue una significante diferencia en el
cáncer de piel. Es esa diferencia significativa? Por supuesto la manera de probar estas
explicaciones ó teorías es por una réplica en nuevas muestras. Ese paso, desafortunadamente,
es rara vez dado y a menudo no es posible por razones técnicas ó éticas (Tukey, 1977).
Complicaciones relacionadas pueden surgir aún con teorías fijadas y un juego de datos.
Diaconis (1978) nota la dificultad de evaluar la cantidad de sorpresa en resultados EPS, aún
el los casos raros en los cuales ellos han sido obtenidos en ajustes moderadamente
supervisados, debido a que la definición del evento buscado continúa cambiante. “Una mayor
clave para el éxito del B:D: fue que no especificó por adelantado el resultado de ser
3
Un amigo una vez tomó un curso de lectura de forma de gráficos de una correduría local. Cada sesión
involucró la enseñanza de 10-12 nuevos temas. Cuando el curso finalizó, cinco sesiones y 57 temas más tarde,
el instructor estaba lejos de agotar su material.
considerado sorprendente. Las probabilidades contra una coincidencia de alguna clase son
dramáticamente menores que aquellas contra cualquier pre-especificado particular de ellos”
(p. 132). 4
282

Tufte y Sun (1975) que la existencia ó no existencia de mansos precintos depende de la


creatividad y flexibilidad permitida en definir el evento (para qué oficina? en qué elecciones?
cuán bueno es bueno? son precintos que se olvidan consistentemente de ser incluidos?). Ellos
son comúnmente creídos de existir debido a que tenemos una no común buena habilidad para
encontrar una señal aún en un ruido total.

Hemos visto suficiente?

Dado que nosotros estamos casi seguros de encontrar algo interpretable cuando miramos al
pasado, nuestra siguiente pregunta viene a ser, “Lo hemos entendido?”. La investigación de
percepción retrospectiva descrita anteriormente sugiere que nosotros no solo estamos prestos
a encontrar orden sino también sino también a prepararnos a sentir que lo conocimos desde el
principio de algún modo ó seríamos capaces de predecir el resultado que nos había sido
preguntado en tiempo. Ciertamente, la facilidad con la cual descontamos la información de
cualquier cosa que se nos ha dicho lo hace sorprendente que siempre preguntamos el pasado,
ó cualquier otra fuente, muchas preguntas. Esta tendencia es agravada por tendencias (a) no
darnos cuenta cuán poco sabemos ó se nos ha dicho, dejándonos ignorantes de qué preguntas
deberíamos estar preguntando en busca de respuestas sorprendentes (Fischoff, Slovic &
Lichtenstein, 1977, 1978) y (b) sacar conclusiones trascendentales de aún pequeñas
cantidades de datos no confiables (Kahneman y Tversky, 1973, 4; Tversky y Kahneman,
1971, 2).
Cualquier propensión a no mirar más lejos es animada por la norma de reporta la historia
como un buen cuento, con todos los detalles relevantes nítidamente explicados y la
incertidumbre y la incertidumbre rodeando el evento previo a su consumación sumariamente
enterrada, con cualquier confusión que el autor puede haber sentido (Gallie, 1964; Nowell-
Smith, 1970). Justo uno de los secretos para hacer esto es revelado por Tawney (1961): “Los
historiadores dan una apariencia de inevitabilidad a un orden existente, sacando de la
prominencia las fuerzas que han triunfado y confiando en el antecedente de aquellos que
ellos han creído” (p. 177). 5
Aunque una intuitivamente atrayente meta, la construcción de narrativas coherentes
expone al lector a algunos interesantes prejuicios. Una narrativa completada consiste de unas
series de eslabones de alguna manera independientes, cada uno imparcialmente bien
establecido. La verdad de la narrativa depende sobre la verdad del eslabón. Generalmente,
mientras más eslabones existen y más detalle existe en cada eslabón, la menor probabilidad
de que la historia sea correcta en su totalidad. Sin embargo, Slovic, Fischoff y Lichtenstein
(1976) han encontrado que adicionando un detalle a la descripción de un evento puede
incrementar su percibida probabilidad de ocurrencia, evidentemente por el incremento de su
unidad temática. Bar-Hillel (1973) encontró que la gente consistentemente exagera la
probabilidad de la conjunción de unas series de eventos probables. Por ejemplo, sus sujetos
generalmente prefirieron una situación en la cual ellos recibirían un premio si siete eventos
4
Diaconis continúa, “Para más adelante complicar cualquier análisis, varios experimentos definidos enfermos
fueron a menudo conducidos simultáneamente, interactuando uno con otro. El joven ejecutante electrificó su
audiencia. Sus frecuentemente completamente olvidadas adivinanzas fueron generalmente consideradas con
simpatía, más que duda; y para la mayoría de observadores ellas parecieron solo para confirmar la realidad de
los inusuales poderes del B:D:”.
5
Tales estrategias pueden afectar el espirito así como la mente, subjetivamente animando la fortaleza y
estabilidad del status quo y reduciendo su aparente capacidad para cambiar (Marcovic, 1970).
independientes cada uno con una probabilidad de .90 fueran a ocurrir en una situación en la
cual ellos conseguirían el mismo premio si una moneda legal cayera en “cruz””.La
probabilidad del evento compuesto es menor que .50, mientras que la probabilidad del evento
283

simple es .50. En otras palabras, la incertidumbre parece acumular a lo sumo una velocidad
demasiado lenta.
Qué pasa si la secuencia incluye uno ó unos pocos eslabones débiles ó improbables? La
probabilidad de su eslabón más débil debería fijar un límite superior de la probabilidad de
una narrativa entera. Juicios coherentes, sin embargo, pueden ser compensatorios, con la
coherencia de fuertes eslabones “repartiendo en partes iguales” la incoherencia de los
eslabones débiles. Este eslabón es explotado por abogados quienes entierran el eslabón más
débil en sus argumentos cerca del principio de su resumen y terminan con una ráfaga de
convincentes, incontestables argumentos.
Coles (1973) presenta un delicioso ejemplo de la coherencia completa de una historia
oscureciendo la improbabilidad de sus eslabones: el intento más serio de Freud en la
psicohistoria fue su biografía de Leonardo da Vinci. Por años, Freud había buscado el secreto
de entender a da Vinci, cuya niñez y juventud fueron básicamente desconocidas. Finalmente,
él descubrió una referencia de da Vinci a una recurrente memoria de un buitre tocando sus
labios mientras él estaba en la cuna. Notando la identidad de los jeroglíficos Egipcios para
“buitre” y “madre” y otra evidencia circunstancial, Freud fue a construir un imponente y
coherente análisis de da Vinci. Cuando compilaba la edición definitiva de los trabajos de
Freud, sin embargo, el editor descubrió que la traducción Alemana de la recolección de da
Vinci (originalmente en Italiano) que Freud había usado, contenía un error, y que el era un
cometa (barrilete) y no un buitre que había acariciado sus labios. A pesar de tener la clave al
análisis de Freud destruía, los editores decidieron que el edificio remanente era suficiente
fuerte para sostenerse solo. Como Hexter (1971 observó, “En parte porque escribir mal la
historia es muy fácil, escribir muy bien la historia es raro” (p. 59).

Conclusión

Qué lecciones generales podemos aprender sobre el estudio del pasado, más allá del hecho de
que entender es más elusivo de lo que a menudo puede ser reconocido?

Presentimiento

Inevitablemente, estamos cautivos de nuestra presente perspectiva personal. Nosotros


sabemos cosas que aquellos viviendo en el pasado no las conocen. Usamos categorías
analíticas (por ejemplo, el feudalismo, Cien Años de Guerra) que son significativos solo en
retrospectiva (E. A. R. Brown, 1974). Tenemos nuestros propios puntos para probar cuando
interpretar un pasado que nunca es suficientemente no ambiguo para evitar la imposición de
nuestra perspectiva ideológica (Degler, 1976). Los historiadores “juegan nuevas tretas sobre
la muerte en cada generación” (Becker, 1935). No existe antídoto probado para el
presentimiento. Algunos remedios parciales pueden ser generalizados de la discusión de
cómo evitar prejuicios de percepción retrospectiva cuando se practica la segunda adivinación
del pasado. Otros aparecen en casi cualquier texto dedicado al entrenamiento de los
historiadores. Talvez los mensajes generales parecen ser (a) conocernos a nosotros mismos y
el presente tan bien como sea posible; “el historiador quien está más conciente de su propia
situación es casi más capaz de trascenderlo” (Benedetto Croce, cita en Carr, 1961, p. 44): y
(b) siendo tan caritativos como sea posible con nuestros predecesores; “el historiador no es
un juez, todavía menos un juez patibulario” (Knowles, citado en Marwick, 1970, p. 101).

Metodismo
284

En adición a la inescapable prisión de nuestro propio tiempo, favorecemos restringir nuestra


propia perspectiva mediante voluntariamente adoptar las anteojeras que acompañan estricta
adherencia a un simple método científico. Aun cuando es usado judicialmente, ningún
método es adecuado para responder muchas de las interrogantes que nosotros ponemos al
pasado. Cada uno nos dice algo y nos conduce de alguna manera al error. Cuando nosotros no
sabemos cómo conseguir la respuesta correcta a una interrogante, una alternativa
epistemológica es necesaria: Use tan amplio rango de técnicas ó perspectivas como sea
posible, cada una de las cuales nos posibilita evitar ciertas clases de equivocaciones. Esto
significa una clase de cooperación interdisciplinaria y respeto diferente de ese encontrado en
la mayoría de intentos para mezclar dos aproximaciones. Paridades ó disparidades como la
psicohistoria también a menudo son intentadas por abogados insensitivos a los peligros en su
campo adoptado (Fischoff, en imprenta-b). Hexter (1971) describe a los historiadores
involucrados en tales aventuras como “ratas” a bordo de barcos hundiéndose
intelectualmente” (p. 110).

Aprendizaje

Retornando a Benson (1972), si deseamos el pasado para servir al futuro, no podemos tratarlo
en aislamiento. Las reglas que usamos para explicar el pasado deben también ser aquellas que
usamos para predecir el futuro. Debemos acumular nuestra experiencia con un ojo cuidadoso
para todas las pruebas relevantes de nuestras hipótesis. Un aspecto de hacer esto es
compilando documentos que pueden ser sujetos a análisis estadístico sistemático. Un
segundo aspecto es guardar el trazo de las deliberaciones que presiden nuestras propias
decisiones, dándonos cuenta que el presente pronto será pasado y que una calificación bien
preservada es el mejor remedio para el prejuicio de la percepción retrospectiva: Un tercer
aspecto es hacer predicciones que puedan ser evaluadas; una perturbadora lección del
accidente nuclear de la Isla de las Tres Millas es que no está enteramente claro lo que ese
ostensiblemente evento diagnóstico nos dijo sobre la validez del Estudio de Seguridad del
Reactor (U.S. Nuclear Regulatory Commision, 1975) que intentó evaluar los riesgos del
poder nuclear: Un cuarto aspecto es conseguir una mejor idea de la validez de nuestros
propios sentimientos de confianza, en la medida en que la confianza en el conocimiento
presente controla nuestra búsqueda de nueva información e interpretaciones (Fischoff, Slovic
& Lichtenstein, 1977). Por lo tanto, deberíamos estructurar nuestras vidas de tal forma de
facilitar el aprendizaje.

Indeterminación

En el final, no puede haber respuestas a muchos de las interrogantes que nosotros estamos
planteando. Algunas son mal formadas. Otras no pueden ser respondidas con herramientas
existentes ó posibles. Tanto como nos gustaría saber “cómo los que están a favor lo hacen”,
ahí no puede haber modo estadísticamente para modelar expertos en políticas de juicios para
el grado deseado de precisión con estímulos realistas. Nuestras teorías son a menudo de “tal
complejidad que ningún simple trabajo cuantitativo podría aún empezar a probar su validez”
O´Leary et al., 1974, p. 228). Cuando grupos que deseamos comparar sobre una variable
también difieren sobre otra, no existe lógicamente un sano procedimiento para compararlos
en esa molesta variable (Meehl, 1970). Cuando hemos tratado muchas explicaciones posibles
en un fijado set de datos, no existe un estricto modo de conocer cuántos grados de libertad
hemos usado, cuán lejos hemos capitalizado en posibilidad (Campbell, 1975). Cuando
usamos múltiples aproximaciones, el conocimiento que ellas producen nunca convergen
nítidamente. En el final, podemos tener que adoptar la perspectiva filosófica de Trevelyan
285

que “varias lecturas imperfectas de historia son mejores que ninguna” (citada en Marwick,
1970, p. 57).
286

Parte VII

Evaluación multietapas
287

24. Evaluación de probabilidades compuestas en


escogencia secuencial

John Cohen, E. I. Chesnick y D Haran

Situaciones frecuentemente ocurren en las cuales un resultado exitoso depende de un


individuo haciendo una correcta escogencia de cada una de varias más ó menos etapas
independientes. La escogencia del modo de transporte a varias etapas de un viaje es un
ejemplo. Predicamentos comparables ocurren en la vida profesional, política, administrativa,
política y militar y en redes de comunicación generalmente. El orden temporal de las varias
escogencias no es invariablemente un factor vital. Además, la situación como un todo puede
tener un stochastic (?) carácter en que la probabilidad de la escogencia correcta puede variar
de etapa en etapa.
Describiremos un experimento simulando este tipo general de situación, el cual
claramente requiere, para un resultado exitoso, la multiplicación de las probabilidades.
Estudios de preferencia para localizar un objetivo en un arreglo m x n, ó en una
representación en una división dentro de zonas concéntricas, indican que las celdas en el
arreglo ó las zonas concéntricas no son subjetivamente equiprobables como localizaciones
para el objetivo (Cohen, }boyle & Chesnickl, 1969). Los sujetos no parecen adivinar, al azar,
la localización desconocida del objetivo. Su estrategia de búsqueda tiene más el carácter de
“adivinar” dónde el experimentador la ha escondido, ó de localizarla donde ellos esperarían
que ella esté. Otros experimentos (Cohen & Hansel, 1958) sugieren que mucha gente, cuando
se encuentran encaradas con una situación que involucra probabilidades compuestas, tienden
a adicionar, en lugar de multiplicar, las posibilidades de las diferentes etapas.
Podemos por consiguiente predecir que en un arreglo m x n, con un objetivo desconocido
en cada una de las filas m, el estimado del sujeto de su posibilidad de adivinar todos los
objetivos correctamente será exagerado, como es juzgada por la probabilidad compuesta, n-m,
de localizar el objetivo. Nuestro experimento está designado para probar esta predicción, y
para aclarar el fenómeno el cual la situación generará.
El aparto consistió de un tablero sobre el cual fueron colocadas m filas cada una
conteniendo n receptáculos, donde m y n cada uno tomó los valores 2, 3, 4, 5 ú 8. Todos los
receptáculos fueron vaciados excepto uno en cada fila el cual contenía un ticket. En número
de etapas separadas por consiguiente tuvo un rango de 2 a 8, con la posibilidad de adivinar
los rangos de 2-1 a 2-3.
Los sujetos fueron cincuenta muchachos de edades entre 14 y 15 años cuya “inteligencia”
podría ser asumida ser al menos tan buena como la del promedio adulto. A un sujeto se le dio

Este capítulo originalmente apareció en Nature, 1971, 32, 414-416. Derechos de autor © 1971 por Macmillan
Journals, Ltd. Reimpreso con permiso.
Tabla 1. Probabilidades psicológicas (ψ) basada en escogencia de lotería
288

No. de No. de etapas en el arreglo


Alternativas ---------------------------------------------------------------------------
por etapa 2 3 4 5 8 M
2 0.45 0 .51 0.36 0.38 0.37 0.41
3 0.41 0.21 0.21 0.21 0.17 0.24
4 0.31 0.23 0.21 0.12 0.11 0.19
5 0.30 0.22 0.17 0.18 0.08 0.19
8 0.07 0.16 0.11 0.13 0.05 0.11

M 0.31 0.27 0.21 0.20 0.16

Nota: Las entradas en la tabla representan medias de diez observaciones.

a entender que en orden de ganar un premio él tenía que adivinar la correcta localización del
ticket en cada fila, solo una adivinanza siendo permitida. Su tarea fue igualar lo que él pensó
era la probabilidad de ganar el premio con uno de un set de loterías.
Hubieron catorce loterías en total. Diez de ellas tuvieron 100 tickets cada una, la
posibilidad de sacar un ticket ganador, basada en el número de tickets ganadores en la lotería
particular, siendo 0.01, 0.1, 0.2, 0.3, . . ., 0.9. Las restantes cuatro loterías tuvieron 500,
1,000, 5,000 y 10,000 tickets respectivamente, con la posibilidad correspondiente de sacar un
ticket ganador de, 0.002, 0.001, 0.0002 y 0.0001.
El rango de valores tomados para las filas y el rango de valores de los receptáculos
permitidos para veinticinco diferentes situaciones. A cada uno de los cincuenta sujetos les
fueron asignados al azar para cinco de estas situaciones por medio de cuadrados Latinos
tomados al azar. Diez sujetos juzgaron así cada situación m x n.
La cantidad de información actualmente requerida para localizar el objetivo es mlog 2n
“bits”, donde m es el número de filas, a las cuales llamaremos ahora “etapas”, y n el número
de receptáculos, los cuales serán designados “alternativas”. La posibilidad de sacar un ticket
ganador en la lotería escogida por el sujeto la trataremos como un estimado indirecto de su
probabilidad psicológica (ψ) de ganar un premio.
Los resultados presentados en la Tabla 1 indican que todos los valores de ψ son
sobreestimados, como juzgadas por las probabilidades compuestas, p, por consiguiente
confirmando nuestra predicción. La magnitud de la sobreestimación es indicada por las
relaciones de ψ a p en la Tabla 2, las cuales sugieren que el realismo de los estimados es
confundido por una aparente tendencia a tomar menos cuenta del número de etapas que el
número de alternativas por etapa, aunque un análisis de la variación muestra que en relación
a la variación residual, ambas variaciones la inter-etapa y la inter-alternativa son significantes
(p < 0.01).

Tabla 2. Relaciones, ψ/p, de probabilidades psicológicas a compuestas


No. de No. de etapas en el arreglo
Alternativas ------------------------------------------------------------------------------------------
_ por etapa____ 2 3 4 5 8__________
2 1.8 4.0 5.7 12.2 95.0
3 3.8 5.9 17.8 53.2 10 3
4 4.9 14.8 54.0 118.0 7 x 10 3
5 7.5 27.8 106.0 563.0 3 x 10 4
3
8 4.3 82.4 465.0 4 x 10 9 x 105
289

Este efecto diferencial viene a estar claro si ploteamos, como en la Figura 1, el logaritmo
de la sobreestimación relativa, log10 ψ/p, contra la cantidad en bits, m log2 n, requerido para
localizar el objetivo. La relación es lineal, y es dada por la ecuación:

Log10 ψ/p = 0.26 m log2 n – 0.31 (1)

Esta puede ser reescrita como:

Ψ/p = e(0.86mlogen – 0.72) (2)

de la cual se sigue que si conservamos el número de etapas constantes, ψ/p es directamente


proporcional a una potencia del número de alternativas por etapa, mientras que si
conservamos el número de alternativas constante, ψ/p varía exponencialmente con el número
de etapas.
Dado m y n, podemos predecir el valor medio de ψ porque

P = n-m (3)

La probabilidad compuesta p es obtenida multiplicando las respectivas probabilidades de


adivinar correctamente en cada una de las m etapas, cada una de estas probabilidades siendo
igual a 1/n.
Por consiguiente, de (2)

Ψ = e-0.72n-0.14m
(e-0.72 = 0.49) (4)

En general, por consiguiente, la sobreestimación relativa de ψ/p resulta de una atenuación


subjetiva del factor multiplicativo, m, del número de etapas. Esta atenuación es del orden de
seis setentavos del número de etapas, dentro de nuestras restricciones experimentales. Esto
nos conduce a inferir que el elemento multiplicativo en la probabilidad compuesta está lejos
de ser “primitivo” ó intuitivo, lo cual puede ayudar para explicar las dificultades especiales
que la gente encuentra en el estudio de estadística.

Insertar aquí la Figura 1 de la página 358 del texto original.

Figura 1. Log de la sobreestimación relativa ploteada contra el número de bits (log 10(ψ/p)
contra m log2 n). p = probabilidades compuestas ; m = número de etapas; n = número de
alternativas.

Nuestra interpretación está soportada por experimentos similares con sujetos entre las
edades de 9+ y 10+ años, en la cual, aparte de una gruesa sobreestimación relativa de ψ, las
tendencias no son discernibles con variaciones en los valores de m y n. Esto también sugiere
que el elemento multiplicativo no es primitivo.
El método que hemos usado involucra una evaluación indirecta de ψ. Una evaluación
más directa podría obtenerse requiriendo al sujeto a que escoja entre diferentes tipos de
arreglo. La utilidad de la escogencia, sin embargo, podría entonces llegar a ser un factor
importante.
Este experimento dilucida la aparente tendencia, en una variedad de situaciones de
escogencia multi-etapas, para el que toma la decisión de mal juzgar la probabilidad de su
290

éxito, y por consiguiente adoptar una estrategia inapropiada la cual él más adelante
lamentará.
De interés histórico en esta conexión es el hecho de que la mayoría de sutiles pensadores
de la antigua Grecia, aunque muy intrigados por la idea de lo posible, especialmente en la
filosofía de Stoic, nunca agarraron el análisis combinacional, el cual habría de esperar hasta
el siglo XVI para su desarrollo. Aristóteles mismo evidentemente tenía solo una pequeña
apreciación del concepto de probabilidad . Cualquier intuición del sujeto que él y otros
podrían haber tenido estuvieron sumergidos por grandes hábitos establecidos del
pensamiento.
La relativa sobreestimación de las probabilidades compuestas las cuales el experimento
ha revelado pueden ser un fenómeno de considerable generalidad en la decisión y escogencia.
Si es así, ella amerita una designación especial. Proponemos nombrarla el “efecto ψ inercial”.
291

25. Conservatismo en el procesamiento de la


información humana

Ward Edwards

. . . Una abundancia de investigación ha mostrado que los seres humanos procesadores


conservadores de la información falible. Tales experimentos comparan el comportamiento
humano con los rendimientos del teorema de Bayes, la formalmente regla óptima sobre cómo
las opiniones (que es probabilidades) deberían ser revisadas sobre las bases de nueva
información. Resulta que el cambio de opinión es muy ordenado, y usualmente proporcional
a los números calculados del teorema de Bayes – pero el es suficiente en cantidad. Una
conveniente primera aproximación a los datos sería que el tome entre dos a cinco
observaciones para hacer un trabajo digno de observación en inducir a un sujeto a cambiar
sus opiniones. Un número de experimentos han sido dirigidos a una explicación para este
fenómeno. Ellos muestran que una mayor, probablemente la mayor, causa de conservatismo
es una mala adición humana de los datos. Que significa, que los hombres perciben
exactamente cada dato y están muy concientes de su significado diagnóstico individual, pero
no son capaces de combinar bien su significado diagnóstico con el significado diagnóstico de
otros datos cuando revisan sus opiniones. . . .
Las probabilidades cuantifican la incertidumbre. Una probabilidad, de acuerdo a
Bayesianos como nosotros, es simplemente un número entre cero y uno que representa la
extensión a la cual una persona de alguna manera idealizada cree una declaración es
verdadera. La razón de que la persona sea de alguna manera idealizada es que la suma de sus
probabilidades para dos eventos mutualmente exclusivos debe igualar su probabilidad de que
ninguno de los eventos ocurrirá. La propiedad aditiva tiene tales consecuencias demandantes
que pocas personas reales son capaces de conformar a todas ellas. Puesto que tales
probabilidades describen a la persona que sostiene la opinión más que al evento sobre el que
la opinión es, ellas son llamadas probabilidades personales (vea Savage, 1954).
El problema de Bayes es una trivial consecuencia de la propiedad aditiva, no
controversial y en concordancia con todos los probabilistas, Bayesianos y otros. Una manera
de escribirlo es como sigue. Si P(HA/D) es la probabilidad posterior que la hipótesis A tiene
después del dato D ha sido observado, P(H A) es su probabilidad previa antes del dato D es
observado, P(D/HA) es la probabilidad que el dato D será observado si H A es verdadero, y
P(D) es la probabilidad no condicional del dato D, entonces

Extractos de un trabajo que apareció en B. Kleinmuntz (Ed.), Representación Formal del Juicio Humano, New
York: John Wiley and Sons, Inc., 1968. Reimpreso con permiso.
292

Insertar aquí la fórmula (1) de la página 360 del texto original

P(D) es el mejor pensamiento de cómo una constante normalizadora, proyectada para hacer
las probabilidades posteriores adicionar a uno sobre el exhaustivo set de mutualmente
exclusivas hipótesis siendo consideradas. Si ella debe ser calculada, puede ser como sigue:

Insertar aquí la siguiente fórmula s/n de la página 360 del texto original

Pero más a menudo P(D) es eliminada más que calculada. Un modo más conveniente de
eliminarla es transformar el teorema de Bayes dentro de su forma de relación disparidad-
probabilidad. Considere otra hipótesis, Hg, mutualmente exclusivo de HA, y modificar su
opinión sobre el sobre las bases del mismo dato que cambió su opinión sobre HA. El teorema
de Bayes dice

Insertar aquí la fórmula (2) de la página 360 del texto original

Ahora dividir la ecuación (1) entre la ecuación (2); el resultado es

Insertar aquí la siguiente fórmula s/n de la página 360 del texto original

Ω1 = L · Ώ0, (3)

donde Ώ1 es la probabilidad posterior en favor de H A sobre HB, Ώ0 es la probabilidad previa y


L es una cantidad familiar para los estadísticos como una proporción de probabilidad. La
ecuación (3) es una versión apropiada del teorema de Bayes como la ecuación (1), y a
menudo considerablemente más útil especialmente para experimentos involucrando dos
hipótesis.
Los estadísticos Bayesianos arguyen que el teorema de Bayes es una regla foralmente
óptima sobre cómo revisar las opiniones a la luz de la evidencia, esa revisión de opinión a la
luz de la evidencia es exactamente en lo que la inferencia estadística consiste, y que por
consiguiente la inferencia estadística debería ser estructurada alrededor del teorema de Bayes
– con muchas diferencias consecuentes de la práctica clásica de la estadística. Para una
elemental exposición de estas ideas escritas por experimentados psicólogos, vea Edwards,
Lindman y Savage (1963). Pero nosotros no somos estadísticos, ó en cualquier proporción
ninguno de nosotros está usando nuestras gorras de orejas de burros de estadísticos hoy. En
vez de eso, como psicólogos, estamos interesados en comparar el comportamiento ideal
especificado por el teorema de Bayes con el desenvolvimiento actual del humano.
Para darle a usted un sentir por lo que sigue, permítasenos tratar un experimento con
usted como sujeto. Esta bolsa de libro de registro contiene 1,000 fichas de pocker. Yo empecé
con dos de tales bolsas, una conteniendo 700 fichas rojas y 300 azules, la otra conteniendo
300 rojas y 700 azules. Yo lancé una moneda legal al aire para determinar cuál usar. Por lo
tanto, si sus opiniones son como las mías, su probabilidad al momento de que este es la
predominante bolsa roja es 0.5. Ahora, usted muestree, al azar, con reemplazo de cada ficha.
En 12 muestras, usted obtiene 8 rojas y 4 azules. Ahora, sobre la base de todo lo que usted
conoce, cuál es la probabilidad de que esta sea la predominante bolsa roja? Claramente es
mayor que 0.5. Por favor no continúe leyendo hasta que usted haya escrito su estimado.
Si usted es como un sujeto típico, su estimado cayó en el rango de 0.7 a 0.8 – aunque la
declaración hecha frecuentemente en los párrafos precedentes de que los hombres son
293

procesadores conservadores de información puede haber prejuiciado su respuesta arriba. Si


fuimos a través del cálculo apropiado, sin embargo, la respuesta sería 0.97. Muy raramente
ciertamente una persona no expuso previamente para el descubrimiento del conservatismo
venir con un estimado de ese tamaño, aún si él está relativamente familiarizado con el
teorema de Bayes.
Alrededor de 1960, William L. Hayes, un estudiante graduado llamado Lawrence D.
Phillips, y yo estuvimos interesados en encontrar discrepancias entre el desenvolvimiento
humano y ese especificado por el teorema de Bayes. El simple ejemplo del párrafo previo
nonos ocurrió a nosotros; en lugar de eso estuvimos seguros de que necesitaríamos usar una
situación justamente compleja en orden de tener un comportamiento no Bayesiano. Por lo
tanto utilizamos un hipotético sistema de radar computarizado. Hubo 12 posibles
observaciones, 4 posibles hipótesis y así los sujetos tenían que entender y usar un despliegue
de 48 diferentes valores de P(D/H). Los sujetos trabajaron bajo dos condiciones. En una, el
sujeto vio un estímulo simple, un punto en un sector del campo de visión de un radar; él
luego revisó sus probabilidades previas sobre las cuatro hipótesis sobre la base del dato
fijando cuatro apoyos a sus posteriores estimados de probabilidad, luego reajustar los apoyos
a 0 en preparación para el siguiente estímulo. El segundo estímulo consistió del viejo punto
más uno nuevo; el sujeto fijó sus apoyos para reportar el impacto acumulativo de ambos
puntos. Y así sucesivamente, hasta que los 15 puntos se habían acumulado. En la segunda
condición, los estímulos fueron mezclados, y el sujeto en efecto empezó otra vez con cada
estímulo nuevo. Para la sorpresa de los experimentadores la predicción del teorema de Bayes
que esta diferencia en condiciones no haría diferencia en el comportamiento fue extinguida.
Más aún, hubo aún otra condición en la cual cada nuevo punto fue desplegado solo, pero a
los sujetos se les permitió preservar sus estimados de un estímulo al siguiente más que
reajustar los apoyos a 0 después de cada estimado. De nuevo, la variación en condiciones
tuvo pequeña diferencia en el comportamiento.
Los positivos encuentros del experimento del Phillips-Hays-Edwards fueron tres en
número. Primero, los sujetos fueron abrumadoramente conservadores. Segundo, ellos fueron
menos conservadores en el primer punto, viniendo a ser más así con más puntos. Finalmente,
las sumas de sus estimados de probabilidad, las cuales no fueron restringidas, en general
añadieron más que 1, y se incrementaron tanto los sujetos que progresaron a través de
estímulos sucesivos en una secuencia ordenada. Aparentemente los sujetos lo encontraron
más fácil para determinar cuál hipótesis fue favorecida por un estímulo, y así incrementar la
probabilidad de esa hipótesis, mas que decidir de cuáles otras hipótesis de probabilidad
deberían ser eliminadas en orden de dársela a la favorecida.
Nosotros fuimos notablemente dilatorios en publicar este experimento del conservatismo
original. Aunque los datos estuvieron completos en 1962, el trabajo de Phillips-Hays-
Edwards no fue impreso hasta 1966 (Phillips et al., 1966).
La magnitud y consistencia de los descubrimientos del conservatismo nos sobresaltaron.
Pareció apropiado tratar las tareas mucho más simples. De tal manera, sin mucha fe, Phillips
y yo tratamos un preensayo similar en carácter al ejemplo del bolsón y las fichas de pocker
que usted trató arriba. Para nuestra sorpresa, trabajó muy bien. La mayoría de la
investigación corriente comparando el comportamiento humano con el teorema de Bayes
puede ser encontrado de ese preensayo y el experimento subsecuente.
Si la proporción de fichas rojas en el bolsón es p, entonces la probabilidad de conseguir r
fichas rojas y (n – r) fichas azules en n muestras con reemplazo en un orden particular es
p’(1 – p)n – r. Así en un típico experimento de bolsón y fichas de pocker, si HA es que la
proporción de fichas rojas es pA y HB es que esa proporción es pB, entonces la proporción de
probabilidad es
294

Insertar aquí la fórmula (4) de la página 362 del texto original.

Note que mientras las Ecuación 4 fue derivada de considerar la actual secuencia de rojas y
azules en la muestra, podría bien haber estado derivada de considerar r rojas y (n – r) azules
en cualquier orden; el coeficiente binomial que representa el número de diferentes modos en
que uno puede obtener r rojas en n sacadas aparece en ambos el numerador y el denominador
y por tanto cancela la relación de probabilidad. Esta es una ilustración del principio de
probabilidad de la estadística Bayesiana (vea Edwards, Lindman & Savage, 1963), la cual en
efecto dice que un Bayesiano necesita considerar solo la probabilidad de la observación que
él ha hecho, no las probabilidades de otras observaciones que él podría haber hecho pero no
las hizo. Este principio ha barrido el impacto en todas las aplicaciones estadísticas y no
estadísticas del teorema de Bayes; es la herramienta técnica más importante del pensar
Bayesiano.
En el caso especial en el cual pA - 1 – pB (el caso del binomio simétrico), la probabilidad
de la relación se reduce a

Insertar aquí la fórmula (5) de la página 362 del texto original

Note que 2r – n = r – (n – r) es la diferencia entre el número de rojas y el número de azules


en la muestra; solo que la diferencia y no el número total de observaciones, es relevante a la
inferencia en este caso simétrico. La tradición estadística etiqueta esa diferencia de éxitos
menos fallas, ó s – f; s – f es la variable independiente usual del experimento del bolsón y las
fichas de pocker. Para entender lo racional de la variables independientes usuales, sustituya la
Ecuación 5 dentro de la Ecuación 3, tome logaritmos y rearregle los términos. El resultado es

Insertar aquí la fórmula s/n de la página 363 del texto original

Si el sujeto es perfectamente Bayessiano, la relación del log de probabilidad que puede ser
inferida sustrayendo el log de las probabilidades previas del log de las probabilidades
posteriores debería ser proporcional a s – f, la variable independiente. Es apropiado plotear la
relación del log de probabilidad inferido del sujeto, de este modo calculada de sus
probabilidades posteriores (la cual a su vez fue calculada de sus probabilidades posteriores si
él estuvo estimando las probabilidades) y las probabilidades previas objetivamente
apropiadas , contra s – f.
La mayoría de los experimentos del bolsón y las fichas de pocker en el laboratorio de
Michigan han utilizado un despliegue consistiendo de 48 locaciones numeradas cada una
conteniendo un botón, una luz roja y una luz verde. Cuando el botón de una locación es
oprimido, una de las luces se enciende y permanece encendida, a los sujetos se les dijo que
esto es equivalente a una muestra con reemplazo de una ficha del correspondiente color del
bolsón. A los sujetos se les dijo que programa que controla las luces fue preparado
muestreando de un bolsón. Actualmente, para la mayoría de experimentos ese programa es
cuidadosamente preparado de tal forma que la secuencia desplegada es apropiadamente
representativa del bolsón, y en particular así que en cada experimento las muestras de tamaño
favorecen la hipótesis falsa apropiadamente a menudo por el valor de pA siendo usado, para
todos los valores de n.
Phillips y yo (1966) investigamos el efecto de pA, usando secuencias de 20 fichas y
valores de pA de 0.55, 0.7, y 0.85. Los sujetos estimaron las probabilidades posteriores
distribuyendo 100 discos blancos de madera sobre dos mínimos. Los resultados típicos de
tales experimentos son presentados en la Figura 1, para el bolsón 0.7 con varias
probabilidades previas. Tres descubrimientos, ilustrados en la Figura 1, aparecieron para
295

todos los sujetos. Primero, las relaciones del log de probabilidad inferidas fueron toscamente
proporcionales a s – f. Segundo, las probabilidades previas fueron apropiadamente usadas;
que es, la mejor línea de ajuste a través de los datos de puntos pasa a través del origen.
Tercero, los sujetos fueron conservadores; la mejor línea de ajuste fue más favorecedora que
la línea representando la ejecución óptima Bayesiana. El descubrimiento de la casi linealidad
de las relaciones del log de probabilidad inferidas con s – f (ó equivalentemente, con las
relaciones Bayesianas del log de probabilidad) sugiere aún otra variable dependiente: la
relación de la pendiente de la mejor línea de ajuste a través de los estimados de los sujetos a
la pendiente de la línea Bayesiana. Peterson, Schneider y Miller (1965) han nombrado esa
relación la relación de exactitud; ellos también la encontraron más ó menos constante con
s – f.

Insertar aquí la Figura 1 de la página 364 del texto original

La Figura 2 muestra relaciones de exactitud para los datos de Phillips-Edwards para los tres
valores de pA. Para al menos la información diagnóstica, los sujetos fueron más extremos que
el teorema de Bayes. (Dale ha encontrado la misma cosa; vea W. Edwards, 1965). Pero por la
información teniendo un razonablemente alto valor diagnóstico, los sujetos fueron
conservadores, y lar relación de exactitud fue muy constante con s – f. Note que como la
diagnosticidad se incrementa, el conservatismo se incrementa también. Este es un
descubrimiento estándar de tales experimentos; cualquier procedimiento que incremente la
diagnosticidad de la observación del individuo (de una ficha ó de varias) también incrementa
el conservatismo. (Vea por ejemplo, Peterson, Schneider & Miller, 1965).
Phillips y yo, después de obtener estos resultados, especularon que una razón para el
conservatismo podría ser que los sujetos, conociendo que la escala de probabilidad está unida
y observando que la evidencia podría ir subiendo hacia arriba y hacia arriba, estuvieron
sosteniendo sus estimados bajos. El remedio obvio, de ser así, es usar un modo de respuesta
no unido, como probabilidades. Por tanto corremos un estudio de cuatro grupos. El grupo de
control estimó las probabilidades distribuyendo 100 discos sobre dos mínimos, como antes.
El grupo de probabilidades verbales simplemente hizo estimados verbales de las
probabilidades; nosotros siempre tomamos las probabilidades como números iguales a ó
mayores que uno, y por consiguiente siempre acompañamos las declaraciones de
probabilidad de declaraciones de las cuales la hipótesis es favorecida por la probabilidad. Las
probabilidades en un grupo de escala log hizo sus estimados moviendo un puntero a lo largo
de una escala de probabilidad la cual contenía cuatro ciclos log, de tal manera que las
probabilidades dondequiera de 1:1 a 10,000:1 podrían ser estimadas. El cuarto grupo usó las
probabilidades sobre un mecanismo de escala log también, pero los números entrados
opuestos a las marcas de la escala fueron probabilidades más que posibilidades (por tanto 0.5
mas que 1:1, 0.67 mas que 2:1, 0.80 mas que:1). Ella fue llamada la probabilidad en un grupo
de escala log de probabilidad. Los descubrimientos fueron que todos los grupos fueron muy
conservadores. El grupo de probabilidad fue mala, la probabilidad en una escala de
probabilidad log fue la siguiente peor, y los dos grupos de probabilidad fueron casi
comparables, con probabilidades en una escala log ligeramente superior.
Este descubrimiento simplemente subraya un hecho que ha llegado a ser crecientemente
claro en el curso del trabajo Bayesiano. La probabilidad es una medida bastante pobre de la
incertidumbre, excepto en situaciones en las cuales repartir ú otro uso directo de la propiedad
de aditividad es necesario. Ya sea una probabilidad ó una probabilidad log es mejor. La

Insertar aquí la Figura 2 de la página 365 del texto original


296

probabilidad es más intuitiva para los sujetos simples, y puede más fácilmente ser ligada a
actos simples (por ejemplo, escogencias entre apuestas); el hecho de que la industria del
juego estructura todas sus declaraciones y exposiciones alrededor de la posibilidad más que
de la probabilidad es ambos reconocimiento de y talvez causa de el mayor valor intuitivo de
las probabilidades. Las probabilidades log, únicamente entre las más ó menos métricas para
la incertidumbre, tiene la propiedad que en esa evidencia métrica es aditiva. Si la opinión es
medida en probabilidades log, la cantidad de cambio de opinión producida fue empezar. Esta
elegante propiedad hace a la probabilidad log conveniente únicamente para experimentos
Bayesianos.
Los datos Phillips-Edwards pueden ser bien ajustados por una simple modificación del
teorema de Bayes:

Ώ1 = c Ω0

La constante c, el poder al cual cada relación de probabilidad es elevado antes de procesarlo


por medio del teorema de Bayes, es la relación de exactitud. Desafortunadamente, es
dependiente de importantes variables independientes, incluyendo el diagnóstico de los datos
y la respuesta métrica. Aún el hecho que tan simple un modelo descriptivo se ajusta tan bien
debe ser explicado por cualquier teoría del conservatismo. . . .
. . . Un sistema de Procesamiento de Información Probabilística, ó PIP, . . . es una idea de
cómo diseñar sistemas de máquina-hombre que deben procesar información con el propósito
de alcanzar una conclusión sobre en qué estado se encuentra el mundo. Ejemplos de ajustes
en los cuales tal procesamiento de información debe ser hecho incluye el diagnóstico médico,
el comando militar (en el cual in comandante puede necesitar para determinar si ó no él está
bajo un ataque, y si es así, cuál es el plan de su oponente), y la gerencia de negocios (por
ejemplo, en el caso de un hombre de negocios decidir sí ó no fabricar un producto nuevo). La
idea del PIP es demasiado complicada de explicar en detalle aquí. Para recientes exposiciones
de ella, vea Edwards, Lindman y Phillips (1965), ó W. Eswards (1966). La esencia de esto es
que la tarea de procesamiento de información diagnóstica pueda ser dividida en dos clases de
sub-tareas. Una clase de sub-tarea consiste del juicio del impacto de un dato individual sobre
una hipótesis simple ó un par de hipótesis. Para las verbales, formas cualitativas de datos e
hipótesis que caracterizan a muchos ajustes de diagnósticos reales, esto parece ser una tarea
necesariamente hecha por hombres, el más experto el mejor. Pero la segunda clase de sub-
tareas es el agregado de estos impactos diagnósticos separados a través de datos e hipótesis
dentro de un cuadro de cómo todas las hipótesis corrientemente se sostienen a la luz de todos
los datos disponibles. Esta tarea de agregado es inmediatamente mecanizada por medio del
teorema de Bayes, si los impactos diagnósticos de los datos individuales son juzgados en la
forma de valores P(D/H) ó relaciones de probabilidad. (en la mayoría de situaciones, aunque
no todas, los juicios de relaciones de probabilidad son claramente preferibles, por razones
formales, para juicios de P(D/H).
Alrededor de quince colaboradores y yo estuvimos interesados en encontrar si el PIP
trabaja ó no. Por lo tanto designamos un imaginario ó elaborado mundo de 1975. En ese
mundo listamos seis hipótesis que los sujetos tuvieron para considerar tres fuentes de datos
especificados (el Sistema de Prevención temprana de Misiles Balísticos, un sistema de
reconocimiento satelital, y el sistema de inteligencia) que proveyeron datos relacionados con
éstas hipótesis, y designaron cuatro sistemas de procesamiento de información para procesar
los datos. Los cuatro sistemas fueron denominados PIP, POP, PEP y PUP. En el PIP, los
sujetos estimaron cinco relaciones de probabilidad por dato. Una de las seis hipótesis fue “La
paz continuará prevaleciendo” y las otras cinco fueron varias posibles guerras; las cinco
emparejadas de una guerra con paz especificó las cinco relaciones de probabilidad a ser
297

estimadas. Los otros tres sistemas de procesar la información todos tuvieron en común que el
sujeto estimó posibilidades posteriores ó probabilidades ó cantidades posteriores similares;
por lo tanto en el PIP la computadora agregó los datos por medio del teorema de Bayes,
mientras que en los otros tres sistemas los sujetos tuvieron que agregar los datos en sus
cabezas. Para ayudarlos a hacer esto, los sujetos en POP, PEP y PUP tuvieron sus estimados
después del navo dato disponible cuando ellos consideraron el (n + 1) avo dato, de tal manera
que ellos solo necesitaron modificar aquellos estimados afectados por el dato.
Existió un total de 18 escenarios, con 60 temas de datos por escenario. Todos los temas de
datos excepto para aquellos del Sistema de Prevención Temprana de Misiles Balísticos
estuvieron en la forma de párrafos cortos. Los 34 sujetos fueron exhaustivamente entrenados
en las características del mundo, las hipótesis, las tres fuentes de datos y el sistema de
procesamiento de información que cada uno tuvo que operar.

Insertar aquí la Figura 3 de la página 367 del texto original

Figura 3. Probabilidad final a favor de la guerra para POP vrs. PIP ploteada en escalas log.

Puesto que el PIP fue claramente mejor y el POP fue el siguiente mejor, yo presentaré
solo la comparación entre ellos. (PUP fue el tercero mejor, y el PEP, el más cercano que
podíamos conseguir de cómo tal proceso de información es hecho ahora, fue el peor). La
Figura 3 muestra la probabilidad fina, después del sexagésimo dato en cada escenario, a favor
de cada guerra como comparado por la paz para PIP y POP. Las dos cosas más importantes
de notar sobre la figura son que los dos grupos concuerdan muy bien cualitativamente (la
correlación entre ellos es 0.895), pero ellos están en desacuerdo cuantitativamente. El PIP es
mucho más sensitivo a los datos que el POP; el mismo escenario que conducirá al PIP a estar
muy seguro de la paz ó de alguna guerra conducirá al POP a estar mucho menos seguro. Para
ponerlo de otra manera, el PIP es mucho más conservador que el POP – presumiblemente
porque en el POP, los sujetos deben agregar los datos, mientras que en el PIP, los sujetos
juzgan el impacto diagnóstico de cada dato separadamente y el teorema de Bayes hace el
agregado.
Usted debería notar también que ambos ejes en la Figura e son logarítmicamente
espaciados. Si usted traduce la diferencia en eficiencia atrás dentro de la probabilidad, la
dramática diferencia entre el PIP y el POP viene a ser aparente. Por ejemplo, calculando
desde la línea de regresión, si un escenario condujo al PIP a dar 99:1 posibilidades a favor de
alguna guerra sobre la paz, el POP daría solo 4:1 probabilidades a favor de esa guerra sobre
la paz.
La falta de percepción de la hipótesis posiblemente no puede explicar esta discrepancia
entre el PIP y el POP. Los sujetos del PIP estiman el impacto diagnóstico de cada dato
separadamente; los sujetos del POP deben agregarlo en sus cabezas – y hacerlo muy
conservadoramente. Puesto que ningún modelo del proceso de generación de datos está
disponible, es imposible decir qué son las correctas probabilidades posteriores. Pero la
diferencia entre el PIP y el POP es claramente causada por una diferencia en el proceso de
agregado.
Larry Phillips, uno de los colaboradores en este experimento, estuvo conciente sobre el
hecho de que ningún modelo del proceso de generación de datos estuvo disponible y por
tanto no fue posible decir con certeza si el PIP ó el POP estuvo más cercanamente correcto.
Por lo tanto para su tesis del Ph.D él comparó el PIP con el POP en una situación en la cual
un modelo del proceso de generación de datos estuvo disponible, fue significativo preguntar
por un estimado de la relación de probabilidad para un dato simple, y el procedimiento del
POP produjo estimados conservadores. Sus sujetos fueron los editores del periódico de los
298

estudiantes de la Universidad de Michigan. El tomó los editoriales cada uno de los editoriales
de los editores para un semestre, contadas las dos primeras cartas y las últimas dos cartas de
cada palabra de cada editorial, y por lo tanto para cada editor preparó un bolsón lleno de
bigramas iniciales y un bolsón lleno de bigramas finales. Para la tarea del PIP, él tomó ciertos
bigramas, y requirió al editor estimar (de su propio bolsón solamente) la relación de
probabilidad, tomada con la hipótesis del bolsón inicial en el numerador y la hipótesis del
bolsón final en el denominador, asociado con cada bigrama. Para la tarea del POP, él preparó
una secuencia de bigramas muestreados de uno de los bolsones, y requirió al editor, al tiempo
que él trabajaba en la secuencia, estimar la probabilidad posterior que fue muestreada del
bolsón del principio, no del bolsón final. Mucho cuidado fue dedicado al entrenamiento
preliminar de los editores, y los estimados de la relación de probabilidad fueron colectados
dos veces, una vez antes y la otra después de los estimados de la probabilidad posterior.
Un problema en el análisis de los datos surgió porque todos los juicios, para ambos el PIP
y el POP, fueron prejuiciados a favor del bolsón de inicio. Esto es probablemente porque es
mucho más fácil, por ejemplo, pensar en palabras que principian con re que en palabras que
finalizan en re, aunque re es más común es más común como un final que como un principio;
nosotros estamos acostumbrados a etiquetar las palabras por sus principios, no los finales,
cuando nosotros, por ejemplo, cuando las buscamos en un diccionario. Sin embargo, es
posible corregir tales prejuicios. La Figura 4 muestra los resultados después de tal corrección.
La probabilidad verídica, calculada de las cuentas del bigrama actual, son más extremas. A
continuación viene la probabilidad calculada del segundo set de estimados de relación de
probabilidad. Luego viene la probabilidad calculada del primer set de estimados de relación
de probabilidad. Y, más cerca de la mitad y por consiguiente más conservadores, son los las
probabilidades posteriores directamente estimadas. Si nosotros creemos en estos datos (y yo
los creo), aunque el PIP es considerablemente menos conservador que el POP, es aún
demasiado conservador – pero los estimados PIP mejoran con la práctica.

.
299

26. La hipótesis de la mejor adivinación en la


inferencia multietapas

Charles F. Gettys, Clinton Kelly III y


Cameron R Peterson

La inferencia multietapas consiste de unas series de inferencias de etapas simples donde el


resultado de cada etapa previa viene a ser el resultado de la etapa siguiente. En una inferencia
de etapa simple los hombres razonan de los datos ó sin ambigüedades observaron la
evidencia de un set de hipótesis. La inferencia multietapas comienza con los mismos datos no
ambiguos ó la evidencia en la primera etapa; sin embargo, el resultado para la siguiente etapa
es el resultado de la etapa previa. La etapa siguiente de la inferencia está por consiguiente
basada en las probabilidades de los eventos, más que sobre el conocimiento definitivo que un
evento particular es verdadero (Gettys & Willke, 1969).
Por ejemplo, suponga que usted deseaba predecir el éxito ó falla de un gran jardín para
fiesta. Asume que la fiesta es menos probable de ser exitosa si está atiborrada adentro debido
a la lluvia. Su dato es la presencia de una nube oscura en el horizonte. La primera etapa de
inferencia relaciona la nube oscura a la presencia ó ausencia de lluvia durante la fiesta.
Suponga que usted estimó que la probabilidad de lluvia era de .70. Este estimado vendría a
ser la entrada as la siguiente etapa de inferencia. Si usted supo con certeza que llovería,
entonces usted podría inferir la probabilidad de que la fiesta sería un éxito. Pero usted no está
enteramente seguro que lloverá; loa datos con que usted cuenta indican lluvia con una
probabilidad de 0.70, por lo tanto cómo procedería usted?
El teorema de Bayes modificado (MBT) provee un modelo óptimo para tales inferencias
multietapas (Dodson, 1961; Gettys & Willke, 1969). Un número de estudios ha mostrado que
un desenvolvimiento intuitivo en una tarea multietapas resulta en más certeza siendo extraída
de los datos que lo que es predicho por el modelo MBT. Por ejemplo, en una tarea de
estimación de probabilidad las probabilidades de los sujetos (Ss’) son típicamente más
grandes que aquellas calculadas por el MBT. El resultado es muy sorprendente porque la
evidencia indica que el desenvolvimiento humano en una tarea de inferencia de etapa simple
es casi siempre conservadora; por ejemplo, los humanos extraen menos certeza que la
garantizada por los datos (por ejemplo, W. Edwards, 1969). La paradoja, por supuesto, es que
una inferencia multietapas es una serie de inferencias de etapas simples. Si la gente extrae
menos certeza de la que los datos garantizan en inferencias de etapa simple, entonces en la
situación de multietapas uno podría esperar que el Ss llegara a ser más y más conservador
con cada una de las etapas sucesivas puesto que sus salidas de la monoptimalidad deberían
acumularse de etapa en etapa. De hecho, el reverso es verdadero; los Ss son más veraces al
final de dos etapas de inferencia que lo que está garantizado por el modelo óptimo (MBT).
Esto sugiere que algunos procesos ocurren en la “interfase” de las tareas de etapa simple en

Este capítulo originalmente apreció en Organizational Behavior and Human Performance, 1973, 10, 364-373.
Derechos de Autor © 1973 por Academic Press, Inc. Reimpreso con permiso.
las cuales es tan excesivo que cualquier conservadurismo de la etapa simple es superado.
300

La tarea de inferencia de la etapa simple está siempre basada sobre los datos los que son
conocidos con certeza. Sin embargo, aunque una tarea multietapas empieza con ciertos datos,
las etapas sucesivas de inferencia tratan con datos inciertos. Varios modelos han sido
formulados para explicar cómo teniendo que tratar con las probabilidades de los datos en
lugar de ciertos datos podrían crear excesiva certeza en la inferencia de multietapas. Un
modelo no óptimo teniendo la propiedad de predecir excesiva certeza es el modelo “Como-
si” (Gettys & Willke, 1969; Howell, Gettys y Martin, 1971). Este modelo, designado para
situaciones donde la gente tiene la opción de colectar más datos si ellos sienten que es
necesario, asume que los datos de colección continúan en la primera etapa de la inferencia
hasta que el que toma la decisión está suficientemente seguro del estado del mundo. Una vez
su certeza excede algún valor del umbral, él entonces procede a la siguiente etapa de
inferencia, actuando “como si” él estuviera enteramente cierto de la entrada a la siguiente
etapa. Para retornar al ejemplo del jardín de fiesta , el que toma la decisión, después de ver la
nube oscura, podría obtener un reporte del estado del tiempo actual. Suponga que
previniendo una severa tormenta fue predicha. Su certeza para lluvia probablemente ahora
excedería su valor mínimo, y él procedería a la segunda etapa de inferencia actuando “como
si” él estuviera cierto de la lluvia. El resultado de la segunda etapa de inferencia sería su
estimado de las probabilidades de éxito ó falla basado en su suposición como si de lluvia. Su
probabilidad evaluada para falla excedería ahora excedería la probabilidad verídica (MBT)
para falla porque haciendo la suposición como si de lluvia él está ignorando la probabilidad
de que podría no llover. De hecho, su suposición como si es incorrecta y no llueve, entonces
la fiesta probablemente sería un éxito. El modelo óptimo considera ambas posibilidades,
lluvia y no lluvia, en asignar probabilidades al éxito ó falla. El modelo como-si considera
solo la posibilidad de lluvia, y por esta razón conduce a excesiva certeza de que la fiesta será
un fracaso.
Cómo podría una persona comportarse si su certezas sobre la entrada a la segunda etapa
de inferencia fuera menor que el valor mínimo requerido para una suposición como-si y no
hubiera esperanza de incrementar su certeza con más datos? Una posible hipótesis que es
consistente con la excesiva certeza encontrada en estudios previos es que él primero hará una
suposición como-si que es en el mejor de los casos una adivinanza. Este modelo, llamado el
modelo de “La Mejor Adivinanza”, es en efecto un modelo Como-Si calificado y comparte
con el modelo Como-Si la idea de que el que toma la decisión ya sea ignorará ó tenderá a
ignorar las implicaciones de los otros eventos menos probables en la segunda etapa de
inferencia concentrándose casi exclusivamente en el evento más probable. En términos del
ejemplo, si la sola información que usted posee es la nube oscura en el horizonte, usted
podría no estar dispuesto a hacer una no calificada suposición como-si, pero usted podría
asumir primero que va a llover y arribar a una probabilidad subjetiva por el éxito basada en
esta suposición. Entonces porque usted no está enteramente cierto que lloverá, usted podría
reducir su probabilidad subjetiva de alguna forma para tomar esto en cuenta. Estas
probabilidades subjetivas podrían bien ser diferentes de aquellas calculadas con el BT,
principalmente porque usted no tiene explícitamente consideradas las implicaciones de no
lluvia.
Snapper y Fryback (1971) reportaron resultados los cuales son consistentes con la
explicación de arriba en un experimento relacionado con la credibilidad de los datos. Sin
embargo, su procedimiento no permitió un ensayo directo del modelo de “La Mejor
Adivinanza”, que es el propósito del presente experimento.

Método
301

La meta del experimento requirió al menos tres niveles de variables construidas de tal manera
que la variable de nivel intermedio contenía más de dos eventos. Ello requirió más tarde una
manipulación de la distribución de probabilidad a través de todos pero el más probable de los
eventos intermedios – una manipulación que tendría un impacto resultante sobre la magnitud
de la revisión de la probabilidad óptima en el nivel superior como el resultado de la
ocurrencia de un evento en el nivel más bajo.
Consecuentemente, los tres niveles tomaron la siguiente forma. El nivel superior variable
fue resumido a dos bolsones etiquetados I y II, respectivamente. Cada bolsón sirvió como un
contenedor que fue llenado con contenedores más pequeños los cuales representaron los
eventos de nivel intermedio. Específicamente, cada bolsón contenía 18 pequeños botes (botes
de película de 35 mm.) y cada bote fue etiquetado con ya sea A, B, C, ó D. Finalmente, cada
uno de los botes contenía 100 pequeños discos coloreados; cada disco fue ya sea rojo, verde,
amarillo ó azul.
La composición de cada contenedor está descrita en la Tabla 1. La Parte A de la tabla
describe la composición del bolsón con respecto a los botes y la Parte B de la tabla describe
la composición del bote con respecto a los discos. Por ejemplo, 8 botes etiquetados A están
en el Bolsón I mientras que solo 1 bote etiquetado A está en el Bolsón II. Como se muestra
en la Parte B, 80 discos están en el Bote A, 1 en el Bote B, 1 en el Bote C y 18 en el Bote D.
El experimento prosiguió como sigue. Uno de los dos bolsones fue seleccionado al azar,
un bote fue muestreado al azar de esa bolsa y un disco fue muestreado del bote. Por lo tanto,
la sacada de un disco rojo proveyó evidencia a favor del B, el Bote A, el cual a su vez provee
evidencia a favor del Bolsón I. Note que solo el evento del nivel inferior, un disco, que es
directamente observado. Esa observación provee solo una evidencia parcial con respecto al

Tabla 1. Composición numérica de los componentes del Bolsón y del bote.


A. Composición del bolsón_________________________________
Letra del bote
de película Bolsón I Bolsón II___________________
A 8 1
B 3 6
C 6 3
D 1 8_______________________
B. Composición del bote de película___________________________
Color del disco_ Bote A________ Bote B____________Bote C_________Bote D___
Rojo 80 1 1 18
Verde 1 80 18 1
Amarillo 18 1 80 1
Azul 1 18 1 80

evento del nivel intermedio, el bote, el cual a su vez provee evidencia parcial sobre la cual el
evento del nivel superior fue seleccionado. Por lo tanto, la primera etapa de inferencia
relaciona el color del disco a la letra del bote y la segunda etapa de inferencia relaciona la
letra del bote al número del bolsón.
La estrategia de actuar como si el evento más probable es cierto a un nivel conducirá a
distribuciones de probabilidad que son extremas en el siguiente nivel más alto. Por lo tanto,
esta estrategia es consistente con el resultado empírico que la gente revisa las probabilidades
del nivel superior excesivamente en una tarea de multietapas.
302

Existe otra hipótesis ensayable que puede ser derivada de la estrategia de la mejor
adivinanza. Si una persona actúa como si el evento más probable es cierto en cualquier nivel
intermedio, ella entonces ignora la distribución de probabilidad a través de todos los otros
eventos en este nivel. Su revisión de probabilidad en el nivel superior debería ser por
consiguiente insensitivo a variaciones en la distribución de probabilidades a través de todos
sino del evento más probable en el nivel intermedio. El presente experimento fue designado
para ensayar esa hipótesis.

Diseño experimental

Tres tareas de inferencia del tipo mostrado en la Tabla 1 fueron construidos. Las frecuencias
mostradas en la Parte A fueron usadas en las tres tareas. La matriz mostrada en la parte B fue
usada en una tarea; en las otras dos tareas el valor de 80 en la matriz más baja fue cambiada a
ya sea 70 ó 90, y el valor de 18 fue cambiado a ya sea 28 ú 8, respectivamente. Para
propósitos de la última discusión estas tres tareas serán designadas como la tarea 70-28, la
80-18, ó la 90-8. En las tres tareas el Ss estimó la probabilidad del bolsón dado el color de un
simple disco sacado del bote.

Insertar aquí la Figura 1 de la página 374 del texto original

Figura 1. Modelos de la Mejor adivinanza, Como-Si y MBT como pronosticadores del


desenvolvimiento del “ignorante” Ss.

Sujetos

Los 25 Ss fueron estudiantes de la Universidad de Michigan quienes habían previamente


servido en otro experimento de inferencia multietapas durando alrededor de dos horas. En el
experimento previo los Ss han sido entrenados en el modo de respuesta requerido, y habían
hecho una extensa serie de estimados de probabilidad en una tarea de inferencia multietapas.
Sin embargo, el modelo óptimo nunca fue discutido, ni lo fue ningún tipo de
reaprovechamiento de información utilizado.

Instrucciones a los Ss

Las instrucciones fueron breves debido a la experiencia previa de los Ss. Los detalles de la
tarea fueron explicados. Los Ss fueron requeridos a imaginar que un bolsón había sido
aleatoriamente seleccionado sobre la base de tirar una moneda al aire, que un bote fue
entonces aleatoriamente sacado del bolsón, y que un disco de papel fue aleatoriamente
sacado del bote. Entonces ellos fueron requeridos a asumir que un disco de un color
particular fue, de hecho, sacado de acuerdo a este proceso del azar, y fueron requeridos a
estimar la probabilidad de los bolsones sobre la base del color del disco.

Procedimiento

Siguiendo las instrucciones, los Ss estimaron la probabilidad de los bolsones en las tres
tareas. Las matrices como aquellas en la Tabla 1 fueron usadas para informar a los Ss de las
frecuencias relativas de los botes y los discos. Las tareas fueron presentadas en un orden
aleatorio para cada grupo de 4 a 6 discos. Dentro de cada tarea cada uno de los cuatro colores
posibles fueron usados en orden aleatorio. Los Ss estimaron la probabilidad de los bolsones
para todos los colores posibles antes de moverse a la tarea siguiente. Cuando los Ss habían
303

completado los doce estimados (4 colores por tarea x 3 tareas), las tres tareas fueron repetidas
usando diferentes órdenes aleatorios para un total de 24 juicios, dos para cada color en cada
tarea.

Resultados y discusión

Una inspección de los datos mostró una extrema bi-modalidad en las respuestas de
probabilidad de los Ss. Para algunos Ss la diferencia teórica entre los puntos azules y rojos, y
la diferencia entre los puntos amarillos y verdes, no causó diferencia en los estimados de
probabilidad. Otros Ss fueron más extremos en sus estimados de probabilidad con un punto
azul que lo que ellos fueron con un punto rojo, y más extremos con un punto amarillo que
con un punto verde. Estos últimos Ss fueron consistentes con el MBT en al menos un sentido
ordinal. Pareció que algunos sujetos estuvieron “ignorantes” de las diferencias del azul-rojo y
del amarillo-verde, mientras que otros Ss estuvieron “ignorantes” al grado que ellos
estuvieron respondiendo en al menos la dirección correcta. Con este pensamiento en mente,
todos los Ss respondieron con al menos un estimado de probabilidad para el azul que fue al
menos 2% mayor que la probabilidad estimada para el rojo, ó un estimado para el amarillo
que fue al menos 2% mayor que el verde, fueron clasificados como Ss “ignorantes”.-Estos Ss
fueron al menos marginalmente “ignorantes” debido a que para uno ó más juicios sus
estimados de probabilidad cambiaron en el par azul-rojo y el par amarillo-verde en la
dirección que el MBT dicta. Diez Ss de 25 fueron clasificados como Ss “ignorantes” por su
criterio conservador.
Los otros quince Ss, los “ignorantes” Ss, no mostraron tendencia a responder
diferentemente a los cambios en las probabilidades de los eventos de menos probabilidad.
Ellos literalmente ignoraron las implicaciones de los botes de menor probabilidad. Sus
respuestas son consistentes con una forma extrema del modelo de la Mejor-Adivinanza. Las
medias de las respuestas de los Ss “ignorantes” son mostradas en la Figura 1. Debido a que el
bolsón que las probabilidades favorecen es formalmente irrelevante, los datos son ploteados
en una escala log absoluta de probabilidad. La media log de probabilidad de las respuestas
para los discos rojos y los azules están conectados por una línea sólida en la parte superior de
la figura para los tres niveles de datos inciertos, y la media para los discos amarillos y verdes
están similarmente unidos en la parte inferior de la figura. También se muestran en la Figura
1 las predicciones para el MBT (la línea sobre la diagonal positiva), las predicciones para el
modelo Como-Si (las dos líneas horizontales) y las predicciones para una versión del modelo
de la Mejor-Adivinanza, denominado Modelo I en las figuras.
Las predicciones del Modelo I son obtenidas multiplicando la probabilidad del evento
más probable por la probabilidad posterior obtenida si ese evento fuera cierto. Suponga que
un disco rojo fue sacado en la tarea 81-18. La probabilidad del Bote A es .80 y las
posibilidades son 8:1 si en efecto el punto viene de A. La predicción del Modelo I debería
ser entonces 0.8 x 8/1 = 6.4 ó probabilidad de 6.4:1. El modelo Como-si predice
posibilidades de 8:1 para los discos azules y rojos y de 6:3 para los puntos amarillos y verdes
siempre que el umbral de certeza para el tipo de bote sea excedido. Para el MBT las
posibilidades óptimas para un punto rojo son 2.86:1, y puede ser calculada de acuerdo a la
fórmula siguiente para la posibilidad posterior (adaptada de la fórmula 5 en Gettys & Willke,
1969):

Insertar aquí la fórmula 1 de la página 376 del texto original

donde B representa el bolsón y las otras entradas son calculadas de probabilidades


condicionales tales como se muestra en la Tabla 1.
304

Los datos en la Figura 1 no están claramente ajustados por las predicciones ya sea el
como-si ó el MBT. Las respuestas de los Ss son menos extremas que las predicciones como-
si para los pares superiores azul y rojo, donde la predicción de posibilidades como-si es de
8:1, y son similarmente menos extremas que la predicción 6:3 en la parte más baja de la
figura. Sin embargo, la versión extrema del modelo de la Mejor-Adivinanza, Modelo I, se
ajusta a las medias de la Figura 1 muy bien. Las líneas horizontales interrumpidas en la
Figura I son las predicciones del Modelo I. Para todas las tares, las predicciones del Modelo I
están a la derecha de la diagonal del MBT para los puntos amarillos en la parte inferior de la
Figura 1. El modelo como-si y el Modelo I no predicen necesariamente estimados de
probabilidad que son más extremos que la posibilidad del MBT. Estos puntos surgen, por
ejemplo, en la tarea 80-8 cuando el Bote C es más probable (P = .80) y el Bote A es menos
probable (P = .18). Los eventos más probables dan una posibilidad de 8:1 para el Bolsón 1.
En este caso, cualquier modelo el cual ignore la relación 8:1 elaborado por el evento menos
probable será conservador con respecto al MBT.
Se asume que los Ss no adoptarán un modelo mono-óptimo si el se desvía demasiado de
su subjetivo sentimiento de certeza, entonces talvez el resultado importante es que los Ss
usaron el Modelo I porque ellos no vieron nada erróneo en el. La magnitud de su respuesta de
probabilidad fue determinada por el Modelo I pero en otra situación ellos podrían usar
alguna otra regla de combinación. Más importantemente, el hecho de que las predicciones del
Modelo I se ajusten a los datos sugieren que los Ss tendieron a concentrarse en la alternativa
más probable, e ignoraron las implicaciones de las alternativas menos probables.
Los datos para los 10 Ss “concientes” son presentados en la Figura 2. Como en la Figura
1, las predicciones de los modelos del Como-Si y del MBT son mostrados en la figura, pero
las predicciones del modelo I son omitidas debido a que ellas claramente no se ajustan a los
datos.

Insertar aquí la Figura 2 de la página 377 del texto original

Figura 2. El desenvolvimiento de los Ss “concientes” comparado con la predicciones de los


Modelos MBT y Como-Si.

En general, los Ss “concientes” parecen responder a las mismas variables como el MBT,
pero el ajuste cuantitativo del modelo MBT es pobre. Los Ss son característicamente más
ciertos que el modelo MBT, como ha sido encontrado en investigaciones previas. Como el
MBT, los Ss son menos ciertos que los implicados en el modelo Como-Si para los discos
azules y rojos. También, como en el MBT, sus juicios para el disco amarillo excede la
predicción del Como-Si. Esto, por supuesto, ocurre debido a que el evento más probable
tiene posibilidades de 8:1. Si los Ss están concientes de los matices de la situación
multietapas, ellos se darían cuenta que las posibilidades deben ser mayores de 6:3. La punica
excepción para este cuadro general es la localización de los datos 80-18 para los discos
amarillos y verdes. El posterior basado en las posibilidades amarillas debería incrementarse
como la probabilidad del evento más probable decrece, mientras que la posibilidad basada en
los verdes debería decrementarse al tiempo que la probabilidad se incrementa. Las respuestas
en la condición 80:18 no siguen este patrón. En general, los Ss “concientes” parecen estar
usando una regla de combinación que es de alguna manera parecida al MBT, pero la cual es
de algún modo excesiva con respecto al MBT.
La hipótesis de una tendencia a la Mejor-Adivinanza en la inferencia multietapas está
claramente soportada por los Ss “inconscientes”. Evidentemente, talvez debido a la
complejidad de la situación, Algunos Ss tienden a concentrarse casi exclusivamente en los
eventos más probables en subsecuentes etapas en la inferencia. El efecto de la Mejor-
305

Adivinanza en la inferencia multietapas, como el conservadurismo en una inferencia de etapa


simple (W. Edwards, 1966), parece ser otro ejemplo de una inhabilidad general para
combinar información complicada. Tanto como el procesamiento de la información humana
es puesta en multietapas y probabilística en naturaleza, parecería que el siguiente paso
apropiado para la aplicación del teorema de Bayes es encontrar modos de prevenir a la gente
de cometer el error de ignorar todo sino el más probable de los eventos del nivel intermedio.
306

27. Inferencias de características personales sobre la


base de información recuperada de la memoria de
uno

Yaacov Trope

El juicio social está frecuentemente basado en un inexacto recuerdo del comportamiento de


otros. Nosotros estamos a menudo llamados a hacer inferencias sobre los atributos personales
de otros aún cuando estamos inseguros si podemos recordar cómo se comportaron ellos
actualmente. Bajo tales circunstancias, nosotros tenemos que basar nuestras atribuciones en
evidencia incierta del comportamiento. El presente estudio investiga si y cómo la gente
incorpora esta fuente de incertidumbre dentro de los juicios sobre otros. . . .

Un modelo Bayesiano para inferencias de comportamiento recordado

En el presente estudio, los sujetos dedujeron probabilidades de que los actores poseen ciertos
atributos sobre la base de su propia no confiable recuperación de los comportamientos de los
actores. En orden de ensayar la hipótesis de que estas probabilidades subjetivas serían
injustificablemente altas e insuficientemente sensitivas a la confiabilidad, ellas fueron
comparadas con probabilidades óptimas. Las últimas fueron derivadas de un modelo
Bayesiano el cual fue desarrollado por investigadores de inferencias de probabilidad de
múltiples pasos (ver Peterson, 1973). Empezando con una inferencia de simple paso del
actual comportamiento de B, a un atributo personal Ai, el teorema de Bayes tiene la forma
familiar siguiente:

P(Ai/Bj) = P(Ai)P(Bj/Ai)/P(Bj) (1)

donde P(Ai/Bj) es la probabilidad posterior de Ai dado Bj; P(Ai) es la probabilidad previa de


Ai; P(Bj) es la probabilidad total de Bj; y P(Bj/Ai) es la probabilidad condicional de Bj dado
Ai. La última probabilidad representa el valor diagnóstico del comportamiento con respecto al
atributo del actor. Una probabilidad posterior P(Ai/Bj) puede ser derivado para cada uno de
los comportamientos alternativos que el actor podría haber escogido. Los observadores no
conocen, sin embargo, cuál comportamiento fue actualmente escogido. Ellos pueden solo
deducir las probabilidades de los comportamientos de los que ellos recuerdan, B*. Con
respecto a este paso inferencial, el teorema de Bayes establece,

P(Bj/B*) = P(Bj)P(B*/Bj)/P(B*) (2)


307

Extractos de un trabajo que apareció en The Journal of Personality and Social Psychology, 1978, 36, 93-106.
Derechos de autor © 1978 por la American Psychological Association. Reimpreso con permiso.
donde P(Bj/B*) es la probabilidad posterior de un comportamiento actual Bj, dado que B* fue
recordado; P(Bj) es la probabilidad previa de Bj; P(B*) es la probabilidad total de recordar
B*; y P(B*/Bj) es la probabilidad condicional de recordar B* dado que el actual
comportamiento de la persona fue Bj.. P(B*/Bj) refleja confiabilidad – mientras más alta la
probabilidad de recuperar un comportamiento que actualmente ha ocurrido, más alta será la
confiabilidad.
El modelo de inferencia Bayesiano de dos pasos combina los valores P(A i/Bj), derivados
para cada comportamiento actual vía la Ecuación 1, dentro de un promedio pesado, con las
probabilidades posteriores de cada comportamiento, P(Bj/B*), derivado de la Ecuación 2,
sirviendo como pesos. Por lo tanto la probabilidad posterior de un atributo dado de que un
cierto comportamiento fue recuperado, P(Ai/B*), puede ser formulado como sigue:

Insertar aquí la fórmula (3) de la página 379 del texto original (3)

La ecuación 3 expresa cuantitativamente las consideraciones normativas discutidas


anteriormente. Específicamente, desde que es una función de incremento de P(B j/Ai)
(diagnosticidad) y es una función de incremento de P(B*/B j) (confiabilidad), P(Ai/B*)
debería incrementar ambas con confiabilidad y diagnosticidad, y el efecto de una variable
debería depender del nivel de la otra. Establecido en términos de la teoría de integración de la
información de Anderson (1974) cada recuperación del comportamiento tiene un cierto peso
en juicios de posibilidades de atributos. Este peso, a su vez, es asumido de ser una función
multiplicativa de la diagnosticidad del comportamiento y la confianza en su recuperación. La
integración de la regla prescrita por la Ecuación 3 pueden ser aplicadas ambas a las
inferencias óptimas de paso simple [por ejemplo, los valores de P(Bj/B*) obtenidos de las
Ecuaciones 1 y 2, respectivamente] y a las inferencias subjetivas de paso simple [por
ejemplo, evaluaciones propias de los sujetos de P(Ai/Bj) y P(Bj/B*)]. En el primer caso
ambas inferencias de paso simple y su integración son óptimas (por ejemplo, Bayesianas),
mientras que en el último caso solo la integración es óptima. El presente estudio comparó las
probabilidades observadas con ambas clases de probabilidades predichas. Los sujetos
hicieron inferencias sobre la admisión de estudiantes a la escuela de graduados y sobre las
actitudes políticas de los estudiantes. Las primeras inferencias estuvieron basadas en
memorias de los sujetos de los grados de los estudiantes, y las últimas inferencias estuvieron
basadas en la memoria de los sujetos del comportamiento de los estudiantes.

Experimento 1

Método

Visión General. Los sujetos fueron primero presentados con grados de estudiantes en un curso de no
graduados. Más tarde, los sujetos tuvieron que recuperar los grados de la memoria y evaluar las
probabilidades de cada estudiante de ser aceptado a la escuela de graduados en administración de
empresas. Esta tarea involucra dos pasos inferenciales: (a) del grado recuperado, G*, al grado actual
del estudiante, G, y (b) del grado actual a si ó no el estudiante fue aceptado, A, a la escuela de
graduados. La incertidumbre en el último paso inferencial fue manipulada variando el valor
diagnóstico de los grados con respecto a la admisión a la escuela de administración de empresas.
Grados de baja diagnosticidad fueron grados finales en “introducción a la antropología”, mientras que
grados de alta diagnosticidad fueron los grados finales en “introducción a la economía”. La
308

confiabilidad de la memoria fue manipulada variando el número de estudiantes cuyos grados tenían
que ser retenidos.

Procedimiento. Los sujetos fueron informados que en un cierto año 50% de los aplicantes a la
escuela de administración de empresas habían sido admitidos. Por tanto, las probabilidades
previas de ser aceptados ó rechazados, P(Ay) y P(An), fueron de .50. A los sujetos se les dijo
que ellos evaluarían probabilidades de aceptación para estudiantes aleatoriamente
seleccionados. Estos juicios, se les dijo a los sujetos, estarían basados en si cada grado de
estudiante en un curso dado de no graduado estaba por debajo de 75 (G 1) ó arriba de 75 (Gh)
en una escala de 0-100.
Manipulación del valor diagnóstico. Dos distribuciones de probabilidad (cada una
presentada por medio de un diagrama de barras) relacionaron los grados de aceptación. Un
diagrama de barras desplegaba las proporciones de estudiantes aceptados quienes recibieron
G1 ó Gh. Estas proporciones representaban las probabilidades condicionales P(G1/Ay) y
P(Gh/Ay). El otro diagrama de barras desplegaba las proporciones de estudiantes rechazados
quienes recibieron estos grados, que significan P(G1/An) y P(Gh/An). El diagrama de barras
para los grados de alta diagnosticidad (en el curso de economía) mostraba las siguientes
proporciones: P(G1/An) = P(Gh/An) = .85 y P(G1/Ay) = P(Gh/An) = .15. Los diagramas de
barras para los grados de baja diagnosticidad (en el curso de antropología) mostraban las
siguientes proporciones: P(G1/An) = P(Gh/Ay) = .55 y P(G1/Ay) = P(Gh/An) = .45. Cada uno de
los sujetos hizo juicios sobre las dos muestras de estudiantes; para una muestra los grados de
alta diagnosticidad fueron presentados, y para la otra fueron presentados los grados de baja
diagnosticidad. El orden de presentación de las muestras fue contrabalanceado a través de los
sujetos.
Manipulación de la confiabilidad. Extensivos ensayos previos indicaron que los distintos
niveles de confiabilidad pueden ser obtenidos variando el número de estudiantes cuyos
grados habían de ser retenidos. A los sujetos se les dijo que la mitad de la muestra recibida de
los grados bajos y la otra mitad recibida de los grados altos y que a ellos les sería dada una
lista de aquellos estudiantes quienes recibieron grados altos. En orden de minimizar las
diferencias entre temas en esta lista de estímulo, los estudiantes fueron representados por
números de identificación de dos dígitos. Los números fueron presentados audiblemente por
una grabadora de cinta a una velocidad de uno por segundo. Un tono alto fue presentado para
indicar el final de cada estímulo. Dos segundos de después una lista de prueba fue presentada
por una grabadora de cinta. La lista de prueba consistió en ocho números de identificación de
dos dígitos, de los cuales cuatro habían aparecido en la lista de estímulo (por ejemplo,
números Gh) y cuatro no habían aparecido en la lista de estímulo (por ejemplo, números G 1).
Los cuatro números Gh en la lista de prueba del rango entero de las posiciones de la serie en
la lista de estímulo. El orden de los números G h y G1 fueron determinados aleatoriamente
para cada una de las listas de prueba. Los números de prueba fueron presentados a una
velocidad de uno cada 10 segundos. Durante los intervalos, los sujetos tenían que indicar si el
grado del estudiante era más probable de ser G 1 ó Gh y evaluar la probabilidad de que los
estudiantes sean aceptados en la escuela de graduados, P(Ay/G*), y la probabilidad de que no
sean aceptados, P(An/G*), La prueba previa mostró que el intervalo de 10 segundos de
tiempo era suficiente para hacer estos juicios.
Tres longitudes de listas fueron empleadas: listas de 4 temas, listas de 7 temas y listas de
14 temas. Los datos de las pruebas previas indicaron que el por ciento de reconocimientos
estuvieron dentro de un rango de alrededor del 60% en las listas largas (condición de baja
confiabilidad) un mínimo del 75% en las listas medianas (condición de moderada
confiabilidad) a alrededor de un 90% en las listas cortas (condición de alta confiabilidad).
Cada uno de los sujetos respondió a una lista de alta diagnosticidad y a una lista de baja
309

diagnosticidad. Los sets de números en estas listas fueron contrabalanceados contra la


diagnosticidad. Veinte sujetos fueron asignados a cada una de las tres condiciones de
confiabilidad.

Condición de confiabilidad perfecta. En esta condición de inferencia de paso simple, un


grupo de 46 sujetos dedujeron probabilidades de aceptación de grados que fueron conocidos
con certeza, P(Ay/G) y P(An/G). Los sujetos recibieron un folleto el cual presentaba los
diagramas de barras (por ejemplo, información diagnóstica) y los grados de los estudiantes.
Después de leer un grado de estudiante, los sujetos indicaron su probabilidad de juicios. Cada
sujeto hizo juicios sobre un estudiante con un grado de bajo diagnosticidad y alrededor de un
estudiante con un grado de alta diagnosticidad. Para la mitad de los sujetos del grado del
estudiante fue bajo y para la otra mitad fue alto.

Los sujetos. Un total de 106 sujetos (42 hombres y 64 mujeres) de un curso de psicología
introductoria de la Universidad Hebrea de Jerusalén participaron individualmente en el
experimento. La participación en el experimento constituyó una parcial satisfacción del
requerimiento de un curso.

Resultados y discusión.

Las proporciones de los grados bajos correctamente reconocidos, P(G* 1/G1), y los grados
altos P(G*h/ Gh), sirvió como medidas de la confiabilidad de cada sujeto. Las medias de
P(G*1/G1) y P(G*h/Gh) indicó una cercana posibilidad del nivel de ejecución en las
condiciones de baja confiabilidad (lista de 14 temas) (M = .54 y .60, respectivamente),
excelente ejecución en las condiciones de alta confiabilidad (lista de 4 temas) (M = .93 y .89,
respectivamente) y la ejecución intermedia en las condiciones de moderada confiabilidad
(lista de 7 temas) (M = .73 y .77, respectivamente). El análisis de la variación (Confiabilidad
x Diagnosticidad) de estas proporciones revelaron efectos fundamentales altamente
significantes de confiabilidad, F(2,57) = 37.06, p < .001, y F(2,57) = 20.17, p < .001, en
P(G*1/G1) y P(G*h/Gh), respectivamente. Ninguna otra fuente de variación fue significante.
Los datos de la condición de perfecta confiabilidad revelaron un claro efecto de la
manipulación de la diagnosticidad en inferencias de paso simple de grados conocidos con
certeza para las probabilidades de aceptación, P(A/G). Los sujetos dedujeron más altas
P(An/G1) y P(Ay/Gh) de grados de alta diagnosticidad (M = 0.81 y 078, respectivamente) que
de grados de baja diagnosticidad (M = 0.57 y 0.55, respectivamente); ambas diferencias
fueron significantes para P(An/G1) y para P(Ay/Gh), t(22) = 8.08, p < .001, y t(22) = 8.59, p <
.001, respectivamente.
Ahora retornamos a las probabilidades posteriores óptimas de aceptación dada la
retribución de grado, P(A/G*). Estas probabilidades fueron determinadas por cada sujeto
combinando probabilidades de los grados actuales dados los retribuidos grados, P(G/G*), y
las probabilidades de aceptación dados los grados actuales, P(A/G), de acuerdo a la Ecuación
3. Los valores de P(G/G*) fueron computados para cada sujeto vía la Ecuación 2 de su propia
confiabilidad de retribuir los grados, P(G/G*). Los valores de P(A/G) fueron las medias de
los juicios obtenidos en las condiciones de perfecta confiabilidad. Por lo tanto, las
probabilidades óptimas posteriores de aceptación dados los grados retribuidos, P(A/G*),
estuvieron basados en una inferencia subjetiva de paso simple, de los grados actuales a
probabilidades de aceptación y en una inferencia óptima de paso simple (Ecuación 2), de los
grados retribuidos a los grados actuales. Las líneas interrumpidas en el panel izquierdo de la
Figura 1 representa las medias de P(An/G*1), las probabilidades óptimas de los estudiantes
310

que no están siendo aceptados dado que su grado fue recordado como siendo bajo; las líneas
interrumpidas en el panel derecho de la Figura 1 representan medias de P(A y/G*h), la
probabilidad óptima de los estudiantes que están siendo aceptados dado que su grado fue

Insertar aquí la Figura 1 de la página 382 del texto original.

recordado como siendo alto.1 Está claro que cuando el modelo Bayesiano predice estas
probabilidades se incrementarán ambas con confianza y diagnosticidad y que el efecto de
confiabilidad será más pronunciado cuando la diagnosticidad es alta que cuando esta es baja.
Dos valores observados fueron determinados para cada uno de los sujetos: El primero fue
un promedio de los valores de P(An/G*1) que él evaluó para estudiantes quienes, de acuerdo a
la memoria, tenían bajos grados, y el segundo fue un promedio de los valores de P(A y/G*h)
que él evaluó para estudiantes quienes, de acuerdo a la memoria, tenían altos grados. Las
líneas sólidas en la Figura 1 muestran que estas probabilidades observadas se desvían
cualitativamente así como cuantitativamente de las probabilidades óptimas. El valor
diagnóstico del grado verdadero fue el único factor que tenía un efecto consistente en los
observados P(An/G*1) y P(Ay/G*h), F(1,57) = 96.97, p < .001, y F(1,57) = 114.82, p < .001,
respectivamente. A valor más alto del grado verdadero con respecto a la aceptación, menos
extremas las probabilidades posteriores. La confiabilidad con la cual los verdaderos grados
fueron reconocidos tuvo un efecto muy pequeño e inconsistente sobre las inferencias (F < 1).
Aún las inferencias en los dos niveles extremos de confiabilidad dentro de cada nivel de
diagnosticidad no difirió significantemente. En otras palabras, las inferencias no fueron
menos extremas cuando la proporción del reconocimiento correcto estuvo cerca del nivel de
posibilidad que cuando fue casi perfecto. Las inferencias de los sujetos también fallaron al
exhibir la interacción de la Diagnosticidad x la Confiabilidad predicha por el modelo
Bayesiano. El efecto de la diagnosticidad de grados verdaderos no fue atenuada como
confiabilidad decrementada. El efecto interactivo de estas variables fue también probado a
nivel de inferencias en estudiantes individuales. Normativamente, la variación en confianza
en diferentes grados de estudiantes debería producir un mayor efecto en las inferencias sobre
su aceptación cuando los grados tienen un alto valor diagnóstico que cuando lo tienen bajo.
De aquí que, las inferencias sobre estudiantes dentro de la lista de alta diagnosticidad debería
ser más variable que las inferencias sobre estudiantes dentro de una lista de baja
diagnosticidad. La variante de P(A/G*) a través de ocho estudiantes dentro de cada una de las
dos listas fue computada para cada sujeto. Contrario al modelo Bayesiano, estas variaciones
no fueron significativamente diferentes, t(59) = 1.63.
La Figura 1 también muestra que las probabilidades observadas fueron más extremas que
las probabilidades óptimas. La diferencia total entre probabilidades observadas y óptimas fue
altamente significativa para ambas P(An/G*1) y para P(Ay/G*h), F(1, 57) = 33.38, p < .001, y
F(1, 57) = 84.67, p < .001, respectivamente. Finalmente, los coeficientes de correlación
fueron computados a través de sujetos entre probabilidades óptimas y probabilidades
observadas dentro de cada una de las seis condiciones. Las correlaciones fueron muy
pequeñas e inconsistentes, cinco correlaciones siendo positivas y siete siendo negativas. Dos
correlaciones fueron significantes pero negativas [r = -.50, p < .05 y r = -.55, p < .01 para
P(An/G*1) y P(Ay/G*h), respectivamente, en la condición de baja confiabilidad y alta
diagnosticidad].
Estos resultados sugieren que los sujetos fallaron en integrar las consideraciones de
confiabilidad dentro de sus inferencias de probabilidad. Los sujetos parecieron basar sus
inferencias solo en el valor diagnóstico de los grados verdaderos. Las probabilidades
inferidas Las probabilidades inferidas en condiciones experimentales fueron de algún modo
311

1
Otro set de valores óptimos P(A/G*) fue computado de valores óptimos de P(A/G) derivados vía la Ecuación
1. Estas probabilidades no son discutidas separadamente, puesto que ellos estuvieron muy cerca de los valores
óptimos P(A/G*) derivados de estimados subjetivos de P(A/G).

más bajas que aquellas inferidas en la condición de perfecta confiabilidad, indicando que los
sujetos no adoptaron totalmente una estrategia “como-si” (por ejemplo, haciendo inferencias
como si el grado verdadero fuera conocido con certeza). Sin embargo la reducción en
confianza fue muy pequeña y no varío consistentemente con la confiabilidad. Como
resultado, en comparación con las probabilidades Bayesianas, las inferencias de los sujetos
fueron injustificadamente extremas. Note que este no fue el caso con las inferencias de paso
simple de grados verdaderos para aceptación, P(A/G). Las probabilidades inferidas en la
condición de perfecta confiabilidad estuvieron muy cerca de las probabilidades óptimas
derivadas de un modelo de inferencia Bayesiano de paso simple (Ecuación 1). Este resultado
sugiere que la no optimización (ó exceso de confianza) en la condición de inferencia de dos
pasos fue debida a la introducción de la fuente adicional de incertidumbre – la memoria
imperfecta de los grados verdaderos. . . .

Experimento 4

Método

En este experimento los sujetos infirieron probabilidades siendo de estudiantes hombres a


favor de (Ap) ó (An) retornando la Rivera Occidental (territorio ocupado por Israel en la
guerra de 1967) a los Árabes. Votando por el partido Laborista (un partido relativamente
pacífico) ó por el partido Likud (un partido relativamente belicoso) sirvió como información
de alto diagnosticidad. La longitud del cabello de los estudiantes, largo versus corto, sirvió
como información de baja diagnosticidad. La prueba previa mostró que los de cabello corto y
votando por el partido Likud (Bn) implican una actitud negativa hacia retornar a la Rivera
Occidental, mientras que los de cabello largo y votando por el partido Laborista (Bp) implican
una actitud positiva. La prueba previa también indicó que la votación de los estudiantes es
más diagnóstica que la longitud de su cabello.
La tarea de reconocimiento de memoria y otros aspectos del diseño y procedimiento
fueron las mismas que en el Experimento 1. Veinte sujetos fueron asignados a cada una de las
tres condiciones de confiabilidad.
Un grupo adicional de 57 sujetos fue asignado a la condición de perfecta confiabilidad.
En esta condición, los sujetos supieron con certeza la longitud del cabello del estudiante ó del
partido por el que votó. Cada uno de los sujetos infirió probabilidades de actitud del cabello
corto, cabello largo, votando por partido Likud y votando por el partido Laborista.
Un total de 117 sujetos (51 hombres y 66 mujeres) de un curso de psicología
introductoria en la Universidad Hebrea de Jerusalén tomó parte en el Experimento 4.

Resultados y discusión

La manipulación de la confiabilidad tuvo un fuerte efecto sobre la proporción de los


correctos reconocimientos de ambas Bn (por ejemplo, cabello corto ó votar por el partido
Likud) y Bp (por ejemplo, cabello largo y votar por el partido Laborista), F(2, 57) = 55.45, p
< .001 y F(2, 57) = 22.04, p < .001, respectivamente. Las medias de P(B* n/ Bn) fueron de .53,
.76 y .96 para las baja-, moderada- y alta condiciones de confiabilidad, respectivamente; las
312

correspondientes medias de P(B*p/Bp) fueron de .61, .82, y .91. Los efectos de diagnosticidad
y su interacción con la confiabilidad fueron insignificantes.

Insertar aquí la Figura 2 de la página 385 del texto original.

Como se esperaba, los valores de P(B/A) inferidos por los sujetos en la condición de
perfecta confiabilidad indicaron que el valor diagnóstico subjetivo de votar fue mucho mayor
que ese de la longitud del cabello. Por lo tanto, las probabilidades de la actitud P(A n/Bn)
inferidas del hecho que los estudiantes votaron por el partido Likud (M = .78) fueron más
extremas que aquellas inferidas del hecho que los estudiantes tenían el cabello corto (M = .
52), t(56) = 13.61, p < .001. Similarmente, las probabilidades de la actitud P(A p/Bp) inferidas
del hecho que el estudiante votó por el partido Laborista (M = .75) fueron más extremas que
aquellas inferidas del hecho que el estudiante tenía cabello largo (M = .53), t(56) = 9.89, p < .
001.
Las probabilidades óptimas y observadas son mostradas en la Figura 2. Las
probabilidades anteriores fueron derivadas de cada sujeto vía la Ecuación 3 de valores de
P(B/B*) [computados vía la Ecuación 2 de la confiabilidad de los sujetos en reconocer los
comportamientos de los estudiantes, P(B*/B] y de las medias de P(A/B) obtenidas en la
condición de perfecta confiabilidad. Puede ser visto que la diagnosticidad de los
comportamientos fue la única consideración que guió las inferencias de las probabilidades de
actitud, F(1, 57) = 68.94, p < .001 y F(1, 57) = 90.40, p < .001, para P(A n/B¨*n) y P(Ap/B*p),
respectivamente. 2 En violación del modelo Bayesiano, el principal efecto de la confiabilidad
y su interacción con la diagnosticidad fueron insignificantes. Además, las variaciones de las
probabilidades observadas dentro de las listas de alta diagnosticidad no fueron mayores que
las variaciones dentro de las listas de baja diagnosticidad, t(59) = .59. Como en los
experimentos previos, las probabilidades observadas fueron más extremas que las
probabilidades óptimas, F(1, 57) = 5.68, p < .05, y F(1, 57) = 27.63, p < .001, para P(A n/B*n)
y P(Ap/B*p) en la condición de baja diagnosticidad y de alta confiabilidad.
El Experimento 4 provee soporte adicional para la generalización de nuestros
descubrimientos. Muestra que los prejuicios observados en los experimentos previos también
afecta las inferencias de actitudes del comportamiento retribuido. La diagnosticidad del
comportamiento actual de los actores fue solo determinante de inferencias aún cuando la
diagnosticidad tenía que estar basada en las propias creencias de los sujetos sin proveer
externamente evidencia actuarial.

Discusión general

Las inferencias que nuestros sujetos sacaron de sus propias memorias desconfiables
sistemáticamente violaron las reglas normativas de inferencia de probabilidad, Los sujetos
tendieron a apoyarse casi exclusivamente en la diagnosticidad de la información,
demostrando poca sensitividad a la confiabilidad a pesar del hecho de que ellos estuvieron
concientes de la no confiabilidad de su memoria. De hecho, comparaciones entre inferencias
de información recolectada correctamente (por ejemplo, inferencias de grados los cuales
fueron recordados como siendo bajos y los cuales fueron, de hecho, altos) e inferencias de
información recolectada incorrectamente (por ejemplo, inferencias de grados los cuales
fueron recordados como siendo y los cuales fueron, de hecho altos) indicaron diferencias
despreciables, insignificantes en todos los cuatro experimentos. Lo que significa que, las
2
Debería notarse que estos resultados no pueden ser atribuidos al hecho que la diagnosticidad fue manipulada
como una variable dentro de los sujetos y la confiabilidad como una variable entre los sujetos. Análisis de
variación fueron ejecutados en inferencias relacionadas a la primera lista de estudiantes, cuyo
313

comportamiento tenía bajo valor diagnóstico para la mitad de los sujetos en cada condición de confiabilidad
y alto valor diagnóstico para la otra mitad. En estos análisis, la diagnosticidad fue por supuesto un factor entre
los sujetos. Estos análisis condujeron a efectos de diagnosticidad altamente significantes e insignificantes
efectos de confiabilidad y de Diagnosticidad x Confiabilidad. Tales análisis de los datos de los tres
experimentos previos produjeron similares resultados.
inferencias de última probabilidad no fueron menos extremas que las anteriores. Estos
resultados con consistentes con la visión de que la gente tiende a reducir la complejidad de
las tareas empleando simples reglas heurísticas. El rechazo de la confiabilidad de la
información puede reflejar el uso de una de tal heurística de juicio – la representatividad
heurística (Kahneman y Tversky, 1973, 4). Por ejemplo, recordando el partido por el cual el
actor votó, los sujetos infirieron la probabilidad de estar a favor de retornar la Ribera
Occidental a los Arabes de acuerdo al grado por el cual un voto para tal partido es
representativo del estereotipo de un actor que sostiene tales actitudes. Un actor que vota por
un partido belicoso envuelve más características de este estereotipo que un actor que deja
crecer su cabello largo. (Y en los primeros tres experimentos, un alto grado en economía es
más representativo de estudiantes que son aceptados en la escuela de administración de
negocios que lo que es un alto grado en antropología). Una actitud positiva hacia retornar los
territorios fue, por consiguiente, inferida con mayor certeza en el caso anterior. La exactitud
de la memoria de uno no afectó estas probabilidades debido a que ella no afectó el juicio de
representatividad del comportamiento retribuido.
A este respecto, la confiabilidad de un reporte es comparable a las consideraciones del
tamaño de la muestra y proporciones base. El tamaño de la muestra en la cual la evidencia
está basada y la proporción base del atributo inferido no afectan la similitud entre la
evidencia por sí misma y el atributo. La noción de representatividad por consiguiente sugiere,
y la investigación ha mostrado, que las gentes son olvidadizas a estas consideraciones al
hacer inferencias (Nisbeth & Borgida, 1975; Tversky & Kahneman, 1974, 1). Sobre las bases
de esta noción, uno esperaría que la confiabilidad será tomada en cuenta en aquellos casos en
los cuales ella afecta la representatividad del reporte. Por tanto, con sainetes del
comportamiento que son más ricos en detalle que simples, los eventos binarios emplearon en
este estudio, pobre memoria (debido a tales factores como el lapso de tiempo desde que el
sainete fue atestiguado) es probable de afectar la claridad, perfectividad y vividez de la
información retribuida. Tal vaga información puede ser menos representativa del atributo en
cuestión y producirá, por consiguiente, juicios de probabilidad más regresivos ó más
moderados. . . .
314

Parte VIII

Procedimientos correctivos
315

28. La robusta belleza de modelos lineales impropios en


la toma de decisión

Robyn M. Dawes

El libro de Paul Meehl (1954) Clinical Versus Statistical Prediction: Un Análisis Teórico y
una Revisión de la Evidencia apareció hace 25 años. El revisó estudios indicando que la
predicción del criterio numérico de las variables de interés psicológico (por ejemplo, rangos
facultativos de estudiantes graduados quienes habían obtenido un Ph:D) del pronosticador
numérico de variables (por ejemplo, punteos en el GRE, Gradúate Record Examination,
promedio de puntos de grado, clasificaciones de cartas de recomendación) es hecho mejor
por un modelo lineal apropiado que por la intuición clínica de la gente presumiblemente
experimentados en tal predicción. El punto de este artículo es revisar la evidencia que aún
modelos lineales impropios pueden ser superiores a las predicciones clínicas.
Un modelo lineal apropiado es uno en el cual los pesos dados al pronosticador las
variables son escogidas de tal modo como para optimizar la relación entre la predicción y el
criterio. Un análisis simple de regresión es el ejemplo más común de un apropiado modelo
lineal; las variables del pronosticador son pesadas de tal modo como para maximizar la
correlación entre el subsecuente compuesto pesado y el criterio actual. Un análisis de la
función discriminante es otro ejemplo de un modelo lineal apropiado; los pesos son dados al
pronosticador de variables de tal modo que los compuestos lineales resultantes maximicen la
discrepancia entre dos ó más grupos. El análisis de regresión de Ridge, otro ejemplo
(Darlington, 1978; Marquardt & Snee, 1975), intenta asignar pesos de tal modo que los
compuestos lineales correlacionen máximamente con el criterio de interés en un nuevo set de
datos.
Por lo tanto, existen muchos tipos de modelos lineales apropiados y ellos han sido
usados en una variedad de contextos. Un ejemplo (Dawes, 1971) involucró la predicción de
las clasificaciones facultativas de los estudiantes graduados. Todos los estudiantes graduados
del Departamento de Psicología de la Universidad de Oregon quienes habían sido admitidos
entre el otoño de 1964 y el otoño de 1967 – y quienes no habían abandonado el programa por
razones no académicas (por ejemplo, psicosis ó matrimonio –fueron clasificados por la
facultad en la primavera de 1969; los miembros de la facultad clasificaron estudiantes de
quienes ellos sintieron una clasificación confortable. La escala de clasificación siguiente fue
usada: 5, sobresaliente; 4, arriba del promedio; 3, el promedio; 2, debajo del promedio; 1,
316

reprobado en el programa por dificultad académica. Tal clasificación completa constituye un


interesante criterio psicológicamente porque las impresiones subjetivas de los miembros de

Este capítulo originalmente apareció en American Psycologist, 1979, 34, 571-582. Derechos de Autor © 1979
por la Asociación Americana de Psicología. Reimpreso con permiso.
la facultad son las principales determinantes del trabajo (si alguna) que un estudiante obtiene
al dejar la escuela de graduados. Un total de 111 estudiantes estuvieron en la muestra; el
número de miembros de la facultad clasificaron a cada uno de estos estudiantes en un rango
de 1 a 20, con el número inferior siendo 5.67 y la media siendo 5. Las clasificaciones fueron
confiables. (Para determinar la confiabilidad, las clasificaciones fueron sujetas de un análisis
de una vía de la variación en la cual cada estudiante siendo evaluado, fue reconocido como
un tratamiento. La relación entre la variación resultante entre tratamientos (n 2) fue .67, y ella
fue significante más allá del nivel .001). Estas clasificaciones de la facultad fueron predichas
de un modelo lineal apropiado basado en el punteo del Graduate Record Examination (GRE)
de los estudiantes, el punteo promedio de grado (GPA) de los estudiantes no graduados, y una
medida de la selectividad de la institución no licenciada de los estudiantes. 1 La cruzada
validada correlación múltiple entre las clasificaciones de la facultad y el pronosticador de
variables fue de .38. Congruente con los resultados de Meehl, la correlación de estas últimas
clasificaciones de la facultad con la clasificación promedio de la gente con los comités de
admisiones quienes seleccionaron a los estudiantes fue de .19; 2 que es, ella contó por un
cuarto como mucha variación. Este ejemplo es típico de aquellos encontrados en la
investigación de psicología en ésta área en que (a) la correlación con las predicciones del
modelo es más alta que la correlación con la predicción clínica, pero (b) ambas correlaciones
son bajas. Estas características a menudo conducen a los psicólogos a interpretar los
descubrimientos como significando que mientras la baja correlación del modelo indica que
el modelo lineal es deficiente como un método, la aún más baja correlación de los juicios
indica solo que los juicios equivocados fueron usados.
Un modelo lineal inapropiado es uno en el cual los pesos son escogidos por algún
método no óptimo. Ellos pueden ser escogidos para ser iguales, ellos pueden ser escogidos
sobre las bases de la intuición de la persona que hace la predicción, ó ellos pueden ser
escogidos al azar. No obstante, los modelos inapropiados pueden tener gran utilidad. Cuando,
por ejemplo, los estandarizados GREs, GPAs y los índices de selectividad en el ejemplo
previo fueron pesados igualmente, el resultante compuesto lineal correlacionado .48 con la
clasificación última de la facultad. No solo es la correlación de este compuesto lineal más
alto que ese con el juicio clínico del comité de admisión (.19), es también más alto que ese
obtenido sobre cruzar-validar los pesos obtenidos de la mitad de la muestra.
Un ejemplo de modelo inapropiado que podría ser de alguna manera de más interés – al
menos para el público en general – fue motivado por un físico que estuvo conmigo en un
panel concerniente a sistemas de predicción. Más tarde, en el bar con su esposa y yo, él dijo
que mi trabajo podría ser de algún interés para mis colegas, pero éxito en la escuela de
graduados en psicología no era de mucho interés general: “Podría usted, por ejemplo, usar
uno de sus modelos lineales inapropiados para predecir cuán bien mi esposa y yo nos
llevamos juntos?” él preguntó. Yo me di cuenta que yo podía ó podría. A ese tiempo, el
Departamento de Psicología de la Universidad de Oregon estuvo comprometida en
investigación de sexo, la mayoría de la cual estuvo conductualmente orientada. Por tanto los
sujetos de esta investigación monitorearon cuando ellos hicieron el amor, cuando ellos
tuvieron pleitos, cuando ellos tuvieron compromisos sociales (por ejemplo, con parientes
políticos), etc. Estos sujetos también hicieron clasificaciones subjetivas sobre cuán alegres
ellos estuvieron en su situación marital ó emparejados. Yo inmediatamente pensé en un
1
Este índice fue basado en la clasificación de selectividad de Cass y Birnbaum (1968) dado al final de su libro
Comparative Guide to American Colleges. Las categorías verbales de selectividad dadas en valores
317

numéricos de acuerdo a la siguiente regla: más selectiva, 6; altamente selectiva, 5; muy selectiva (+), 4; muy
selectiva, 3; selectiva, 2; no mencionada, 1.
2
Desafortunadamente, solo 23 de los 111 estudiantes pudieron ser usados en esta comparación porque la escala
de clasificación que el comité de admisiones usó cambió ligeramente de año a año.
modelo lineal inapropiado para predecir auto-clasificaciones de felicidad marital: proporción
de hacer el amor menos proporción de pleito. . Mi colega John Howard había recolectado
tales datos de parejas cuando él fue un no graduado en la Universidad de Missouri – Kansas
City, donde él trabajó con Alexander (1971). Después de establecer la confiabilidad inter-
pareja de los juicios de hacer el amor y pelear, Alexander tenía un socio de cada una de las 42
parejas que monitorearon estos eventos. Ella nos permitió analizar sus datos, con los
siguientes resultados: “En las treinta parejas felizmente casadas (como reportado por el socio
a cargo del monitoreo) solo dos arguyeron que ellos tenían más a menudo relaciones íntimas.
Todas las doce de las parejas infelizmente casadas arguyeron más menudo” (Howard &
Dawes, 1976, p. 478). Cuando ellos reportaron estos descubrimientos a la Universidad de
Oregon, donde 27 monitores clasificaron la felicidad en una escala de 7 puntos, de “muy
infelices” a “ muy felices”, con un punto medio neutral. La correlación de la proporción de
hacer el amor menos la proporción con estas clasificaciones de felicidad marital fue de .40 (p
< .05); ninguna variable sola fue significativa. Los descubrimientos fueron reportados en
Missouri por Edwards y Edwards (1977) y en Texas por Thornton (1977a), quien encontró
una correlación de .81 (p < .01) entre la diferencia de argumento de sexo y la auto-
clasificación de felicidad marital entre 28 nuevas parejas. (La razón para esta mucho más alta
correlación podría ser que Thornton obtuvo las clasificaciones de felicidad marital después,
más que antes, los sujetos monitorearon su hacer el amor y pelear; de hecho, un sujeto
decidió obtener un divorcio después de darse que ella estaba peleando más que amando;
Thornton 1977b). La conclusión es que si amamos más que odiamos; si odiamos más que
amamos, somos miserables. Esta conclusión no es muy profunda, psicológicamente ó
estadísticamente. El punto es que este muy crudo inapropiado modelo lineal predice una muy
importante variable; juicios sobre la felicidad marital.
El volumen (de hecho, toda) de la literatura desde que la publicación del libro de Meehl
soporta su generalización sobre los modelos inapropiados versus el juicio clínico intuitivo.
Sawyer (1966) revisó una plétora de estos estudios, y algunos de éstos estudios fueron muy
extensos (cf. L. R. Goldberg, 1965). Algunos 10 años después este libro fue publicado, Meehl
(1965) estuvo capacitado de concluir, sin embargo, que solo había un ejemplo simple
mostrando al juicio clínico ser superior, y esta conclusión fue inmediatamente disputada por
L. R. Goldgerg (1968a) en los campos que aún el ejemplo no mostró tal superioridad. Holt
(1970) criticó detalles de varios estudios, y él aún sugirió que la predicción como opuesta al
entendimiento puede no ser una parte muy importante del juicio clínico. Pero una
investigación de la literatura falla al revelar que cualesquiera estudios en los cuales el juicio
clínico ha sido mostrado ser superior a la predicción estadística cuando ambos están basados
sobre las mismas variables de entrada codificables. Y aunque la mayoría de los no
positivistas acordarían que el entendimiento no es sinónimo de la predicción, pocos estarían
de acuerdo que el no obliga alguna habilidad para predecir.
Por que? Debido a que la gente – especialmente los expertos en el campo – son mucho
mejor en seleccionar y codificar información que en integrarla.
Pero las personas son importantes. El modelo estadístico puede integrar la información de
una manera óptima, pero existe siempre el individual (juez, clínico, sujeto) quien escoge las
variables. Mas aún, es el juez humano quien conoce la relación direccional entre el
pronosticador de variables y el criterio de interés ó quien codifica las variables de tal modo
que ellas tengan una clara relación direccional. Y esta es precisamente la situación donde los
pronosticadores de variables son buenos y donde ellos tienen una relación condicionalmente
monótona con el criterio de que los modelos lineales apropiados trabajan bien. 3
318

3
Las relaciones son condicionalmente monótonas cuando las variables puedan ser colocadas en una escala de
tal manera que los valores más altos de cada una predigan los valores (continúa al pie de la página siguiente)
El modelo lineal no puede reemplazar al experto en decidir tales cosas como “qué
buscar”, pero es precisamente este conocimiento de qué buscar en alcanzar la decisión que es
lo especial que la gente experta tiene. Aún en un juicio complicado como es ejecutar una
movida de ajedrez, es la habilidad para codificar el tablero de un modo apropiado para “ver”
las propias movidas que distinguen el gran maestro del experto del novato (deGroot, 1965;
Simon & Chase, 1973). No es en la habilidad para integrar información que la gente se
supera (Slovic, 1972b). De nuevo, el gran maestro de ajedrez no considera más movidas de
las que hace el experto; él sabe a cuáles mirar. La distinción entre qué mirar y la habilidad
para integrar información está talvez mejor ilustrada en un estudio de Einhorn (1972).
Doctores expertos codifican biopsias de pacientes con la enfermedad de Hodgkin y luego
hacen una clasificación completa de la severidad del proceso. La clasificación completa no
predijo el tiempo de supervivencia de los 193 pacientes, todos los cuales fallecieron. (Las
correlaciones de clasificación con el tiempo de supervivencia fueron todas virtualmente 0,
algunas en la dirección equivocada). Las variables que los doctores codificaron predijeron,
sin embargo, el tiempo de supervivencia cuando ellas fueron usadas en un modelo de
regresión múltiple.
En resumen, los modelos lineales apropiados trabajan por un razón muy simple. Las
personas son buenas para elegir al pronosticador de variables correcto y en codificarlos de tal
manera que ellos tengan una relación condicionalmente monótona con el criterio. Las
personas son malas al integrar información de diversas e incomparables fuentes. Los modelos
lineales apropiados son buenos para tal integración cuando las predicciones tienen una
relación condicionalmente monótona con el criterio.
Considere, por ejemplo, el problema de comparar a un aplicante graduado con punteos
del GRE de 750 y un GPA de no graduado de 3.3 con otro con punteos del GRE de 680 y un
GPA de no graduado de 3.7. La mayoría de los jueces estarían de cuerdo en que estos
indicadores de aptitud y previo cumplimiento deberían estar combinados en algún estilo
compensatorio, pero la pregunta es cómo compensarlos. Muchos jueces intentando esta
hazaña tienen poco conocimiento de las características de distribución de GREs y GPAs, y la
mayoría no tiene conocimiento de estudios indicando su validez como pronosticadores del
éxito de un graduado. Más aún, estos números son inherentemente incomparables sin tal
conocimiento, los GREs van de 500 a 800 puntos para aplicantes viables, y los GPAs de 3.0 a
4.0. Existe alguna sorpresa que un esquema de pesaje estadístico lo haga mejor que un juez
humano en estas circunstancias?
Suponga ahora que no es posible construir un modelo lineal apropiado en la misma
situación. Una razón por la que nosotros no estemos en capacidad de hacerlo es que nuestra
muestro tamaño de muestra es inadecuado. En la regresión múltiple, por ejemplo, los pesos b
son notoriamente inestables; la relación de observaciones a pronosticadores sería tan alta
como 15 ó 20 a 1 antes que los pesos b, los cuales son los pesos óptimos, lo hacen mejor en
validación cruzada que lo hace la unidad simple de pesos. Schmidt (1971), L. R. Goldberg
(1972) y Claudy (1972) han demostrado esta necesidad empíricamente a través de simulación
en computadora, y Einhorn y Hogarth (1975) y Srinivisan (1977) han atacado el problema
analíticamente. La solución general depende de un número de parámetros tales como la
múltiple correlación en la población y el patrón de covariación entre las variables del

más altos del criterio. Esta condición es la combinación de dos condiciones de medida más fundamentales: (a)
independencia (la relación entre cada variable y el criterio es independiente de los valores de las variables
restantes) y (b) monotonía (la relación ordinal es una que es monótona). (Ver Krantz, 1972; Krantz et al., 1971).
Las relaciones verdaderas no necesitan ser lineales para trabajar modelos lineales; ellas deben ser meramente
319

aproximadas por modelos lineales. No es cierto que “en orden de computar un coeficiente de correlación entre
dos variables la relación entre ellas debe ser lineal” (un consejo encontrado en un texto introductorio de
estadística). En primer lugar siempre es posible computar algo.
pronosticador. Pero la implicación aplicada es clara. El análisis estándar de regresión no
puede ser usado en situaciones donde no existe una relación “decente” de observaciones a
pronosticadores.
Otra situación en la cual modelos lineales apropiados no pueden ser usados es esa en la
cual no existen criterios variables mensurables. Podríamos, no obstante, tener alguna idea de
que las variables importantes del pronosticador serían y la dirección que ellas tendrían para el
criterio si estuviéramos en capacidad de medir el criterio. Por ejemplo, cuando decidiendo
cuáles estudiantes admitir a la escuela de graduados, nos gustaría predecir alguna variable
futura de largo plazo que podría ser denominada “auto actualización profesional”. Tenemos
alguna idea de lo que queremos significar por este concepto, pero no buena, precisa
definición todavía. (Aún si tuviéramos una, sería imposible conducir el estudio usando
historiales, de estudiantes actuales, debido a que la variable no podría ser evaluada hasta al
menos 20 años después que los estudiantes hubieran completado su trabajo doctoral).
Nosotros, sin embargo, conocemos que en toda probabilidad este criterio está positivamente
relacionado a la inteligencia, a cumplimientos pasados y a la habilidad para bloquear a los
colegas de uno. En nuestro archivo de aplicantes, los punteos del GRE evalúan la primera
variable; el GPA de los no graduados la segunda; y las cartas de recomendación la tercera. P
Podríamos no desear, entonces, formar alguna clase de combinación lineal de estas variables
en orden de evaluar los potenciales de nuestros aplicantes? Dado que no podemos realizar un
análisis de regresión estándar, no existe nada que hacer más que retirar la integración
intuitiva sola de estas variables cuando evaluamos a nuestros aplicantes?
Un posible camino de construir un modelo lineal inapropiado es a través del uso del
bootstrapping ? (Dawes & Corrigan, 1974; L. R. Goldberg, 1970). El proceso es construir un
modelo lineal apropiado de unos juicios de un experto sobre una consecuencia del criterio y
entonces usar ese modelo lineal en lugar del juicio. Esos modelos lineales pueden ser exactos
en predecir juicios de expertos que han sido señalados en la literatura psicológica por
Hammond (1955) y Hoffman (1960). (Este trabajo fue anticipado por 32 años por el último
Henry Wallace, Vicepresidente bajo Roosevelt , en un artículo de agricultura en 1923
sugiriendo el uso de modelos lineales para analizar “qué está pasando con el maíz en la
mente del juez”. En su influyente artículo, Hoffman denominó al uso de modelos lineales una
representación paramórfica de los jueces, por la cual el significó que los procesos
psicológicos de los jueces no involucraron computar un ímplícito ó explícito promedio
valorado de las variables de entrada, pero que podría ser simulado por tal valoración.. Las
representaciones paramórficas han sido extremadamente exitosas (para revisiones ver Dawes
& Corrigan, 1974; Slovic & Lichtenstein, 1971) en contextos en los cuales el pronosticador
de variables tiene condicionalmente relaciones monótonas con criterios variables.
Los modelos bootstrapping hacen uso de los valores derivados de los jueces; debido a que
estos valores no son derivados de la relación entre el pronosticador y los criterios variables
mismos, los resultantes modelos lineales son inapropiados. Aún estas representaciones
paramórficas consistentemente lo hacer mejor que los jueces de los cuales ellos son derivados
(al menos cuando la evaluación de la calidad está en términos de la correlación entre los
valores predichos y actuales).
El bootstrapping se ha tornado penetrante. Por ejemplo, en un estudio conducido por
Wiggins y Kohen (1971), estudiantes graduados en Psicología de la Universidad de Illinois
fueron presentados con 10 antecedentes, medidas de aptitud y personalidad describiendo a
otros (reales) estudiantes graduados Illinois en psicología y fueron requeridos a predecir estos
GPAs del primer año de graduados de los estudiantes. Modelos lineales de cada uno de los
jueces de la Universidad de Illinois hicieron un mejor trabajo que el que hicieron los jueces
320

mismos en predecir los promedios del actual punteo de grado. Este resultado fue repetido en
un estudio conducido en conjunción con Wiggins, Gregory y Diller (citado en Dawes &
Corrigan, 1974). L. R. Goldberg (1970) lo demostró para 26 de 29 jueces de psicología
clínica prediciendo diagnosis psiquiátrica de neurosis ó psicosis de perfiles del Inventario de
Personalidad Multifasética de Minnesota (MMPI), y Dawes (1971) lo encontró en la
evaluación de aplicantes de graduados en la Universidad de Oregon. La única excepción
publicada para el éxito del bootstrapping del cual yo estoy conciente fue un estudio
conducido por Libby (1976). El requirió a 16 oficiales de préstamos de relativamente
pequeños bancos (localizados en Champaign-Urbana, Illinois, con activos entre $3 millones
y $56 millones) y 27 oficiales de préstamos de grandes bancos (localizados en Philladelphia,
con activos entre $6 billones y $4.4 billones) a juzgar cuales de las 30 de 60 firmas irían a la
bancarrota dentro de tres años posteriores a sus declaraciones financieras. Los oficiales de
préstamos requirieron cinco relaciones financieras en las cuales basar sus juicios (por
ejemplo, la relación de los presentes activos a los activos totales). En promedio, los oficiales
de préstamos correctamente clasificaron 44.4 negocios (74%) como ya sea solventes ó
bancarrotas futuras, pero en el promedio, las representaciones paramórficas de los oficiales
de préstamos podrían correctamente clasificar solo 43.3 negocios (72%). Esta diferencia
vino a ser estadísticamente significativa, y Libby concluyó que él tenía un ejemplo de una
situación donde el bootstrapping no funcionó – talvez debido a que sus jueces eran altamente
hábiles expertos intentando predecir un criterio altamente confiable. L. R. Goldberg (1976),
sin embargo, notó que muchas de las relaciones tenían distribuciones altamente sesgadas, y él
reanalizó los datos de Libby, normalizando las relaciones antes de construir modelos de los
oficiales de préstamos. Libby encontró 77% de sus oficiales ser superiores a sus
representaciones paramórficas, pero Goldberg, usando su escala del pronosticador de
variables, encontró lo opuesto; 72% de los modelos fueron superiores a los jueces de quienes
ellos fueron derivados. 4
Por qué trabaja el bootstrapping? Bowman, (1963), L. R Goldberg (1970), y Dawes
(1971) todos mantuvieron que su éxito surge del hecho de que un modelo lineal destila una
política fundamental (en las influencias implícitas) de un, de otro modo, comportamiento
variable (por ejemplo, juicios afectados por efectos de contexto ó por variables externas).
Creer en la eficacia del bootstrapping estuvo basada en la composición de la validez del
modelo lineal del juez con la validez de sus juicios mismos. Esta es una de las dos
lógicamente posibles comparaciones. La otra es la validez del modelo lineal del juez versus
la validez de los modelos lineales en general; que es, demostrar que el bootsatrapping trabaja
porque el modelo lineal captura la esencia de la pericia válida del juez mientras que
eliminando la desconfianza , es necesario demostrar que las influencias obtenidas de un
análisis del comportamiento del juez son superiores a aquellas que podrían ser obtenidas de
otros modos, por ejemplo, aleatoriamente. Debido a que ambos el modelo del juez y el
modelo obtenido aleatoriamente son perfectamente confiables, una comparación del modelo
aleatorio con el modelo del juez permite una evaluación de la representación lineal del juez, ó
política. Si el modelo aleatorio lo hace igualmente bien, el juez no estaría “siguiendo los
principios válidos sino siguiéndolos pobremente” (Dawes, 1971, p. 182), al menos no
principios nunca más válidos que cualesquiera otros que influencias las variables en la
dirección apropiada.
La Tabla 1 presenta cinco estudios resumidos por Dawes y Corrigan (1974) en la cual las
valideces (por ejemplo, correlaciones) obtenidas por varios métodos fueron comparadas. En
el primer estudio, una fuente de 861 pacientes psiquiátricos tomó el MMPI en varios
4
Debería ser señalado que un modelo lineal apropiado lo hace mejor que ya sean los oficiales de préstamos ó
sus representaciones paramórficas. Usando la misma tarea, Beaver (1966) y Deacon (1972) encontraron que
321

los modelos lineales predecían con casi 78% de exactitud en la validación cruzada. Pero yo no puedo resistir
señalar que el más simple posible modelo inadecuado de todos ellos lo hace mejor. La relación de activos a
pasivos (¡) correctamente clasifica 48 (80%) de los casos estudiados por Libby.
Tabla 1. Correlaciones entre predicciones y valores del criterio
Promedio Promedio Promedio Validez- Validez
Promedio validez validez validez del cruzada del modelo
Validez del modelo del modelo modelo de del análisis lineal
Ejemplo del juez del juez aleatorio igual influencia de regresión óptimo

Predicción de neurosis vrs. psicósis .28 .31 .30 .34 .46 .46
Predicciones del GPA de estudiantes de Illinois .33 .50 .51 .60 .57 .69
Predicciones del GPA de estudiantes de Oregon .37 .43 .51 .60 .57 .69
Predicción de las últimas clasificaciones de la facultad en Oregon .19 .25 .39 .48 .38 .54
Experimento de Yntema & Torgerson (1961) .84 .89 .84 .97 ---- .97

Nota: GPA = punto de grado promedio.


hospitales; ellos fueron más tarde catalogados como neuróticos ó psicóticos sobre la base de
una información más extensa. Los perfiles del MMPI consisten de 11 punteos, cada uno de
los cuales representa el grado para el cual los entrevistados respondieron las respuestas de
una manera similar a los pacientes sufriendo de una bien definida forma de psicopatología.
Un set de 11 punteos está por tanto asociado con cada paciente, y el problema es predecir si
un último diagnóstico será psicosis (codificado 1) ó neurosis (codificado 0). 29 psicólogos
clínicos “de variada experiencia y entrenamiento” (L. R. Goldberg, 1979, p. 425) fueron
requeridos para hacer esta predicción en una distribución forzada normal de 11 pasos. Los
segundos dos estudios relacionaron a 90 estudiantes graduados de primer año en el
Departamento de Psicología de la Universidad de Illinois quienes fueron elevados en 10
variables que son predictivas del éxito académico. Estas variables incluyeron punteos de
pruebas de aptitud, GPA de la universidad, varias clasificaciones semejantes (por ejemplo,
extraversión), y varias auto clasificaciones (por ejemplo, concientividad). Un GPA de primer
año fue computado para todos estos estudiantes. El problema fue predecir el GPA de las 10
variables. En el segundo estudio la predicción fue hecha por 80 (otros) estudiantes graduados
de la Universidad de Illinois (Wiggins & Kohen, 1971), y en el tercer estudio esta predicción
fue hecha por 41 estudiantes graduados de la Universidad de Oregon. Los detalles de los
cuatro estudios han sido ya cubiertos; es el relacionado con la predicción de las últimas
clasificaciones de la facultad en Oregon. El estudio final (Yntema & Torgerson, 1961) fue
uno en el cual los experimentadores asignaron valores a las elipses presentadas a los sujetos,
sobre la base del tamaño de las figuras, excentricidad, y tristeza. La fórmula usada fue ij + kj
+ ik, donde i, j, y k se refieren a los valores de las tres dimensiones mencionadas. Los sujetos
en el experimento fueron requeridos a estimar el valor de cada elipse y fueron presentados
con resultado de reaprovechamiento de información al final de cada intento. El problema fue
predecir el verdadero (por ejemplo, experimentador-asignado) valor de cada elipse sobre la
base de su tamaño, excentricidad y tristeza.
La primera columna de la Tabla 1 presenta la validez promedio de los jueces en estos
estudios, y la segunda presenta la validez promedio del modelo paramórfico de estos jueces.
En todos los casos, el bootstrapping trabajó. Pero luego que Corrigan y yo construimos lo
que fueron modelos lineales aleatorios, que son, modelos en los cuales las influencias fueron
escogidas aleatoriamente excepto por signo y fueron entonces aplicadas a variables
uniformizadas. 5

El signo de cada variable fue determinado sobre una base a priori de tal forma que el tendría una
relación positiva con el criterio. Entonces una desviación normal fue seleccionada como aleatoria de
una distribución normal con variación unitaria, y el valor absoluto de esta desviación fue usado como
un peso para la variable. Diez mil de tales modelos fueron construidos para cada muestra (Dawes &
Corrigan, 1974, p. 102)

En promedio, estos modelos lineales aleatorios ejecutan casi tan bien como los modelos
paramórficos de los jueces; estos promedios son predichos en la tercera columna de la tabla.
Modelos de pesaje igual, presentados en la cuarta columna, lo hacen mejor. Existe una razón
matemática del por qué los modelos de igual pesaje deben ejecutar antes el modelo de
promedio aleatorio. 6) Finalmente las últimas dos columnas presentan la cruzada-validada
validez del modelo de regresión estándar y la validación del modelo lineal óptimo.
5
Desafortunadamente, Dawes y Corrigan no deletrearon en detalle que estas variables deben primero ser
normalizadas y que el resultado es una variable dependiente normalizada. Dar valor igual ó aleatorio de
variables incomparables – por ejemplo, punteo del GRE y del GPA – sin previa normalización sería absurdo.
6
Considere un set de variables normalizadas S 1, X2, .Xm, cada una del las cuales está positivamente
correlacionada con una variable normalizada Y. La covariación de esta suma con Y es igual a (continúa al
pie de la página siguiente)
324

Esencialmente, los mismos resultados se obtuvieron cuando los pesos fueron


seleccionados de una distribución rectangular. Por qué? Porque los modelos lineales son
robustos sobre las desviaciones de un pesaje óptimo. En otras palabras, el descubrimiento del
bootstrapping, al menos en estos estudios, ha sido simplemente una reafirmación de los
descubrimientos más tempranos de que los modelos lineales apropiados son superiores al
juicio humano – los pesos derivados del comportamiento de los jueces estando
suficientemente cerca a los pesos óptimos que las salidas de los modelos son altamente
similares. La solución al problema de obtener pesos óptimos es uno que – en términos de von
Winterfeldt y Edwards (1973) – tiene un “categórico máximo”. Los pesos que están cerca del
nivel óptimo producen casi la misma salida como lo hacen los pesos beta óptimos. Debido a
que el juez experto conoce al menos algo sobre la dirección de las variables, sus juicios
producen pesos que son cercanamente óptimos (pero note que en todos los casos el pesaje
igual es superior a los modelos en el comportamiento de los jueces.
El hecho de que diferentes compuestos lineales correlacionen altamente con cada otro fue
primero señalado 40 años atrás por Wilks (1938). El consideró solo situaciones en las cuales
hubo positiva correlación entre los pronosticadores. Este resultado parece sostenerse hasta
que estas inter-correlaciones no sean negativas; por ejemplo, la correlación entre X + 2Y y
2X + Y es .80 cuando X y Y están correlacionadas. Los modos en los cuales las salidas son
relativamente insensitivas a cambios en los coeficientes (siempre que los cambios de signo
no estén involucrados) han sido investigados más recientemente por Green (1977), Wainer
(1976), Wainer y Thissen (1976), W. Edwards (1978) y Gardiner y Edwards (1975).
Dawes & Corrigan (1974, p. 105) concluyó que “el truco completo es conocer qué
variables mirar y entonces conocer cómo agregarlas”. Ese principio está bien ilustrado en el
siguiente estudio, conducido desde que el artículo de Dawes y Corrigan fue publicado. En el,
Hamond y Adelman (1976) ambos investigaron e influenciaron la decisión sobre qué tipo de
bala debería ser usada por la policía de la ciudad de Denver, una decisión teniendo un mucho
más obvio impacto social que la mayoría de aquellos discutidos arriba. Para citar a
Hammond y Adelman (1976):

En 1974, el Departamento de Policía de Denver (DPD), así como otros departamentos de policía a
través del país, decidieron cambiar su munición de sus pistolas. La razón principal ofrecida por la
policía fue que la bala convencional de punta redonda proveía insuficiente “efectividad de parar” (que
significa, la habilidad para incapacitar y por lo tanto prevenir que la persona dispare desde atrás al
oficial de policía ú otros). El jefe del DPD recomendó (como lo hicieron otros jefes de policía) que la
bala convencional fuera reemplazada por una bala con un punto hueco. Tales balas, se afirmó, se
achataban al impacto, por tanto decreciendo la penetración, incrementando la efectividad de parada y
decrementando el potencial de rebote. El cambio sugerido fue recusado por la Unión Americana de
Libertades Civiles, grupos minoritarios y otros. Los oponentes al cambio demandaban que las nuevas
balas fueran nada más que ilegalizadas “dum-dum”, que ellas creaban mucho más daño que las balas
de punta redonda y deberían, por consiguiente, ser prohibidas de usar. Como es costumbre, los juicios
en esta materia fueron formados privadamente y luego defendidos públicamente con entusiasmo y
tenacidad, y las audiencias públicas fueron sostenidas. Ambos lados cambiaron de expertos balísticos
por científicos de información y soporte. (p. 392)

Insertar aquí las fórmulas de la página 400 del texto original

la variación de Y es 1, y la variación de la suma de los X s es M + M(M – 1)r¯, donde r¯es el promedio de inter-
correlación entre las Xs. Por consiguiente, la correlación del promedio de las Xs con Y es (∑r i)/(M + M(M –
1)r¯)½; esta es mayor que (Σr¯)/(M + M2 - M))½ = promedio de ri. Debido a que cada uno de los modelos
aleatorios están positivamente correlacionados con el criterio, la correlación del promedio, el cual es el modelo
de la unidad-pesada, es mayor que el promedio de las correlaciones.
325

Los contrincantes se focalizaron en evaluar los méritos de balas específicas –


confundiendo el efecto físico de las balas con las implicaciones para la política social; que es,
mejor separar las preguntas de lo que la bala debería ejecutar (la pregunta de política social)
de preguntas concernientes a las características balísticas de balas específicas, los abogados
meramente arguyeron por una bala ú otra. Por tanto, como Hammond y Adelman señalaron,
los hacedores de la política social inadvertidamente adoptaron el papel de (pobres) expertos
en balística, y viceversa. Lo que Hammond y Adelman hicieron fue descubrir las importantes
dimensiones políticas de los hacedores de la política y luego ellos tuvieron de los expertos
balísticos la proporción de las balas con respecto a estas dimensiones. Estas dimensiones
resultaron ser efectividad de parada (la probabilidad de que alguien baleado en el torso no
podría retornar el fuego), la probabilidad de una herida seria, y la probabilidad de peligro
para las personas cercanas. Cuando los expertos en balística clasificaron las balas con
respecto a estas dimensiones, resultó que las dos últimas fueron casi confundidas con la
primera. Las balas no varían a lo largo de una simple dimensión que confunde efectividad
con letalidad. La probabilidad de una herida seria y el peligro de las personas cercanas está
altamente relacionada a la penetración de la bala, mientras que la probabilidad de que la bala
efectivamente pare a alguien de retornar el fuego está altamente relacionada a la anchura de
la herida de entrada. Desde que los hacedores de la política no podrían estar de acuerdo sobre
los pesos dados a las tres dimensiones. Hammond y Adelman sugirieron que ellos sean
pesados igualmente. Combinando los pesos iguales con los (independientes) juicios de los
expertos en balística, Hammond y Adelman descubrieron una bala que “tiene mayor
efectividad de parada y es menos apta de causar daño (y es menos apta de amenazar a las
personas cercanas) que la bala estándar entonces en uso por el DPD” (Hammond y Adelman,
1976, p. 395). La bala fue también menos apta en causar daño que lo que fue la bala previa
recomendad por el DPD. Esa bala fue “aceptada por el Consejo de la Ciudad y todas las otras
partes involucradas, y está ahora siendo usada por el DPD” (Hammond y Adelman, 1976, p.
395) 7 De nuevo, el truco del todo es decidir qué variables mirar y entonces conocer cómo
agregarlas” (Dawes & Corrigan, 1974, p. 105).
Por lo tanto por qué la gente lo hace tan a menudo? Yo sé de cuatro universidades (la
Universidad de Illinois; la Universidad de Nueva York; la Universidad de Oregon; La
Universidad de California, Santa Bárbara - pueden ser más) que usan un modelo lineal para
la selección de aplicantes, pero aún éstas lo usan como un dispositivo de tamizado y sustituto
del juicio clínico para la selección final de aquellos arriba de un punteo reducido. La fórmula
actuarial de L. R. Goldberg (1965) para diagnosticar neurosis ó psicosis de los perfiles del
MMPI ha probado ser superior a los juicios clínicos intentando la misma tarea (ninguno para
mí conocimiento ó el de Goldberg ha producido jamás un juicio que lo haga mejor), aún mí
experiencia con su uso (en el Hospital de Veteranos de Ann Arbor) fue que fue descontinuado
en los campos en que el cometió errores obvios (una interesante razón, discutida sin límite).
En 1970, yo sugerí que nuestros compañeros del comité en la Universidad de Oregon
asignaran resúmenes de la Fundación Nacional de Ciencia y el Acta Nacional de Defensa de
la Educación a los compañeros de los departamentos sobre la base de un sistema de punto
casi-lineal basado en índices explícitamente definidos, méritos del departamento, y
necesidad; se me dijo “usted puede sistematizar el juicio humano”. Fue solo seis meses más
tarde, después que nuestro comité se percató de la imposibilidad política y ética de reducir
los grupos sobre la base del juicio intuitivo, que tal sistema fue adoptado. Y así
sucesivamente.
7
Debería ser señalado que existieron solo ocho balas en la frontera de Pareto; que es, que existieron solo ocho
que no fueron inferiores a alguna otra bala particular en ambas la efectividad de parada y la probabilidad de
daño (ó inferior a una de las variables e igual a la otra). Consecuentemente, cualquier regla de pesaje sea la
que fuere habría escogido una de estas ocho.
326

En los pasados tres años, yo he escrito y hablado sobre la utilidad (y a mi modo de ver,
superioridad ética) de usar modelos lineales en decisiones socialmente importantes. Muchas
de las mismas objeciones han sido elevadas repetidamente por diferentes lectores y
audiencias. Me gustaría concluir este artículo catalogando estas objeciones y
respondiéndolas.

Objeciones al uso de modelos lineales

Estas objeciones pueden ser colocadas en tres amplias categorías: técnica, psicológica y ética.
Cada categoría es discutida en turno.

Técnica

La más común objeción técnica es al uso del coeficiente de correlación, por ejemplo, Remus
y Jenicke (1978) escribieron:

Está claro que la escogencia del coeficiente de correlación de Dawes y Corrigan para establecer la
utilidad del azar y la unidad de las reglas es inapropiada [sic, inapropiado para qué?]. Una función
también de criterio es necesaria en los experimentos citados por Dawes y Corrigan. Existe una
función de costo para clasificar mal a los neuróticos y sicóticos ó rechazar las admisiones de
estudiantes calificados a la escuela de graduados mientras que admitiendo a estudiantes marginales (p.
221).

Considere el problema de la admisión del estudiante graduado primero. L mayoría de las


escuelas tienen k aberturas y N aplicantes. El problema es conseguir la mejor k (quienes están
a su vez dispuestos a aceptar la escuela). Qué mejor manera existe que tener un apropiado
rango? Ninguna. Remus y Jenicke escriben como si el problema fuera no uno de selección
comparativa sino de selección absoluta. La mayoría de las selecciones sociales, sin embargo,
involucran seleccionar la mejor de un juego de alternativas: los estudiantes que serán
mejores, la bala será la mejor, un posible aeropuerto que será superior, y así sucesivamente.
El coeficiente de correlación, debido a que el refleja las clasificaciones tan bien, es
claramente apropiado para evaluar tales selecciones.
El problema de la neurosis-psicosis es más sutil y aún menos soportante de sus
argumentos. “Seguramente”, ellos establecen, “existe una función de costo”, pero ellos no
especifican a cualquiera de los candidatos. La implicación es clara: Si ellos pudieran
encontrarla, el juicio clínico sería encontrado ser superior a los modelos lineales. Por qué? En
la ausencia de tal descubrimiento de su parte, el argumento no cuenta del todo para nada.
Pero este argumento desde un vacío puede ser muy obligatorio para la gente (por ejemplo,
perdiendo gerentes generales y entrenadores de football, quienes conocen que “seguramente”
sus planes trabajarían “si” – cuando sus planes están de hecho destinados a fallar no importa
qué).
Una segunda objeción técnica relacionada es la comparación de los coeficientes promedio
de correlación de los jueces con aquellos de modelos lineales. Talvez promediando, la
ejecución de algo realmente sobresaliente de los jueces está oscurecido. Los datos indican lo
contrario. En el estudio de L. R. Goldberg (1970), por ejemplo, solo 5 de 20 clínicos
entrenados fueron mejores que el modelo de unidad-pesada, y ninguno lo hizo mejor que el
propio uno. En el estudio de Wiggins y Kohen (1971), ninguno de los jueces fueron mejores
que el modelo de unidad-pesada, y nosotros repetimos ese efecto en Oregon. En el estudio de
Libby (1976), solo 9 de 43 jueces lo hicieron mejor que la relación de evaluaciones de
probabilidades al predecir bancarrotas (3 lo hicieron igualmente bien). Mientras está entonces
concedido que los clínicos deberían estar en capacidad de predecir el diagnóstico de neurosis
327

ó psicosis, los estudiantes graduados deberían estar en capacidad de predecir el éxito de los
graduados, y que los oficiales del banco de préstamo deberían estar en capacidad de predecir
bancarrotas, la probabilidad es elevada de que talvez los expertos usados en los estudios no
fueron los correctos. Esto de nuevo es arguyendo desde un vacío: Si otros expertos fueran
usados, entonces los resultados serían diferentes. Y una vez más tales expertos no son
producidos, y una vez más la respuesta apropiada es preguntar por una razón del por qué
estas otras hipotéticas gentes deberían ser algo diferentes. Como un vicepresidente de
universidad me dijo, “Su investigación solo prueba que usted usó pobres jueces; nosotros
seguramente podríamos hacerlo mejor consiguiendo mejores jueces” – aparentemente no del
departamento de psicología).
Una objeción técnica final concierne a la naturaleza del criterio de las variables. Ellas son
admitidamente de corto plazo y no profundas (por ejemplo, GPAs, diagnósticos); de otra
manera, la mayoría de los estudios serían no factibles. La pregunta, entonces surge de si los
descubrimientos serían diferentes si un criterio verdaderamente importante a largo plazo
tuviera que ser predicho. La respuesta es que por supuesto los descubrimientos podrían ser
diferentes, pero no tenemos razón de suponer que ellos serían diferentes. Primero, el futuro
distante es en general menos predecible que el futuro inmediato, por la simple razón que más
factores imprevistos, extraños ó de auto-argumentación influencian los resultados
individuales. (Note que nosotros no estamos discutiendo resultados agregados, tal como un
inusualmente frío invierno en el Medio Oeste en general, extendiéndose por tres meses).
Puesto que, entonces, la predicción clínica es más pobre que la lineal para empezar, la
hipótesis se sostendría solo si la predicción lineal fue mucho peor con el tiempo que lo hizo
la predicción clínica. No existe una razón a priori para creer que este deterioro diferencial en
la predicción ocurriría, y ninguno jamás me lo sugirió. No existe ciertamente ninguna
evidencia. Una vez más, la objeción consiste en un argumento desde el vacío.
Particularmente apremiante es el hecho que la gente que arguye que diferentes criterios ó
jueces ó variables ó marcos de tiempo producirían diferentes resultados han tenido 25 años
en los cuales producir ejemplos, y ellos han fallado en hacerlo.

Psicológica

Una resistencia psicológica a usar modelos lineales descansa en nuestra memoria selectiva
sobre la predicción clínica. Nuestra creencia en tal predicción está reforzada por la
disponibilidad (Tversky & Kahneman, 1974) de instancias de la predicción clínica exitosa –
especialmente aquellas que son excepciones de alguna fórmula: “Yo supe de alguien una vez
con . . . quién . . . “ (por ejemplo, “Yo supe de alguien con IQ probado de solo 130 quien
consiguió un grado avanzado en psicología”). Como Nisbett, Borgida, Crandall y Reed
(1976, 7) mostraron, que tales instancias a menudo tienen un impacto más grande en un
juicio del que lo hacen las compilaciones estadísticas mucho más válidas basadas en muchas
instancias. (Una buena profiláxis para los psicólogos clínicos que basan su resistencia a la
predicción actuarial sobre tales instancias sería guardar cuidadosos records de sus propias
predicciones sobre sus propios pacientes – records prospectivos no sujetos a percepciones
retrospectivas. Tales records podrían hacer todas las instancias de predicción exitosa y no
exitosa igualmente disponibles para el impacto; además, ellas podrían servir para otro estudio
clínico versus estadístico usando al mejor posible juez – el clínico mismo).
Más aún, una ilusión de buen juicio puede ser reforzada debido a la selección (Einhorn &
Hogart, 1978) en aquellas situaciones en las cuales la predicción de un resultado positivo ó
negativo tiene un efecto de auto cumplimiento. Por ejemplo, los oficiales de admisiones
quienes juzgan que un candidato está particularmente calificado para un programa de
graduado puede sentir que su juicio está exonerado cuando el candidato lo hace bien, aún
328

cuando el éxito del candidato es en gran parte debido a efectos positivos del programa. (En
contraste, un modelo lineal de selección es evaluado viendo cuán bien el predice la ejecución
dentro del set de aplicantes seleccionados). O un mesero quien cree que unas gentes
particulares sentadas a la mesa son pobres en dejar propinas puede ser menos atento que lo
usual y recibir una propina más pequeña, de ese modo teniendo su juicio clínico exonerado. 8
Una segunda resistencia psicológica para el uso de modelos lineales parte de su “probada
baja validez “. Aquí existe un implícito (como opuesto al explícito) argumento desde un
vacío debido a que ni cambios en los procedimientos de evaluación, ni en los jueces, ni en los
criterios, son propuestos. Mas bien, la suposición no establecida es que esos criterios de
interés psicológico son hechos altamente predecibles, por tanto se sigue que si un método de
predicción (un modelo lineal) no trabaja muy bien, otro podría hacerlo mejor (razonable), el
cual es luego traducido dentro de la creencia que otro lo hará mejor (la cual no es una
inferencia) – una vez es encontrada. Esta resistencia es mejor expresada por un decano
considerando las admisiones de los graduados, quien escribió, “La correlación del compuesto
lineal con futuras clasificaciones de la facultad es de solo .4, mientras que del juicio del
comité de admisiones correlaciona .2. Dos veces nada es nada”. En 1976, yo respondí como
sigue (Dawes, 1976, pp. 6-7):

En respuesta, yo solo puedo señalar que 16% de la variante es mejor que 4% de la variante. Para mí,
sin embargo, la parte fascinante de este argumento es la suposición implícita que ese otro 84% de la
variante es predecible y que podemos de alguna manera predecirla.
Ahora con qué estamos tratando? Estamos tratando con características de personalidad e
intelectuales de gente (uniformemente brillante) quienes están alrededor de los 20 años de edad . . . .
Por qué estamos tan convencidos que está predicción puede ser hecha del todo? Seguramente, no es
necesario leer Ecclesiastes cada noche para entender el papel de la posibilidad. . . . Más aún, existen
claramente positivos efectos del reaprovechamiento de información en el desarrollo profesional que
exageran los fenómenos del umbral. Por ejemplo, una vez las personas son consideradas
suficientemente “inteligentes” que ellas son invitadas a excelentes instituciones, ellas tienen
excelentes colegas con quienes interactuar – y la excelencia es exacerbada. Este mismo problema
ocurre para aquellos quienes no muy alcanzan tal nivel del umbral. No solo todos estos factores
mitigan contra la predicción exitosa de largo plazo, sino que estudios del éxito de tal predicción están
necesariamente limitados a aquellos aceptados, con los problemas de restricción del rango que
incumben y a una estructura de covariación entre pronosticadores (Dawes, 1975).

Finalmente, existen toda clase de factores no intelectuales en el éxito profesional que no


podrían posiblemente ser evaluados antes de la admisión a la escuela de graduados, por
ejemplo, el éxito al formar una satisfactoria ó inspiradora relación libidinosa, no aún ser
evidentes las tendencias genéticas a la adicción a las drogas ó al alcohol, la mala fortuna de
unirse a un grupo de investigación que “explota”, etcétera y etcétera.
Intelectualmente, yo lo encuentro de alguna manera notable que seamos capaces de
predecir aún el 16% de la variante. Pero yo creo que mi propia respuesta emocional es
indicativa de aquellos de mis colegas quienes simplemente asumen que el futuro es más
predecible. Yo deseo que el sea predecible, especialmente cuando el aspecto de el que yo
deseo predecir sea importante para mí. Este deseo, yo sugiero, se traduce a sí mismo dentro
de una suposición implícita que el futuro es de hecho altamente predecible, y el seguirá
entonces lógicamente que si algo no es un muy buen pronosticador, algo más lo haría mejor
(aunque nunca es correcto argüir que el necesariamente lo hará).
La predicción estadística, porque ella incluye la especificación (usualmente un bajo
coeficiente de correlación) de exactamente cuán pobremente podemos predecir,
categóricamente nos tropezamos con el hecho de que la vida no es del todo predecible. La
8
Este ejemplo fue proporcionado por Einhorn (1979).
329

predicción clínica no sistemática (ó “postdicción”), en contraste, permítasenos la confortante


ilusión que la vida es de hecho predecible y que podemos predecirla.

Ética

Cuando yo estuve en la Feria del Renacimiento de Los Angeles el último verano, yo escuché
por casualidad a una mujer joven quejándose que era una “horrible feria” que ella había sido
rechazada por el Departamento de Psicología de California, Santa Barbara, sobre la base de
meros números, sin aún una entrevista. “Cómo pueden ellos decir posiblemente de qué soy
capaz? La respuesta es que ellos no pueden. Ni podrían ellos con una entrevista (Kelly,
1954). No obstante, muchas personas mantienen que hacer una crucial selección social sin
una entrevista es deshumanizante. Yo pienso que la cuestión de si la personas son tratadas de
una manera justa tiene más que hacer con la cuestión de sí ó no ellas han sido
deshumanizadas que hace la cuestión de si el tratamiento es cara a cara. (Muchos de los
peores doctores pierden una gran parte del tiempo conversando con sus pacientes, no leen
revistas médicas, ordenan pocas ó ninguna prueba, y se apenan en los funerales). Un GPA
representa 3½ años de comportamiento de parte del aplicante. (Seguramente, no todos los
profesores están prejuiciados contra su particular forma de creatividad). El GRE es una más
cuidadosamente concebida prueba. Nosotros realmente creemos que podemos hacer un mejor
ó un justo trabajo por un folder de evaluación de una entrevista de 10 minutos a media hora
que es hecha por estos meros dos números? Tal concepto cognitivo (Dawes, 1976, p. 7) es no
ético, especialmente dado el hecho de ninguna evidencia sea la que fuere indicando que
hacemos un mejor trabajo que el que hace la ecuación lineal. (Y aún haciendo excepciones
debe ser hecho con extremo cuidado si es para ser ético, porque si admitimos a alguien con
un bajo punteo lineal sobre la base de que él tiene un talento especial, estamos
automáticamente rechazando a alguien con un punteo más alto, quien podría bien haber
tenido un talento igualmente impresionante que hubimos tomado el problema para evaluarlo).
No importa cuánto nos gustaría ver este ó ese aspecto de uno u otro de los estudios
revisados en este artículo cambiaron, no importa cómo psicológicamente apremiante ó
desagradable podamos encontrar ser sus resultados, no importa cuán éticamente no
confortable podemos sentir a “reducir a las personas a meros números”, el hecho persiste que
nuestros clientes son personas quienes merecen ser tratadas de la mejor manera posible. Si
eso significa – como si aparece al presente – que esa selección, diagnosis y prognosis
deberían estar basados en nada más que la adición de unos pocos números representando
valores de atributos importantes, por tanto sea el. Hacerlo de otro modo es platicar con la
gente que nosotros servimos.
330

29. La vitalidad de los números míticos

Max Singer

Es generalmente asumido que los adictos a la heroína en la Ciudad de Nueva York roban
algunos dos a cinco billones de dólares valor de propiedad al año, y cometen
aproximadamente la mitad de todos los crímenes de propiedad. Tales estimados del crimen
del adicto son usados por una organización como RAND, por una figura política como
Howard Samuels, y aún por el Fiscal General de los Estados Unidos. El estimado que la
mitad de los crímenes de propiedad son cometidos por adictos fue originalmente atribuida a
un oficial de policía y ha sido usado tan a menudo que es ahora parte del conocimiento
común.
La cantidad de propiedad robada por los adictos es usualmente estimada de la manera
siguiente:
Existen 100,000 adictos con un hábito promedio de $ 30.00 por día. Esto significa que los
adictos deben tener como $ 1.1 billón al año para pagar por su heroína (100,000 x 365 x $
30.00). Debido a que el adicto debe vender la propiedad que él roba para traficarla por solo
un cuarto de su valor, ó menos, los adictos deben robar unos $4 a $5 billones al año para
pagar su heroína.
Estos cálculos pueden ser hechos con más ó menos sofisticación. Uno puede permitir el
hecho que la clase de adictos quienes hacen su vivir ilegalmente típicamente pasan arriba de
un cuarto de su tiempo en la cárcel, el cual reduciría la cantidad de crimen en un cuarto. (The
New York Times recientemente reportó la muerte de William “Donkey” Reilly. Un ex-adicto
de 74 años quien había sido adicto por 54 años, él había pasado 30 de aquellos años en
prisión). Algunos de los que el adicto roba en efectivo, ninguno de los cuales tiene que ser
para traficarlo. Una gran parte del costo de la heroína es pagado tratando el negocio de la
heroína, más que robando de la sociedad, y otra gran parte por prostitución, incluyendo
hombres adictos viviendo de las prostitutas. Pero no importa cuán cuidadosamente usted lo
reparta, si uno trata de estimar el valor de la propiedad robada por adictos asumiendo que
existen 100,000 adictos y estimando que es la cantidad mínima habrían de robar para
mantenerse ellos y sus hábitos (después de hacer estimados generosos del ingreso legal), uno
se encuentra con un número en el vecindario de $ 1 billón al año para la ciudad de Nueva
York
Pero qué pasa si usted se aproxima a la interrogante del otro lado? Suponga que
preguntamos, “Cuánta propiedad es robada – por los adictos ó de cualquier lado?” Los
ladrones adictos deben ser menos que el total de ladrones. Cuál es el valor de la propiedad
robada en la Ciudad de Nueva York en cualquier año? De alguna manera sorprendente para
.
Este capítulo apareció originalmente en The Public Interest, 1971, 23, 3-9. Derechos de Autor © 1971 por
National Affairs, Inc. Reimpreso con permiso.
331

mí cuando yo primero pregunté, esta se tornó ser una pregunta difícil de responder, aún
aproximadamente. Nadie tenía un estimado en que ellos tuvieran aún la más mínima
confianza, y la interrogante no parece haber sido muy preguntada. La cantidad de robo
oficialmente reportada en la Ciudad de Nueva York es de aproximadamente $300 millones
ala año, de los cuales alrededor de $100 millones es el valor de automóviles robados (un
crimen que raramente es cometido por adictos). Pero está claro que existe un volumen muy
grande de crímenes que no son reportados; por ejemplo, el hurto en las tiendas no es
reportado normalmente a la policía. (Muchas propiedades perdidas por robos no es reportada
a las compañías de seguros tampoco, y la industria de seguros no tenía un buen estimado del
total robado).
Resulta ser, sin embargo, que si uno está solo haciendo una pregunta como, “Es posible
que los adictos robaron $1 billón de propiedad valiosa en la Ciudad de Nueva York el último
año? Es relativamente simple estimar la cantidad de propiedad robada. Está claro que los dos
mayores componentes del ladrón adicto son el hurto y el allanamiento de morada. Cuál
podría ser el valor de la propiedad hurtada por los adictos? Todas las ventas al por menor en
la Ciudad de Nueva York están en el orden de $15 billones al año. Esto incluye automóviles,
alfombras, anillos de diamantes y otros artículos no usualmente disponibles para los ladrones
de tiendas. Un número razonable por inventario de pérdidas de los establecimientos al por
menor es el 2%. Este número incluye desfalcos de gerencia, robos de empleados,
departamentos de embarque, camioneros, etc (Las tiendas por departamentos,
particularmente, han reportado un grande incremento en hurtos en los años recientes, pero
ellos están entre los más vulnerables de los establecimientos al por menor y no suficiente
importante para traer la proporción total muy arriba del 2%). Generalmente se está de
acuerdo en que substancialmente más de la mitad de la propiedad perdida de los
establecimientos al por menor es tomada por los empleados, el remanente siendo perdido por
ladrones de tiendas de afuera. Permítasenos acreditar a los ladrones de tiendas con robos del
1% de toda la propiedad vendida en las tiendas en la Ciudad de Nueva York – esto sería de
alrededor de $150 millones al año.
Qué sobre el robo con allanamiento de morada? Existen algo como medio millón de casas
de habitación en la Ciudad de Nueva York. Suponga que un promedio de una de cada cinco
de ellas es robada ó allanada cada año. Esto toma en cuenta que en algunas áreas el
allanamiento es aún más común, y que algunas casas de habitación son allanadas más de una
vez al año. Esto significaría una media de 500,000 allanamientos al año. El valor promedio
de la propiedad tomada en un allanamiento podría ser del orden de $200. En algunos
allanamientos, por supuesto, mucho mayores cantidades de propiedad son tomadas, pero
estos más altos valores de allanamientos son muy raros, y a menudo son cometidos por
ladrones profesionales no adictos. Si usamos el número de $200 x 500,000 allanamientos,
conseguimos $100 de propiedad robada de las casas de las personas en un año en la Ciudad
de Nueva York.
Obviamente no todos el robo de los adictos es propiedad tomada de las tiendas ó de casas
de personas. Uno de los más temidos tipos del crimen del adicto es la propiedad tomada de
las personas de Nueva York en asaltos y otras formas de robo. Podemos estimar esto también.
Suponga que en el promedio, una persona en 10 tiene propiedad tomada de su persona por
asaltantes ó ladrones cada año. Eso sería 800,000 de tales robos, y si el promedio de uno
produce $100 (los cuales son improbables de ser), $8 millones al año serían tomados en esta
forma de robo.
Por podemos ver que si nosotros le acreditamos a los adictos con todo el robo a tiendas,
todo el robo a casas y todo el robo de personas, el total de propiedad robada por los adictos
en un año en la Ciudad de Nueva York, asciende a algunos $330 millones. Usted puede tirar
todos los “factores sin sentido” que usted desee, agregar todos los otros crímenes
332

misceláneos que los adictos cometen, pero no importa lo que usted haga, es difícil encontrar
una base para estimar lo que los adictos roban sobre un medio billón de dólares al año, y un
cuarto de billón parece como un mejor estimado, aunque talvez en el lado alto. Después de
todo, debe haber algunos ladrones quienes no son adictos.
Por lo tanto, yo creo que hemos mostrado que mientras es ampliamente asumido que los
adictos roban de $2 billones a $5 billones al año en la Ciudad de Nueva York, el número
actual es diez veces menor, y que esto puede ser demostrado por cinco minutos de
pensamiento. 1 Entonces qué? Un valor de un cuarto de millón de dólares es aún una parte de
la propiedad. Excede la cantidad de dinero gastado anualmente en la rehabilitación de un
adicto y otros programas para prevenir y controlar la adicción. Además, el valor de la
propiedad robada por adictos es una pequeña parte del costo total a la sociedad del robo de
adictos. Un costo mucho más grande es pagado en miedo, cambio de la atmósfera del
vecindario, el costo de las precauciones y otras reacciones de simpatía por el robo y su
peligro.
Un punto en este ejercicio al estimar el valor de la propiedad robada por los adictos es
despojarse un poco de las actitudes hacia los números. La gente siente que existe mucho
crimen de adictos, y que $2 billones es un gran número, por lo tanto ellos están inclinados a
creer que existen $2 billones del robo de los adictos. Pero $250 millones es una gran número
también y si nuestra sentido de perspectiva no estuviera distorsionado por la conciencia diaria
de los gastos federales, la mayoría de la gente estaría muy contenta en aceptar $250 millones
al año como una parte del robo.
A lo largo de estas mismas líneas, este ejercicio es otro recordatorio que aún, oficiales
responsables, periódicos responsables y grupos de investigadores responsables recogen y
pasan como números evangélicos que no tienen bases reales de hecho. Nosotros somos
recordados por esta experiencia que debido a un estimado que ha sido usado ampliamente por
una variedad de gente quienes sabrían de lo que están hablando, uno no puede asumir que el
estimado es aún aproximadamente correcto.
Pero existe una mucho más importante implicación del hecho que no puede existir casi
tantos adictos ladrones como la gente cree. Esta implicación es que probablemente no existen
tantos adictos como mucha tente cree. La mayoría del dinero pagado por heroína comprada al
menudeo viene del hurto, y la mayoría de los adictos compran al menudeo. Por consiguiente,
el número de adictos es básicamente – aunque imprecisamente – limitado por la cantidad del
robo. (El estimado desarrollado en un estudio del Instituto Hudson fue que cerca de la mitad
del volumen de heroína consumido es usado por gente en el sistema de distribución de
heroína quienes no compran al menudeo, y no pagan con propiedad robada pero con sus
“servicios” en el sistema de distribución. 2). Pero mientras la gente en el negocio (a niveles
más bajos) consume menos de la mitad de heroína, ellos son solo un sexto ó un séptimo del
1
Los números míticos pueden ser más míticos y tener más vitalidad en el área del crimen que en la mayoría de
las áreas. En los primeros años de la década de los 1950s el Comité Kefauver publicó un estimado de $20
billones para la anual “toma” del juego en los Estados Unidos. La figura actualmente fue “recogió de un
sombrero”. Un miembro del personal dijo: “No tuvimos una idea real del dinero gastado. La Comisión del
Crimen de California dijo $12 billones. Virgil Petersen de Chicago dijo $30 billones. Nosotros recogimos $20
billones como el balance de los dos.
Un ejemplo ideal de un número mítico que tenía una vigorosa vida – la aseveración de que 28 Panteras
Negras habían sido muertos por la policía – es dada una cuidadosa biografía por Edward Jay Epstein en el
New Yorker del 13 de febrero de 1971. (Resultó que fueron 19 Panteras muertas, diez de ellas por la policía, y
ocho de éstas en situaciones donde parece probable que las Panteras tomaron la iniciativa).
2
Un dato fue desarrollado en un último estudio por el Hospital de St. Luke de 81 adictos – promedio de edad
34 años. Más de la mitad de la heroína consumida por estos adictos, en alrededor de un año, había sido
pagado por la venta de heroína. Incidentalmente, estos 81 adictos habían robado un promedio de $9,000 en
valor de propiedad en el año previo.
333

número total de adictos. Ellos son los que pueden aportar grandes hábitos.
El más popular, informal estimado de adictos en la Ciudad de Nueva York es de algo más
de 100,000 (usualmente con un énfasis en el “algo más”). El registro federal en Washington
lista algunos 30,000 adictos en la Ciudad de Nueva York, y el registro de nombres de adictos
del Departamento de Salud de la Ciudad de Nueva York lista algunos 70,000. Mientras todas
las personas en aquellas listas no son aún adictos activos – muchos de ellos están muertos ó
en prisión – la mayoría de la gente cree que existen muchos adictos quienes no están en
ninguna lista. Es común considerar el estimado de 100,000 adictos en la Ciudad de Nueva
York como muy conservador. La Doctora Judianne Densen-Gerber fue ampliamente citada a
principios de 1970 por su estimado de que existirían alrededor de 100,000 adolescentes
adictos para el final del verano. Y existen obviamente muchos adictos de 20 años de edad y
más. 3
Discutiendo el número de adictos en este artículo, nosotros estaremos hablando sobre la
clase de persona en que uno piensa cuando el término “adicto” es usado. 4 Un mejor término
podría ser “adicto a la calle”. Esta es una persona que normalmente usa heroína cada día. El
es la clase de persona que mira y actúa como el cuadro normal de un adicto. Excluimos aquí
la gente en la profesión médica que son frecuentes usuarios de heroína ú otros opiáceos, ó
son adictos a ellas, los estudiantes quienes usan heroína ocasionalmente, personas adineradas
quienes se vuelven adictas a ellas pero no necesitan robar y no frecuentan las normales
guaridas de los adictos, etc. Cuando nosotros nos estamos dirigiendo al “problema del
adicto”, es menos importante que incluyamos estos casos; mientras ellos son sin duda –
problemas de varios grados, ellos son un tipo muy diferente de problema que ese formulado
por el típico adicto de la calle.
La cantidad de propiedad robada por los adictos sugiere que el número de adictos de la
calle en la Ciudad de Nueva York puede ser más como 70,000 más que 100,000, y casi
ciertamente no puede ser nada como el número 200,000 que es algunas veces usado. Varios
otros simples modos de estimar el número de adictos de la calle conduce a una conclusión
similar.
La experiencia con la población de adictos ha conducido a los observadores a estimar que
el promedio de adictos de la calle pasa de un cuarto a un tercio de su tiempo en prisión..
(Algunos estudiantes del sujeto, tal como Edward Preble y John J. Casey, Jr., creen que el
porcentaje esté arriba del 40%). Esto implicaría que en cualquier tiempo de un cuarto a un
tercio de la población adicta está en prisión, y que el total de la población adicta puede ser
estimado multiplicando el número de adictos que están en prisión por tres ó cuatro. Por
supuesto el número de adictos que está en prisión no es una cantidad conocida (y, de hecho,
como hemos indicado arriba, no aún un concepto muy preciso). Sin embargo, uno puede
3
Entre otros recientes estimadores podemos notar a un Marxista, Sol Yoruick, quien nos da “500,000
drogadictos” (Revisión Mensual, Diciembre de 1079), y William R. Corson, quienes compiten en el
Penthouse de Diciembre de 1970, que “hoy al menos 2,500,000 Americanos negros son enganchados en la
heroína.
4
Existe una interesante anomalía sobre la palabra “adicto”. La mayoría de la gente, si es presionada por una
definición de un “adicto” diría que él es una persona quien regularmente toma heroína (ó algo de tal droga) y
quien, si él falla en conseguir su dosis regular de heroína, tendrá desagradables ó dolorosos síntomas por la
carencia de la droga. Pero esta definición no se aplicaría a una gran parte de lo que es reconocido como la
“población adicta”. De hecho, eso no se aplicaría a al mayoría de los adictos certificados. Un adicto quien ha
sido desintoxicado ó quien ha sido apresado y apartado de las drogas y guardado lejos de las drogas por una
semana ó más no se ajustaría a la definición normal de “adicto”. El ya no tiene más los síntomas físicos
resultantes de no tomar la heroína. “Donkey” Reillly ciertamente llenaría las ideas de un adicto a la mayoría
de la gente, pero 30 de los 54 años que él fue un “adicto” él estuvo en prisión, y él ciertamente no fue un
activamente adicto a la heroína durante la mayoría del tiempo que el pasó en prisión, el cual fue más de la
mitad de su carrera de “adicto” (aunque una cierta cantidad de drogas están disponibles en la prisión).
334

puede hacer razonables estimados del número de adictos en prisión (y para este propósito
podemos incluir a los adictos en varios centros de tratamiento involuntario). Este número es
aproximadamente 14,000-17,000, lo cual es muy compatible con un estimado de 70,000
adictos de la calle en la Ciudad de Nueva York.
Otro modo de estimar el número total de adictos de la calle en la Ciudad de Nueva York
es usar la información demográfica que está disponible sobre la población adicta. Por
ejemplo, podemos estar razonablemente ciertos que un 25% de la población de adictos de la
calle en la Ciudad de Nueva York es Puerto Riqueña, y un 50% son negros. Conocemos que
aproximadamente cinco de seis adictos de la calle son hombres, y que 50% de los adictos de
la calle están entre las edades de 16 y 25. Esto significaría que 20% del número total de
adictos son hombres negros entre las edades de 16 y 25. Si existieran 70,000 adictos, esto
significaría que 14,000 negros entre las edades de 16 y 25 son adictos. Pero todos juntos
existen solo alrededor de 140,000 negros entre las edades de 16 y 25 en la ciudad – talvez la
mitad de ellos viviendo en áreas paupérrimas. Esto significa que si existen 70,000 adictos en
la ciudad, uno de 10 negros jóvenes son adictos, y si existen 100,000 adictos, casi uno de seis
son, y si existen 200,000 adictos, uno de tres. Usted puede decidir por usted mismo cuál de
estos grados de penetración del grupo de jóvenes negros hombres es más creíble, pero está
más que claro que el número de 200,000 adictos no es plausible. Similarmente, el total de
70,000 adictos de la calle implicaría que 7,000 hombres jóvenes de Puerto Rico son adictos,
y el número total de muchachos hombres de Puerto Rico entre las edades de 16 y 25 en la
Ciudad de Nueva York es alrededor de 70,000.
Ninguno de los cálculos de arriba es mencionado de ninguna manera para reducir la
importancia del problema de la adicción a la heroína. La heroína tiene un curso terrible.
Cuando usted piensa en la tragedia individual que involucró, 70,000 es un terrible gran
número de adictos. Y si usted tiene que trabajar por un ingreso para vivir, $250 millones es
una terrible cantidad de dinero que ha sido robado de los ciudadanos de la ciudad para ser
transferido a través de las manos de los adictos y encubridores dentro de los bolsillos de
aquellos que importan y distribuyen heroína, y de aquellos que toman sobornos ó ejecutan
otros servicios para la industria de la heroína.
El punto principal de este artículo puede ser bien para ilustrar cuán lejos uno puede ir en
rebotar un problema tomando los números seriamente, viendo que ellos implican, chequear
varias implicaciones entre uno contra otro, y contra el conocimiento general (tal como el
número de personas ó casas en la ciudad). Pequeños esfuerzos en esta dirección pueden
transitar un largo trecho para ayudar a la gente ordinaria y oficiales responsables para
enfrentarse a la situación con expertos de varias clases
335

30. Predicción intuitiva: Prejuicios y


procedimientos correctivos

Daniel Kahneman y Amos Tversky

Introducción

Cualquier actividad significante de pronóstico involucra un gran componente de juicio,


intuición y educado trabajo de adivinación. Ciertamente, las opiniones de los expertos son la
fuente de muchos pronósticos tecnológicos, políticos y sociales. Las opiniones e intuiciones
juegan una parte importante aún donde los pronósticos son obtenidos por un modelo
matemático ó una simulación. Los juicios intuitivos entran en la escogencia de las variables
que son consideradas en tales modelos, los factores de impacto que son asignados a ellas, y
los valores iniciales que son asumidos para sostener. El papel crítico de la intuición en todas
las variables de pronosticar llama por un análisis de los factores que limitan la exactitud de
los juicios del experto , y por el desarrollo de procedimientos designados para mejorar la
calidad de estos juicios. . . .

Datos singulares y de distribución

Los expertos a menudo requieren proveer una mejor adivinanza, estimado ó predicción
concerniente a una cantidad incierta tal como el valor del índice Dow-Jones en un día
particular, las ventas futuras de un producto, ó el resultado de una elección. Una distinción
debe ser hecha entre dos tipos de información que está disponibles para el pronosticador:
singular y de distribución. La información singular, ó datos del caso, consiste de evidencia
sobre el caso particular bajo consideración. La información de distribución, ó datos de
clasificación base, consiste del conocimiento sobre la distribución de resultados en similares
situaciones. En predecir las ventas de una nueva novela, por ejemplo, lo que uno conoce
sobre el autor, el estilo y el argumento es una información singular, mientras que lo que uno
conoce sobre las ventas de novelas es información de distribución. Similarmente, en predecir
la longevidad de un paciente, la información singular incluye su edad, estado de salud y su
historial médico, mientras que la información de distribución consiste de las estadísticas
relevantes de población. La información singular describe las características específicas del
problema que lo distingue de otros, mientras que la información de distribución caracteriza
los resultados que han sido observados de la misma clase general. El presente concepto de
Este capítulo es una versión abreviada de un trabajo que apareció en S. Makridakis y S. C. Wheelwright (Eds.),
“Forecasting“, TIMS, Studies in Management Science, 1979, 12, 313-327. Derechos de Autor © 1979 por
North-Holland Publishing Co. Reimpreso con permiso.
336

datos de distribución no coincide con el concepto Bayesiano de una previa distribución de


probabilidad. El anterior es definido por la naturaleza de los datos, mientras que el último es
definido en términos de la secuencia de adquisición de la información.
Muchos problemas de predicción son esencialmente únicos en el sentido que poca, si
alguna, distribución de información relevante está disponible. Ejemplos son los pronósticos
de demanda por energía nuclear en el año 2000, ó de la fecha por la cual una cura efectiva
para la leucemia será encontrada. En tales problemas, el experto debe descansar
exclusivamente en la información singular. Sin embargo, la evidencia sugiere que las
personas son insuficientemente sensitivas a los datos de distribución aún cuando tales datos
están disponibles. Ciertamente, reciente investigación sugiere que la gente descansa
primariamente en la información singular, aún cuando es escasa y no confiable, y dan
suficiente peso a la información de distribución (Kahneman & Tversky, 1973, 4; Tversky &
Kahneman, Capítulo 10).
El contexto de planificación provee muchos ejemplos en los cuales la distribución de
resultados en experiencia pasada es ignorada. Científicos y escritores, por ejemplo, son
notoriamente propensos a subestimar el tiempo requerido para completar un proyecto, aún
cuando ellos tienen considerable experiencia de pasadas fallas para vivir de programas
planificados. Un prejuicio similar ha sido documentado en estimados de ingenieros del
tiempo de finalización de reparaciones de estaciones de poder (Kidd, 1970). Aunque esta
falacia de planificación es algunas veces atribuible a factores de motivación tales como
ilusiones, ella frecuentemente ocurre aún cuando la subestimación de duración ó de costo es
actualmente penalizada.
La falacia de planificación es una consecuencia de la tendencia a descuidar los datos de
distribución y a adoptar lo que puede ser denominado una aproximación interna a la
predicción, en la cual uno se focaliza en los constituyentes del problema específico más que
en la distribución de resultados en casos similares. La aproximación interna a la evaluación
de planes es parecida a producir subestimación. Un edificio solo puede ser completado en
tiempo, por ejemplo, si no existen retrasos en el envío de materiales, no hay huelgas, no hay
condiciones del tiempo inusuales, etc. Aunque cada una de estas molestias son improbables,
la probabilidad de que al menos una de ellas ocurrirá puede ser substancial. Esta
consideración de combinación, sin embargo, no está adecuadamente representada en las
intuiciones de las personas (Bar-Hillel, 1973). Intentos para combatir este error agregando un
factor de retraso son raramente adecuados, desde que el valor ajustado tiende a permanecer
muy cerca del valor inicial que actúa como un ancla (Tversky & Kahneman, 1974, 1) La
adopción de una aproximación externa que trata el problema específico como uno de tantos
podría ayudar a superar este prejuicio. En esta aproximación, uno no intenta adivinar la
manera específica en la cual un plan podría fallar. Más bien, uno relaciona el problema en
mano a la distribución de completar el tiempo para similares proyectos. Se sugiere que más
estimados razonables son probables de ser obtenidos, requiriendo de la interrogante externa:
cuánto tiempo duran tales proyectos? Y no meramente la interrogante interna: cuales son los
factores específicos y dificultades que operan en el problema particular?
La tendencia a despreciar la información de distribución y a descansar principalmente en
la información singular está acrecentada por cualquier factor que incremente la unicidad
percibida del problema. La relevancia de los datos de distribución pueden ser disfrazadas por
un detallado conocimiento del caso específico ó por un intenso involucramiento en el. La
unicidad percibida de un problema está también influenciada por la formulación de la
interrogante que el experto es requerido a responder. Por ejemplo, la interrogante de cuánto el
desarrollo de un nuevo producto costará puede inducir una aproximación interna en la cual
los costos totales son desglosados en sus componentes. La interrogante equivalente del
porcentaje por el cual los costos excederán el presupuesto corriente es parecido a llamar a la
337

mente la distribución del costo rebasado por los desarrollos de la misa clase general. Por lo
tanto, un cambio de unidades – por ejemplo, de los costos a rebasar – podrían alterar la
manera en la cual el problema es visualizado.
La tendencia prevaleciente de subvalorar ó ignorar la distribución de información es
talvez el mayor error de la predicción intuitiva. La consideración de la información de
distribución, por supuesto, no garantiza la exactitud de las predicciones. Ella, sin embargo,
provee alguna protección contra las predicciones completamente irreales. El analista haría
por consiguiente todo esfuerzo para enmarcar el problema de predicción como para facilitar
la utilización de toda la información de distribución que está disponible para los expertos.

Regresión y predicción intuitiva

En la mayoría de los problemas de predicción, el experto tiene ambas la información singular


sobre el caso específico y la información de distribución sobre el resultado en casos
similares. Ejemplos son el consejero quien predice la probabilidad de logros de un estudiante,
el banquero quien evalúa las ganancias potenciales de un pequeño negocio, el propietario de
un periódico quien estima las ventas de un libro de texto, ó el economista quien predice
algún índice de crecimiento económico.
Cómo la gente predice en tales situaciones? La investigación psicológica (Kahneman &
Tversky, 1973, 4; Ross, 1977) sugiere que las predicciones intuitivas son generadas de
acuerdo a una simple regla que hace juego: el valor de la predicción es seleccionado de tal
manera que la importancia del caso en la distribución de resultados haga juego con su
importancia en la distribución de impresiones. El siguiente ejemplo ilustra esta regla. Un
editor revisó el manuscrito de una novela y estuvo favorablemente impresionado. El dijo:
“Este libro se lee como un best-seller. Entre los libros de este tipo que fueron publicados en
años recientes, yo diría que solo uno en veinte me impresionaron más”. Si el autor fuera
ahora requerido a estimar las ventas de esta novela, él probablemente predecirá estar en el
5% tope de la distribución de ventas.
Existe considerable evidencia de que la gente a menudo predice haciendo juego la
predicción con la impresión. Sin embargo, esta regla de predicción es errónea porque falla en
tomar la incertidumbre en cuenta. El editor de nuestro ejemplo seguramente admitiría que las
ventas de libros son altamente impredecibles. En tal situación de alta incertidumbre, la mejor
predicción de las ventas de un libro caerían en algún lugar entre el valor que juega la
impresión de uno y el promedio de ventas para libros de su tipo.
Uno de los principios básicos de la predicción estadística, el cual es también uno de los
menos intuitivos, es que la extremidad de las predicciones deber ser moderada por
consideraciones de predicción. Imagine, por ejemplo, que el editor conoce de experiencia
pasada que las ventas de libros son un poco un poco no relacionadas a sus impresiones
iniciales. Los manuscritos que lo impresionaron favorablemente y los manuscritos que a él le
disgustaron fueron igualmente probables de vender bien ó pobremente. En tal caso de cero
predicción, la mejor adivinanza del editor sobre las ventas sería la misma para todos los
libros – por ejemplo, el promedio de la categoría relevante – sin importar su impresión
personal del libro individual. Las predicciones son permitidas de hacer juego con las
impresiones solo en el caso de perfecta predicción. En situaciones intermedias, en las cuales
son por supuesto las más comunes, la predicción debería ser regresiva; que es, que ella
debería caer entre el promedio de clase y el valor que mejor representa la impresión de uno
en el caso en cuestión. Mientras más baja la posibilidad de predicción, más baja debería ser el
promedio de clase. Las predicciones intuitivas son típicamente no regresivas: la gente a
menudo hace predicciones extremas sobre la base de la predicción cuya confiabilidad y
validez predictiva son conocidas de ser bajas. . . .
338

Un procedimiento correctivo para la predicción

Cómo puede un experto ser guiado a producir apropiadamente predicciones regresivas?


Cómo puede él ser guiado a usar la información singular y de distribución que está
disponible para él, de acuerdo con los principios de predicción estadística? En esta sección un
procedimiento de cinco pasos que está designado para adquirir estos objetivos es propuesto.

Paso 1: Selección de una clase de referencia

La meta de esta etapa es identificar una clase para la cual el caso a mano puede ser referido
significativamente y por el cual la distribución de resultados es conocida ó puede ser
evaluada con razonable confianza.
En las predicciones de las ventas de un libro ó las ganancias brutas de una película, por
ejemplo, la selección de una clase de referencia es clara. Es relativamente fácil, en estos
casos, definir una clase apropiada de libros ó películas para los cuales la distribución de las
ventas ó ingresos es conocida.
Existen problemas de predicción – por ejemplo, predecir el costo del desarrollo de del
producto de una novela, ó el tiempo por el cual alcanzará el mercado – por lo cual una clase
de referencia es difícil de identificar debido a que las varias instancias parecen ser tan
diferentes una de otra que ellas no pueden ser comparadas significativamente. Como se hizo
anotar anteriormente, sin embargo, este problema puede algunas veces ser superado
redefiniendo la cantidad que va a ser predicha. Proyectos de desarrollo de diferentes
tecnologías, por ejemplo, pueden ser fáciles de comparar en términos de porcentaje de
rebases del costo más que en términos de costos absolutos. La predicción de costos llama la
atención del experto a la característica única de cada proyecto. La predicción de rebases del
costo, en contraste, destaca las determinantes del realismo en la planificación las cuales son
comunes a muchos proyectos diferentes. Consecuentemente, puede ser más fácil de definir
una clase de referencia en la última formulación más que en la antigua.
Más a menudo que no, el experto pensará de varias clases para las cuales el problema
podría ser referido, y una selección entre éstas alternativas será necesaria. Por ejemplo, la
clase de referencia para la predicción de las ventas de un libro podrían consistir en otros
libros del mismo autor, de libros sobre el mismo tópico, ó de libros del mismo tipo general,
tales como novelas de pasta dura. La selección de una clase de referencia a menudo involucra
un intercambio entre criterios conflictivos. Por tanto, la clase más inclusiva puede tomar en
cuenta el mejor estimado de la distribución de resultados, pero puede ser muy heterogénea
para permitir una comparación significativa del libro en cuestión. La clase de libros del
mismo autor, por otro lado, puede proveer la mayor base natural para la comparación, pero el
libro en cuestión podría bien caer fuera del rango de los resultados previamente observados.
En este ejemplo, la clase de libros sobre el mismo tópico podría ser lo más apropiado.

Paso 2: Evaluación de la distribución para la clase de referencia

Para algunos problemas – por ejemplo, las ventas de libros – estadísticos relacionando la
distribución de resultados están disponibles. En otros problemas, la distribución relevante
debe ser estimada sobre la base de varias fuentes de información. En particular, el experto
debería proveer un estimado de la clase promedio y algunos estimados adicionales que
reflejen el rango de variabilidad de los resultados. Interrogantes de muestra son: cuántas
copias son vendidas, en promedio, de libros en esta categoría? Qué proporción de los libros
en esa clase venden más de 15,000 copias?
339

Muchos problemas de pronóstico están caracterizados por la ausencia de datos de


distribución directamente relevantes. Ese es siempre el caso de pronosticar a largo plazo,
donde la distribución relevante pertenece a resultados en el distante futuro. Considere, por
ejemplo, un intento de predecir el compartir de Inglaterra del mercado mundial en sistemas
de transporte urbano personalizado en el año 2000. Pues ser útil rehacer este problema como
sigue: “Cuál es la distribución probable, sobre varios dominios de tecnología avanzada, del
compartir de Inglaterra del mercado mundial en el año 2000? Cómo espera usted comparar
el caso particular de los sistemas de transporte con otras tecnologías? Note que la
distribución de resultados no es conocida en este problema. Sin embargo, la distribución
requerida podría probablemente ser estimada sobre la base de la distribución de valores para
el presente compartir de Inglaterra del mercado mundial en diferentes tecnologías, ajustadas
por una evaluación de la tendencia de largo plazo del cambio de posición de Inglaterra en el
intercambio mundial.

Paso 3: Estimación intuitiva

Una parte de la información que el experto tiene sobre un problema es resumido por la
distribución de resultados en la clase de referencia. Adicionalmente, el experto usualmente
tiene una considerable cantidad de información singular sobre el caso singular, el cual lo
distingue de otros miembros de la clase. El experto deberá ahora ser requerido a hacer un
estimado intuitivo sobre la base de esta información singular. Como anotamos arriba, este
estimado intuitivo es probable que no sea regresivo. El objetivo de los dos pasos siguientes
del procedimiento es corregir este prejuicio y obtener un estimado más adecuado.

Paso 4: Evaluación de la predecibilidad

El experto debería ahora evaluar el grado para el cual el tipo de información. que está
disponible en este caso, permite una exacta predicción de los resultados. En el contexto de la
predicción lineal, la medida apropiada de predecibilidad es p, la correlación producto-
momento entre las predicciones y los resultados. Cuando los registros de pasadas
predicciones y resultados existen, el valor requerido podría ser estimado desde estos
registros. En la ausencia de tales datos, uno debe descansar sobre evaluaciones subjetivas de
predecibilidad. Un experto estadísticamente sofisticado puede ser capaz de proveer un
estimado directo de p sobre la base de su experiencia. Cuando está faltando la sofisticación
estadística, el analista debería recurrir a menos procedimientos directos.
Uno de estos procedimientos requiere que el experto compare la predecibilidad de la
variable con la cual el está relacionado a la predecibilidad de otras variables. Por ejemplo, el
experto debería estar completamente confiado en que, su habilidad de predecir las ventas de
libros, excede la habilidad de los pronosticadores de deportes en predecir un punto propagado
en partidos de football, pero no es tan bueno como la habilidad de los pronosticadores del
clima de predecir la temperatura con dos días de anticipación. Un talentoso y diligente
analista podría construir una burda escala de predecibilidad basada en correlaciones
computadas entre predicciones y resultados para un set de fenómenos que van desde un rango
altamente predecible – por ejemplo, la temperatura – a un rango altamente impredecible – por
ejemplo precios de acciones. El analista estaría entonces en una posición de preguntar al
experto localizar la predecibilidad de la cantidad del objetivo sobre esta escala, de ese modo
proveyendo un estimado numérico de p.
Un método alternativo para evaluar la predecibilidad involucra cuestiones tales como: Si
usted tuviera que considerar dos novelas que usted está por publicar, cuán a menudo usted
estaría correcto en predecir cuál de las dos venderá más copias? Un estimado de la
340

correlación ordinal entre predicciones y resultados puede ahora ser obtenida como sigue: Si p
es la proporción estimada de pares en la cual el orden de los resultados fue correctamente
predicho, entonces τ = 2p – 1 provee un índice de exactitud predictiva, cuyos rangos de cero
cuando las predicciones están en un nivel de posibilidad a la unidad cuando las predicciones
son perfectamente exactas. En muchas situaciones τ puede ser usada como una cruda
aproximación para p.
Estimados de predecibilidad no son fáciles de hacer, y ellos deberían ser examinados
cuidadosamente. El experto podría estar sujeto a la falacia de percepción retrospectiva
(Fischhoff, 1975), la cual conduce a un sobreestimado de la predecibilidad de los resultados.
El experto podría también esta sujeto a un prejuicio de disponibilidad (Tversky & Kahneman,
1973, 11) y podrían recordar a la mayor parte de sorpresas , ó casos memorables en los
cuales fuertes impresiones iniciales fueron posteriormente confirmadas.

Paso 5: Corrección del estimado intuitivo.

Para corregir para la no regresividad, el estimado intuitivo debería ser ajustado hacia el
promedio de la clase de referencia. Si el estimado intuitivo fuera no regresivo, entonces bajo
condiciones completamente generales la distancia entre el estimado intuitivo y el promedio
de la clase sería reducido por un factor de p, donde p es el coeficiente de correlación. Este
procedimiento provee un estimado de la cantidad, el cual uno espera reduzca el error no
regresivo.
Por ejemplo, suponga que la predicción intuitiva del experto de las ventas de un libro
dado es 12,000 y que, en promedio, los libros en esa categoría se venden 4,000 copias.
Suponga posteriormente que el experto cree que él correctamente ordenaría pares de
manuscritos de sus ventas futuras sobre 80% de comparaciones. En este caso, τ = 1.6 – 1 =
0.6, y el estimado regresado de ventas sería 4,000 + 0.6(12,000 – 4,000) = 8,800.
El efecto de esta corrección será sustancial cuando el estimado intuitivo sea relativamente
extremo y la predicibilidad sea moderada ó baja. Lo racional para el cómputo debería ser
cuidadosamente explicado al experto, quien entonces decidirá si estar preparado de su
predicción original, adoptar el estimado computado, ó corregir su evaluación a algún valor
intermedio.
El procedimiento que hemos delineado está abierto a varias objeciones que son probables
que surjan en la interacción entre el analista y el experto. Primero, El experto podría
cuestionar la suposición de que su estimado intuitivo inicial fue no regresivo.
Afortunadamente, esta suposición puede ser verificada requiriendo al experto estimar (1) la
proporción de casos en la clase de referencias – por ejemplo, manuscritos – que habrían
hecho una más fuerte impresión sobre él y (2) la proporción de casos en la clase de referencia
para la cual el resultado excede su predicción intuitiva – por ejemplo, la proporción de libros
que vendieron más de 12,000 copias. Si las dos proporciones son aproximadamente las
mismas, la predicción fue seguramente no regresiva.
Una objeción más general puede cuestionar la idea básica de que las deberían ser
regresivas. El experto podría señalar, correctamente, que el presente procedimiento
usualmente conducirá a predicciones conservadoras que no están lejos del promedio de la
clase y es muy improbable predecir un resultado excepcional que caiga más allá de todos los
valores previamente observados. La respuesta a esta objeción es que un pronosticador falible
puede retener una posibilidad para correctamente predecir unos pocos resultados
excepcionales solo a costa de erróneamente identificar muchos otros casos como
excepcionales. La predicción no regresiva sobre-predice: que ellos están asociados con una
substancial probabilidad de que cualquier alta predicción es un sobreestimación y cualquier
341

baja predicción es una subestimación. En la mayoría de situaciones, este prejuicio es costoso,


y debería ser eliminado. . . .

Observación concluyente

La aproximación presentada aquí está basada en la nociones generales siguientes sobre


pronosticar. Primero, la mayoría de las predicciones y pronósticos contienen un componente
intuitivo irreducible. Segundo, que las predicciones intuitivas de individuos eruditos contiene
mucha información útil. Tercero, que estos juicios intuitivos están a menudo prejuiciados de
una manera predecible. Por lo tanto, el problema no es si aceptar las predicciones intuitivas
de cara al valor ó rechazarlas, pero mejor cómo ellas pueden ser desprejuiciadas y mejoradas.
El análisis del juicio humano muestra que muchos prejuicios de intuición arrancan de la
tendencia a dar poca importancia a ciertos tipos de información, por ejemplo, la proporción
base de la frecuencia de los resultados y su predecibilidad. La estrategia de desprejuiciar
presentada en este trabajo intenta obtener del experto información relevante que el
normalmente desecharía, y ayudarlo a integrar esta información con sus impresiones
intuitivas de una manera que respete los principios básicos de la predicción estadística. . . .

31. Desprejuiciar

Baruch Fischhoff

Una vez un fenómeno de comportamiento ha sido identificado en algún contexto


experimental, es apropiado empezar cuestionando su robustez. Una popular y a menudo
productiva estrategia de cuestionar podría ser llamada prueba destructiva, después de una
técnica afín en ingeniería. Un diseño propuesto es sujetado a condiciones intentadas para
empujarlo a y más allá de sus límites de viabilidad. Tal destrucción controlada puede
clarificar dónde el debe ser confiado y por qué trabaja cuando lo hace. Aplicado a un
342

fenómeno del comportamiento, esta filosofía promovería intentar investigar para


circunscribir las condiciones para su observación y el proceso psicológico que debe ser
evocado ó controlado en orden de eliminarlo. Donde el fenómeno es un prejuicio de juicio, el
ensayo destructivo toma la forma de esfuerzos de desprejuiciar. Los ensayos destructivos
muestran dónde un diseño falla; cuándo un prejuicio falla, el resultado es un juicio mejorado.
El estudio de heurísticas y prejuicios podría por sí mismo ser visto como la aplicación de
prueba destructiva de la anterior hipótesis que las personas son competentes estadísticos
intuitivos. La observación causal sugiere que el juicio de las personas es generalmente
“suficiente bueno” para permitirles hacerlo a través de la vida sin meterse en demasiado
problema. Estudios anteriores (Peterson & Beach, 1967) apoyaron esta creencia, indicando
que, para una primera aproximación, podrían ser descritas como verídicos observadores y
jueces normativos. Estudios subsecuentes, representados en este volumen, ensayaron la
exactitud de esta aproximación mirando los límites de éxitos aparentes de las personas.
Podría el mejor juicio haberlos hecho más ricos ó saludables? Podría el éxito que ellos
adquirieron ser atribuido a un medio ambiente indulgente, el cual no presume
particularmente un comportamiento erudito? Equivocaciones trágicas proveen importante
penetración dentro de la naturaleza y calidad de los procesos de toma de decisión de la gente;
afortunadamente, ellos son suficiente raros que nosotros tenemos muy pequeña base de datos
para desenredar los factores que pueden haber conducido a la gente a despistarse. La
investigación del juicio ha usado la estrategia de la prueba destructiva para generar juicios
prejuiciados en moderadamente bien caracterizadas situaciones. Las esperanzas de los
teóricos que un patrón de errores y éxitos emergerá que se presta a si mismo a pocas
explicaciones posibles. Por tanto, el estudio de los prejuicios clarifica las fuentes y límites de
la sabiduría aparente, como el estudio del desprejuicio clarifica las fuentes y límites del
desatino aparente. Ambos son esenciales para el estudio del juicio.

Mis agradecimientos a Ruth Beyth-Maron, Don MacGregor y Paul Slovic por sus útiles comentarios sobre
anteriores bocetos de este trabajo. Este trabajo fue patrocinado por la Office of Naval Research bajo Contrato
N00014-80-C.0150 para Perceptronics, Inc.
Aunque algunos estudios del juicio son primariamente demostraciones de que un
prejuicio particular puede ocurrir bajo algunas, talvez artificiales, condiciones, muchos otros
estudios han intentado apilar la baraja contra la observación del prejuicio. Algunos de estos
son explícitamente estudios de desprejuiciar, conducidos con la esperanza que los
procedimientos que prueban ser efectivos en el laboratorio también mejorarán la ejecución en
el campo. Otros tuvieron la meta más teórica de clarificar los contextos que inducen a los
juicios sub-óptimos. .El centro de este capítulo es una revisión de los estudios que pueden ser
construidos como esfuerzos para reducir dos familiares prejuicios, prejuicios de percepción
retrospectiva y sobre-confianza. El considera las fallas así como los éxitos en la creencia que
(a) la falla ayuda a clarificar la virulencia de un problema y la necesidad por medidas
correctivas ó protectivas, y (b) el patrón completo de los estudios es la clave para descubrir
las dimensiones psicológicas que son importantes en caracterizar situaciones de la vida real y
anticipar la extensión de la ejecución prejuiciada en ellos.
La revisión intenta ser exhaustiva, sujeta a los siguientes tres criterios de selección:

1. Solo los estudios publicados en fuentes con igual revisión son considerados. Por lo
tanto, la responsabilidad por el control de calidad es exteriorizada.
2. La evidencia anecdótica es (con unas pocas excepciones) excluida. Aunque tales
reportes son la fuente primaria de información sobre alguna clase de intentos de
desprejuiciar (por ejemplo, uso de expertos), ellos están sujetos a prejuicios
interpretativos y de selección que requieren especial atención más allá del ámbito de
este resumen (vea el capítulo 23).
343

3. Alguna evidencia empírica es ofrecida. Excluidas están las sugerencias que tienen
aún que ser probadas y los argumentos teóricos (por ejemplo, sobre la validez
ecológica de los experimentos) que no pueden ser probados.

Previo a esa revisión, un marco de trabajo para desprejuiciar los esfuerzos será ofrecido,
caracterizando posibles aproximaciones y suposiciones subrayándolas. Tal marco de trabajo
podría revelar patrones recurrentes cuando son aplicados a una variedad de prejuicios del
juicio.

Métodos de desprejuiciar

Cuando existe un problema, es natural buscar un culpable. Los procedimientos de


desprejuiciar pueden ser más claramente categorizados de acuerdo a su implícito alegato de
culpabilidad. La más importante distinción es si la responsabilidad por los prejuicios es
dejada en el vano de la puerta del juez, de la tarea, ó de algún mal emparejamiento entre los
dos. Representan los prejuicios artefactos de incompetente experimentación y dudosa
interpretación, casos bien definidos de falibilidad del juicio, ó el infortunado resultado de
jueces teniendo, ó mal aplicando, el requisito de habilidades cognitivas? Como es resumido
en la Tabla 1, y descrito abajo, cada una de estas categorías puede ser quebrada
posteriormente de acuerdo a lo que podría ser llamada la profundidad del problema. Cuán
fundamental es la dificultad? Son los cambios técnicos ó estructurales necesarios? Las
estrategias para desarrollar técnicas de desprejuiciar son muy diferentes para las diferentes
categorías causales.

Tareas erróneas

Tareas desleales. Los experimentadores tienen interrogantes estándar que ellos formulan para
su propio trabajo y el de otros. Los estudios son publicados solo si ellos infunden confianza
Tabla 1. Métodos de desprejuicio de acuerdo a la suposición subrayada
Suposición Estrategias
Tareas erróneas
Tareas desleales Escalas elevadas
Clarifique instrucciones/estímulos
Ignore la segunda adivinación
Use mejores modos de respuesta
Requiera menos interrogantes
Tareas malentendidas Demuestre meta alternativa
Demuestre desacuerdo semántico
Demuestre imposibilidad de tarea
Demuestre distinción supervisada

Juicios erróneos
Individuos perfectibles Prevenga el problema
Describa el problema
Provea reaprovechamiento personalizado
Entrene extensivamente
Individuos incorregibles Reemplácelos
Recalibre sus respuestas
Planifique sobre el error
344

Mal emparejamiento entre juicios y tareas


Reestructuración Haga explícito el conocimiento
Busque por información discrepante
Descomponga el problema
Considere situaciones alternativas
Ofrezca formulaciones alternativas
Educación Apóyese en expertos sustantivos
Eduque desde la niñez

(en revisores y editores) que los más obvios artefactos han sido eliminados. Puesto que, sin
embargo, es imposible controlarlo todo y satisfacer a cada uno en un estudio inicial ó series
de estudios, la identificación de artefactos metodológicos putativos es una primera línea de
ataque en desacreditar un efecto. Entre las demandas que pueden surgir están: (a) Los sujetos
no se preocuparon de la tarea – por consiguiente uno debería elevar los premios procediendo
a una buena ejecución; (b) los sujetos estuvieron confundidos en la tarea – por consiguiente
usar más cuidadosas instrucciones y estímulos más familiares; (c) los sujetos no creyeron en
las aseveraciones de los experimentadores sobre la naturaleza de la tarea ó percibieron una
estructura del resultado final otra que la intentada por el experimentador – por consiguiente
asegurarles que su mejor adivinación a la respuesta correcta es toda la que es de interés y que
ellos deberían responder como ellos lo ven conveniente; (d) los sujetos fueron incapaces de
expresar lo que ellos conocen . por consiguiente modos de respuesta más familiares ó
flexibles; (e) a los sujetos se les requirieron demasiadas preguntas y desarrollaron patrones de
respuesta estereotípicos para entrarle a la tarea – por consiguiente requiera pocas preguntas
(ó defina el interés en la investigación de uno como respuestas estereotípicas).
Rematar con tales problemas es parte de una buena higiene científica. Sin embargo, tales
esfuerzos usualmente tienen poco contenido teórico. Puesto que su meta es producir un mejor
ambiente experimental, el estudio de artefactos puede ser aún no ser muy informativos sobre
el universo de los contextos para los cuales los resultados observados pueden ser
seguramente generalizados. Estudios de artefactos “exitosos” proveen primariamente
información negativa, proyectando duda en si un efecto ha sido observado en “justas”
condiciones. Si la vida es “justa” en el mismo sentido, cuando plantea interrogantes, es un
asunto separado.

Tareas malentendidas. Estudios de artefactos acarrean una implícita aspersión de mala


práctica experimental. El investigador original debería haber conocido mejor ó debería haber
sido más cuidadoso. Tales alegatos son menos apropiados con una segunda clase de
deficiencia de la tarea: la falla del investigador para entender la fenomenología de los
demandados ó del universo conceptual. La reformulación de la tarea para clarificar lo que los
sujetos estuvieron realmente haciendo ha sido usada por los críticos de la aproximación
heurística y prejuicios así como por sus promulgadores. Entre las maneras que uno podría
tratar de mostrar la sabiduría del comportamiento aparentemente prejuiciado están: (a)
demostrar alguna meta alternativa que es adquirida sacrificando la optimización de la tarea en
cuestión (por ejemplo, aprendiendo sobre las propiedades de un sistema cometiendo
equivocaciones diagnósticas); (b) demostrar que los demandados comparten una definición
de clave de términos diferentes de esos sostenidos ó presumidos por el experimentador; (c)
demostrando que la tarea podría no ser hecha a menos que los demandados escojan hacer
alguna suposición adicional que tendría que ocurrir fortuitamente con aquellas hechas por el
experimentador; (d) demostrar que los sujetos hacen una razonable distinción a la cual el
experimentador fue insensitivo.
345

Para hacer una contribución, tales reformulaciones deberían incluir demostraciones


empíricas, no solo demandas sobre “qué sujetos podrían haber estado pensando”. A su peor
momento, tales aseveraciones pueden tener un fuerte a propósito sabor y desafío a
falsificación; ciertamente, contradictorias versiones pueden ser usadas para justificar
diferentes prejuicios. En su mejor caso, ellos pueden hacer fuertes declaraciones teóricas
sobre representaciones cognitivas (Fischhoff, en prensa-a).

Juicios erróneos

Juicios perfectibles. Si la tarea ha sido pulida y el prejuicio permanece, el demandado debe


asumir alguna responsabilidad. Para eliminar un indeseable comportamiento, uno podría usar
un diseño escalonado, con escalones reflejando un optimismo creciente sobre el caso de
perfeccionar la ejecución humana: (a) prevenir sobre la posibilidad del prejuicio sin
especificar su naturaleza (esta estrategia difiere de inspirar a la gente a trabajar más duro
implicando que el error potencial es sistemático y los demandados necesitan instrucción, no
una justa posibilidad); (b) describir la dirección (y talvez la extensión) del prejuicio que es
típicamente observado; (c) proveer una dosis de retroalimentación, personalizando las
implicaciones de la prevención; (d) ofrecer un programa extenso de entrenamiento con
retroalimentación, preparación y cualquier cosa más que el tome para aportar al encuestado
una maestría cognitiva de la tarea.
Tales escalones critican al juez, no la tarea, asumiendo que las soluciones no emergerán
espontáneamente con ó meramente con volver a redactar la cuestión cuidadosamente.
Aunque de gran importancia práctica, los ejercicios de entrenamiento pueden tener un
limitado impacto teórico. El intento de encontrar algo que trabaje puede crear una bolsa al
azar de maniobras cuyos elementos efectivos están pobremente definidos. Más
experimentación sistemática puede entonces ser necesaria para identificar aquellos
elementos. La última meta es entender cómo la experiencia artificial creada por el programa
de entrenamiento difiere de la experiencia natural que la vida ofrece. Por qué un trabajo
técnico trabaja para eliminar un prejuicio, mientras otro no?
Juicios incorregibles. En algún punto, el que sería entrenador puede decidir que el éxito es
imposible, ó solo obtenible con procedimientos que obligan al sujeto a responder
óptimamente. Los “éxitos” que son obtenidos esencialmente dando a los encuestados la
respuesta correcta ó creando inevitables características de demanda son privados de ambos,
interés teórico y práctico. Es escasa la información cuando la gente escucha lo que a ellos se
les dijo; si a ellos se les tiene que decir cada vez cómo responder, quién los necesita?
Tres opciones parecen abiertas en tales situaciones: (a) reemplazar a la gente con algún
mecanismo superior de responder; (b) recalibración de juicios falibles a valores más
apropiados, asumiendo que la cantidad y dirección de los errores son predecibles; (c)
reconocer la imprecisión en los juicios de la gente cuando planifican acciones basadas en
ellos. El que toma decisiones ó el analista de decisiones quien se ha rendido ante la gente en
cualquiera de estas maneras puede aún contribuir a nuestro entendimiento del juicio
evaluando el tamaño, prevalencia y resiliencia de tales prejuicios indelebles. Sin embargo,
debido a que los juicios mejorados no es la intención de estas acciones correctivas, ellos
serán considerados aquí solo curiosamente.

Mal emparejamiento entre juicio y tarea

Reestructurar. Talvez el más caritativo y psicológico punto de vista es no señalar con los
dedos y censurar ni al juicio ni a la tarea. En vez de eso, asumir que la interrogante es
aceptablemente formulada y que el juicio tiene todos requisitos de habilidades, pero de algún
346

modo, esta aproximación arguye que la unidad apropiada de observación es el sistema


persona-tarea. El éxito descansa en hacerlos tan compatibles como sea posible. Justo como
un aeroplano intacto mecánicamente necesita buen diseño de instrumentos para llegar a ser
navegable, una honesta (por ejemplo, no engañosa) tarea de juicio puede solo llegar a ser
manejable cuando ha sido reestructurada a una forma que permita a los encuestados usar sus
habilidades cognitivas existentes para una mayor ventaja.
Aunque tal ingeniería cognitiva tiende a ser tarea específica, un número recurrente de
estrategias emergen: (a) forzar a los encuestados a expresar qué conocen explícitamente más
que dejarlo permanecer “en la cabeza”; (b) animar a los encuestados a buscar una evidencia
discrepante, más que colectar detalles corroborando una respuesta preferida; (c) ofrecer
maneras de descomponer un asombroso problema en componentes más tratables y familiares;
(d) sugerir que los encuestados consideren el set de situaciones posibles que ellos podrían
haber encontrado en orden de entender mejor la situación específica a mano; y (e) proponer
formulaciones alternativas del problema presentado (por ejemplo, usar diferentes términos,
conretizar, ofrecer analogías).

Educación. Una variante sobre la aproximación a los “sistemas” gente-tarea es argüir que la
gente puede hacer esta tarea, pero no estas gentes. Las alternativas son usar: (a) expertos
quienes, a lo largo con su conocimiento sustantivo, han adquirido algunas capacidades
especiales en procesar la información bajo condiciones de incertidumbre; ó (b) una nueva
raza de individuo, educado desde alguna edad temprana a pensar probabilísticamente. En un
sentido, esta visión sostiene que aunque las gentes no son, en principio, incorregibles, la
mayoría de esos alrededor son. La educación difiere del entrenamiento (una categoría previa)
en su focalizarse en desarrollar capacidades generales más que habilidades específicas.

Prejuicio de percepción retrospectiva: Un ejemplo de esfuerzos por desprejuiciar

Un aspecto crítico de cualquier empleo responsable es aprender de la experiencia. Una vez


conocemos cómo algo se produce, tratamos de entender por qué sucedió y evaluar cuán bien
nosotros, ú otros, lo planearon. Aunque tal conocimiento del resultado está pensado para
conferir sabiduría de la percepción retrospectiva de nuestros juicios, su ventaja puede ser una
propaganda excesiva. En la percepción retrospectiva, la gente consistentemente exagera lo
que podría haber sido anticipado en la percepción retrospectiva. Ellos no solo tienden a ver lo
que ha sucedido como habiendo sido inevitable, sino también verlo como habiendo aparecido
“relativamente inevitable” antes de que sucediera. La gente cree que otros deberían haber
sido capaces de anticipar los eventos mucho mejor de lo que fue actualmente el caso. Ellos
aún recuerdan mal sus propias predicciones como para exagerar en la percepción
retrospectiva lo que ellos conocían en previsión (Fischhoff, 1975). Aunque es halagador creer
que nosotros habríamos conocido todo a lo largo de lo que solo podríamos conocer en la
percepción retrospectiva, esa creencia difícilmente nos aporta una justa apreciación de la
extensión a la cual sorpresas y fallas son inevitables. Es ambos injusto y autodestructivo
castigar a los que toman las decisiones quien han errado en sistemas falibles, sin admitir esa
falibilidad y hacer algo para mejorar el sistema. Alentándonos nosotros a exagerar la
extensión de nuestro conocimiento, este prejuicio puede hacernos excesivamente confiados
en nuestra habilidad de predicción. La percepción de una sorpresa-libre del pasado puede
presagiar un sorpresivo futuro.
La investigación de este prejuicio ha incluido investigaciones de la mayoría de posibles
estrategias de desprejuiciar incluidas en la sección previa. Pocas de estas técnicas han
reducido exitosamente el prejuicio de percepción retrospectiva; ninguno lo ha eliminado.
Ellos son descritos abajo y resumidos en la Tabla 2.
347

Tareas erróneas

Tareas injustas. En una demostración experimental inicial del prejuicio de percepción


retrospectiva (Fischhoff, 1975), los sujetos leyeron descripciones de párrafos largos de un
evento histórico y evaluaron la probabilidad de que ellos habrían asignado a cada uno de sus
posibles resultados que a ellos no se les había dicho lo que sucedería. Sin importar de si el
resultado reportado fue cierto ó falso (por ejemplo, si el sucedió en realidad), los sujetos
creyeron que ellos lo habrían asignado a una probabilidad más alta que la que fue asignada
por los sujetos ignorantes del resultado. Este estudio es listado entre los intentos de
desprejuiciar, puesto que por la concentración en unas pocas historias el respondió a la crítica
metodológica de “requerir demasiadas preguntas” que podrían ser niveladas contra los
estudios subsecuentes. Otros estudios que requirieron pocas preguntas sin eliminar el
prejuicio de la percepción retrospectiva incluyó a Slovic & Fischhoff (1977), quienes
contaron con sujetos para analizar la probabilidad de posibles resultados de varios
experimentos científicos; Mitchell y Kalb (en prensa), quienes contaron con enfermeras para
evaluar incidentes tomados de las escenas de hospital; y Pennington, Rutter, McKenna y
Morley (1980), quienes contaron con mujeres para evaluar la probabilidad de su personal de
recibir un resultado positivo de una simple prueba de embarazo (aunque el bajo poder de su
estudio dio su conclusión algo tentativa).
Otro intento para demostrar una fuente artificial del prejuicio de percepción retrospectiva
que ha estado tratando y fallando incluye: sustituir la escala de clasificación de juicios de
“sorpresividad” por evaluaciones de probabilidad (Slovic & Fischhoff, 1977), usando temas
homogéneos para permitir una más completa evocación de un set de conocimiento, más que
usar cuestiones de conocimiento general diseminadas sobre una variedad de áreas de
contenido, ninguna de las cuales podría ser pensada muy profundamente (Fischhoff & Beyth,
1975); implorar a los sujetos que trabajen más duro (Fischhoff, 1977b); tratar de despejar
dudas sobre naturaleza del experimento (G. Wood, 1978); y usar eventos contemporáneos
que los jueces han considerado en perspectiva previo a arcar sus evaluaciones de la
percepción en retrospectiva (Fischhoff & Beyth, 1975).

Tareas malentendidas. Una posible atracción del prejuicio de percepción retrospectiva es que
puede ser muy halagador al representarse uno mismo como habiendo conocido todo iba a
suceder. Uno paga un precio por tales inmerecidos auto-halagos solo si (a) la previsión de
uno conduce a una acción que parece tonta in la percepción retroactiva ó (b) la exageración
sistemática de lo que uno conoció conduce a un exceso de confianza en lo que uno
presentemente conoce, posiblemente causando caprichosas acciones ó fallas para buscar la
información necesaria. Puesto que estas consecuencias de largo rango no son muy relevantes
en el experimento típico, uno podría preocuparse por los sujetos que están siendo tentados a
pintarse ellos mismos en un luz favorable. Aunque la mayoría de los experimentos han sido
planeados como pruebas de habilidad de los sujetos para reconstruir un estado de prevención
del conocimiento, más que como pruebas de cuán extenso ese conocimiento fue, las
tentaciones de exagerar podrían aún permanecer. Si así fuera, ellas reflejarían un
discrepancia entre las interpretaciones de los sujetos y de los experimentadores de la tarea.
Una manipulación designada para eliminar esta posibilidad requiere de los sujetos primero
responder preguntas y luego recordar sus propias respuestas, con la agudeza de su memoria
estando en discusión (Fischhoff, 1977b; Fischhoff & Beyth, 1975; Pennington et al., 1980; G
Wood, 1978). Una segunda manipulación requiere una percepción retroactiva de los sujetos
para estimar las respuestas de prevención de sus semejantes, en la suposición que ellos no
tienen razón para exagerar lo que otros conocieron (Fischhoff, 1975; G. Wood, 1978).
348

Ninguna manipulación ha probado ser exitosa. Los sujetos se recordaron a sí mismos de


haber sido más erudito que lo que fue, de hecho, el caso. Ellos fueron segundos adivinadores
no caritativos en el sentido de exagerar cuánto otros habrían (ó deberían) conocer en
previsión.

Juicios erróneos

Aprendiendo a evitar los prejuicios que surgen de ser un prisionero de la perspectiva presente
de uno constituye un, ó talvez el, foco de entrenamiento del historiador (ver Capítulo 23).
Han , sin embargo, sido estudios no empíricos del éxito de estos esfuerzos. El énfasis que los
historiadores dan a las fuentes primarias, con sus fosilizados records de las percepciones del
pasado, pueden reflejar un sentimiento de que la mente humana es suficientemente
incorregible para requerir esa clase de disciplina por documento. Aunque el usó un
extensamente menos riguroso procedimiento, el estudio de entrenamiento experimental no
ofrece razón para el optimismo: Fischhoff (1977b) explícitamente describió el prejuicio a los
sujetos y les requirió evitarlo en sus juicios – para no aprovecharse.

Mal emparejamiento entre jueces y tareas

Estructuración. Tres estrategias han sido adoptadas para reestructurar las tareas de
percepción retrospectiva, como para hacerlos más compatibles con las habilidades cognitivas
y predisposiciones que los juicios les traen. Una de tales estrategias separa a los sujetos en
tiempo del reporte del evento, esperando reducir su tendencia a dominar su campo de
percepción (Fischhoff & Beyth, 1975; G. Wood, 1978); esta estrategia no fue efectiva. Con la
segunda estrategia, los jueces evalúan la probabilidad de recurrencia del evento reportado
mas que la probabilidad de su acontecer en primer lugar, en la esperanza que la incertidumbre
estaría más disponible en la perspectiva previsora (Mitchell & Kalb, en prensa;
Slovic & Fischhoff, 1977); esto también falló. La estrategia final requiere de los sujetos
indicar cómo ellos podían haber explicado la ocurrencia del resultado que no sucedió (Slovic
& Fischhoff, 1977). Reclutando tal evidencia negativa apreciablemente reducida el juzgó
inevitablemente del evento reportado. Tal evidencia contradictoria estuvo aparentemente
disponible para los sujetos en la memoria ó en la imaginación pero no accesible sin una
reestructuración del problema.

Educación. Existe poca evidencia experimental que el prejuicio de percepción retrospectiva


está reducido por la clase de intenso involucramiento con un tópico que viene con una
educación profesional. Detmer, Fryback y Gassner (1978) encontraron prejuicio de
percepción retrospectiva en los juicios de los cirujanos (ambos facultativos y residentes)
evaluando un episodio involucrando una posible fuga de un aneurisma aórtico abdominal.
Arkes, Wortmann, Saville y Harkness (1981) demostraron el prejuicio con médicos
considerando descripciones de un cantinero con un agudo dolor de rodilla. Mitchell y Kalb
(en prensa) encontraron prejuicio en la evaluación de enfermeras del resultado de actos
ejecutados por subordinadas. Si las gentes juzgan eventos en sus propias vidas son
considerados ser expertos sustantivos, entonces el estudio de Pennington et al. (1980) de
mujeres que juzgando los resultados de pruebas personales de embarazo podrían ser
consideradas como un posterior ejemplo del prejuicio en los expertos. En un aún más
limitado sentido de precicia, G. Wood (1978) encontró que con una tarea involucrando
cuestiones de conocimiento general sus sujetos más informados no fueron menos propensos
al prejuicio que los menos informados. La evidencia anecdótica de los expertos cayendo
349

presa de este prejuicio en descrita brevemente en el Capítulo 23 (de este volumen). Ella
incluye ambas observaciones causales y estudios exhaustivos, tal como ese de Wohlstetter
(1962), quien caracterizó los esfuerzos de los expertos grandemente motivados consistiendo
del comité congresional investigatorio siguiendo a Pearl Harbor como 39 volúmenes de
prejuicio de percepción retrospectiva.

Resumen

Aunque uno de los problemas de juicio menos estudiados, el prejuicio de percepción


retrospectiva produjo suficiente investigación para permitir algunas declaraciones generales
tentativas: Parece ser muy robusta y ampliamente extendida. Reducirla requiere algún
entendimiento e hipótesis sobre los procesos cognitivos de la gente. Una de tales hipótesis es
que la manera en la cual la gente normalmente se aproxima a las tareas de percepción
retrospectiva no usa su conocimiento ó habilidades de inferencia para una mayor ventaja.
Produciendo evidencia contraria pareció remediar ese problema en parte y los ayudó a hacer
un mejor uso de sus propias mentes (Slovic & Fischhoff, 1977).
Antes de avalar esta solución, sin embargo, un número de asuntos empíricos necesitan ser
dirigidos: (a) Qué pasos adicionales son necesarios para ser eliminado el prejuicio, no solo
reducido? (b) Trabajará este procedimiento con tareas menos claramente estructuradas? (c)
Se ejercitará el procedimiento con unas pocas tareas ejemplares suficientes para cambiar el
comportamiento con otras tareas, donde no son dadas instrucciones específicas? Un
procedimiento de desprejuicio puede ser más problemático que valioso si el incrementa la fe
de la gente en sus habilidades de juicio más que mejorar las habilidades de ellas mismas.

Exceso de confianza: Esfuerzos de desprejuicio

“La toma de decisiones bajo incertidumbre” implica un conocimiento incompleto. Como


resultado, un mayor componente de la toma de tales decisiones es evaluar la calidad de
cualquier conocimiento que esté disponible. Aunque los métodos estadísticos pueden guiar
esta evaluación, en algún punto ú otro el juicio es necesario para evaluar la confianza que
puede ser colocada en la mejor adivinanza de uno del estado del mundo. Debido a una
confianza impropia la evaluación puede conducir a pobres decisiones, induciendo ya sea
indebida ó insuficiente precaución, una continuación del foco de la investigación del juicio
ha sido la identificación de los factores que afectan la confianza inapropiadamente. La
recepción del conocimiento del resultado es uno de tales factores, en la medida en que
conduzca a la gente a exagerar la conclusión de su propio conocimiento. Aunque uno
sospecha que el conocimiento del resultado deja a la gente con un exceso de confianza en su
propio conocimiento, es concebible que las gentes están sujetas a alguna clase de endémica
falta de confianza a la cual el prejuicio de percepción retrospectiva provee un útil contra-
balance. Clarificar esta posibilidad requiere investigación evaluando la absoluta validez de
los juicios de confianza..
Debido a que es difícil evaluar la absoluta validez de cualquier simple juicio de
confianza, la mayoría de la investigación en ésta área ha mirado a la cualidad ó calibración,
de sets de juicios, cada uno representado la probabilidad subjetiva que una declaración del
hecho está correcta (Capítulo 22, de este volumen). Para la perfectamente individual
calibrada, evaluaciones de, digamos .70 están asociadas con las declaraciones correctas el
70% del tiempo.
El exceso de confianza es por mucho el más comúnmente observado descubrimiento. Un
estudio típico podría mostrar probabilidades de .75 para estar asociado con una “proporción
de acierto” de solo 60% y expresiones de certeza (p = 1.00) estando correctas solo 85% del
350

tiempo. Cuando las gentes evalúan cuánto ellos conocen sobre los valores de cantidades
numéricas (por ejemplo, “yo estoy .98 cierto que el número de votantes Republicanos en el
Condado de Lane está entre 12,000 y 30,000”), es común encontrar respuestas verdaderas
cayendo fuera de su 98% de intervalos de confianza 20% a 40% del tiempo. Tales resultados
son perturbadores ambos para aquellos quienes deben transmitir evaluaciones de confianza y
para aquellos acusados (directa ó indirectamente) de exagerar cuanto ellos conocen. La
abundante investigación que ha sido producida para desaprobar, desacreditar, sostener ó ligar
el descubrimiento del exceso de confianza es caracterizado abajo desde la perspectiva de los
esfuerzos de desprejuiciar. Este análisis de estudios existentes ha sido ayudado grandemente
por la disponibilidad de varias revisiones comprensivas de esta literatura, aunque conducida
por de alguna manera diferentes propósitos. Estas incluyen a Henrion (1980), Hogarth
(1975), Lichtenstein, Fischhoff y Phillips (Capítulo 22) y Wallsten y Budescu (1980). Este re-
análisis ha sido complicado por el hecho de que muchos de los estudios citados también
fueron conducidos por de alguna manera diferentes propósitos. Como resultado, ellas no
siempre caen dentro de una simple categoría de desprejuicio. Este suave mal emparejamiento
puede reflejar límites en el presente esquema de categoría (para hacer distinciones no claras)
ó límites para los estudios (para confundir las manipulaciones del desprejuicio).

Tareas erróneas

Tareas injustas. Las implicaciones del exceso de confianza aplicadas han producido un gran
número de esfuerzos técnicos en su erradicación, casi todos los cuales han probado ser no
exitosos. Muchos de estos han involucrado manipulaciones de respuesta-modo, tales como la
comparación de probabilidad y posibilidades de expresiones de confianza Ludke, Stauss &
Gustafson, 1977) ó variar los intervalos de confianza evaluados en crear distribuciones de
probabilidad subjetiva (Selvidge, 1980). Librado de la necesidad de generar y justificar sus
manipulaciones sobre la base de una teoría sustantiva, los experimentadores usando tales
aproximaciones de la “ingeniería” a menudo muestran gran ingenuidad en los procedimientos
que ellos están dispuestos a tratar. Sin embargo, la ausencia de la teoría lo hace más difícil
conocer cómo interpretar ó generalizar sus éxitos ó fallas. Por ejemplo, Seaver, von
Winterfeldt y Edwards (1978) encontraron menos exceso de confianza cuando los intervalos
de confianza fueron sacados con un método de “valor fijado”, en el cual el experimentador
seleccionó los valores y los sujetos evaluaron su probabilidad, más que con el método de
“probabilidad fijada”, en el cual el experimentador provee una probabilidad y el encuestado
da el valor asociado. Este éxito puede reflejar alguna clase de compatibilidad mayor entre el
método de valor fijado y el proceso psicológico del encuestado, ó puede reflejar la
información sobre el verdadero valor conducido por la selección de los valores fijados por el
experimentador. Un resultado similar obtenido por Tversky y Kahneman (1974, 1) está
basado en un anclaje y ajuste heurístico, aunque el también puede haber informado a los
sujetos los valores fijados.
Además para la más intensa investigación por el modo de respuesta correcta para obtener
confianza, existen también intentos dispersos para eliminar los otros retos para la claridad de
la tarea listados en la sección superior de la Tabla 1. Por ejemplo, el gran número de
respuestas obtenidas en muchos estudios de calibración como para obtener resultados
individuales estadísticamente confiables podrían ser un asunto de preocupación del exceso de
confianza que no había sido observado en estudios con tan pocos como 10 ó aún 1 pregunta
por sujeto (por ejemplo, Hynes & Vanmarcke, 1976; Lichtenstein & Fischhoff, 1977). La
brevedad de las instrucciones usadas en algunos estudios que podrían ser problemáticas no
han sido encontrados resultados similares con instrucciones que parecen ser tan largas y
detalladas como los sujetos tolerarían (por ejemplo, Capítulo 21; Lichtenstein & Fischhoff,
351

1980b). La exhaustividad, aún pedantería, de tales instrucciones podrían ser también ser
vistas como un antídoto a cualquier tentación para los sujetos a una segunda adivinanza del
investigador. Sin importar la claridad de los estímulos usados, ningún cambio en el exceso de
confianza ha sido observado cuando diversos sets de preguntas de conocimiento general son
reemplazadas con temas homogéneos (por ejemplo, Fsichhoff & Slovic, 1980; Oskamp,
1962) ó con temas “de percepción” no verbales (por ejemplo, (Dawes, 1980; Lichtenstein &
Fischhoff, 1980b).
Sería tranquilizador creer que el exceso de confianza desaparece cuando los premios son
elevados y los jueces ejecutan “para real” (por ejemplo, no solo para experimentos).
Desafortunadamente, sin embargo, las estrategias de investigación que podrían ser usadas
para estudiar esta hipótesis tiende a encontrar dificultades interpretativas. Monitoreando las
expresiones de confianza de los expertos ejecutando sus tareas acostumbradas es una obvia
aproximación. Ello es frustrado por la posibilidad que las expresiones de los expertos estén
siendo evaluadas con criterios que entran en conflicto con la calibración; que es, deben de
existir recompensas por deliberadamente exudar confianza indebida ó por sonar
excesivamente cauteloso. Por ejemplo, cuando los médicos sobreestiman la probabilidad de
una enfermedad (por ejemplo, Christensen-Zsalanski & Bushyhead, 1981; Lusted, 1977),
puede ser porque ellos están aislados de cuánto ellos conocen ó debido a preocupaciones de
mala práctica, codicia por las recompensas financieras que una prueba adicional puede traer ú
otros asuntos irrelevantes a los propósitos presentes. Debido a éstas complicaciones, los
estudios con expertos están listados en la sección dedicada a ellos al final de la Tabla 2, más
que como intentos de elevar las recompensas.
Una segunda estrategia para elevar las recompensas es añadir evaluaciones de confianza a
tareas inherentemente importantes por las cuales esas evaluaciones no tienen implicaciones
de acción. Sieber (1974) lo hizo solicitando la confianza de los estudiantes en sus propias
respuestas de la prueba. El resultado fue (el ahora familiar) exceso de confianza, talvez

Tabla 2. Experiencia en desprejuiciar


Estudios para
examinar el
prejuicio de percepción Estudios para examinar
Estrategias retrospectiva el exceso de confianza
Tareas erróneas
Tareas injustas
Elevar la recompensa 4 1,30
Clarificar instrucciones/estímulos 6 3,10,13,14,21
Desanimar la segunda adivinación 11 13,21
Usar mejores modos de respuesta 9 13,14,20,22, 23, 32,34,35?,
36,40?
Requerir pocas preguntas 3,7,8,9 16
Tareas malentendidas
Demostrar meta alternativa 3,4,6,8,9 14
Demostrar desacuerdo semántico ---- 3,14,19,30?
Demostrar imposibilidad de tarea ---- 13
Demostrar distinción ignorada ---- 15?

Juicios erróneos
Individuos perfectibles
Advertir del problema ---- 13
Describir el problema 4 3
Proveer retroalimentación
352

personalizada ---- 21
Entrenar extensivamente 57 1,2,4,17,21,26,27,31,34
Individuos incorregibles
Reemplazarlos ---- ----
Recalibrar sus respuestas ---- 2.5.24
Planear en error ---- ----

Mal emparejamiento entre jueces y tareas


Reestructuración
Hacer conocimiento explícito ---- 18
Investigar por información discrepante 9 18
Descomponer el problema 6,11 ----
Considerar situaciones alternativas ---- ----
Ofrecer formulaciones alternativas 7,9 35?
Educación
Difundir el sustantivo de los expertos 1,2,7,8,10,11 11,16,20,24,29,33,38,39/
8,9,23,28,31,32a
Educar desde la niñez ---- 6,7
Notas: Para la clave de los estudios siga las notas. Las manipulaciones que han probado al menos parcialmente
éxito aparecen en negritas. Aquellas que tienen aún que ser sujetas a pruebas empíricas ó por las cuales la
evidencia no está clara son marcadas por un signo de interrogación.
a
Entradas antes de la diagonal son estudios usando expertos quienes no han tenido entrenamiento de
calibración: entradas después de la diagonal son estudios usando niveles variables de dificultad.

Clave para los estudios


Percepción retrospectiva
1. Arkes, Wortmann, Saville & Harkness (1981) 5. Fischhoff (1980)
2. Detmer, Fryback & Gassner (1978) 6, Fischhoff & Beyth (1975)
3. Fischhoff (1975) 7. Mitchell & Kalb (en prensa)
4. Fischhoff (1977b) 8. Pennington, Rutter, McKenna & Morley
Tabla 2. (cont.)

9. Slovic & Fischhoff (1977 18. Koriat, Lichtenstein & Fischhoff (1980)
10. Wohlstetter (1978) 19. Larson & Reenan (1979)
11. G. Wood (1978) 20. Lichtenstein & Fischhoff (1977)
Exceso de confianza 21. Lichtenstein & Fischhoff (1980b)
1. Adams & Adams (1958) 22. Lichtenstein, Fischhoff & Phillips
2. Adams & Adams (1961) (Capítulo 22)
3. Alpert & Raiffa (1969, 21) 23. Ludke, Stauss & Gustafson (1977)
4. Armelius (1979) 24. Moore (1977)
5. Becker & Greensberg (1978) 25. Morris (1974)
6. Beyth-Marom & Dekel (en prensa) 26. Murphy & Winkler (1974)
7. Cavanaugh & Borkowski (1980) 27. Murphy & Winkler (1977a)
8. Clrke (1960) 28. Nickerson & McGoldrick (1965)
9. Cocozza & Steadman (1978) 29. Oskamp (1962)
10. Dawes (1980) 30. Phillips & Wright (1977)
11. Dowie (1976) 31. Pickhardt & Wallace (1974)
12. Ferrell & McGoey (1980) 32. Pitz (1974)
13. Fischhoff & Slovic (1980) 33. Root (1962)
14. Fischhoff, Slovic & Lichtenstein (1977) 34. Schaefer & Borcherding (1973)
15 Howell & Burnett (1978) 35. Seaver, von Winterfeldt & Edwrds (1978.
16. Hynes & Vanmarcke (1976) 36. Selvidge (1980)
17. King, Zechmeister & Shaughnessy (en prensa) 37. Sieber (1974)
38. Staël von Holstein (1971a)
39. Staël von Holstein (1972)
353

40. Tversky & Kahenaman (1974)

porque la calibración es insensitiva a las recompensas involucradas, talvez porque este


método no fue efectivo en elevarlos. La teóricamente perfecta estrategia para la manipulación
de las recompensas es premiar a los sujetos con apropiadas reglas de punteo, las cuales
penalizan las expresiones no francas de incertidumbre. Tales reglas son, sin embargo, un
poco asimétricas, en el sentido que ellas penalizan el exceso de confianza mucho más que la
baja confianza. Como resultado, los sujetos que entienden lo esencial de aquellas reglas pero
que no están interesados en sus particulares, podrían interpretar las reglas de clasificación
como instrucciones de rodeo nunca para expresar gran confianza. En ese caso, la gente podría
mecánicamente reducir su confianza sin mejorar su entendimiento. Considerándolo todo,
talvez el mejor modo de conseguir que los sujetos trabajen duro es ejercitando las técnicas
estándar de los experimentadores para incrementar una motivación intrínseca de la tarea y el
involucramiento de los sujetos en ella.

Tareas malentendidas. Sin embargo cuidadosamente uno describe una tarea a los
encuestados, algunas dudas pueden persistir como si ellos realmente la entendieron y
aceptaron su intentada estructura de recompensa. Una maniobra estándar para chequear si
una manipulación ha “trabajado” es ver si los participantes aguantarán las respuestas que
ellos ya han hecho cuando aquellas respuestas son usadas en una nueva tarea con la
estructura de recompensa intentada para la tarea vieja. Fischhoff, Slovic y Lichtenstein
(1977) adoptaron esta estrategia en requerir a las gentes si ellas estarían dispuestas a aceptar
un juego basado en evaluaciones de la confianza que ellos han hecho. Este juego les favorece
si aquellas evaluaciones fueron francas ó tendieron a subestimar su confianza, pero los
penalizó si, por cualquier razón, ellos habían exagerado cuánto ellos sabían. La exageración
deliberada podría, por ejemplo, sirve la meta alternativa de actuar más informado de lo que
actualmente es el caso. Estos sujetos estuvieron un poco deseosos de aceptar el juego, a pesar
de ser tan sobre confiados como los sujetos observados en otra parte.
Otra base para pretender que los sujetos han entendido la tarea diferentemente de la
manera intentada por el experimentador viene de la observación que “los grados de certeza
son a menudo usados en el hablar diario (como son las referencias a la temperatura), pero
ellos son escasamente expresados numéricamente, ni es la oportunidad de validarlos a
menudo disponibles. . . . La inhabilidad de la gente para evaluar apropiadamente una
probabilidad de .80 puede ser no más sorprendente que la dificultad que ellos podrían tener
en estimar la brillantez de las candelas ó la temperatura en grados Farenheit” (Fischhoff et
al., 1977, p. 553). Una respuesta a esta posibilidad es restringir la atención a los extremos de
la escala de probabilidad en la creencia que “estando 100% cierto que una declaración es
verdadera es rápidamente entendida por la mayoría de la gente y su conveniencia es
rápidamente evaluada” (Fischhoff et al., 1977, p. 553). Una segunda respuesta es proveer
etiquetas verbales para probabilidades numéricas en orden de hacerlas más rápidamente
comprensibles (por ejemplo, Capítulo 21; Larson & Reenan, 1979). Ninguna manipulación
ha probado ser demostrablemente efectiva. Una más profunda noción de desacuerdo
semántico entre el experimentador y encuestado puede ser encontrada en “pretensiones” que
la “incertidumbre” por sí misma puede tener una variedad de interpretaciones, no todas de las
cuales son significativas para todos los individuos (Howell & Burnett, 1978; Phillips &
Wright, 1977). Los esfuerzos de desprejuicio empírico basados en estos conceptos podrían
probar ser fructíferos.
Algunos de los más extremos excesos de confianza ha sido observado con tareas
relacionadas de las cuales los entrevistados no tienen conocimiento ó lo que sea. Aunque los
354

experimentadores típicamente intentan no dar pistas como cuán confiados los sujetos
deberían ser, allí aún podría haber una presunción implícita que “el experimentador no
debería darme una tarea que es imposible”. Si los sujetos tuvieran tales expectativas, teniendo
un apropiado nivel de confianza vendrían entonces a ser imposibles. Fischhoff y Slovic
(1980) probaron esta posibilidad con unas series de tareas cuyo contenido (por ejemplo,
diagnosticar úlceras, predecir los precios de acciones oscuras) e instrucciones fueron
designadas a hacerlas parecer como imposibles como ellas actualmente fueron. Sin embargo,
el exceso de confianza fue solo reducido (y entonces parcialmente) cuando los sujetos fueron
prevenidos que “ello puede bien ser imposible de hacer esta clase de discriminación. Tratar lo
mejor que usted pueda. Pero si, en el extremo usted se siente totalmente incierto sobre [sus
respuestas], no titubee en responder con .5 [indicando una adivinación] para cada una de ellas
(p. 752). Cualesquiera instrucciones más fuertes pudieran levantar sospechas de tener
características de sus propias demandas.

Jueces de familia

Individuos perceptibles. Con un modesto cambio en las suposiciones interpretativas, el


último estudio mencionado en la sección previa podría vendría a ser el primer miembro
mencionado de la presente. Asegurando a los sujetos que ellos podrían permitir que cada una
de las respuestas fueron justo una adivinación podría ser visto como un modo de disipar
cualquiera de los mal entendimientos sobre la tarea ó como un paso a corregir a los sujetos
quienes entienden la tarea pero no a sí mismos. Ello acarrea una precaución implícita de que
al admitir adivinar puede ser un problema. Esta precaución es hecha explícita en la
instrucción a los sujetos de Alpert & Raiffa (Cap. 21) de “pavonearse” de sus distribuciones
de probabilidad subjetivas en orden de evitar el exceso de confianza. Si los éxitos parciales
de éstas manipulaciones reflejan un incrementado entendimiento ó sensitividad a las órdenes
no está claro. Tal ambigüedad puede explicar la detención de los estudios adoptando estas
aproximaciones.
Estas preocupaciones sobre la características de la demanda desaparecen con estudios de
entrenamiento deliberado, donde “los efectos de los experimentadores” están a la orden del
día. Como es indicado en la Tabla 2, una variedad de esfuerzos de entrenamiento han sido
emprendidos con una admirable proporción de éxito – aunque uno podría preocuparse de que
la falta de entusiasmo de las revistas por los estudios de resultados negativos puede haber
reducido la visibilidad de las fallas. La disposición de los entrenadores de hacer sea lo que
sea para conseguir un efecto ha tendido a hacer esfuerzos de entrenamiento más que
complejas manipulaciones cuyos elementos efectivos son de alguna manera oscuros. Algunas
de las más necesarias condiciones para aprender parece ser: recibir retroalimentación en
grandes muestras de respuestas, siendo dicho sobre la ejecución propia de uno (y no sobre
problemas comunes), y tener la oportunidad de discutir la relación entre los sentimientos de
incertidumbre subjetiva de uno y las respuestas de probabilidad numéricas. Para su propia
sorpresa , Lichtenstein y Fischhoff (1980b) encontraron que una tanda de entrenamiento
intensiva retroalimentación personalizada, fue tan efectiva como unas largas series de
entrenamientos. No está claro a qué extensión estos varios éxitos de entrenamiento
representan, en el estrecho sentido de dominar una tarea particular (por ejemplo, aprender la
distribución de respuestas que el experimentador requiere), ó la adquisición de habilidades
más generales.
355

Individuos incorregibles. La impaciencia con los estudios de entrenamiento ó el escepticismo


sobre su generalidad ha conducido a un número de investigadores a tomar evaluaciones de
confianza falibles como inevitables y concentrarse en ayudar a los que toman decisiones a
enfrentarse con ellas. Algunos sugieren reemplazar a los individuos con grupos de expertos
cuyas evaluaciones son combinadas por interacción directa ó un esquema directo agregado
(por ejemplo, Becker & Greenberg, 1978; Morris, 1974); otros llaman por el uso liberal del
análisis de sensitividad siempre que evaluaciones de confianza surjan en un análisis de
decisión (por ejemplo, Jennergren & Keeney, en prensa); aún otros proponen recalibrar la
evaluaciones, usando un factor de corrección que indique cuánta confianza los asesores
deberían tener como una función de cuánta confianza tienen ellos (Lichtenstein & Fischhoff,
1977). Por ejemplo, la prevalencia del exceso de confianza podría sugerir que cuando alguien
proclama certeza, uno podría leerla como una posibilidad de .85 de estar en lo correcto.
Desafortunadamente para esta estrategia, cuando las personas están mal calibradas su grado
de exceso de confianza depende sobre la dificultad de la tarea particular enfrentándolos
(Lichtenstein & Fischhoff, 1977). Como resultado, la necesidad de la cantidad de calibración
puede ser determinada solo si uno conoce la dificultad de la tarea en cuestión y puede
observar el (exceso) de confianza de los encuestados en una tarea de similar dificultad ó al
menos suponer la relación entre el exceso de confianza observado y anticipado (Ferrell &
McGoey, 1980).

Mal emparejamiento entre jueces y tarea

Reestructuración. El estudio de calibración, como algunos otros tópicos en el juicio, ha


permanecido relativamente aislado de la corriente de investigación en cognición, sacando
más metodologías que ideas de la literatura psicológica. Si esta falta de contacto refleja la
estrechez de miras de los investigadores del juicio ó las inadecuadas representaciones de
confianza en los modelos corrientes de los procesos cognitivos, ella ha probablemente
entorpecido el desarrollo de métodos para reducir el exceso de confianza. Modelos del
proceso sugerirían ambas, más poderosas manipulaciones e indicarían por qué las
aproximaciones de ingeniería hacen ó no el trabajo (y cuán lejos sus efectos podrían
generalizarse). La investigación corriente con testimonio de testigos, sentimientos de conocer
y una metamemoria podrían eventualmente proveer puntos de contacto (por ejemplo,
Gruneberg, Morris & Sykes, 1978).
Una posible dirección para ayudar a las personas a usar sus habilidades cognitivas
existentes de un modo más compatible con las demandas de evaluación de la confianza
pueden ser vistas en Koriat, Lichtestein y Fischhoff (1980), donde el exceso de confianza fue
reducido teniendo una lista de encuestados, razones por las cuales sus respuestas preferidas
podrían estar equivocadas. Listando las razones por las que uno podría estar en lo correcto ó
dando una razón para y una razón contra la respuesta escogida por uno no tuvo efecto,
indicando que el elemento crítico no es solo trabajar más duro ó ser explícito, sino la
memoria de uno diferentemente de lo acostumbrado en tareas de evaluación de la confianza.
Sin la específica instigación a “considerar por qué usted podría estar equivocado”, las
personas parecen ser insuficientemente críticas ó aún intentar justificar su respuesta inicial.
Talvez análogamente, Markman (1979) encontró que niños entre 9 y 12 años detectaron
inconsistencias en el material de texto solo cuando se les dijo que las buscaran.
Aunque está avanzado en la práctica más que en los campos psicológicos, la técnica del
valor fijado de Seaver et al. podría ser vista como otra manera de reestructurar la
aproximación de los encuestados a la tarea. Organizar el conocimiento de uno alrededor de
un set de valores presumidos de ser incorrectos puede conducir a una más completa
356

estimación de lo que uno conoce, más que el “tradicional” método de la probabilidad fijada,
en el cual la atención puede estar focalizada en la mejor adivinación de los encuestados a la
respuesta correcta.

Educación. Desaparece la confianza como un resultado indirecto de la educación sustantiva


que los expertos reciben en su especialidad? Como se mencionó anteriormente, el camino
obvio para explorar esta cuestión, mirando a las expresiones de confianza acompañando la
ejecución de las tareas reales, está complicada por la posibilidad de las restricciones a las
presiones reales del candor de los expertos. Por ejemplo, uno podría encontrar evidencia de
exceso de confianza en profesiones que hacen juicios de confianza sin ninguna validez
demostrada (por ejemplo, predicciones de movimientos de precios de acciones [Dreman,
1979; Slovic, 1972c], diagnósticos pediátricos de peligrosidad [Cocozza & Steadman,
1978]). Por supuesto si tales expertos son consultados (y pagados) como una función de la
confianza que ellos inspiran, ellos pueden ser tentados a mal representar cuánto ellos
conocen.
Indudablemente, los mayores esfuerzos para asegurar el candor han sido con
pronosticadores del clima, cuyo entrenamiento a menudo los recompensa para una buena
calibración. Su ejecución es excelente (por ejemplo, Murphy & Winhler, 1974, 1977a). Si
este éxito es debido al entrenamiento de calibración ó un sub-producto de su educación
profesional general no está claro. Una revisión de otros estudios con expertos quienes no han
tenido entrenamiento de calibración sugiere que tal entrenamiento, y no solo educación
sustantiva, es el elemento efectivo. Los experimentos que usaron problemas sacadas de sus
respectivas áreas de expertaje pero aisladas de las presiones del mundo real han encontrado
un exceso de confianza con estudiantes graduados de psicología (Lichtenstein & Fischhoff,
1977), banqueros (Staël von Holstein, 1972), psicólogos clínicos (Oskamp, 1962), ejecutivos
(Moore, 1977), ingenieros civiles (Hynes & Vanmarcke, 1976) y pronosticadores
profesionales del clima no entrenados (Root, 1962; Staël von Holstein, 1971a).
Dowie (1976) ha encontrado buena calibración entre los columnistas de periódico en sus
predicciones de las carreras de caballos. Aunque estos expertos no reciben ni una función de
pago explícita ni una formal retroalimentación, uno podría adivinar que ellos suministran de
su propio peculio, monitoreando su ejecución de día en día y recompensándose a sí mismos
por una buena calibración. La idea de que deberíamos ser entrenados desde la niñez para esta
clase de auto-monitoreo puede ser encontrada en recientes propuestas de hacer del juicio una
parte del curriculum escolar (referencia, Beyth-Marom & Deckel, en prensa; Cavanaugh &
Borkowski, 1980). La promesa de estas propuestas continúa para ser probada.
Finalmente, existe una muy estrecha forma de expertaje que ha probado ser el más
potente (y menos interesante) método de reducir el exceso de confianza. Una reflexión de la
falta de sensitividad de la gente de cuánto ellos conocen, es el hecho de que su confianza
media cambia relativamente lentamente en respuesta a los cambios en la dificultad de las
tareas que ellos encaran (Lichtenstein / Fischhoff, 1977). Pares típicos de proporciones de
respuestas correctas y confianza media son: .51, .65, .62, .74, .80, .78; y .92, .86. Como
rangos de exactitud sobre .41, la confianza cambia solo .23. Las curvas de calibración
correspondientes a estos resúmenes estadísticos están en algunos sentidos casi igualmente
malos (ó suaves); sin embargo, su grado de exceso de confianza varía considerablemente.
Mientras que los primeros dos de estos pares representan exceso de confianza, el tercero
muestra confianza apropiada completa y el cuarto falta de confianza. Estos ejemplos están
tomados de Lichtenstein y Fischhoff (1977), pero el mismo patrón ha sido revelado por
Clarke (1960), Nickerson y McGoldrick (1965), Pickhardt y Wallace (1974) y Pitz (1974),
entre otros. Ciertamente, cualquier comparación de exceso de confianza a través de
357

condiciones debe tomar en cuenta la dificultad de las tareas usadas. Bajo esta luz, la
preponderancia del exceso de confianza en la literatura refleja, en parte, la (talvez natural)
tendencia a no presentar a la gente con preguntas muy fáciles.

Resumen

Las evaluaciones de la confianza han sido extraídas de una variedad de gente en una variedad
de modos, casi siempre mostrando considerable falta de sensitividad a la extensión de su
conocimiento. Aunque la puerta necesita no ser cerrada a las manipulaciones metodológicas,
ellos han por mucho probado ser relativamente inefectivas y sus resultados difícil de
generalizar. Lo que ellos han hecho es mostrar que el exceso de confianza es relativamente
resistente a muchas formas de arreglo (otra más que cambios en el nivel de dificultad).
Mayor dependencia en la teoría psicológica parecería ser la clave para producir más
poderosas y predecibles manipulaciones. La efectividad del entrenamiento de calibración
sugiere que un cuidadoso análisis de lo que las experiencias únicas están provistas por ese
entrenamiento pero no por educación profesional podrían ambas guiar al desprejuicio y
enriquecimiento de la teoría psicológica.

Discusión

Asumiendo que los estudios revisados aquí han sido caracterizados exactamente y que ellos
agotan (ó al menos claramente representan) el universo de estudios relevantes, su mensaje
agregado parecería ser claramente reasegurador para el psicólogo cognitivo. Ambos
prejuicios han probado ser moderadamente robustos, resistiendo intentos de interpretarlos
como artefactos y eliminarlos de las manipulaciones “mecánicas”, tales como hacer a los
sujetos trabajar más duro. El desprejuicio efectivo usualmente ha involucrado cambiar la
naturaleza psicológica de la tarea (y la aproximación de los sujetos a el). En tales casos, al
menos algo del crédito debe ir a la teoría psicológica. Por ejemplo, una hipótesis sobre cómo
la gente retribuye la información de la memoria previo a evaluar la manipulación de la
confianza guiada de Koriat et al. (1980) de ese proceso de retribución. Aún “echando la culpa
de todo al sujeto” los programas de entrenamiento han estado basados en bien ensayados y
generalmente aplicables principios del aprendizaje.
Varias advertencias conceptuales deberían acompañar este sumario (además de las
metodológicas con las cuales el abrió). Una es que la distinción entre las manipulaciones de
artefacto y psicológicas pueden ser menos claras de lo que ha sido sugerido aquí. Por
ejemplo, exhortar a la gente a trabajar más duro sería un artefacto de manipulación cuando
está enraizado en un clamor de que más instrucciones casuales no provocan un “mal
comportamiento”. Sin embargo, si el investigador pudiera avanzar hipótesis sobre cómo
diferentes instrucciones afectan los procesos de juicio, el artefacto vendría a ser un efecto
principal con separadas predicciones para el comportamiento del mundo real en situaciones
con y sin exhortaciones explícitas.
La segunda advertencia conceptual es que cuestionando la realidad de los prejuicios
pueden reflejar una limitada e improductiva perspectiva de la investigación psicológica. Para
continuar el ejemplo del párrafo precedente, la vida tiene ambas situaciones, casual y trabajo
duro; ninguna es inherentemente más real que la otra. Por prueba similar, la validez relativa
de los experimentos de laboratorio causales y de trabajo duro dependen de las situaciones del
mundo real para los cuales sus resultados tienen que ser extrapolados. Cada uno tiene su
lugar. Entender la organización del laboratorio del mundo requiere buen juicio en la
358

caracterización de ambos contextos. Por ejemplo, situaciones de trabajo duro no son


necesariamente sinónimas con situaciones importantes. La gente puede no trabajar duro en un
problema importante a menos que ella realice ambos la centralidad de un juicio para el
resultado del problema y la falibilidad potencial de ese juicio.
Usando estudios de desprejuicio para descubrir las condiciones límites para observar los
prejuicios conduce a la tercera advertencia. En esta revisión, las tablas de resumen y
discusión aportaron implícitamente igual peso a los varios estudios, calificados talvez por
alguna noción de cada definición del estudio (como es determinado por la competencia,
extensión, etc.). Tal etiquetar de resultados estadísticamente significantes y no significantes
es un dudoso procedimiento en los campos metodológicos solo (ref. Hedges & Olkin, 1980).
Ello viene a ser conceptualmente cuestionable cuando uno duda que el universo de los
estudios posibles está siendo muestreado adecuadamente. En tales casos, aquellos datos que
son colectados constituyen conceptualmente dependientes observaciones y no necesitan que
se les dé igual peso. Cualquier resumen de cómo la gente se comporta necesita una cuidadosa
especificación del sub-universo de situaciones del comportamiento de las cuales los estudios
están siendo muestreados. Por ejemplo, algunos críticos han cargado que los anteriores
estudios de las heurísticas del juicio estuvieron “buscando por problema”, en el sentido de
investigar (captando) por situaciones en las cuales la gente se comportaría en un estilo
errante. Si este clamor es verdadero, entonces cada demostración del comportamiento
prejuiciado no necesita ser interpretado como un golpe contra la habilidad de juicio completo
de la gente; su relevancia es limitada a la clase de situaciones siendo estudiadas (ó sobre-
estudiadas) en aquellos experimentos. Focalizándose en las condiciones límites para evaluar
prejuicios, los estudios más recientes están sujetos a su propio muestrear del prejuicio, el cual
necesita ser considerado en la generalización de sus resultados.

Cuestiones ulteriores

Si patrones similares emergerán con otros prejuicios requiere revisiones de literatura análoga.
Tabla 3. Un universo del discurso por prejuicios y esfuerzos de desprejuiciar.
1. La razón fundamental sobre la cual las inferencias son requeridas son probabilísticas. Eso
significa, que los juicios son hechos bajo condiciones de incertidumbre, con prejuicios surgiendo
de la confrontación entre una mente determinante y un ambiente probabilístico.
2. Los problemas surgen en la integración más que en el descubrimiento de la evidencia. Aunque
los estímulos están completos y no ambiguos como es posible, ellos dicen poco sobre cómo la
tarea podría ser estructurada. La tarea de los sujetos es interpretar y usar aquellas piezas de
información que son proveídas.
3. Los prejuicios no son sustantivos. La operación de un proceso cognitivo debería ser similar en
cualquier área contenida con una estructura dada de información. Esto elimina “errores” debidos
a una deliberada decepción.
4. Alguna teoría normativa está disponible caracterizando el juicio apropiado. Este criterio excluye
los problemas de la esfera de preferencias (por ejemplo, actitudes inconsistentes), donde ninguna
repuesta puede ser identificada como óptima.
5. Ayudas de computación no son ofrecidas ó permitidas (más allá de papel y lápiz). Esta
focalización en el juicio intuitivo excluye tales ayudas como dedicadas a calculadoras de mano,
consultores estadísticos y computadoras interactivas.
6. Incentivos obvios para el comportamiento sub-óptimo no son aparentes. Eso significa, que los
prejuicios son cognitivos, no motivacionales en naturaleza. El “punto” de investigación del
prejuicio es, por supuesto, que donde la gente no tiene buena razón para actuar sub-óptimamente,
los errores sugieren que ellos no conocen nada mejor.
359

La tabla 3 ofrece una caracterización del dominio de los prejuicios dentro del cual patrones
recurrentes podrían ser buscados, distinguiendo los contenidos de este volumen de otros
prejuicios que han causado problemas a los psicólogos.
La persistente meta-interrogante encarando aquellas revisiones es, Cuán buenas son las
gentes? Son ellas lisiadas cognitivas ó cognosibles? Proveer una simple respuesta requiere
una respuesta a cuestiones imponderables sobre la naturaleza de la vida y la completa
similitud de la experiencia humana a las condiciones del laboratorio. Un resumen difícil de
conseguir de la presente revisión es que el recipiente de la gente de habilidades de juicio está
la mitad vacío y la mitad lleno. Las personas están lo suficiente habilitadas para conseguir
meterse en la vida, Suficiente inhabilitadas para hacer predecibles y consecuentes errores;
ellos son suficiente listas para idear ampliamente y fácilmente aplicables heurísticas que a
menudo les sirven de mucha utilidad, no sofisticados lo suficiente para realizar los límites de
aquellas heurísticas. Una apreciación más específica de la habilidad de la gente puede ser
dada solo en el contexto de una tarea de juicio particular.
Tales declaraciones acalladas (ó evasiones) sobre “la gente” reflejan una característica
común de la mayoría de la investigación del juicio – falta de interés en las diferencias
individuales. Aunque esta preferencia por efectos de grupo pueden ser solo un asunto de
experiencia, ella podría ser justificada teóricamente arguyendo que los efectos principales en
los estudios del juicio son tan grandes e inadecuadamente explorados que las diferencias
individuales pueden esperar. La más exigua percepción retrospectiva proveída por grupos de
estudio con características conocidas provee algún soporte empírico para esta demanda.
Particularmente sorprendente fue la carencia de diferencias en los estudios experimentales de
los más consecuentes de los grupos conocidos, expertos haciendo juicios en sus campos de
expertaje. La anecdótica y registrada evidencia colectada por Dawes (1976), Eddy (Cap. 18.
de este volumen), Fischer (1970), y otros también indica que el extenso entrenamiento y altos
premios no son garantías del valor del juicio. No obstante, posterior investigación es
necesaria, porque de la firmeza con la cual muchos creen que los expertos son mejores y la
importancia aplicada de usar el juicio del experto para una mayor ventaja.
Para la meta práctica inmediata de los mejores expertos se despliegan tanto como para
evitar el prejuicio, ello es suficiente para conocer si ellos son mejores que las personas legas
ó al menos estar mejor concientes de sus propias limitaciones de juicio, Para la eventual meta
práctica de desprejuiciar a todos los jueces, es importante conocer cómo los expertos lo
consiguieron dónde ellos lo hicieron ó por qué no siguieron adelante. La siguiente es una lista
de condiciones que son generalmente conducentes a aprender. Para cada una, uno puede ver
maneras en las cuales los expertos podrían estar en una particular ventaja ó desventaja,
dependiendo de las circunstancias:

1. Abundante práctica con un set de tareas razonablemente homogéneas. Los


expertos deberían tener tal experiencia. Ellos pueden usarla para afilar sus
habilidades de juicio ó ellos pueden desarrollar soluciones habituales para una
situación específica, liberándose a sí mismos de la necesidad de analizar (y
pensar).
2. Eventos de criterio claro. Aunque los expertos son a menudo requeridos a hacer
sus juicios muy explícitos, los objetos de aquellos juicios son a menudo
componentes de tal sistema complejo (natural, social ó biológico) que es duro
para evaluar el nivel de entendimiento de los jueces. Juicios fuera de objetivo
pueden ser debidos a contingencias no anticipadas, mientras que juicios con
objetivo pueden haber sido correctos por la razón equivocada.
3. Reforzamiento de tareas específicas. Los expertos son, en principio, pagados por
la ejecución. Sin embargo, aún cuando la sabiduría de sus juicios pueden ser
360

discernidos, ellos pueden ser recompensados en otros campos (por ejemplo,


trajeron ellos buenas noticias? trastornaron ellos los planes? las cosas se
produjeron para lo mejor?).
4. Admisión explícita de la necesidad de aprender. Entrando a un programa de
aprendiz que confiere pericia es seguramente un signo de modestia. No obstante,
en cada estado de ese proceso y la vida profesional que lo sigue, ciertas ventajas
corresponden a aquellos quienes montan un buen espectáculo y exudan
competencia.

Estos son puramente principios operantes de aprender, manipular el comportamiento sin


presumir de ningún conocimiento de procesos cognitivos fundamentales. Clarificando y
explotando esos procesos cognitivos ese obviamente una mayor tarea teórica y práctica para
desprejuiciar la investigación, especialmente cuando uno considera que tales manipulaciones
parecen tener un poco mejor historial que más esfuerzos mecánicos. Aunque el estudio de los
prejuicios y desprejuiciar ha atravesado una prometedora porción del largo sendero de la
investigación básica para los campos de aplicaciones, el aún tiene que tocar las bases
adecuadamente a uno ú otro fin. El parece ahora que alcanzando un fin requerirá alcanzar el
otro también La buena práctica requerirá una mejor teoría sobre como la ente trabaja. La
buena teoría requerirá mejor práctica, clarificando e intentando resolver el problema con las
condiciones en las cuales la mente actualmente trabaja.

32. Mejorar la inferencia inductiva

Richard E. Nisbett, David H. Krantz, Christopher


Jepson y Geoffrey T. Fong

En este capítulo, discutimos la posibilidad de mejorar las inferencias de la gente en la vida


diaria. Nisbett y Ross (1980) propusieron que los mejoramientos podrían resultar de hacer las
herramientas inferenciales de los científicos disponibles para la persona lega en la forma de
máximas inferenciales, tales como “Ella es una pregunta empírica”, ó “Usted puede justificar
361

las excepciones”. Nos referiremos a las “heurísticas estadísticas” para alguna de las más
importantes de estas guías informales de razonar, tal como “Piense sobre la evidencia como
si ella fuera una muestra, y reflexione sobre el tamaño de la muestra”. Nosotros creemos que
tales toscas guías inferenciales, cuando están fijadas en una matriz del entendimiento de la
teoría estadística y de la probabilidad y cuando están reforzadas por la experiencia en aplicar
la heurística a problemas concretos, pueden probar ser de gran valor en reducir el error
inferencial en la vida diaria.
Es posible ser sistemático en un examen de los que podría ser realizado por tal programa
y donde las dificultades son probables de ser encontradas. Creemos que tres de tales
dificultades son claramente visibles ahora, y creemos que los intentos de resolver cada uno de
los problemas pagarán dividendos en términos de extender nuestro entendimiento ambos de
cómo la gente infiere y de cómo ellos deben inferir.
1. Puede ser muy difícil establecer que una inferencia dudosa dada es de hecho errónea.
En la mayoría del trabajo de Kahneman y Tversky, los modelos probabilísticos que son la
base para las inferencias prescritas son de estadística estándar, y sus aplicaciones a los
eventos en cuestión nos es controversial. Como un trabajo social psicológico en el mismo
estilo ha procedido, sin embargo, ha venido a ser crecientemente claro que puede ser muy
difícil conocer exactamente qué modelo para los eventos es el correcto y por tanto conocer
qué procedimientos inferenciales son requeridos.
2. Aún cuando es posible estar muy confiado en que un error ha ocurrido, puede ser muy
difícil conocer cómo ocurrió. Puede ser muy difícil conocer si el error es debido a escaso
razonamiento, que significa, a pobres procedimientos inferenciales, ó modelos incorrectos,
que es, a previas creencias equivocadas sobre las naturaleza de los eventos en cuestión.
3. Aún cuando podemos estar muy confiados de los modelos apropiados, podemos
carecer claramente de útiles guías inferenciales. Corrientemente no tenemos una clara idea

El escrito de este artículo y alguna de la investigación reportada en el fueron patrocinados en parte por la
subvención BNS 79-14094 de la Fundación Nacional para la Ciencia (National Science Foundation).
Agradecemos a Lee Ross, Saul Sternberg y Paul Thagard por los comentarios en un primer borrador.
sobre cómo traducir algunas de las más fundamentales consideraciones estadísticas dentro de
guías para el razonamiento diario. Esto parece especialmente claro en la instancia en las
consideraciones del prejuicio de la muestra. La gente está propensa a poner muy poca
atención a la posibilidad que la evidencia está prejuiciada, pero está lejos de aclarar que las
“heurísticas estadísticas” sería apropiado de usar por la mayoría de los problemas del mundo
real.

Modelos y heurísticas en el razonamiento inductivo

Permítasenos empezar nuestra discusión del razonamiento inductivo erróneo analizando un


ejemplo que está relativamente libre de las dificultades aludidas. Muchos de estos ejemplos
en este libro lo harían, pero el problema de la sala de maternidad de Kahneman y Tversky
(1972b, 3) es especialmente bien definido y ayudará a fijar algunas definiciones. Los sujetos
fueron requeridos a juzgar si un grande ó pequeño hospital tendrá más días al año en los
cuales alrededor del 60% de los bebés nacidos fueron hombres. La mayoría de los sujetos
chequearon “sobre lo mismo”, y de los otros, casi la mitad chequearon “grande” y la mitad
chequearon “pequeño”. En otras palabras, como un grupo, los sujetos creyeron que tales días
extravagantes , con nacimientos de hombres excediendo el 60%, son igualmente probables
en los grandes y en los pequeños hospitales.
Kahneman y Tversky teorizaron , sobre la base de este y otros numerosos experimentos,
que el modo predominante de juicio conduciendo a este resultado es el empleo de la
representatividad heurística. Un sujeto usando esta heurística se enfocaría en la disimilitud
362

del resultado extravagante (60%) del resultado típico presumido (alrededor de 50%, en este
caso). Desde que el grado de similitud ó “representatividad” no está influenciada por el
tamaño del hospital, el sujeto juzgaría la probabilidad del resultado extravagante ser casi el
mismo para ambos hospitales.
En la correcta aproximación a este problema, sin embargo, uno considera que el actual
sub-set de resultados de “hombre” y “mujer”, en cualquier día dado en un hospital, como una
muestra aleatoria de una población de aproximadamente 50-50. Si entonces se sigue de la
fórmula del binomio ó de la ley de grandes números que un porcentaje de la muestra
extravagante es menos probable con un tamaño de muestra más grande. Uno concluye,
siguiendo esta aplicación de un modelo probabilístico, que los días con 60% ó más
nacimientos de hombres son menos probables en un hospital grande.
En este ejemplo, el razonamiento guiado por una heurística intuitiva (la representatividad
heurística) es contrastada con el razonamiento realizado dentro de un modelo matemático.
Hacemos un juicio normativo, criticando la conclusión intuitiva como errónea, porque una
conclusión diferente es obtenida de un modelo que creemos es una representación apta para
el sexo de los recién nacidos. Nuestro procedimiento aquí, en hacer un juicio normativo sobre
la base de un modelo, ilustra un principio general: El razonamiento inductivo debe ser
justificado en términos de la aptitud de modelos fundamentales de los eventos en cuestión.
Un modelo matemático es solo una clase de modelo, y a ese, uno raramente lo usó en el
razonamiento humano: El requiere de entrenamiento matemático y plenitud de tiempo para
pensar. Pero usaremos el término modelo para referir a cualquier representación parcial de
algunos aspectos de la realidad. Concluimos que los modelos físicos (por ejemplo, un modelo
de aeroplano, sacado a escala del original), modelos matemáticos (por ejemplo, ecuaciones
describiendo un flujo de aire sobre las alas de un aeroplano), y más generalmente, los
modelos conceptuales intuitivos. Estas son representaciones mentales de la gente de
aeroplanos ó de flujo de aire ó de procesos determinando el sexo de los bebés recién nacidos
ó de cualquier otro aspecto de la realidad. Una distinción extremadamente importante entre
los modelos es entre aquellos que son puramente deterministas (por ejemplo, ellos no
contienen representación de impredecibles) y aquellos modelos que son probabilísticos (por
ejemplo, ellos incluyen la suposición de que los eventos son imperfectamente predecibles
dadas las condiciones estándar de información). Los modelos probabilísticos pueden ser
físicos (agitar el dado ó sacar canicas de una urna) ó de matemáticas (variables aleatorias),
pero a menudo ellos son menos exactos. Por ejemplo, alguien observando un salto largo en
un encuentro de atletismo puede creer que el siguiente competidor saltará casi 8 m. pero que
un salto un poco más largo ó mas corto no sería inusual y un salto de 7.5 ó 8,5 m. sería
posible. Esta representación mental de la persona en el salto largo es un modelo
probabilístico intuitivo, involucrando una “distancia típica” mental y una clase de “error de
distribución” que produce desviaciones del típico.
La naturaleza del modelo de uno para los eventos es de crítica importancia para la
selección de las herramientas inferenciales a ser usadas, incluyendo varias heurísticas. Una
heurística es cualquier principio de guía para transformar la información para resolver un
problema ó para formar un juicio. Arriba, nosotros hablamos de la representatividad
heurística, pero esta realmente incluye dos heurísticas diferentes: una para construir modelos
(de acuerdo a la representatividad heurística, el modelo fundamental debería igualar las
características individuales de los datos observados) y uno por juzgar la probabilidad de los
resultados (un resultado es más probable si su estructura es más similar a esa del modelo
fundamental asumido). La heurística estadística, tal como la confiabilidad y validez, y para
manipular la información usando conceptos probabilísticos, tal como la proporción base. Si
uno tiene un modelo probabilístico fundamental para los eventos de un tipo particular,
363

entonces es probable que uno emplee heurísticas estadísticas cuando piensa sobre aquellos
eventos.
Permítasenos ser más específicos sobre estos conceptos de modelo y aplicación de la
heurística en el problema de la sala de maternidad. Una solución completamente satisfactoria
para ese problema sería usar un modelo matemático, de una muestra aleatoria de una
población de 50-50. La mayoría de los sujetos probablemente emplean también simple un
modelo del sexo de un recién nacido – un modelo que especifica una división de 50-50 pero
no incluye ninguna relación entre la aleatoriedad de los procesos de muestrear y el probable
error al muestrear. Indudablemente la mayoría de los sujetos conocen algo sobre la relación
entre el tamaño de la muestra y el error al muestrear, pero este conocimiento no está
incorporado dentro del modelo intuitivo que ellos se fijaron mentalmente para tratar con el
problema. En su lugar, los sujetos suplementaron el modelo simple 50-50 con la
representatividad heurística, la cual los condujo a la conclusión que el 60% de nacimientos de
hombres es de alguna manera improbable pero igualmente también en ambos hospitales.
Note finalmente que los sujetos no tendrían que ser estadísticos para resolver el problema en
al menos de un modo cualitativo. Si su modelo de la observada proporción del sexo incluyó
la noción intuitiva de sacar una muestra, entonces ellos podrían traer a la mente una
heurística de estadística. En este caso, la heurística necesitada es la noción de que las
muestras grandes son más probables de tener representatividad ó estructura típica que más de
los que son la muestras pequeñas.
En resumen, el razonamiento está basado en modelos. Dependiendo del modelo de uno,
uno puede emplear varios algoritmos ó heurísticas. Un matemático podría deducir
consecuencias cuantitativas de un modelo matemático; alguien con un modelo de muestreo
intuitivo podría exitosamente usar una heurística estadística; y, en este problema al menos,
podría ser mal conducido por el.

Aplicación de modelos probabilísticos en la inferencia diaria

La falla al usar modelos probabilísticos ó heurísticas de estadísticas no causan errores


meramente en respuesta a enigmas como el problema de la sala de maternidad; también
afecta las inferencias de la gente en las situaciones diarias especialmente en el dominio
social. Ross (1977) ha sugerido que la gente haga un error fundamental de atribución: Ellos
tienden a sobre-atribuir el comportamiento de la otra gente a disposiciones personales
mientras ignoran las causas situacionales ó influencias ambientales transitorias en el
comportamiento. Nosotros daremos dos ejemplos de este error e indicaremos cómo la
consideración de modelos probabilísticos nos ayuda a definir y corregir esta clase de error.
Nisbett y Borgida (1975) mostraron que los sujetos a menudo fallan al utilizar
información de “consenso”: Ellos infieren idiosincrásicas, disposiciones personales para un
comportamiento particular del individuo aún cuando ellos están informados que la mayoría
de la otra gente, en la misma situación, se comportaron de la misma manera. Por ejemplo, en
un estudio, los sujetos consideraron a “Greg R.” como apático y cruel porque él no fue en
ayuda de una víctima quien él creyó que estaba sufriendo un secuestro. La tendencia a dar a
Greg. R. tales clasificaciones negativas fue tan alta en los sujetos a quienes les fue dada
información de consenso, a saber, que la mayoría de la gente en idéntica situación falló en
ayudar a la víctima, como en el control de los sujetos a quienes no les fue dada la
información de consenso y quienes por consiguiente creyeron que la mayoría de la gente
ayudaría a la víctima.
Cómo podría la gente hacer uso de la información de consenso para moderar sus
inferencias sobre los tratos personales ó disposiciones? Nos parece que a algunos científicos
sociales, quienes enfatizan las determinantes situacionales del comportamiento, operan con
364

un modelo intuitivo (y algunas veces aún formal) probabilístico, en el cual algunas


situaciones conducen a una alta probabilidad de un cierto comportamiento para casi cada
uno, mientras que algunos individuos pueden poseer una alta probabilidad del
comportamiento en casi cada situación. En el marco de trabajo proveído por tal modelo, la
información de consenso es rápidamente interpretada como evidencia de que una situación
particular fue de la clase de alta probabilidad, y por consiguiente la ocurrencia del
comportamiento nos es buena evidencia de que el individuo posee una alta probabilidad de
tal comportamiento a través de las situaciones.
Nosotros prensamos que los modelos probabilísticos de esta clase son buenas
representaciones del comportamiento social, y que ellos proveen los campos para criticar que
fallan al hacer uso de la información de consenso. Los sujetos en el estudio de Nisbett y
Borgida probablemente descansan exclusivamente en la representatividad heurística,
construyendo un modelo del objetivo de la persona que se equipare a los datos: Greg. R. es
cruel y apático debido a que su acción parece cruel y apática.
En este ejemplo, como en el caso del de la sala de maternidad, no existe mucha tentación
para defender las inferencias del sujeto. Un puro modelo del trato del comportamiento social,
sin ninguna influencia sobre la probabilidad, no es muy razonable, y los sujetos mismos más
probablemente admitirían tanto. Nuestro segundo ejemplo de los que nosotros sostendríamos
ser una instancia del error de atribución fundamental, sin embargo, conduce a más de un
argumento.
Suponga que un candidato para una importante posición administrativa le ha sido
ofrecida una entrevista sobre la base de recomendaciones muy fuertes de sus anteriores
empleadores. La entrevista empieza con un almuerzo de grupo, en el cual el candidato exhibe
peculiaridades nerviosas. Más tarde, varias de las personas que atendieron ese almuerzo
dicen que el candidato carece de la habilidades interpersonales necesarias para el trabajo.
Un psicólogo social podría decir que la inferencia de los empleadores sobre las
habilidades interpersonales es dudosa. Una explicación situacional del comportamiento
ofensivo (involucrando las demandas del escenario de la entrevista-almuerzo), ó una
interpretación probabilística (él estuvo teniendo un mal día) podría ser plausible, y
ciertamente, en vista de las recomendaciones de los empleadores anteriores, parece más
plausible que la explicación en términos de las habilidades del candidato. Pero los
empleadores podrían replicar que ninguno que no puede infaliblemente exhibir aplomo en la
situación almuerzo-entrevista es extremadamente probable de fallar en situaciones de otro
trabajo relacionado que están igualmente demandando de aplomo.
El argumento es difícil de ganar. Los empleadores han justificado su inferencia en
términos de un modelo que postula una alta asociación estadística entre falla y una clase de
situación y falla en otras situaciones que se asemejan a la primera de algunas variables,
aunque no a otras. Es difícil conocer si en el actual mecanismo cognitivo fundamental la
inferencia involucró el uso de tal modelo ó en vez de eso simplemente descansó en la
representatividad heurística (examinado el ajuste entre el comportamiento del almuerzo del
candidato y el prototípico comportamiento en el almuerzo de un estereotípico candidato
ideal. Y es también difícil conocer por seguro que el modelo propuesto del empleador está
equivocado. El psicólogo social conoce de la experiencia que tales correlaciones son
usualmente muy débiles cuando son probadas empíricamente; pero este particular no ha sido
probado directamente, y para probarlo aplicando técnicas psicológicas existentes
involucrarían una enormemente detallada y prohibitivamente cara exploración.
Estos ejemplos ilustran dos diferentes maneras en las cuales el razonamiento inductivo
puede ser erróneo, y ellos apuntan a dos diferentes clases de consejo normativo ó educación
que pueden ser requeridos: (a) Algunas veces la gente puede estar de acuerdo (sobre la
reflexión al menos) sobre qué modelo es razonable, pero puede en la práctica usar otro,
365

modelos más simples y correspondientemente heurísticas superficiales. El consejo normativo


enfatiza el evitar la sobre simplificación y también fácil uso de la representatividad
heurística. Las metas educacionales incluyen enseñar modelos de amplia utilidad tales como
el modelo de muestreo binomial, enseñar aplicaciones concretas de estos modelos, y enfatizar
las heurísticas estadísticas que pueden algunas veces tomar el lugar del razonamiento
deductivo riguroso de los modelos. (b) Algunas veces el razonamiento es correcto dado el
modelo pero el modelo es dudoso ó aún demostrablemente equivocado. El consejo normativo
refuerza lo que es conocido (por ejemplo, sobre la debilidad de ciertos tipos de correlaciones
del comportamiento) que hace que un modelo particular sea preferible.
Este análisis apunta a dos muy serios vacíos en la disponibilidad del consejo normativo.
En algunos casos, podemos carecer de la necesidad del conocimiento para formular modelos
adecuados. En otros casos, podemos carecer de suficientemente simples y usables heurísticas
estadísticas. El ejemplo de la información de consenso ilustra vacíos en los modelos
corrientes de ciencia social. Podemos criticar a los sujetos que fallaron al usar la información
de consenso del todo, pero suponga que los sujetos replican, “Sí, usted está en lo correcto, los
factores situacionales son relevantes; ahora díganos, cuánto deberíamos corregir nuestra
creencia sobre la apatía de Greg R. , en vista del hecho de que la mayoría de la gente se
comportó de la misma manera?”. Para responder esto requeriría una teoría de interacciones
de trato/situación que la personalidad y los psicólogos sociales no han suplido hasta ahora.
La demostración del hecho de que carecemos de ciertas heurísticas estadísticas esenciales
requiere una sección aparte.

Ajustar la inferencia para muestrear el prejuicio: La necesidad de heurísticas


estadísticas

El procedimiento correcto para tomar el tamaño de la muestra en cuenta al sacar inferencias


está bien desarrollado, para mucha de la teoría estadística que es dedicada a problemas de ese
tipo. En parte como una consecuencia, nosotros no anticipamos gran dificultad en enseñar a
la gente a ser más sensitiva a consideraciones del tamaño de la muestra en los problemas de
inferencia presentados en la vida diaria. Cuando consideramos cuestiones de muestrear el
prejuicio, sin embargo, los asuntos son muy diferentes. Esto es infortunado debido a que,
como Nisbett y Ross (1980) han argüido, que los errores inferenciales parecen mucho más
probables que resulten de los prejuicios que del pequeño tamaño de la muestra.
Al discutir los problemas que uno encuentra en tratar de desarrollar las heurísticas para
tratar como una muestra del prejuicio, será útil distinguir dos clases principales de
información sobre una muestra de observaciones: información sobre el procedimiento de
muestreo e información sobre la tipicalidad de las características covariantes. En la primera
clase de información, que es, sobre el procedimiento, distinguiremos más bien enormemente
entre muestras casuales, muestras estadísticas y muestras ilustrativas. Estos términos más que
rápidamente nos remueven del dominio de la estadística teórica – la cual está relacionada con
solo una de las categorías – y confiamos que en el dominio de las observaciones incidentales
y de la comunicación de los hechos observados.
Muestras fortuitas son observaciones seleccionadas entre todas las posibles en cualquier
modo que sea factible ó más conveniente. La mayoría de las inferencias no solo en la vida
diaria sino aún en el cuidadoso trabajo científico, están basadas en muestras fortuitas. Por
ejemplo, los sujetos utilizaron en los estudios de Kahneman y Tversky que fueron observados
debido a que ellos estaban disponibles. Las muestras estadísticas involucraron un conocido
mecanismo porbabilístico para seleccionar observaciones fuera de algún universo de posibles
observaciones. Ellas son las únicas clases de muestras para las cuales rigurosos cálculos
estadísticos son posibles. En opinión votada ó en pruebas de control de calidad, esta clase de
366

muestreo es prevaleciente. Un astuto modelador de estadística, sin embargo, puede convertir


una muestra fortuita en una muestra estadística formulando una razonable población y un
modelo de selección probabilístico que podría ser satisfecho por procedimiento actual de
selección. Finalmente, una muestra ilustrativa es un mecanismo de comunicación, usado para
incentivar la concreción ó viveza de un reporte basado en un cuerpo más grande de datos.
Los reportes de televisión y los artículos de revistas algunas veces ilustran lo que está
supuesto a ser características de la población usando simples casos vívidos. Pero aún en la
ciencia, mucha presentación de datos es ilustrativa. En electrofisiología, por ejemplo, las
conclusiones basadas en observaciones fragmentarias de muchas células nerviosas que son a
menudo que son a menudo ilustradas por records de muestra de células que muestran bien las
características típicas.
La otra clase de información sobre una muestra concierne a la tipicalidad de las
características covariantes. Tal información involucra los valores de las variables más que
una de principal interés, la cual puede ser correlativa de la última y la que puede ser
comparada con valores conocidos de la población para evaluar la tipicalidad de la muestra.
Considere un ejemplo de la vida diaria donde la variable de principal interés es el resultado,
pero edad y sexo son también recordadas por cada individuo. Suponga que deseamos conocer
cuál grupo gana más, la gente que escribe poesía como una afición ó la gente que toca
instrumentos musicales. Sucedió que tenemos un amigo, Jack de 50 años de edad, quien tiene
muchos conocidos (mayormente hombres de mediana edad) que escriben poesía, y tenemos
también una amiga Jane, de 25 años de edad, quien tiene muchos conocidos, mayormente
mujeres jóvenes, que tocan instrumentos. El resultado de distribución para los poetas es
mucho mayor que para los músicos. Todos estarían de acuerdo en que esto no prueba nada
sobre las dos poblaciones en cuestión. Las muestras son atípicas de las poblaciones sobre
variables que se correlacionan altamente con el resultado (al tiempo presente). Claramente el
importa un gran acuerdo para ambos cuán atípicas son las características de la muestra y
también cuán útiles son aquellas características para predecir los valores del objetivo
variable. Muchos de los experimentos de Kahneman y Tversky usaron los estudiantes de
secundaria Israelíes como sujetos. Aún nosotros y ellos sacamos mucho más amplias
inferencias de los resultados, porque, aunque la mayoría de los adultos no son ni Israelíes ni
están en la secundaria, estas características son juzgadas para correlacionar pobremente, con
las variables objetivo en sus estudios. Aún en una cuidadosamente construida muestra
estadística, debería ser notado, que la atipicalidad debe ser considerada: Si una encuesta del
resultado de los Demócratas registrados sacó una pequeña muestra aleatoria con una
preponderancia de hombres blancos de mediana edad, nosotros no aceptaríamos las clases
estándar de inferencias, basada en un muestreo aleatorio, como válido.
Para ajustar por la atipicalidad, un modelador estadístico puede intentar formular más
precisamente la relación la relación entre el objetivo variable y covariar y corregir la
inferencia usando estas relaciones. Por ejemplo, uno podría ser capaz de adivinar ó estimar la
relación entre edad y sexo, y ganar y comparar los resultados ajustados de los poetas y los
músicos. Tales ajustes requieren experiencia, reflexión y otros datos cuantitativos y
moderadamente grandes muestras (para probar el modelo y estimar el parámetro).
Nosotros hemos notado que el muestreo fortuito ó las muestras atípicas pueden algunas
veces ser manejados por modelos sofisticados, pero no es razonable esperar que los no
expertos manejen una muestra de prejuicio de este modo. Qué procesos intuitivos usa la
gente lega para corregir una muestra de prejuicio? Y qué recomendaciones, resultando de las
reglas de dedo de estadísticos, podemos hacer para mejorar sus inferencias?
La cuestión de cómo la gente ajusta para una muestra de prejuicio fue dirigida por
Hamill, Wilson y Nisbett (1980). La conclusión total fue que la gente la ajusta muy poco:
Ellas no muestran sistemáticas diferencias en las inferencias hechas de muestras fortuitas
367

versus muestras típicas y aún sacan las mismas clases de inferencias de muestras
específicamente notadas para ser atípicas (contra-ilustrativas, como fueron).
Algunos detalles de estos estudios pueden ser de valor si el lector está para pensar
seriamente sobre qué heurísticas estadísticas la gente tiene que usar. En un estudio, los
sujetos vieron una entrevista en cinta de video con un pretendido guardia de una prisión
quién pareció muy humano para la mitad de los sujetos y muy cruel para la otra mitad.
Algunos sujetos fueron conducidos a creer que el simple caso presentado fue ilustrativo de
una gran muestra de guardias de prisión. A otros sujetos se les dijo que el simple caso fue
contra-ilustrativo: A ellos se les dijo explícitamente que el guardia entrevistado había sido
seleccionado como uno de los más extremos (uno de los máximos humanos, para aquellos
que vieron al guardia humano), y uno de los menos humanos, para aquellos que vieron al
guardia cruel). A un tercer grupo no se le dio información sobre la calidad de ilustración, y en
efecto fue presentada una muestra fortuita de tamaño 1. En el otro estudio, los sujetos leyeron
un artículo de una revista con un vívido negativo de un retrato de un recipiendario de servicio
social. Algunos de los sujetos fueron conducidos a creer que el caso que ellos leyeron fue
altamente típico con relación a la longitud de permanencia en el servicio social: A ellos se les
dijo (equivocadamente) que como la mayoría de los recipiendarios de mediana edad del
servicio social, la mujer sobre la que ellos leyeron había estado en el servicio social durante
la mayoría de su vida adulta. A otros sujetos se les dijo la verdad sobre la atipicalidad de la
mujer con relación a este futuro: Ellos fueron informados que la mayoría de los
recipiendarios del servicio social están en el por solo unos pocos años.
Actitudes sobre guardias de prisión en general (en el primer estudio) y sobre
recipiendarios del servicio social en general (en el segundo estudio) fueron evaluados con
una variedad de medidas. Actitudes hacia los guardias de prisión fueron mucho más
favorables en el grupo expuesto al guardia humano que en el grupo expuesto al guardia cruel.
Esto muestra que las inferencias fueron sacadas sobre guardias en general del caso simple.
Las actitudes hacia los recipiendarios del servicio social de sujetos que leyeron el artículo de
la revista fueron mucho más negativas que las actitudes de un grupo de control, de nuevo
mostrando que las inferencias fueron sacadas sobre recipiendarios del servicio social en
general del artículo sobre un recipiendario.
En el estudio del guardia, a los sujetos se les dijo que el guardia fue sacado de inferencias
típicas de la cinta de video no sistemáticamente diferente de aquellos sacados por los sujetos
quienes no tenían información del procedimiento de muestrear. Aún los sujetos quienes
creyeron que el guardia fue hecho de inferencias atípicas en la misma dirección como los
otros grupos, y de hecho las diferencias entre ellos y los otros grupos no fueron
estadísticamente confiables. Así mismo, en el estudio del recipiendario del servicio social, los
grupos “típicos” y “atípicos” sacaron inferencias similares, y de hecho la diferencia
observada entre sus punteos de actitud media fue despreciable.
Es importante, para nuestro último análisis normativo, especular sobre cómo estos
resultados pueden ser explicados en términos de procesos cognitivos. Los resultados son muy
sorprendentes si es asumido que los sujetos tienen actitudes previas definidas, moldeadas de
experiencia e información pasada, hacia los recipiendarios del servicio social ó los guardias
de prisión. Para los sujetos presentados con un caso ilustrativo ó típico, un fuerte impacto de
tales actitudes previas sobre la población podría ser razonable, por supuesto, desde que ellos
apropiadamente creen que es típico de un grupo mucho más grande; pero esta justificación
está ausente para los sujetos en el grupo “fortuito”. Y por qué deberían los sujetos
presentados con un caso contra-ilustrativo ó atípico hacer cualquier inferencia de todo en la
dirección de la muestra, más que apegándose a sus actitudes originales, ó talvez aún
moviéndose de alguna manera en la dirección opuesta al caso presentado?
368

La teoría corriente de formación de actitud y cambio de actitud sugiere alguna


explicación tentativa (Bem, 1967; Nisbettt & Ross, 1980; Nisbett & Wilson, (1977).
Podemos especular que los sujetos, al responder a preguntas sobre sus actitudes, no
recuperan del todo las actitudes del almacén. Mas bien ellos los construyen de materiales a
mano, incluyendo sus reacciones efectivas corrientes al objeto, sus asociaciones semánticas
al objeto, y observaciones de su reciente comportamiento hacia el objeto. Muchos del
proceso de construcción es rápido y no accesible a la conciencia. Un simple caso vívido es
probable que provoque reacciones afectivas hacia la clase entera de objetos que el representa,
a pesar de compensar muy pálidas garantías sobre la tipicalidad. (Las reacciones afectivas
pueden ser particularmente probables de “fugarse”, como fueron. Ninguna cantidad de
garantías sobre la tipicalidad de los taxistas Parisinos que nos insultaron es probable de
retornarnos a nuestra previa actitud incauta hacia la clase de taxistas Parisinos). El vívido
simple caso puede servir también como una incitación a recolectar información similar de la
memoria. Estos sujetos pueden ser recordados por el guardia humano de la prisión, un poco
involuntariamente, de los bondadosos guardias Nazis en “Los héroes de Hogan” ó del dulce
sheriff sureño retratado por Andy Griffith en el reestreno veraniego de su niñez. Cuando los
sujetos vienen a construir sus actitudes sobre los guardias de prisión en general, ellos pueden
recordarse a sí mismos ignorar la evidencia fortuita ó contra-ilustrativa que ellos vieron, y
ellos podrían aún ser exitosos en eso, pero no servir. Las reacciones afectivas y los
contenidos de la memoria ahora prejuiciados serían suficientes para producir una actitud
expresada muy diferente de esa de control de los sujetos.
Teniendo en mente las nociones de arriba sobre cómo los sujetos sin influenciados por el
caso observado, permítasenos retornar a la pregunta normativa: Cómo podrían las personas
ajustar sus inferencias a la luz del conocimiento sobre el procedimiento de muestrear y sobre
la tipicalidad de la muestra con respecto a importantes características covariantes? La teoría
formal aplicada y la práctica de la estadística aplicada menos que mirar a los ojos y mucho
menos de lo que necesitamos.
Una regla con un sabor resueltamente científico establece que conclusiones sobre una
población no deberían ser sacadas excepto sobre la base de muestreo apropiadamente hecho
aleatorio, porque de otra manera las suposiciones de procedimientos estadísticos son
violados, y es imposible conocer qué confianza poner en la conclusión. De acuerdo a esta
austera regla, a los sujetos quienes no recibieron información sobre el procedimiento de
muestreo ó típicalidad de la cinta de video del guardia les serían suspendidas todas las
inferencias, y por tanto sus actitudes sobre los guardias de prisión habrían sido exactamente
las mismas ya sea que ellos vieron al guardia humano ó al cruel.
Esta regla puede ser rechazada en tres diferentes campos: epistémico, pragmático y
lógico.
1. El primer argumento se deriva de la observación de Goldman que, “. . .el consejo ó
reglas deben ser capaces de ser seguidos” (1978, p. 513). Nuestra discusión de posibles
mecanismos de construcción de la actitud sugiere que la “suspensión de inferencias” pueda
no ser una posible regla para la cognición humana de cada día. Una regla mucho más
detallada, indicando cómo desprejuiciar los contenidos de una memoria asociativa y cómo
compensar por las reacciones afectivas podría ser necesaria.
2. Aún si nosotros pudiéramos aplicar la altamente proscriptiva regla, ella tendría el
infortunado efecto de prevenirnos de aprender más de las cosas que aprendemos, ambas en la
vida diaria y en la ciencia. En aprender sobre los decanos de la universidad ó las condiciones
de tráfico en una autopista, uno es un poco más obstinado con las muestras fortuitas de uno,
encontradas personalmente ó indirectamente. Y los estudios científicos de la inferencia
humana citados en este trabajo usaron sujetos, materiales y ajustes que no fueron
369

muestreados estadísticamente pero estuvieron convenientemente a mano ó fácilmente


explicable.
3. Finalmente, la aleatoriedad no es una propiedad directamente observable ó auto-
evidente de un proceso de muestreo: es una propiedad de modelos matemáticos, los cuales
pueden ó no ser buenas descripciones de los procesos del mundo real. Una muestra fortuita
puede ser efectivamente “aleatoria” porque creemos que ciertos modelos son buenas
descripciones del mundo, y, como hemos señalado, un hábil modelador de estadística puede
capturar tales intuiciones en una formulación matemática adecuada.
Cómo podríamos prescribir para el problema relacionado de la tipicalidad de las
características covariantes? Superficialmente, podría parecer atractivo formular una crítica
contra la generalización de una muestra que difiere sustancialmente de la población objetivo
sobre características que concebiblemente son relevantes. De acuerdo a esta regla, los sujetos
que conocieron que la muestra del caso del servicio social era atípica en una característica
relevante (longitud de tiempo de estar en el servicio social) deberían tener suspendidas todas
las inferencias sobre otras características de los casos del servicio social en general. Pero esta
regla está sujeta a las misas clases de crítica como la de la aleatoriedad. La crítica epistémica
es exactamente la misma: una regla correcta debe tomar en cuenta los mecanismos cognitivos
actuales usados en sacar las inferencias de cada día y deben ser capaces de ser seguidas. La
crítica pragmática es similar a la de la regla previa. En la mayoría de los estudios científicos
uno puede encontrar algunas características de la muestra que son atípicas y que
concebiblemente son relevantes. Cuánto cree uno en un modelo que asevera que tales
características son altamente relevantes en grado sumo. Finalmente, aún si sabemos ó
fuertemente sospechamos, que una característica covariante atípica es importante, podemos
aún ser capaces de capturar su importancia en un modelo e introducir una apropiada
corrección. En el ejemplo del ingreso de músicos y poetas aficionados, podríamos tratar de
conseguir un grueso estimado de los efectos de la edad y el sexo y comparar la media
ajustada para los dos grupos. Por supuesto, en el ejemplo, sería casi inconcebible que
podríamos sacar inferencias con alguna confianza – pero que es precisamente debido a que
carecemos de un buen modelo para los efectos del ingreso por edad y sexo.
Existen talvez principios más suaves y menos prohibitivos que pueden ser usados?
Nosotros trataríamos, por ejemplo, “”Que el conocimiento es tentativo”. Todo está correcto
hasta que el continúa, pero parece muy vago ser de mucho uso. Necesitamos detalladas
heurísticas estadísticas. Cuánta confianza colocaríamos en las generalizaciones sacadas de
muestras fortuitas? Qué clases de inferencias tentativas puede uno hacer de las muestras
atípicas? En parte, estas interrogantes son dirigidas a estadísticos y a filósofos. Existe alguna
aproximación al modelo de construcción que puede ser una fuente de heurísticas estadísticas
para la inferencia tentativa? Pero nuestra discusión de mecanismos de formación de actitud y
de los procesos inconscientes que afectan la inferencia dejarían claro que, como Goldman
(1978) ha urgido, los principios epistémicos deben pasar pruebas de usabilidad así como de
validez. Y aquí confrontamos aún otro asunto. Parte de los procesos inferenciales que
deseamos modificar es automático e inconsciente (Bem & McConnell, 1970; Goethals &
Reckman, 1973; Nisbett & Wilson, 1977). A qué costo es la automaticidad evitada? La
comprensión de instrucciones, novelas cortas, motivos, etc. demandan un flujo de
inferencias en cada hora de despertar. Es razonable sospechar que la automaticidad puede ser
encontrada para estas funciones a cercanamente la misma extensión como para la percepción.
Buenas heurísticas estadísticas deberían ser aprendibles al punto donde ellas pueden ser
usadas fácilmente, aún automáticamente.

Pueden los modelos probabilísticos ser usados en la inferencia diaria?


370

Nosotros concebimos una programa en el cual los modelos probabilísticos y la heurísticas


estadísticas serán incorporadas eventualmente dentro del razonamiento diario de la mayoría
de la gente. Hemos discutido dos mayores dificultades con tal programa: ignorancia sobre
qué modelos son correctos y la ausencia de convenientes heurísticas estadísticas en algunas
áreas importantes. Una tercera, igualmente difícil interrogante, la cual es por supuesto
lógicamente previa, concierne a la capacidad humana para incorporar modelos probabilísticos
y heurísticas dentro del pensar diario. A pesar de las dificultades existen campos para el
optimismo, y algunas interrogantes pueden prestarse ellas mismas a la investigación
experimental de un tipo que esbozaremos más adelante.
Una razón para el optimismo es que el razonamiento humano cambia con nuevas
invenciones culturales. Los genuinos avances inferenciales parecen haber ocurrido dentro de
los recientes tiempos históricos. La noción moderna de la probabilidad tiene escasamente
más de 300 años de existir (Hacking, 1975). Y previo a alrededor de 1660, las nociones que
fueron en cualquier sentido probabilísticas fueron aplicadas casi exclusivamente al
entendimiento de eventos generados por mecanismos de aleatoriedad, tal como el dado y las
cartas. Aún virtualmente hoy cada persona educada emplea esencialmente el razonamiento
estadístico en algunos dominios, por ejemplo, deportes y clima, y tiene un entendimiento
estadístico de mecanismos de aleatoriedad como las cartas y el dado que es muy diferente de
las concepciones pre-modernas. (Hacking va más lejos como para decir que cualquiera
jugando un dado en tiempos ancestrales con concepciones modernas de la probabilidad la
totalidad de Gaul en corto orden!).
Además de las nociones puramente estadísticas, una buena cantidad de principios
inductivos y guías son de muy reciente cosecha. La noción de que la correlación no es
suficiente para establecer la casualidad no aparece después de Hume y no recibe una clara
declaración general hasta el Manual de Falacias Políticas de Bentham (1824/1952). Una
acusación general del “criterio de semejanza” (Nisbett y Ross, 1980) como una base para
inferir las relaciones de causa y efecto no aparecen hasta el Sistema de la lógica de Mills
(1843/1974). Ciertamente, hasta el final del siglo XVIII una regla muy opuesta fue seguida
por los médicos, quienes fueron enseñados a razonar de acuerdo con la “doctrina de recetas”.
Esta doctrina sostuvo que cada agente curativo natural podría esperarse que indicara , por una
bien marcada propiedad externa, la enfermedad para la cual ella fue efectiva. Por lo tanto
duros, objetos llenos de piedras fueron útiles en el tratamiento de cálculos biliares, objetos
amarillos fueron útiles en combatir la ictericia, etc. Afortunadamente, los médicos han
probado ser capaces de abandonar esta heurística inductiva a favor de otras superiores.
Una segunda razón para el optimismo es que un buen razonamiento puede algunas veces
ser más rápido y más fácil que el razonamiento erróneo. Hemos dicho que los errores algunas
veces vienen de la sobre-simplificación y que los modelos exactos pueden ser complejos.
Pero lo opuesto puede ser verdadero también. Los errores pueden surgir del excesivamente
complejo razonamiento causal, y la falta de una buena aproximación simple a un problema
puede causar que la gente genere varias complicadas aproximaciones pobres. En uno de
nuestros corrientes experimentos, nosotros estamos conduciendo entrevistas telefónicas sobre
deportes en las cuales hemos insertado algunas interrogantes que se prestan a sí mismas a
respuestas probabilísticas. A menudo obtenemos cortas, instantáneas (y en nuestra opinión
correctas) respuestas probabilísticas. Otros entrevistados, quienes no piensan de una
aproximación probabilística, indecisamente ofrecen varias extensas explicaciones
determinantes, ninguna de las cuales parece convencer aún a los entrevistados mismos que
ellos están en el camino correcto.
Ambas la evidencia histórica y la evidencia anecdótica reflejan el mismo punto
importante. Aún los procesos rápidos y automáticos de la inferencia humana sacan los
conceptos y modelos bien aprendidos. El razonamiento humano y las formas del argumento
371

preferido por consiguiente cambian, no meramente como una función de la maduración


individual, sino también como una función de cambios en el lenguaje, cultura y educación.
Nosotros hemos recientemente empezado un programa de investigación para examinar
cómo la razón de la gente, y cómo ellos aprenden a razonar, sobre problemas que deberían,
en nuestra opinión, ser aproximados con un punto de vista probabilístico. Hemos usado
problemas con una variedad de estructuras diferentes y con un contenido que tiende, en un
mayor ó menor grado, a evocar el pensamiento probabilístico. Este no es el lugar para
intentar aún un reporte preliminar de resultados, pero puede ser útil ilustrar los materiales que
estamos usando en orden de indicar las interrogantes que nosotros sentimos son de valor
preguntar. Para ilustrar los materiales, ofrecemos el problema siguiente.

Escogencia de universidad

David L. fue un estudiante de último año en la escuela secundaria en la Costa Este quien estaba
planeando ir a la universidad. El había completado un excelente record en la escuela secundaria y
había sido admitido en sus dos mejores escogencias: una pequeña universidad de artes liberales y una
universidad Ivy League. Las dos escuelas estaban casi iguales en prestigio y eran iguales en costo.
Ambas estaban localizadas en ciudades atractivas de la Costa Este, casi igualmente distantes de su
pueblo natal. David tenía varios amigos mayores que él que estaban asistiendo a la escuela de artes
liberales, todos reportaban que a ellos les gustaba mucho el lugar y que ellos lo encontraban muy
estimulante. Los amigos en la universidad de Ivy League reportaron que ellos tenían muchas quejas
en ambos campos personal y social y en los campos educacionales. David inicialmente pensó que él
iría a la escuela de artes liberales. Sin embargo, él decidió visitar ambas escuelas personalmente por
un día. A él no le gustó lo que vio en la escuela privada de artes liberales: Varias personas a quienes el
conoció le parecieron fríos y desagradables; un profesor que él conoció brevemente le pareció abrupto
y desinteresado en él; y a él no le gustó el “ambiente” del campus. A él le gustó lo que vio en la
universidad de Ivy League: Varias de las personas que él conoció le parecieron como vitales,
entusiastas, gente placentera; él se encontró con dos diferentes profesores quienes tomaron un
personal interés en él; y él salió con un muy placentero sentimiento sobre el campus.
Cuál escuela debería David L. escoger, y por qué? Trate de analizar los argumentos de ambos
lados, y explique cuál lado es el más fuerte.
Este es un particularmente difícil problema, debido a que contiene dos diferentes
componentes probabilísticos: (a) un argumento de base-proporción, para el efecto de que
David L. sea improbable que venga del vínculo de una distribución (de las reacciones de sus
amigos, el puede adivinar que la respuesta modal a la escuela de artes liberales es muy
favorable y que la variabilidad es baja), y (b) un argumento de tamaño de muestra/prejuicio
de muestra concerniente a la adecuación de su exposición del día. Nosotros adivinamos, del
trabajo piloto, que cada uno de estos componentes probabilísticos está bloqueado por un set
común de creencias, a saber que el perfil del individuo de aversiones y preferencias es único
y es predecible solo de esa experiencia y personalidad del individuo, y que los sentimientos
del individuo, sin embargo misteriosos en su origen, son al menos seguros, con un poco de
información sobre un objeto siendo suficiente para producir una predicción de gustos ó
disgustos que proveen una guía de confianza para futuras reacciones. La mayoría de estas
respuestas abiertas al problema reflejan estas creencias (por ejemplo, “El ha conseguido
escoger por sí mismo, no sus amigos”). Pero no todos lo hacen. Aquí está una respuesta de
un no graduado sin trabajo de curso en probabilidad ó estadística:

Yo diría que él debería ir a la escuela de artes liberales. Su experiencia negativa allí fue muy corta, un
contacto muy superficial con la escuela. Sus amigos, todos verdaderos clones de él mismo, han estado
allí (presumiblemente) por un rato y conocen el lugar íntimamente, y les gusta, mientras que las
declaraciones opuestas son verdaderas de la escuela Ivy League. El sería justificado, sin embargo,
para ir con sus propios sentimientos sobre los lugares. A menudo, esta intuición es una percepción
372

más alta que no podemos analizar, y él puede estar correcto de ir con ella. Yo pienso, sin embargo,
que la primera escogencia que yo he mencionado es más de fiar, porque su experiencia es demasiado
limitada con las dos escuelas.

La respuesta que nosotros consideramos como una completa estadística satisfactoria,


aunque por supuesto no está expresada en el lenguaje de los modelos de probabilidad.
Empezamos estos estudios con la sospecha de que en la mayoría de los casos donde un
modelo probabilístico formal puede ser aplicado útilmente por un estadístico existen
análogos en el mundo de cada día en el cual un uso intuitivo similar del pensamiento
probabilístico ocurre frecuentemente en la persona lega inteligente. Por ejemplo, hicimos
notar anteriormente que la gente ordinariamente falla al formular un modelo en el cual un
comportamiento del individuo es visto como una función de ambas variables situacionales y
variables disposicionales, y en las cuales algunas situaciones dan origen a una alta
probabilidad del comportamiento a través de la mayoría de individuos. Aún nosotros
pensamos que la gente opera con algo como esa clase de modelo cuando el comportamiento
es una buena ejecución en una prueba. El concepto de una “prueba fácil”, donde la mayoría
de la gente tiene una alta probabilidad de una buena ejecución, es ampliamente conocido y
usado en nuestra cultura. Nosotros sospechamos que otras clases de modelos probabilísticos,
para otras clases de problemas, también serían aplicados en la inferencia diaria. Nuestros
experimentos intentan demostrar este punto, mostrando que la gente puede hacerlo bien con
ciertos problemas, mientras fallando en otros con estructura formal similar, porque sus
modelos fundamentales para los últimos problemas carecen de un componente probabilístico.
En esta sospecha está confirmado, que somos conducidos a un número de interrogantes
que podemos tratar de responder experimentalmente. A qué grado es bueno el razonamiento
probabilístico debido a la aplicación de un modelo formal ó abstracto de alguna clase? Por
qué debería ser un modelo formal fácilmente aplicado en algunas clases de problemas
concretos y raramente en otros? Si el razonamiento exitoso no es la aplicación de un modelo
formal de contenido libre, entonces cómo debería ser el descrito en términos teóricos? Otras
interrogantes conciernen a diferencias individuales en el modelaje y uso de las reglas. A qué
grado es el uso del razonamiento probabilístico una disposición personal estable?
Correlacionado con la inteligencia? Relacionado a un historial educativo?
Finalmente existe un set de importantes interrogantes concernientes a los asuntos de la
enseñanza de los modelos probabilísticos. La cuestión ha ya recibido una respuesta en
nuestra investigación: La gente puede ser enseñada, ambos por cursos de estadística
tradicional y por métodos más rápidos, para responder al menos muchos “problemas de
palabra” de la clase de arriba en un estilo más probabilístico. A qué grado existe un
remanente de los juicios actuales de la vida diaria, cuáles técnicas de enseñanza son más
efectivas, y, que los mejores principios y métodos inductivos de enseñar son – éstas son
importantes interrogantes que solo nos hemos empezado a preguntar. Esperamos que
tendremos la ayuda de muchos lados.
373

Parte IX

Riesgo de percepción
374

33. Hechos versus temores: Entendiendo el riesgo


percibido

Paul Slovic, Baruch Fischhoff, y Sara Lichtenstein

La gente responde a los peligros que ellos perciben. Si sus percepciones son erróneas, los
esfuerzos de protección personal, pública y del medio ambiente son probables de ser mal
dirigidos. Para algunos peligros, tales como accidentes de vehículos de motor, extensos datos
estadísticos están en seguida disponibles. Para otras actividades familiares, tales como el
consumo de alcohol y tabaco, la evaluación de riesgo requiere de estudios complejos
epidemiológicos y experimentales. Sin embargo, aún cuando los datos estadísticos son
abundantes, los hechos “difíciles” pueden solo ir tan lejos hacia el desarrollo de una política.
375

En algún punto, el juicio humano es necesario para interpretar los descubrimientos y


determinar su relevancia. Aún otros peligros, tales como aquellos asociados con la
investigación del DNA ó el poder nuclear, son tan nuevos que la evaluación de riesgos debe
estar basada en análisis teóricos complejos tales como los árboles erróneos (ver Figura 1),
más que en la experiencia directa. A pesar de una apariencia de objetividad, estos análisis,
también, incluyen un grande componente de juicio. Alguien apoyándose en la intuición
educada, debe determinar la estructura del problema, las consecuencias a ser consideradas, y
la importancia de varias ramas del árbol erróneo. Una vez los análisis han sido ejecutados,
deben ser comunicados a aquellos quienes actualmente dirigen los peligros, incluyendo
industriales, ambientalistas, reguladores, legisladores y votantes. Si esta gente no entiende ó
cree en los datos que son mostrados, entonces desconfianza, conflicto, e inefectiva dirección
de los peligros son probables.
Este capítulo explora algunos elementos psicológicos de los procesos de evaluación de
riesgos. Sus premisas básicas son que ambas los participantes públicos y los participantes
expertos son necesarios en esos procesos, que la evaluación es inherentemente subjetiva, y
que el entendimiento de las limitaciones del juicio es crucial para una efectiva toma de
decisión.

Prejuicios críticos en la percepción de riesgo

Cuando la gente lega es requerida a evaluar riesgos, ellos rara vez tienen evidencia estadística

Esta es una versión revisada de un trabajo que originalmente apareció en R. Schwing y W. A. Albers Jr. (Eds.),
Sociedad de Evaluación de Riesgo: Cuán seguro es seguro suficiente? New York: Plenum Press, 1980.
Derechos de Autor © 1980 por Plenum Press. Reimpreso con permiso.

Soporte para este trabajo fue proveído por el Programa de Evaluación de Tecnología y Análisis de Riesgo de la
National Science Foundation bajo Subvención PRA79-11934 para Clark University bajo subcontrato de
Perceptronics, Inc.

Insertar aquí la Figura 1 de la página 464 del texto original

a la mano. En la mayoría de casos, ellos deben hacer inferencias basadas en lo que ellos
recuerdan oyendo ú observando sobre el riesgo en cuestión. La investigación psicológica,
mucha de la cual ha sido descrita anteriormente en este libro, ha identificado un número de
reglas inferenciales muy generales que la gente parece usar en tales situaciones. Estas reglas
del juicio, conocidas como heurísticas, son empleadas para reducir las tareas mentales
difíciles a unas más simples. Aunque ellas son válidas en algunas circunstancias, en otras
ellas conducen a grandes y persistentes prejuicios con serias implicaciones para tomar una
decisión en áreas tan diversas como el análisis financiero (Slovic, 1972c) y la dirección de
los peligros naturales (Slovic, Kunreuther & White, 1974).

Disponibilidad

Una heurística que tiene especial relevancia para la percepción de riesgo es llamada
disponibilidad (Tversky & Kahneman, 1973, 11). La gente usando este juicio heurístico de un
evento tan probable ó frecuente si las instancias de el son fáciles de imaginar ó recordar.
Debido a que frecuentemente los eventos que ocurren son generalmente más fáciles de
imaginar de y recordar que los eventos raros, la disponibilidad es a menudo una norma
apropiada. Sin embargo, la disponibilidad está también afectada por numerosos factores no
376

relacionados a la frecuencia de ocurrencia. Por ejemplo, un desastre reciente ó una vívida


película, tal como Jaws ó The China Syndrome, podrían seriamente distorsionar los juicios
del riesgo.
El prejuicio de disponibilidad ayuda a explicar las malas percepciones y decisiones
erróneas de la gente con respecto a ciertos peligros. Por ejemplo, en discutir el torrente de
palabras de los residentes, Kates (1962) escribió:

Una limitación a la habilidad humana para el uso mejorado de la información del flujo de información
es una confianza básica en la experiencia. Hombres en el flujo completo parecen ser estar muy
prisioneros de su experiencia. . . . Los flujos recientemente experimentados parecen fijar una unión
ascendente al tamaño de la pérdida con la cual los directores creen que ellos deben estar preocupados
(p. 140)

Kates atribuyó mucha de la dificultad en mejorar el control del flujo a la “inhabilidad de


los individuos de conceptualizar los flujos que nunca han ocurrido” (Kates, 1962, p. 92). El
observó que la predicción potencial del flujo de los individuos “están fuertemente
condicionados por su inmediato pasado y limitan su extrapolación a construcciones
simplificadas, viendo el futuro como un espejo de ese pasado” (p. 88). Similarmente, la
compra de un seguro de terremoto se incrementa grandemente después de un temblor y
entonces decrece constantemente a la par que las memorias de desvanecen (Steinbrugge,
McClure & Snow, 1969).
Una particularmente importante implicación de la heurística de disponibilidad es que la
discusión de una baja probabilidad de peligro puede incrementar su memorización e
imaginación y de aquí su percibido riesgo, sin tomar en cuenta lo que la evidencia indica. Por
ejemplo, los líderes en el campo de recombinar la investigación del DNA rápidamente
lamentaron todo trayendo a la atención pública los riesgos remotos de contaminación por
organismos recientemente creados. Rosenberg (1978) resumió la reacción que siguió a la
revelación de tales hipotéticos riesgos:

Insertar aquí la Figura 2 de la página 466 del texto original.

Inicialmente, la respuesta fue una de alabanza . . . la responsabilidad social mostrada por los
científicos involucrados. . . . Gradualmente y predeciblemente, sin embargo, el debate se acaloró. La
especulación abundó y austó al escenario, mientras más amplia fue la publicidad que el recibió.
Muchas de las discusiones del asunto completamente perdieron de vista el hecho que los peligros
fueron hipotéticos en el primer lugar y asumieron que los laboratorios recombinantes del DNA
estuvieron llenos de furores espantosos. Ultimadamente, los verdaderos científicos cuya auto-
restricción habían fijado el proceso completo en movimiento fueron denigrados. (p. 29)

Frecuencia juzgada de los eventos letales. El prejuicio de disponibilidad está ilustrado por
varios estudios en los cuales los estudiantes de la universidad y miembros de la Liga de
Mujeres Votantes juzgaron la frecuencia de 41 casos de muerte (Lichtenstein et al., 1978). En
un estudio, a estas gentes se les dijo que el registro actual de muertes por 1 causa (accidentes
de vehículo automotor) en los Estados Unidos (50,000) y entonces fueron requeridos a
estimar la frecuencia de otros 40. En otro estudio, los participantes fueron requeridos a juzgar
cuál de las 2 causas de muerte fue más frecuente. En ambos estudios, los juicios fueron
moderadamente exactos en un sentido global: La gente usualmente conoció cuales fueron los
más y los menos frecuentes eventos letales. Dentro de este cuadro global, sin embargo, la
gente hizo serios malos juicios, muchos de los cuales parecieron reflejar la influencia de la
disponibilidad.
377

La Figura 2 compara del número de juzgado de muertes por año con el número reportado
en las estadísticas públicas de salud. Si la frecuencia de los juicios fue exacta, ellos igualarían
las proporciones estadísticas, con todos los puntos de datos fallando en la línea de identidad.
Aunque los peligros más probables generalmente provocaron estimaciones más altas, los
puntos parecen dispersos sobre una línea curvada que descansa algunas veces arriba y
algunas veces debajo de la línea de juicio exacto. En general, raras causas de muerte fueron
sobreestimadas y causas comunes de muerte fueron subestimadas.
En adición a este prejuicio general, considerables prejuicios específicos fueron evidentes.
Por ejemplo, los accidentes fueron juzgados de causar tanto muertes como enfermedades,
mientras que las enfermedades actualmente toman alrededor de 16 veces más vidas. Los
homicidios fueron incorrectamente juzgados más frecuentes que las muertes por diabetes y
cáncer de estómago. Los homicidios fueron también juzgados ser casi tan frecuentes como la
muerte por un ataque, aunque el último actualmente reivindica alrededor de 11 veces más
vidas. Las frecuencias de muerte por botulismo, tornados y embarazo (incluyendo nacimiento
y aborto) fueron también grandemente sobreestimados. La Tabla 1 lista los eventos letales
cuyas frecuencias fueron más pobremente juzgadas en nuestros varios estudios. En guardar
con consideraciones de disponibilidad, causas sobreestimadas de muerte fueron dramáticas y
sensacionales, mientras que las causas subestimadas tendieron a no ser eventos
espectaculares, los cuales reclaman una víctima a la vez y son comunes en forma no fatal.

Cobertura prejuiciada de la prensa y juicios prejuiciados. Características notables de la


disponibilidad heurística el papel vital de la experiencia como una determinante del riesgo
percibido. Si las experiencias de uno son prejuiciadas , las percepciones de uno son probables
de ser inexactas. Desafortunadamente, mucha de la información a la cual la gente está
expuesta provee un cuadro distorsionado del mundo de peligros. Considera la observación
del autor Richard Bach sobre el miedo mostrado por una pareja tomando su primer viaje en
avión:

En todo lo que el viento y el trueno del motor y la tierra inclinándose y haciéndose pequeña debajo de

Tabla 1. Prejuicio en la frecuencia juzgada de muerte 3. _________________________


Más Más
sobreestimado subestimado
Todos los accidentes Vacuna contra la viruela
Accidentes en vehículo de motor Diabetes
Embarazo, nacimiento y aborto Cáncer de estómago
Tornados Rayo
Inundación Choque
Botulismo Tuberculosis
Todos los cáncer Asma
Fuego y llamas Enfisema
Mordida venenosa ó picadura
Homicidio

Fuente: Slovic, Fischhoff & Lichtenstein (1979)

nosotros, yo observé a mi muchacho de Wisconsin y su chica, verlos cambiar. A pesar de sus


carcajadas ellos habían estado temerosos del avión. Su único conocimiento de vuelo vino de los
titulares del periódico, un conocimiento de colisiones, accidentes y fatalidades. Ellos nunca habían
leído un simple reporte de un pequeño avión despegar, volando a través del aire y aterrizando otra vez
con seguridad. Ellos solo podían creer que esto debe ser posible, a pesar de todo lo de los periódicos,
y en esa creencia ellos arriesgaron sus tres dólares y sus vidas. (Bach, 1973, p. 37)
378

Como un seguimiento a los estudios reportados arriba, Combs y Slovic (1979)


examinaron el reporte de causas de muerte en dos periódicos de costas opuestas de los
Estados Unidos. Varios índices de la cobertura de periódico fueron grabados por meses
alternos sobre un período de una año. Los resultados indicaron que ambos periódicos tenían
similares prejuicios en su cobertura de eventos de tratamiento de la vida. Por ejemplo, el
examen de la Tabla 2 muestra que muchas de las estadísticamente frecuentes causas de
muerte (por ejemplo, diabetes, enfisema, varias formas de cáncer) fueron raramente
reportados por uno ú otro periódico durante el período bajo estudio. Además, violentos, a
menudo catastróficos, eventos como los tornados, fuegos, ahogados, homicidios, accidentes
de vehículos de motor, y todos los accidentes fueron reportados mucho más frecuentemente
que causas de muerte menos dramáticas teniendo similares (ó aún más grandes) frecuencias
estadísticas. Por ejemplo, las enfermedades toman alrededor de 16 veces más vidas que los
accidentes, notando casi 7 veces más muertes.
. Entre los eventos más frecuentes, los homicidios fueron la categoría más grandemente
reportada en proporción a la frecuencia actual. Aunque las enfermedades reclaman casi 100
veces más vidas que los homicidios, existen alrededor de 3 veces más artículos sobre muertes
por homicidios que sobre enfermedades. Además, los artículos sobre homicidios tendieron a
ser más del doble de largos que los artículos reportando muertes por enfermedad y accidente.
Más aún, los prejuicios en la cobertura del periódico y los juicios de la gente fueron muy
similares. La correlación entre la frecuencia juzgada de muerte y el número de muertes
reportadas en los periódicos fue de alrededor de .70. Esta alta correlación no fue debida a una
asociación común de ambas muertes juzgada y reportada con la frecuencia estadística.
Cuando la última se sostuvo constante, las correlaciones parciales entre los juicios de la gente
y el número reportado de muertes fue .89 y .95 para los dos periódicos. Aunque es tentador
concluir de estas correlaciones que los prejuicios de la cobertura media de percepciones de
riesgo, podría también ser el caso que la opiniones de la gente sobre lo que es importante la
influencia de la media. La literatura periodística está repleta con instancias en las cuales la
influencia ha ocurrido en cada dirección (Brucker, 1973).
Tabla 2. Frecuencia estadística y cobertura del periódico en el Eugene, Oregon, Register Guard y el
New Bedford, Massachusetts, Standard Times para 41 casos de muerte

Muertes Ocurren- Artí-


Proporción por reportadas cia culos
2.05x108 Estimados ___________________________________
Causas de muerte res. en EU. de los sujetos R-G S-T R-G S-T R-G S-T
1. Viruela 0 57 0 0 0 0 0 0
2. Envenenamiento por
vitaminas 1 102 0 0 0 0 0 0
3. Botulismo 2 183 0 0 0 0 0 0
4. Sarampión 5 168 0 0 0 0 0 0
5. Fuegos artificiales 6 160 0 0 0 0 0 0
6. Vacunación contra la viruela 8 23 0 0 0 0 0 0
7. Tos ferina 15 93 0 0 0 0 0 0
8. Poliomielitis 17 97 0 0 0 0 0 0
9. Mordedura venenosa ó
picadura 48 350 0 0 0 0 0 0
10. Tornado 90 564 36 25 10 6 14 7
11. Tempestad eléctrica 107 91 1 0 1 0 1 0
12. Animal no venenoso 129 174 4 2 4 2 4 2
13. Inundación 205 736 4 10 2 2 2 2
14. Exceso de frío 334 314 0 0 0 0 0 0
379

15. Sífilis 410 492 0 0 0 0 0 0


16. Embarazo, nacimiento y
aborto 451 1,344 0 0 0 0 0 0
17. Hepatitis infecciosa 677 545 0 0 0 0 0 0
18 Apendicitis 902 605 0 0 0 0 0 0
19. Electrocución 1,025 766 5 0 5 0 6 0
20. MV/colisión de tren 1,517 689 0 1 0 1 0 1
21. Asma 1,886 506 1 0 1 0 1 0
22. Accidente/Arma de fuego 2,255 1,345 8 1 8 1 9 1
23. Envenenamiento por
sólidos y líquidos 2,563 1,013 3 3 1 1 1 1
24. Tuberculosis 3,690 658 0 0 0 0 0 0
25. Fuego y llamas 7,380 3,336 94 46 33 9 38 10
26. Ahogados 7,380 1,684 47 60 44 24 45 37
27. Leucemia 14, 555 2,496 1 0 1 0 1 0
28. Caídas accidentales 17, 425 2,675 15 7 15 6 16 9
29. Homicidio 18, 860 5,582 278 208 167 122 329 199
30. Enfisema 21, 730 2,848 1 0 1 0 1 0
31. Suicidio 24,600 4,679 29 19 28 18 36 20
32. Cáncer de mama 31,160 2,964 0 0 0 0 0 0
33. Diabetes 38,950 1,476 0 1 0 1 0 1
34. Accidente en vehículo
de motor 55,350 41,161 298 83 245 69 180 73
35. Cáncer del pulmón 75,850 9,764 3 2 3 2 4 2
36. Cáncer de estómago 95,120 3,283 0 1 0 1 0 1
37. Todos los accidentes 112,750 88,879 715 596 421 152 374 177
38. Ataque cardíaco 219,100 7,109 12 4 12 4 13 4
39. Todo cáncer 328,000 45,609 25 12 25 12 26 15
40. Enfermedad del cora-
zón 738,000 23,599 49 30 45 25 46 25
41. Toda enfermedad 1,740,450 88,838 111 87 100 76 104 78
continuación de Tabla 2........

No. total de reportes


(causas 10, 11,13, 29, 31, 37 & 41) 1,174 945 729 376 860 483
Correlaciones (R-G vrs. S-T) r = .97 r = .94 r = .98

Nota: R-G = Registro del Guard; S-T = del Standard Times.


Fuente: Combs & Slovic (1979).

No me pasará a mí. Los juicios de la gente de causas de muerte podrían ser casi tan buenos
como podría esperarse, dado que ellos no son ni especialistas en los peligros considerados ni
expuestos a una muestra representativa de información. La exacta percepción de las muestras
de información mal conducidas podrían también ser vistas para subrayar otro aparente
prejuicio del juicio, la percepción de la gente de verse ellos mismos como personalmente
inmunes a los peligros. La gran mayoría de individuos se creen a sí mismos ser mejores que
el promedio de conductores (Näätätänen & Summala, 1975; Svenson, 1981), más probable
que el promedio de vida pasados los 80 (Weinstein, 1980), menos probable que el promedio a
ser dañado por los productos que ellos usan (Rethans, 1979), etc. Aunque tales percepciones
son obviamente irreales, el riesgo luce muy pequeño desde la perspectiva de la experiencia de
cada uno. Considere el manejo de un automóvil: A pesar de manejar demasiado rápido, seguir
muy de cerca, etc., los pilotos pobres efectúan un viaje tras otro sin que pase nada. Esta
experiencia personal les demuestra su excepcional habilidad y seguridad. Más aún, su
380

experiencia indirecta vía los medios noticiosos les muestra que cuando los accidentes
suceden, ellos les pasan a otros. Dadas tales experiencias engañosas, la gente puede sentirse
muy justificada en rechazar la toma de acciones protectoras tales como portar el cinturón de
seguridad (Slovic, Fischhoff & Lichtenstein, 1978).

Fuera de la vista, fuera de la mente. En algunas situaciones, la falla en apreciar los límites de
los datos “disponibles” puede calmar a la gente dentro de la complacencia. En un estudio por
Fischhoff, Slovic y Lichtenstein (1978), tres grupos de sujetos estudiantes de universidad
fueron requeridos a evaluar la conclusión de un árbol erróneo mostrando los riesgos
asociados con arrancar un carro (vea la Figura 3). Un grupo vio el árbol completo. Cada uno
de los otros dos grupos vio un diferente árbol cercenado. En una versión, el arranque, la
ignición y las ramas dañadas fueron desaparecidas; la otra versión careció de ramas
detallando la batería, el combustible y otros problemas del motor.
Las instrucciones para la tarea a leer son como sigue (los números entre paréntesis fueron
dados a la gente que vieron los árboles cercenados):

Todos los días, a través de los Estados Unidos, millones de conductores realizan el acto de entrar en
un automóvil, insertar una llave en el switch de encendido, e intentar arrancar el motor. Algunas veces
el motor falla en encender, y el viaje es postergado. Nos gustaría que usted piense sobre los varios
problemas que podrían ser suficiente serios para causar que un carro falle en arrancar por lo tanto el
viaje del conductor es postergado al menos 1 minuto.
La intención del gráfico de la página siguiente es para ayudarlo a pensar sobre este problema. El
muestra seis [tres] deficiencias mayores que causen que el motor de un carro falle en el arranque.
Estas categorías mayores probablemente no cubren todas las posibilidades, por tanto hemos incluido
una séptima [cuarta] categoría, Todos los Otros Problemas.
Por favor examine este diagrama cuidadosamente y responda la pregunta siguiente:
Por cada 100 veces que un viaje es postergado debido a “falla en el arranque”, estime, en
promedio, cuántos de aquellos retrasos son causados por cada una de los siete [cuatro] factores. Haga
sus estimados en las líneas en blanco siguientes a los factores etiquetados abajo. Sus estimados
deberían sumar 100.
Insertar aquí la Figura 3 de la página 471 del texto original

Si la gente que vio los árboles cercenados estuviera apropiadamente sensitiva a lo que
había sido omitido, la proporción de los problemas que ellos atribuyeron a “otro” habría
igualado la suma de las proporciones de los problemas atribuidos a las ramas cercenadas y a
“otro” por aquellos que vieron el árbol completo. Los resultados en la Tabla 3 indican que lo
que estuvo fuera de la vista estuvo efectivamente fuera de la mente. Por ejemplo, en el Grupo
1 del árbol cercenado, “otro” debería haberse incrementado por un factor de seis (de .078 a .
468) para reflejar la proporción de fallas debidas a problemas y daños en el arranque e
ignición, los cuales habían sido omitidos del diagrama. En vez de eso, “otro” fue solo
duplicado, mientras que la importancia de los tres sistemas del árbol que fueron mencionados
fueron sustancialmente incrementados. Un segundo estudio no solo replicó estos
descubrimientos sino mostró que las personas que observaron los árboles cercenados
juzgaron la falla en el arranque (debido a todas las causas) ser menos probable que lo
hicieron aquellos que observaron el árbol no cercenado.

Tabla 3. Atribución de fallas en el arranque para árboles cercenados y no cerecenados


M proporción de fallas en el arranque por tipo
__________________________________________________________
Arranque Combustible Ignición
Grupo_____________n___Batería__del sistema__del sistema__del sistema__motor__Daño__Otro__
Árbol no cercenado 93 .264 .195 .193 .144 .076 .051 .078
381

Árbol cercenado 1 29 .432 .---- .309 ---- .116 ---- .140 a


Árbol cercenado 2 26 ---- .357 ---- .343 ---- .073 .227 b

Nota: Una raya indica que la rama fue eliminada.


a
Debería ser .468.
b
Debería ser .611
Fuente: Fischhoff, Slovic y Lichtenstein (1978).

Exceso de confianza

Conociendo con certeza. Un aspecto particularmente pernicioso de la heurística es que la


gente típicamente tiene gran confianza en los juicios basados sobre ellas. En otro seguimiento
al estudio sobre causas de muerte, la gente fue requerida a indicar las probabilidades de que
ellos estuvieron correctos el escoger el más frecuente de los dos eventos letales (Fischhoff,
Slovic & Lichtenstein, 1977). La tabla 4 muestra los porcentajes de respuestas correctas para
cada una de las categorías más frecuentemente usadas. En el experimento 1, los sujetos
fueron razonablemente bien calibrados cuando ellos dieron probabilidades de 1:1, 1.5:1, 2:1,
y 3:1. Que significa que sus porcentajes de respuestas correctas estuvo cerca del porcentaje
apropiado correcto, dado por aquellas probabilidades. Sin embargo, mientras las
probabilidades se incrementaron de 3:1 a 100:1, hubo poco ó ningún incremento en la
exactitud. Solo 73% de las respuestas asignaron que la probabilidad de 100:1 estaba correcta
(en lugar de 99.1%). La exactitud “saltó” de 81% a 1000:1 y de 87% a 10,000:1. Para
respuestas asignadas de probabilidades de 1,000,000:1 ó mayores, la exactitud fue 90%; el
grado apropiado de confianza habría sido probabilidades de 9:1. El 12% de respuestas que no
están listados en la Tabla 3 debido a que ellos se sintieron entre las categorías más comunes
mostraron un patrón similar de exceso de confianza. En resumen, los sujetos estuvieron
frecuentemente equivocados en aún los más altos niveles de probabilidad. Más aún, ellos
Tabla 4. Porcentaje de respuestas correctas para mayores categorías de probabilidad.
Preguntas de
Eventos letales__________________________ conocimiento general
b b
Experimento 1 Experimento 2 Experimento 3b
_________________ ________________ _______________
% apropiado
a % % %
Probabilidad corregira N %N correcto N %N correcto N %N correcto
1:1 50 644 9 53 339 8 54 861 19 53
1.5:1 60 68 1 57 108 2.5 59 210 5 56
2:1 67 575 8 64 434 10 65 455 1 63
3:1 75 189 2 71 522 6 65 157 3.5 76
5:1 83 250 4 70 322 8 71 194 4 76
10:1 91 1,167 17 66 390 9 76 376 8 74
20:1 95 126 2 72 163 4 81 66 1.5 85
50:1 98 258 4 68 227 5 74 69 1.5 83
100:1 99 1,180 17 73 319 8 87 376 8 80
1,000:1 99.9 862 13 81 219 5 84 334 7 88
10,000:1 100 459 7 87 138 3 92 263 6 89
100,000:1 100 163 2 85 23 0.5 96 134 3 92
1,000,000:1 100 157 2 90 47 1 96 360 8 94

Total 6,098 88 2,981 70 3,855 75


382

Completo % correcto 71.0 72.5 73.1

Nota: el % N se refiere al porcentaje de juicios que caen en cada una de las categorías mayores.
Estuvieron 66 sujetos en el Experimento 1, 40 en el Experimento 2, y 42 en el Experimento 3.
a
Para sujetos bien calibrados.
b
Los Experimentos 1, 2, y 3 fueron etiquetados 2, 3, y 4 en el reporte original.
Fuente: Fischhoff, Slovic, y Lichtenstein (1977).

dieron muchas respuestas extremas de probabilidad . Más de la mitad de sus juicios fueron
mayores de 50:1. Casi un cuarto fueron mayores de 100:1.
Un segundo experimento intentó mejorar la ejecución dando a los sujetos más
instrucción. La sesión experimental comenzó con unos 20 minutos de conferencia en la cual
los conceptos de probabilidad y posibilidad fueron cuidadosamente explicados. Las sutilezas
de expresar los sentimientos de certeza de uno como juicios de posibilidades numéricas
fueron discutidos, con énfasis especial en cómo usar pequeñas posibilidades (entre 1:1 y 2:1)
cuando uno está un poco incierto sobre la respuesta correcta. Se proveyó una tabla mostrando
la relación entre varias posibilidades y las correspondientes probabilidades. Finalmente, a los
sujetos les fue enseñado el concepto de calibración (Cap. 22) y fueron urgidos a hacer juicios
de posibilidades en una forma que los conduciría a estar bien calibrados. Aunque la ejecución
mejoró un poco, los sujetos de nuevo exhibieron una certeza no garantizada (ver la Tabla 4).
Ellos asignaron posibilidades mayores ó iguales a 50:1 para aproximadamente un tercio de
los temas. Solo el 83% de las respuestas asociadas con estas posibilidades fueron correctas.
En un tercer experimento, la gente probó ser justa como estar con exceso de confianza
cuando respondieron las preguntas de conocimiento general (por ejemplo, Cuáles revistas
tenían la mayor circulación en 1970? (a) Playboy ó (b) Time) como cuando ellos
respondieron las preguntas sobre la frecuencia de los eventos letales (vea la Tabla 4).
Estudios adicionales por Fischhoff et. Al. Probaron la fe de las gentes en sus evaluaciones de
probabilidad preguntando si ellos arriesgaría dinero en ellas jugando la apuesta descrita
abajo.

Instrucciones para “La Pregunta Trivial de Timar”

El experimento terminó. Usted ha ganado $ 2.50, los cuales usted estará en capacidad de colectar
pronto. Pero antes de que usted tome el dinero y se vaya, me gustaría que usted considerara si estaría
dispuesto a jugar cierto juego en orden de posiblemente incrementar sus ganancias. Las reglas del
juego son las siguientes:

1. Mire su hoja de respuestas. Encuentre las preguntas donde usted estimó las probabilidades de estar
correcto en un 50:1 ó mayor de 50:1. Cuántas de tales preguntas estuvieron allí? ____ (escriba del
número).
2. Yo le daré a usted las respuestas correctas a éstas preguntas “50:1 ó mayores”. Contaremos cuántas
veces sus respuestas a éstas preguntas estuvieron equivocadas. Desde que una respuesta equivocada
frente a tan alta certeza sería sorprendente, llamaremos a éstas respuestas equivocadas “sus
sorpresas”.
3. Yo tengo una bolsa de fichas de pocker en frente. Hay 100 fichas blancas y 2 fichas rojas en la
bolsa. Si yo me acerco y al azar selecciono una ficha, las probabilidades de que yo seleccionaré una
ficha blanca son 100:2 ó 50:1, justo como la probabilidad de que sus respuestas “50:1” son correctas.
4. Por cada respuesta “50:1 ó mayor” que usted dé, yo sacaré una ficha de la bolsa. (Si usted desea,
puede sacar las fichas por mí). Yo pondré la ficha de regreso en la bolsa antes que yo saque de nuevo,
para que así la probabilidad no cambiará. La probabilidad de que saque una ficha roja es 1:51. Puesto
383

que sacar una ficha roja es improbable, cada ficha roja que yo saque puede ser considerada “mi
sorpresa”.
5. Cada vez que usted es sorprendido por una respuesta equivocada a una pregunta “50:1 ó mayor”,
usted me paga $ 1.00 (elevado a $ 2.50 en algunas condiciones). Cada vez que yo esté sorprendido
por sacar una ficha roja, yo le pagaré $ 1.00.
6. Si usted está bien calibrado, este juego es ventajoso para usted. Esto es debido a que yo espero
perder $ 1.00 una vez de cada 51 veces que yo saque una ficha, en promedio. Pero desde que sus
probabilidades son algunas veces más altas que 50:1, usted espera perder menos a menudo que eso.
7. Jugaría usted este juego?

Esta apuesta es ventajosa para participantes perfectamente calibrados y de baja confianza


y desventajosa para los que tienen exceso de confianza. La mayoría de los participantes en
nuestro estudio estuvieron reacios a jugar el juego. Debido a que su confianza fue
injustificada, ellos sufrieron enormes pérdidas monetarias (las cuales les fueron retribuidas
después que el experimento terminó).
Aunque la base psicológica para la certeza no garantizada es compleja, el elemento clave
parece ser la falta de conciencia de la gente que su conocimiento está basado en suposiciones
que son a menudo muy tenues. Por ejemplo, 30% de los encuestados en el Experimento 1
dieron probabilidades mayores de 50:1 a la incorrecta aseveración que los homicidios son
más frecuentes que los suicidios. Estos individuos pueden haber sido mal conducidos por la
mayor facilidad de recordar instancias de homicidio, fallando al apreciar que memorizar es
una base imperfecta para tal inferencia.

Hiperprecisión. El exceso de confianza se manifiesta por sí mismo de otras maneras también.


Una tarea típica en estimar cantidades inciertas tales como falla de proporciones es fijar los
límites superior e inferior para que exista un 98% de posibilidad de que el verdadero valor
cae entre ellos. Experimentos con diversos grupos de gente haciendo clases de juicios muy
diferentes han mostrado que, más del 2% de los valores verdaderos cayendo fuera del 98% de
los límites de confianza, 20-50% lo hacen (Caps. 21 y 22). Por tanto la gente piensa que ellos
Tabla 5. Insensibilidad a las omisiones de los expertos del árbol erróneo el carro no arrancará.
Proporciones M de fallas en el arranque por tipo______________________
Sistema Sistema Sistema
de de de
Grupo n Batería arranque combustible Ignición Motor Daño Otro
Árbol no cercenado,
sujetos ordinarios 93 .264 .195 .193 .144 .076 .051 .078
Árbol no cercenado,
expertos 13 .410 .108 .096 .248 .051 .025 .060
Árbol cercenado 1,
Expertos 16 .483 ---- .229 ---- .073 ---- .215 a

a
Debería ser .441
Fuente: Fischhoff, Slovic y Lichtenstein (1978).

pueden estimar tales valores con mucha mayor precisión que lo que es actualmente el caso.
Tversky y Kahneman (1974, 1) han atribuido tal hiperprecisión a la confianza en el anclaje y
ajuste heurístico.

Expertos con exceso de confianza. Desafortunadamente, los expertos, una vez son forzados a
ir más allá de sus datos y se apoyan en el juicio, pueden ser tan propensos al exceso de
confianza como la gente lega. Fischhoff, Slovic y Lichtenstein (1978) repitieron su estudio
384

del árbol erróneo (Figura 3) con mecánicos profesionales de automóvil (promediando


alrededor de 15 años de experiencia) y encontraron a estos expertos ser casi tan insensitivos
como las personas legas a supresiones del árbol (ver Tabla 5). Hynes y Vanmarcke (1976)
requirieron siete “internacionalmente conocidos” ingenieros geotécnicos para predecir la
altura de un dique que causaría una cimentación de arcilla que falla y especificar los límites
de confianza alrededor de este estimado que sean suficiente anchos para tener un 50% de
posibilidad de contener la verdadera altura de falla. Ninguno de los límites especificados por
estos individuos actualmente incluyeron la verdadera altura de falla. La figura 4 muestra
estos resultados.
El multimillonario Estudio de Seguridad del Reactor (U.S. Nuclear Regulatory
Commission, 1975), en evaluar la probabilidad de un núcleo mezclado en un reactor nuclear,
usó el mismo procedimiento para fijar los límites de confianza que fue mostrado en los
Capítulos 21 y 22 para producir un alto grado de exceso de confianza. De hecho, el “Comité
Lewis” concluyó su revisión del Estudio de Seguridad del Reactor notando que a pesar de
los grandes avances hechos en ese estudio “estamos ciertos que los errores de grupo son
subestimados. No podemos decir por ahora cuánto. Razones para esto incluye una
inadecuada base de datos, un pobre tratamiento estadístico, [y] una inconsistente propagación
de incertidumbres a través del cálculo” (U.S. Nuclear Regulatory Commission, 1978, p. Vi).
Posterior evidencia anecdótica del exceso de confianza puede ser encontrada en muchas
otras evaluaciones técnicas de riesgo (Fischhoff, 1977a). Algunas maneras comunes en las
cuales los expertos pueden dejar pasar ó juzgar mal los caminos al desastre son mostrados en
la lista siguiente:

Falla al considerar los modos en los cuales los errores humanos pueden afectar los
sistemas tecnológicos. Ejemplo: Debido a un inadecuado entrenamiento y diseño
del salón de control, los operadores en Three Mile Island repetidamente mal
diagnosticaron los problemas del reactor y tomaron acciones inapropiadas
(Sheridan, 1980; Comisión del Presidente, 1979).
Exceso de confianza en el conocimiento científico corriente. Ejemplo: El uso del
DDT vino a estar muy difundido y de uso no controlado antes que los científicos
habían aún considerado la posibilidad de los efectos colaterales que lo hacen
parecer como un beneficio mezclado e irreversible (Dunlap, 1978).
Falla en apreciar como los sistemas tecnológicos funcionan como un todo. Ejemplo:
El DC-10 falló en varios vuelos tempranos debido a sus diseñadores no se habían
dado cuenta que la descompresión del compartimiento de carga destruiría los
sistemas vitales de control (Hohenenser, 1975).
Lentitud en detectar efectos acumulativos crónicos. Ejemplo: Aunque los accidentes
de los mineros del carbón han sido hace tiempo reconocidos como un costo de
operar plantas de combustibles fósiles, los efectos de las lluvias ácidas en los
ecosistemas fueron lentos en ser descubiertos.
Falla al anticipar la respuesta humana a las medidas de seguridad. Ejemplo: La
protección parcial aportada por diques y malecones dan a la gente un falso sentido
de seguridad y promueve el desarrollo de inundación natural. Por tanto, aunque las
inundaciones son raras, el daño por inundación es mucho mayor que la pérdida
anual promedio de dólares que es más grande que antes de que los diques fueran
construidos (Burton, Kates & White, 1978).
Falla al anticipar “modo común de fallas”, el cual simultáneamente aqueja los
sistemas que son diseñados para ser independientes. Ejemplo: Debido a que los
cables eléctricos que controlan los sistemas múltiples de seguridad del reactor en
Browns Ferry, Alabama, no fueron espacialmente separados, los cinco núcleos de
385

los sistemas de enfriamiento fueron dañados por un simple incendio (U.S. House of
Representatives, 1975; Jennergren & Keeney, en prensa).

El colapso en 1976 de la Presa Teton proveyó otro trágico ejemplo del exceso de
confianza del experto. El Comité de Operaciones Gubernamentales atribuyó este desastre a la
confianza no garantizada de los ingenieros quienes estuvieron absolutamente ciertos que ellos
habían resuelto los muchos serios problemas que surgieron durante la construcción (Comité
de Operaciones Gubernamentales, 1976). Las probabilidades de falla no son calculadas para
nuevas presas aún cuando alrededor de 1 en 300 fallan cuando la represa es llenada por
primera vez.

Informar a la gente sobre los riesgos

Pensar claramente sobre el riesgo es difícil. Desafortunadamente, es también necesario. Los


peligros de la radiación, efectos colaterales médicos, enfermedades ocupacionales, alimentos
contaminantes, químicos tóxicos y malfuncionamientos mecánicos incrementándose llenan
nuestros periódicos y nuestros pensamientos. Puesto que la dirección de estos peligros es
vital para el bienestar de los individuos y de la sociedad, las gentes están actualmente están
haciendo valer sus derechos a jugar un papel activo en los procesos de tomar decisiones.
Como resultado, los promotores y reguladores de empresas peligrosas se enfrentan a la
presión creciente de informar a la gente sobre los riesgos que ellos encaran (ver Figura 5).
Por ejemplo, en años recientes:

La Administración de Alimentos y Drogas ordenó insertar información del paciente debido


a un incrementado número de recetas de drogas.
El Departamento de Vivienda y Desarrollo Urbano empezó a requerir a los vendedores de
casas construidas antes de 1950 informar a los compradores sobre la presencia de
pinturas a base de plomo.

Insertar aquí la Figura 5 de la página 479 del texto original.

La propuesta de ley federal de responsabilidad de los productos incrementó la importancia


de informar adecuadamente a los consumidores y trabajadores sobre los riesgos que son
probables de encontrar.
La Casa Blanca dirigió al Secretario de Salud, Educación y Servicio Social a desarrollar un
programa de información pública en los efectos sobre la salud de la exposición a la
radiación.

A pesar de estas buenas intenciones, crear programas de información efectivos puede ser
bastante difícil. Hacer un adecuado trabajo significa encontrar convincentes maneras de
presentar complejo, material técnico que es a menudo nublado por la incertidumbre. No solo
es a veces el tiempo asignado muy limitado, sino que los mensajes deben confrontar las
preconcepciones de los escuchas (y talvez malas concepciones) sobre el peligro en cuestión y
sus consecuencias. Por ejemplo, en algunas situaciones, mal conducir las experiencias
personales puede promover un falso sentido de seguridad, mientras que en otras
circunstancias, la mera discusión de posibles consecuencias adversas puede intensificar su
aparente amenaza. Más aún, como Ross y Anderson (Cap. 9) han demostrado, las creencias
de la gente a menudo cambian lentamente y muestran una extraordinaria persistencia frente a
la evidencia contraria. Lo que sigue es una breve visión general de algunos retos adicionales
que los programas de información deben confrontar.
386

El formato de presentación es importante

La manera precisa en la cual los riesgos son expresados pueden tener un mayor impacto
sobre las percepciones y el comportamiento. Por ejemplo, una acción incrementa las
posibilidades anuales de muerte de uno de 1 en 10,000 a 1.3 en 10,000 probablemente
estaría vista como mucho más riesgosa que si ella fuera descrita, en su lugar, como producir
un 30% de incremento en el riesgo de mortalidad anual. Una muestra de los efectos del
formato de la literatura es presentado abajo.

Árboles erróneos. Los diseñadores de un árbol erróneo como ese de la Figura 3 deben hacer
numerosas decisiones discrecionales con respecto a cómo organizar y presentar las varias
fuentes de problema. Una decisión que aparentemente hace poca diferencia es cuánto detalle
ofrecer; Fischhoff, Slovic y Lichtenstein (1978) encontraron percepciones similares con
variedad de niveles de detalle. Meramente mencionando una rama permitió a la gente estimar
exactamente cuán problemática esa rama luciría cuando esa rama está completamente
detallada. Sin embargo, ramas fusionadas (por ejemplo, combinar el sistema de arranque y el
sistema de ignición dentro de una categoría más amplia) ó ramas hendidas (por ejemplo,
separar el sistema de ignición dentro del sistema de ignición [bobina dañada y candelas
defectuosas, vea la Figura 3] y el sistema de distribución [distribuidor dañado y alambrado
defectuoso] hicieron una diferencia. Un set dado de problemas fue juzgado para contar por
alrededor de 30% más fallas cuando fue presentado como dos ramas que cuando fue
presentado como una.

Cinturones de seguridad. Una segunda demostración de la importancia del presentación del


formato viene de un estudio de actitudes hacia el uso de cinturones de seguridad del
automóvil (Slovic, Fischhoff & Lichtenstein, 1978). Sacar de una previa investigación
demostrando la importancia crítica de la probabilidad de peligro en accionar la acción
protectiva (Slovic, Fischhoff, Lichtenstein, Corrigan & Combs, 1977), Slovic, Fischhoff y
Lichtenstein arguyeron que la reluctancia de la gente a usar voluntariamente los cinturones de
seguridad podría ser debida a la extremadamente pequeña probabilidad de incurrir en un
fatal accidente en un simple viaje en automóvil. Puesto que in fatal accidente ocurre solo
alrededor una vez en cada 3.5 millones de viajes de personas y una lesión de invalidez solo
una vez en cada 100,000 viajes de personas, rehusar abrocharse el cinturón de seguridad de
uno puede parecer muy razonable. Luce menos razonable, sin embargo, si uno adopta una
perspectiva de múltiples viajes y considera la sustancial probabilidad de un accidente en
algún viaje. Sobre 50 años de manejar (alrededor de 40,000 viajes), la probabilidad de
matarse se eleva a .01 y la probabilidad de experimentar al menos una lesión de invalides
es .33. En un estudio piloto, Slovic, Fischhoff y Lichtenstein mostraron que la gente
requerida a considerar esta perspectiva de tiempo de vida respondieron más favorablemente
hacia los cinturones de seguridad (y bolsas de aire) de lo que lo hizo la gente requerida a
considerar una perspectiva de viaje por viaje. Si las actitudes favorables hacia los cinturones
de seguridad inducidos por una perspectiva de tiempo prolongado fuera mantenida y
trasladada dentro del comportamiento está por verse.

Pseudo certeza. De acuerdo con la “teoría del prospecto” (Kahneman & Tversky, 1979b), los
resultados que son meramente probables son subestimados en comparación con resultados
que son obtenidos con certeza. Como resultado, cualquier acción protectiva que reduce la
probabilidad de peligro de, digamos, .01 a cero, será valuada más altamente que una acción
reduciendo la probabilidad del mismo peligro de .02 a .01.
387

Tversky y Kahneman (1981) notaron que las representaciones mentales de las acciones
protectivas pueden ser fácilmente manipuladas como para variar la aparente certeza con la
cual ellas previenen el peligro. Por ejemplo, una póliza de seguro que cubre incendio pero no
inundación podría ser presentada ya sea como protección completa contra el riesgo específico
de incendio ó como una reducción en la probabilidad total de pérdida de propiedad. La teoría
del prospecto predice que la póliza aparecerá más atractiva en la anterior perspectiva
(etiquetada “pseudo-certeza”), en la cual ella ofrece protección incondicional contra un
restringido set de problemas.
Hemos probado esta conjetura en el contexto de una particular clase de protección, la
vacunación. Dos formas de un “cuestionario de vacunación” fueron creadas. Forma I
(protección probabilística) describe una enfermedad que se espera aflija al 20% de la
población si ellos colaborarían voluntariamente a recibir una vacuna que protege a la mitad
de la gente recibiéndola. De acuerdo a la Forma II (pseudo-certeza), hubieron dos
mutuamente exclusivas e igualmente probables contra una tensión y ninguna protección
contra la otra. Los participantes en este estudio fueron reclutados mediante un anuncio en el
periódico estudiantil en la Universidad de Oregon. Después de leer la descripción, ellos
clasificaron la probabilidad de que ellos serían vacunados en tal situación, usando una escala
que va de 1 (“casi seguro no conseguirían ser vacunados”) a 7 (“casi seguro conseguirían ser
vacunados”).
Aunque ambas formas indicaron que la vacunación redujo riesgo completo de uno de
20% a 10%, esperamos que la vacunación parecerá más atractiva para aquellos que
recibieron la Forma II (pseudo-certeza) que para aquellos que recibieron la Forma I
(protección probabilística). Los resultados confirmaron esta predicción: 57% de aquellos que
recibieron la Forma II indicaron que ellos conseguirían ser vacunados comparado con 40%
de aquellos que recibieron la Forma I.
El efecto de la pseudo certeza destaca el contraste entre la reducción y la eliminación del
riesgo. Como Tversky y Kahneman han indicado, esta distinción es difícil de justificar en
cualquiera de los campos normativos. Más aún, las manipulaciones de la certeza parecerían
tener importantes implicaciones para el diseño y descripción de otras formas de protección
(por ejemplo, tratamientos médicos, seguro, actividades de prueba de inundación y
terremoto.)

Anclar. Una de las presentaciones más generales de artefactos es la tendencia de los juicios
de ser anclados a valores inicialmente presentados (Poulton, 1968; Tversky y Kahneman,
1074, 1). En otra condición del experimento presentado en la Figura 2, Lichtenstein et al.
(1978) requirieron un segundo grupo de gente para estimar la frecuencia de muerte en los
Estados Unidos de cada una de las diferentes causas. Sin embargo, en vez de haberles dicho
que alrededor de 50,000 personas mueren anualmente en accidentes de vehículo de motor, a
estos individuos se les dijo que alrededor de 1,000 muertes anuales por electrocución.
Aunque ambos reportes fueron exactos, la provisión de un número más pequeño redujo los
estimados de mayores frecuencias de los que respondieron Tal anclaje en el número original
condujo los estimados de los dos grupos a diferir tanto como un factor de 5 en algunos casos.
Fischhoff y MacGregor (1980) requirió a la gente juzgar la mortalidad de varias causas
potenciales de muerte usando uno de cuatro formatos formalmente equivalentes (por
ejemplo, Por cada persona aquejada que muere, cuántos sobreviven?). La Tabla 6 (página
siguiente) expresa sus juicios en un formato común y revela aún efectos más dramáticos de
estilo de pregunta en percepciones de riesgo expresadas. Por ejemplo, cuando la gente estimó
la proporción de mortalidad por influenza directamente (columna 1), su respuesta media fue
393 muertes por cada 100,000 casos. Cuando se les dijo que 80,000,000 de gentes se
contagiaron de influenza en un año normal y les requirió estimar el número que murió
388

(columna 2), la respuesta media de los que respondieron fue 4,800, representando una tasa de
solo 6 por 100,000 casos. Similares discrepancias ocurrieron con otras interrogantes y otros
peligros.

Otros efectos. Otros numerosos efectos de formato han sido documentados en la literatura en
el comportamiento de tomar un riesgo. Por ejemplo, la gente ha sido encontrada al evaluar
juegos muy diferentemente cuando ellos los consideran en pares que cuando ellos los juzgan
simplemente (Grether & Plott, 1979); Lichtenstein & Slovic, 1971; 1973). Fischhoff, Slovic
y Lichtenstein (1980), Hershey y Shoemaker (1980) y Shoemaker y Kunreuther (1979) han
notado que las decisiones sobre si al comprar un seguro son frecuentemente revertidos
cuando el problema es representado como una escogencia entre encarar un juego ú aceptar
una pérdida de una menor cantidad de dinero. Las mismas opciones de riesgo, descritas en
términos de vidas salvadas, pueden ser evaluadas muy diferentemente que cuando son
enmarcadas en términos de vidas perdidas (Tversky & Kahneman, 1981). Un formato
adicional y efectos de contexto pueden ser encontrados en Fischhoff, Slovic y Lichtenstein
(1980), Kahneman y Tversky (1979b), Slovic, Fischhoff y Lichtenstein (en prensa-b) y
Tversky y Kahneman (1981).
Esas sutiles diferencias de cómo los riesgos son presentados pueden tener marcados
efectos en cómo ellos son percibidos sugiere que aquellos responsables de los programas de
información tengan considerable habilidad para manipular percepciones. Más aún, puesto
que estos efectos no son ampliamente conocidos, la gente puede inadvertidamente estar
manipulando sus propias percepciones por decisiones casuales que ellos hicieron sobre cómo
organizar su conocimiento.

Comparaciones de peligro cruzado puede ser mal conducido

Una de las más comunes aproximaciones para profundizar las perspectivas de la gente es
presentar estimados de riesgo cuantificados para una variedad de peligros. Presumiblemente,
la sofisticación recogida de examinar tales datos será útil para la toma de decisión. Wilson
Tabla 6. Juicios de mortalidad con diferentes modos de respuesta, medias geométricas
Tasa de muerte por cada 100,000 aquejados__________________________
Número Tasa Número
Tasa de estimado estimada estimado Tasa
Mortalidad que de sobre- que sobre- actual de
Estimada murieron vivencia vió mortalidad
Influenza 383 6 26 511 1
Paperas 44 114 19 4 12
Asma 155 12 14 599 33
Enfermedad venérea 91 63 8 111 50
Alta presión sanguínea 535 89 17 538 76
Bronquitis 162 19 43 2,111 85
Embarazo 67 24 13 787 250
Diabetes 487 101 52 5,666 800
Tuberculosis 852 1,783 188 8,520 1,535
Accidentes de
automóvil 6,195 3,272 31 6,813 2,500
Apoplejías 11,011 4,648 181 24,758 11,765
Ataques al corazón 13,011 3,666 131 27,477 16,250
Cáncer 10,889 10,475 160 21,749 37,500
Nota: A los cuatro grupos experimentales se les dieron las siguientes instrucciones:
(a) Estimar la tasa de mortalidad: Por cada 100,000 gentes aquejadas aquejados, cuántos mueren?
389

(b) Estimar número de muertos: X gentes estuvieron aquejadas, cuántas murieron?


(c) Estimar la tasa de sobrevivencia: Por cada persona que murió, cuántos estuvieron aquejados
pero sobrevivieron?
(d) Estimar número que sobrevivió: Y personas murieron, cuántas fueron aquejadas pero no
murieron?
Las respuestas a las preguntas (b), (c), y (d) fueron convertidas a muertes por 100,000 aquejadas
para facilitar las comparaciones.
Fuente: Fischhoff & MacGregor, 1980.

(1979) observó que deberíamos “tratar de medir nuestros riesgos cuantitativamente. . . .


Entonces podríamos comparar riesgos y decidir cuales aceptar ó rechazar” (p. 43). Lord
Rothschild (1979) agregó, “No hay razón en meterse en pánico sobre los riesgos de la vida
hasta que usted ha comparado los riesgos que le preocupan con aquellos que no, pero talvez
deberían”.
Típicamente, tales exhortaciones son seguidas por elaborar tablas y aún “catálogos de
riesgo” en los que diversos índices de muerte ó discapacidad son expuestos para un amplio
espectro de peligros de la vida. Por tanto, Sowby (1965) proveyó extensos datos de riesgos
por hora de exposición, mostrando, por ejemplo, que una hora de montar una motocicleta es
un riesgo como de tener 75 años de edad. Wilson (1979) desarrolló una tabla de actividades
(por ejemplo, volar 1,000 millas en jet, pasar 3 horas en una mina de carbón), cada una de las
cuales es estimada para incrementar la probabilidad anual de uno de muerte en 1 en 1 millón.
Wilson declaró que “estas comparaciones me ayudan a evaluar riesgos é imagino que ellas
pueden ayudar a otros a hacerlo, también. Pero el uso más importante de estas declaraciones
debe ser ayudar a las decisiones que tomamos. Como una nación, para mejorar nuestra salud
y reducir nuestra tasa de accidente” (p. 45). Similarmente, Cohen y Lee (1979) clasificaron
muchos peligros en términos de su esperada reducción en la expectativa de vida sobre la
suposición de que “para alguna aproximación, el ordenamiento (en esta tabla) debería ser el
orden de prioridades de la sociedad. Sin embargo, vemos varios problemas mayores reales
que han recibido muy poca atención . . . Mientras algunos temas cerca del fondo de la lista,
especialmente aquellos involucrando radiación, reciben una gran cantidad de atención” (p.
720).
Propiamente hablando, comparar los peligros no es un proceso de toma de decisión. Ella
no requiere de ninguna conclusión particular para hacer comparaciones, digamos, del
contraste entre los riesgos del motociclismo y la edad avanzada (Fischhoff, Lichtenstein,
Slovic & Keeney, 1981). Además, aún como ayuda a la intuición, las comparaciones de
peligros cruzados tienen un número de limitaciones inherentes. Por ejemplo, aunque alguna
gente se siente bien informada sobre aprender que un simple despegue ó aterrizaje en una
aerolínea comercial reduce la expectativa de vida de uno en un promedio de 15 minutos,
otros se encuentran a sí mismos completamente desorientados por tal información. En el
aterrizaje, uno morirá ya sea prematuramente (casi ciertamente por más de 15 minutos) ó uno
no morirá. Para mucha gente, los promedios no capturan adecuadamente la esencia de tales
riesgos. Ciertamente, McNeil, Weichselbaum y Pauker (1978) encontraron que los pacientes
encarando el prospecto de una cirugía de cáncer de pulmón estuvieron tan preocupados con
la inminente muerte durante la operación como con su contribución a su expectativa de vida.
Una limitación posterior es que el resumen estadístico puede disfrazar importantes
características de riesgo. Donde existe incertidumbre ó desacuerdo sobre los hechos, la
presentación del punto estimado puede inspirar excesiva confianza. Puesto que las personas
están particularmente concientes sobre el potencial de los accidentes catastróficos (Slovic,
Fischhoff & Lichtenstein, 1980), alguna indicación de la probabilidad y magnitud de las
pérdidas extremas es necesaria. Otras características que afectan la actitud de las personas
390

hacia los peligros, pero que son eliminadas en los resúmenes estadísticos, son voluntariedad,
controlabilidad, familiaridad, consecuencias de la inmediatez, amenaza a futuras
generaciones, la facilidad de reducir el riesgo y el grado al cual los beneficios son
distribuidos equitativamente entre aquellos que soportan el riesgo (Slovic, Fischhoff &
Lichtenstein, en prensa-a). Aunque algunos errores, tales como la omisión de grupos de
incertidumbre, son fáciles de corregir, determinando cuánto pesa el potencial catastrófico,
equidad, y otras características importantes, requerirán un serio esfuerzo de investigación.

Conclusiones

Informar a la gente, ya sea por etiquetas de prevención, paquetes insertados, ó programas


media extensos, es sino parte de los grandes problemas de ayudar a la gente a enfrentarse con
los riesgos e incertidumbres de la vida moderna. Creemos que alguna de la responsabilidad
descansa en nuestras escuelas. Los curricula de la escuela pública deberían incluir material
designado para enseñar a la gente que el mundo en el cual ellos viven es probabilístico, no
determinista, y para ayudarlos a aprender las estrategias del juicio y la decisión para tratar
con el mundo (Beyth-Maron & Dekel, en prensa). Estas estrategias son tan necesarias para
navegar en un mundo de información incierta como la geometría y la trigonometría son para
navegar entre objetos físicos.

Energía nuclear: Un caso de estudio de la percepción del riesgo

En ninguna parte son los asuntos de riesgo percibido más salientes ó el asunto de que se trata
más alto en la controversia sobre la energía nuclear. Esta sección examina la controversia a
la luz de los descubrimientos discutidos.

El problema general
Aún antes del accidente de la Isla de las Tres Millas, la industria nuclear estuvo basada en los
peligros de la opinión pública adversa. Un enorme y tenaz movimiento de oposición había
sido responsable por demoras costosas obtener licencias y la construcción de nuevas plantas
en los Estados Unidos y por los alborotos políticos en varias naciones Europeas.
El reactor errante en la Isla de las Tres Millas estimuló un predecible, inmediato
incremento en el fervor antinuclear. Cualquier intento de planear el papel de la energía
nuclear en la energía futura de la nación debe considerar las determinantes de esta oposición
y anticipar su curso futuro. Una pista se apoya en una reciente investigación mostrando que
las imágenes de los desastres nucleares potenciales que han sido formados en las mentes del
público antinuclear son marcadamente diferentes de las evaluaciones propuestas por muchos
expertos técnicos. Describiremos estas imágenes y especularemos en sus orígenes,
permanencia e implicaciones.

Percepciones básicas

Estudios de un cuestionario de la gente opuesta a la energía nuclear muestran que ellos


juzgan sus beneficios como muy bajos y sus riesgos como inaceptablemente grandes
(Fischhoff, Slovic, Lichtenstein, Read & Combs, 1977). En el lado del beneficio, estos
individuos no ven la energía nuclear como un vínculo vital en encontrar las necesidades
básicas de la energía (Pokorny, 1977); más bien, muchos la ven como un suplemento para
391

otras fuentes de energía que son por ellas mismas adecuadas (ó podrían ser hechas adecuadas
por conservación). En el lado del riesgo, la energía nuclear provoca mayores sentimientos de
temor que casi cualquier otra actividad tecnológica (Fischhoff et al., 1978). Algunos han
atribuido esta reacción al miedo a lo invisible de la radiación y a la contaminación
irreversible, amenazas de cáncer y daño genético. Sin embargo, el uso del diagnóstico por
rayos X, una tecnología de radiación que incurre en riesgos similares, no es similarmente
aprehensiva. Por el contrario, sus riesgos son a menudo subestimados (Slovic, Lichtenstein &
Fischhoff, 1979). La asociación de la energía nuclear con el armamento nuclear pueden
contar para estas diferentes percepciones. Como resultado de sus orígenes violentos, la
energía nuclear es considerada como una tecnología cuyos riesgos son incontrolables, letales
y potencialmente catastróficos, características que no están asociadas con el uso del
diagnóstico de rayos X.
Cuando la gente se opuso a la energía nuclear describió sus imágenes mentales de un
accidente nuclear y sus consecuencias, ellos revelan que un serio accidente de un reactor es
probable dentro de su tiempo de vida y podría resultar en cientos de miles, aún millones, de
muertes (Slovic, Fischhoff & Lichtenstein, 1979; Slovic, Lichtenstein & Fischhoff, 1979).
Tal accidente se espera que cause un daño irreparable al medio ambiente sobre una vasta área
geográfica. Estas expectativas contrastan dramáticamente con la visión de la industria nuclear
que múltiples sistemas de seguridad limitarán el daño en el extremadamente improbable
evento de un accidente mayor.
Una inevitable consecuencia de es este “vacío de percepción” es la incertidumbre y
desconfianza de parte de un público sospechando que los riesgos son mucho mayores que las
evaluaciones de los expertos (Kasper, 1979; Starr & Whipple, 1980). Los expertos, a su vez,
cuestionan la racionalidad del público y critican el “emocionalismo” obstruyendo el progreso
tecnológico. Agrias y a veces violentas confrontaciones resultan.
El reconocimiento de este vacío de percepción ha conducido a algunos expertos técnicos
a pedir que el público debe ser “educado” sobre los riesgos “reales” de la energía nuclear. Un
analista de opinión pública (Pokorny, 1977) puso el asunto como sigue:

El mayor problema que entorpece un juicio sofisticado sobre este asunto es una falta básica de
conocimiento y hechos. Dentro de este entorno corriente la actitud, escasos relatos, confusión e
irracionalidad a menudo triunfan. Solo a través de una cuidadosa educación de hechos y conocimiento
puede la gente conocer lo que las escogencias reales son. . . .(p. 12).

Nuestra propia opinión es que los intentos designados para reducir los vacíos de
percepción encaran los mayores obstáculos. Esta conclusión está basada en dos aspectos
claves del problema, uno técnico y uno psicológico.

Obstáculos técnicos

La realidad técnica es que existen pocos “hechos previstos” con respecto a las probabilidades
de serios accidentes del reactor. La tecnología es tan nueva y las probabilidades en cuestión
son tan pequeñas que estimados de riesgo seguros no pueden estar basados en la observación
empírica. En vez de eso, tales evaluaciones pueden ser derivadas de modelos matemáticos
complejos y juicios subjetivos.
La dificultad de ejecutar evaluaciones de riesgos ha conducido a muchas críticas del
asunto de su validez (Bryan, 1974; Fischhoff, 1977a; Primack, 1975). Una mayor
preocupación es que la iniciación de eventos importantes ó caminos de falla pueden ser
omitidos, causando riesgos de ser subestimados. Otro problema en evaluar la confiabilidad de
392

los diseños del reactor es la dificultad apropiada cuenta de “modos de fallas comunes”, en los
cuales los sistemas ostensiblemente independientes designados para apoyar una falla a la otra
debido a la misma causa común no anticipada. El escepticismo del crítico nuclear John
Holdren con relación a la defensa de las evaluaciones de catástrofes raras resume
concisamente el problema técnico:

Una comunidad experta está dividida alrededor del concebible realismo de los estimados de
probabilidad en el rango de uno en diez mil a uno en un billón por reactor al año. Yo estoy entre
aquellos que creen eso imposible en principio de soportar números tan pequeños como estos
argumentos teóricos convincentes. . . . La razón por la que yo sostengo esta opinión es sencilla: los
sistemas de energía nuclear son tan complejos que la probabilidad de un análisis seguro contiene
errores . . .es tan grande como para sin sentido rendir la poco sólida probabilidad computada de un
accidente (Holedren, 1976, p.21).

Obstáculos psicológicos

Los temores públicos a la energía nuclear no deberían ser vistos como irracionales. En parte,
ellos están alimentados por el darse cuenta que los hechos están en disputa y esos expertos
han estado equivocados en el pasado, como cuando ellos irradiaron alargadas amígdalas ó
permitieron a la gente atestiguar pruebas de la bomba-A en un rango cercano. Lo que uno
puede cuestionar es la extensión a la cual las maneras fundamentales de pensar de la gente
(tal como la confianza en la disponibilidad heurística) los condujo a distorsionar las
opiniones. Ciertamente los riesgos de la energía nuclear podrían ser un candidato
fundamental para el prejuicio de disponibilidad debido a la extensa cobertura de los medios
que ellos reciben y su asociación con los vívidos, peligros imaginables de una guerra nuclear.
Como se mencionó anteriormente, la disponibilidad heurística implica que cualquier
discusión de accidentes nucleares puede incrementar su imaginabilidad y de aquí su riesgo
percibido. Considere a un ingeniero arguyendo la seguridad de la disposición de los desechos
nucleares en un estrato de sal señalando la improbabilidad de los varios modos de
radioactividad podrían ser accidentalmente liberados (ver la Figura 1). Más que tranquilizar a
la audiencia, la presentación podría conducirla a pensar, “Yo no me di cuenta que existían
esas muchas cosas que podrían estar equivocadas”. De este modo, la confianza en la memoria
y en la imaginación pueden nublar la distinción entre lo que es remotamente posible y lo que
es probable. Como un proponente nuclear lamentó, “Cuado los hombres legos discuten lo
que podría pasar, ellos algunas veces no se molestan aún de incluir el ‘podría’ “ (B. L. Cohen,
1974, p. 36). Otro analista ha elaborado un tema similar en la mala interpretación de los
escenarios del “peor caso”:

Eso ha hecho a menudo poca diferencia de cómo extraños ó improbables la suposición en tal análisis
fue, desde que uno solo tenía que mostrar que algún indeseable efecto podría ocurrir en un nivel de
probabilidad mayor que cero. Los oponentes de una operación propuesta podrían destruirlo
simplemente ejercitando sus imaginaciones a soñar un set de condiciones el cual, aunque ellos
podrían admitidamente ser extremadamente improbables, podrían conducir a algunos indeseables
resultados. Con tales actitudes prevalecientes, planificar una operación nuclear dada viene a ser . . .
peligrosa. . . . (J. J. Cohen, 1972, p. 55).

Conclusión

Aunque la discusión de arriba designó las fuentes posibles del vacío de percepción de
algunas gentes entre individuos pronuclear y antinuclear, eso no apunta a una ambigüedad de
un lado ó del otro como teniendo las más exacta apreciación de la totalidad del riesgo de la
393

energía nuclear. Los efectos de la memoria y de la imaginación son capaces ambos de


estimular los miedos del público y oscurecer la conciencia de los expertos de los modos en
que un sistema podría fallar. En la medida que los actuales riesgos pueden ser nunca
conocidos con gran precisión y la nueva información tiende a ser interpretada de una manera
consistente con la previas creencias de uno, el vacío de percepción puede estar con nosotros
por un tiempo largo. Por lo tanto, para alguna gente, la Isla de las Tres Millas “probó” la
posibilidad de un catastrófico accidente nuclear, mientras que para otros, el confirmó su fe en
la confiabilidad de los sistemas múltiples y de contención.

Quién decidirá?

La investigación descrita en este capítulo demuestra que el juicio de los riesgos es falible.
También muestra que el grado de falibilidad es a menudo sorprendentemente grande y que
los estimados erróneos pueden ser sostenidos con gran confianza. Desde que aún la gente
lega bien informada tiene dificultad en juzgar los riesgos exactamente, es tentador concluir
que el público debería ser removido de los procesos de evaluación del riesgo y toma de
decisión de la sociedad. Tal acción parecería estar mal guiada en varios asuntos. Primero, un
cerrado examen muestra que la gente percibe algunas cosas muy bien, aunque su perspectiva
puede a menudo ser muy diferente de esa de los expertos técnicos. En situaciones donde el
mal entendimiento es agresivo, los errores de la gente pueden a menudo ser localizados en
experiencias prejuiciadas, cuya educación puede ser capaz de contar. En algunos casos, los
miedos fuertes de la gente y la resistencia a las palabras tranquilizadoras de los expertos
pueden ser localizados en su sensibilidad al potencial de los accidentes catastróficos, a su
conocimiento del desacuerdo del experto sobre la probabilidad y magnitud de tales
accidentes, y a su conocimiento de los serios errores cometidos por los expertos en el pasado.
Aún en casos difíciles, tal como el conflicto sobre la energía nuclear, una atmósfera de
confianza y un reconocimiento de que ambos los expertos y las personas legas tienen algo
para contribuir, puede permitir algún intercambio de información y profundización de las
perspectivas.
Más aún, en muchos si no en la mayoría de los casos, la dirección efectiva del peligro
requiere la cooperación de un gran cuerpo de gente lega. Estas gentes deben estar de acuerdo
en hacer sin algunas cosas y aceptar sustitutos para otros; ellos deben votar sensiblemente en
medidas de votación y para los legisladores quienes les servirán como directores sustitutos
del peligro; ellos deben obedecer las reglas de seguridad y usar responsablemente el sistema
legal. Aún si los expertos fueran mucho mejor jueces de riesgo que gente lega, dando a los
expertos una franquicia exclusiva para la dirección del peligro significaría sustituir la
eficiencia de corto plazo por el esfuerzo de largo plazo necesario para crear una ciudadanía
informada.
Para los no expertos, los descubrimientos que hemos discutido plantean unas importantes
series de desafíos: estar mejor informado, apoyarse menos en juicios no examinados ó no
soportados, estar conciente de los factores que podrían prejuiciar los juicios de riesgo, y estar
más abierto a la nueva evidencia; de inmediato, realizar el potencial de ser educable.
Para los expertos y los hacedores de la política, estos descubrimientos colocan lo que
puede ser un desafío más difícil: reconocer y admitir las propias limitaciones cognitivas de
uno, intentar educar sin hacer propaganda, reconocer la legitimidad de las preocupaciones del
público, y de alguna manera desarrollar modos en los cuales estas preocupaciones puedan
encontrar una expresión en la decisiones de la sociedad sin, en el proceso, crear más calor
que luz.
394

Parte X

Comentario
395

34. Sobre el estudio de las intuiciones estadísticas

Daniel Kahneman y Amos Tversky

Mucha de la literatura reciente sobre el juicio y el razonamiento inductivo ha estado


relacionado con los errores, prejuicios y falacias en una variedad de tareas mentales (vea,
v.g., Einhorn & Hogarth, 1981; Hammond, McClelland & Mumpower, 1980; Nisbett & Ross,
396

1980; Shweder, 1980; Slovic, Fischhoff & Lichtenstein, 1977; Tversky & Kahneman, 1974,
1). El énfasis en el estudio de los errores es característica de la investigación del juicio
humano, pero no es único de este dominio humano: Nosotros usamos ilusiones para entender
los principios de la percepción normal y aprendemos sobre la memoria estudiando el olvidar.
Los errores de razonamiento, sin embargo, son únicos entre las fallas cognitivas en dos
respectos significantes: Ellos son embarazosos y parecen evitables. Nosotros no estamos
preocupados por nuestra susceptibilidad a la ilusión vertical-horizontal ó por nuestra
inhabilidad de recordar una lista de más de ocho dígitos. En contraste, los errores de
razonamiento son a menudo desconcertantes – ya sea porque la solución que nosotros
fallamos en encontrar parece muy obvia en retrospectiva ó porque el error que cometimos
permanece atractivo aunque sabemos que es un error. Muchos estudios corrientes del juicio
están relacionados con problemas que tienen una ó la otra de estas características.
La presencia de un error de juicio está demostrada comparando las respuestas de la gente
ya sea con un hecho establecido (v.g., que las dos líneas son iguales en longitud) ó con una
regla aceptada de aritmética, lógica ó estadística. Sin embargo, no cada respuesta que
contradice un hecho establecido ó una regla aceptada es un error de juicio. La contradicción
podría también surgir del malentendido del sujeto de la pregunta ó de la mala interpretación
del investigador de la respuesta. La descripción de una respuesta particular como un error de
juicio por consiguiente involucra suposiciones sobre la comunicación entre el
experimentador y el sujeto. (Retornaremos más tarde a este asunto en el capítulo). El
estudiante del juicio debería evitar interpretaciones excesivamente estrictas, las cuales tratan
respuestas razonables como errores, así como también interpretaciones excesivamente
caritativas, las cuales intentan racionalizar cada respuesta.
Aunque los errores de juicio no son sino un método por el cual algunos procesos
cognitivos son estudiados, el método ha llegado a ser una significante parte del mensaje. La
acumulación de demostraciones en las cuales la gente inteligente viola elementales reglas de
la lógica ó estadística han incrementado las dudas sobre la adecuación descriptiva de .

Este capítulo originalmente apareció en Cognition, 1982, 11, 123-141. Derechos de autor © 1981 por Elsevier
Sequola. Reimpreso con permiso.
los modelos racionales del juicio y la toma de decisión. En las dos décadas siguientes a la
Segunda Guerra Mundial, varios tratamientos descriptivos del comportamiento actual
estuvieron basados en modelos normativos: la teoría de utilidad subjetiva esperada en el
análisis de escogencia del riesgo, los cálculos Bayesianos en investigaciones de cambios de
creencia y la teoría de detección de señal en estudios de tareas psicofísicas. El análisis teórico
de estas situaciones, y para un menor grado de resultados experimentales, sugirió una imagen
de la gente tan eficiente, cercana a los tomadores de decisión óptima. Sobre este
conocimiento, las observaciones de elementales violaciones del razonamiento de la lógica ó
la estadística pareció sorprendente, y la sorpresa puede haber estimulado una visión del
intelecto humano que algunos autores han criticado como injustamente negativa (L. J. Cohen,
1979, 1981; W. Edwards, 1975; Einhorn & Hogarth, 1981).
Existen tres razones relacionadas para la puntualización de los errores sistemáticos y de
los prejuicios inferenciales en el estudio del razonamiento. Primero, ellos exponen algunas
de nuestras limitaciones intelectuales y sugieren maneras de mejorar la calidad de nuestro
pensar. Segundo, los errores y los prejuicios a menudo revelan los procesos psicológicos y
los procedimientos heurísticos que gobiernan el juicio y la inferencia. Tercero,
equivocaciones y falacias ayudan al mapeo de las intuiciones humanas indicando cuáles
principios de estadística ó lógica son no intuitivos ó contra intuitivos.
Los términos intuición e intuitivo son usados en tres diferentes sentidos. Primero, un
juicio es llamado intuitivo si el es alcanzado por un modo informal y no estructurado de
397

razonamiento, sin el uso de métodos analíticos ó cálculo deliberado. Por ejemplo, la mayoría
de los psicólogos siguen un procedimiento intuitivo en decidir el tamaño de sus muestras
pero adoptan procedimientos analíticos para probar la significancia estadística de sus
resultados. Segundo, una regla formal ó un hecho de la naturaleza es llamado intuitivo si el es
compatible con nuestro modelo lego del mundo. Por lo tanto, es intuitivamente obvio que la
probabilidad de ganar un premio de la lotería decrece con el número de boletos, pero el es
contra intuitivo de que existe una mejor que una posibilidad semejante de que un grupo de 23
gentes incluyeran un par de individuos con el mismo día de cumpleaños. Tercero, una regla ó
un procedimiento se dijo ser parte de nuestro repertorio de intuiciones cuando aplicamos la
regla ó seguimos el procedimiento en nuestra conducta normal. Las reglas de gramática, por
ejemplo, son parte de las intuiciones de un orador nativo, y algunas de (aunque no todas) las
reglas de geometría plana son incorporadas dentro de nuestro razonamiento espacial.
El presente capítulo dirige varios metodológicos y conceptuales problemas que surgen en
intentos de mapear las intuiciones de la gente sobre la posibilidad y la incertidumbre.
Empezamos por discutir diferentes pruebas de intuiciones estadísticas; nosotros entonces
retornamos a una crítica del paradigma de pregunta-responder en la investigación del juicio;
y concluimos con una discusión del carácter no intuitivo de algunas leyes estadísticas.

Pruebas de intuiciones estadísticas

Errores y prejuicios en el juicio bajo incertidumbre son la mayor fuente de datos para el
mapeo de los límites de las intuiciones estadísticas de la gente. En este contexto es
instructivo distinguir entre errores de aplicación y errores de comprensión. Una falla en un
problema particular es llamada un error de aplicación si existe evidencia de que la gente
conoce y acepta una regla que ellos no aplicaron. Una falla es llamada un error de
comprensión si la gente no reconoce la validez de la regla que ellos violaron.
Un error de aplicación está más convincentemente demostrado cuando una persona,
espontáneamente ó con una mínima incitación, agarra su cabeza y exclama: “Cómo podría yo
haber olvidado eso?” Aunque muchos lectores reconocerán esta experiencia, tales
despliegues de emociones no pueden contar, y otros procedimientos deben ser desarrollados
para demostrar que la gente entiende una regla que ellos han violado.
En entendimiento de una regla puede ser probado por (1) obteniendo de los sujetos ó (2)
requiriéndoles a apoyar una declaración de (1) una regla general ó (2) un argumento para ó
contra una conclusión particular. La combinación de estas características produce cuatro
procedimientos, los cuales ahora ilustraremos y discutiremos.
Empezamos con un ejemplo informal en el cual el entendimiento de una regla es
confirmado por la aceptación ó apoyo de un argumento. Uno de nosotros ha presentado la
siguiente interrogante a muchos jugadores de squash

Como usted sabe, un juego de squash puede ser jugado ya sea a 9 ó 15 puntos. Sosteniendo todas las
otras reglas del juego constantes, si A es un mejor jugador que B, cuál sistema de punteo dará a A
una mejor posibilidad de ganar?

Aunque todos nuestros informantes tuvieron algún conocimiento de estadística, la


mayoría de ellos dijeron que el sistema de punteo no debería hacer ninguna diferencia. Ellos
fueron requeridos entonces a considerar el argumento de que el mejor jugador debería
preferir el juego más largo, debido a que un resultado atípico es menos probable de ocurrir en
una muestra grande que en una pequeña. Con muy pocas excepciones, los que respondieron
inmediatamente aceptaron el argumento y admitieron que su respuesta inicial había sido un
398

error. Evidentemente, nuestros informantes tuvieron alguna apreciación del efecto del tamaño
de la muestra sobre los errores de muestreo, pero ellos fallaron en codificar la longitud de un
juego de squash como una instancia del tamaño de la muestra. El hecho de que la conclusión
correcta viene a ser obligada tan pronto como esta conexión es hecha indica que la respuesta
inicial fue un error de aplicación, no de comprensión.
Un intento más sistemático para diagnosticar la naturaleza de un error fue hecho en un
estudio de un fenómeno etiquetado el efecto de conjunción (vea el Capítulo. 6). Talvez el
principio más fundamental de la teoría de probabilidad es la regla de conjunción, la cual
establece que la probabilidad de una conjunción (A & B) no puede exceder ya sea la
probabilidad de A ó la probabilidad de B. Como el siguiente ejemplo muestra, sin embargo,
es posible construir pruebas en las cuales la mayoría de los jueces – aún los altamente
sofisticados – establecen que una conjunción de los eventos es más probable que uno de sus
componentes.
Para inducir el efecto de conjunción, presentamos a los sujetos con esquemas
personalidad del tipo ilustrado abajo:

Linda tiene 31 años de edad, soltera, franca y muy brillante. Ella se especializó en filosofía. Como
una estudiante, ella está profundamente relacionada con asuntos de discriminación y justicia social, y
también participó en demostraciones anti-nucleares.

En una versión del problema, los entrevistados fueron preguntados sobre cuál de las dos
declaraciones sobre Linda fue más probable: (A) Linda es cajera de un banco; (B) Linda es
cajera de un banco quien está activa en el movimiento feminista. En una muestra grande de
estadísticamente ingenuos no-graduados, 86% juzgó la segunda declaración ser la más
probable. En una muestra de estudiantes graduados en psicología, solo 50% cometió este
error. Sin embargo, la diferencia entre estadísticamente ingenuos y sofisticados encuestados
se desvanecieron cuando los temas críticos fueron incluidos en una lista de ocho
declaraciones comparables sobre Linda. Arriba de 80% de ambos grupos exhibieron el efecto
de conjunción. Similares resultados fueron obtenidos en un diseño entre-los sujetos, en el
cual las categorías críticas fueron comparadas indirectamente (vea el Capítulo 6).

Los pruebas de la aceptación de la regla y de aceptación del argumento fueron usadas en


un esfuerzo para determinar si la gente entiende y acepta la regla de conjunción. Primero,
presentamos un grupo de estadísticamente ingenuos estudiantes de universidad con varias
declaraciones parecidas a una regla, las cuales fueron para clasificar como verdadero ó falso.
La declaración: “La probabilidad de X es siempre mayor que la probabilidad de X y Y” fue
aceptada por el 81% de los que respondieron. En comparación, solo el 6% aceptaron “Si A
es más probable que B, entonces ellas no pueden ambas ocurrir”. Estos resultados indican
algún entendimiento de la regla de conjunción, aunque la aceptación no es unánime, talvez
debido a la formulación abstracta y no familiar.
Un procedimiento de aceptación del argumento fue también empleado, en el cual a los
entrevistados se les dio la descripción de Linda, seguida de las declaraciones (A) y (B) y
fueron requeridos a chequear cuál de los siguientes argumentos ellos consideraron correcto:

(i) A es más probable que B debido a que la probabilidad de que Linda es ambas una cajera de un
banco y una feminista activa debe ser menor que la probabilidad de que ella es una cajera de un
banco.
(ii) B es más probable que A debido a que ella parece una cajera de un banco quién es activa en el
movimiento feminista más que ella parece una cajera de un banco.
399

El argumento (i) favorece a la regla de conjunción que fue aceptada por el 83% de los
estudiantes graduados en psicología por solo el 43% de los no graduados estadísticamente
ingenuos. Extensas discusiones con los entrevistados confirmaron este patrón. Los
entrevistados estadísticamente sofisticados inmediatamente reconocieron la validez de la
regla de conjunción. Los entrevistados ingenuos, por otro lado, estuvieron mucho menos
impresionados por los argumentos normativos y muchos permanecieron confiados en sus
respuestas iniciales que fueron inconsistentes con la regla de conjunción.
Muchos para nuestra sorpresa, sujetos ingenuos no tuvieron un sólido dominio de la regla
de conjunción; ellos tendieron a aceptarlo en lo abstracto pero no cuando ella entra en
conflicto con una fuerte impresión de representatividad. Por otro lado, sujetos entrenados
estadísticamente reconocieron la validez de la regla, y fueron capaces de aplicarlo en un
problema especialmente transparente. La sofisticación estadística, sin embargo, no previno el
efecto de conjunción en versiones menos transparentes del mismo problema. En términos del
presente tratamiento, el efecto de conjunción parece ser un error de aplicación, al menos para
los más sofisticados sujetos. Para una posterior de este asunto vea el Capítulo 6.
En un intento de describir las intuiciones estadísticas de la gente en varios niveles de
sofisticación, Nisbett, Krantz, Jepson y Fong (Capítulo, 32 de este volumen) usó un
procedimiento de sacar la verdad, en el cual los entrevistados fueron requeridos a evaluar y
justificar ciertas conclusiones e inferencias atribuidas a caracteres en breves relatos. Los
investigadores observaron grandes diferencias individuales en la comprensión de principios
básicos de estadística, los cuales estuvieron altamente correlacionados con el nivel del
entrenamiento estadístico. Naturalmente, las intuiciones estadísticas varían con la
inteligencia, experiencia y la educación. Como en otras formas del conocimiento, que es
intuitivo para el experto es a menudo no-intuitivo para el novato (vea v.g., Larkin,
McDermott, Simon & Simon, 1980). No obstante, algunos resultados estadísticos (v.g., la
equiparación de cumpleaños ó el cambio de líder en un juego de lanzar la moneda)
permanecen contra-intuitivos aún para los estudiantes de la teoría de la probabilidad (Feller,
1968, p. 85). Además, existe alguna evidencia de que los errores (v.g., la falacia de los
jugadores) que son comúnmente cometidos por entrevistados ingenuos pueden también ser
obtenidos de los estadísticamente sofisticados, con problemas de una gran sutileza (Tversky
y Kahneman, 1971, 2).
El método de obtención fue también usado (Evans & Wason, 1976; Wason & Evans,
1975) en estudios de intuiciones lógicas en el bien conocido problema de las cuatro cartas
(Wason, 1966). En la versión estándar de este problema, el experimentador despliega cuatro
cartas mostrando A, T, 4 y 7, y requiere de los sujetos identificar las cartas que deberían ser
volteadas para probar la regla “Si una carta tiene una vocal en un lado, ella tiene un número
para en el otro”. La respuesta correcta es que las cartas mostrando A y 7 deberían ser
examinadas, porque la observación de un número impar en la primera carta ó una vocal en la
segunda refutarían la regla. En una sorprendente falla del razonamiento lógico, la mayoría de
los sujetos eligieron mirar el lado oculto de las cartas mostrando A y 4. Wason y Evans
investigaron diferentes versiones de este problema, y requirieron a sus sujetos dar razones ó
argumentos para sus decisiones de sí ó no mirar el lado oculto de cada una de las cuatro
cartas. Los investigadores concluyeron que los argumentos por los cuales los sujetos
justificaron sus respuestas fueron meras racionalizaciones, más que declaraciones de reglas
que actualmente guiaron sus decisiones.
Otra evidencia para el entendimiento inadecuado de la gente de la regla de verificación
fue reportada por Wason (1969) y por Wason y Johnson-Laird (1970). En orden de proveer
“terapia”, estos investigadores confrontaron a los sujetos con las consecuencias de sus juicios
y llamaron la atención de los sujetos a sus respuestas inconsistentes. Este procedimiento tuvo
poco efecto en el desenvolvimiento subsecuente en la misma tarea. Tomados juntos, los
400

resultados sugieren que las dificultades de la gente en la verificación de las tareas refleja una
falla de comprensión, no de aplicación.
Los ejemplos que hemos considerado hasta ahora involucraron el apoyo de reglas y
argumentos par justificar una respuesta particular. No hemos discutido el procedimiento de
requerir a los entrevistados a establecer la regla relevante, porque tal prueba es a menudo
irrazonablemente exigente: Nosotros podemos acreditar a la gente con el entendimiento de
reglas que ellos no pueden articular apropiadamente.
Los procedimientos preferidos para establecer un error de aplicación requiere una
comparación de las respuestas de la gente a un caso particular con su juicio sobre una regla ó
argumento relevante. (McClelland & Rohrbaugh, 1978; Slovic & Tversky, 1974). Es también
posible confirmar un error de aplicación en otros diseños de investigación. Por ejemplo,
Hamill, Wilson y Nisbett (1980) mostraron a los sujetos una entrevista en una cinta de video
supuestamente conducida con un guardia de prisión. A la mitad de los sujetos se les dijo que
las opiniones del guardia (muy humanas ó muy brutales) eran típicas del personal de la
prisión, mientras que a los otros sujetos se les dijo que las actitudes del guardia eran atípicas
y que el fue ya sea mucho más ó mucho menos humano que la mayoría de sus colegas. Los
sujetos entonces estimaron las actitudes típicas del personal de la prisión en una variedad de
asuntos. El sorprendente resultado del estudio fue que las opiniones expresadas por un
guardia atípico tenían casi tanto impacto en las generalizaciones como lo hicieron las
opiniones atribuidas a un miembro típico del grupo. Algo está obviamente equivocado en este
patrón de juicios, aunque es imposible describir cualquier juicio particular como erróneo, y
es improbable que muchos sujetos se darían cuenta que ellos no habían estado influenciados
por la información sobre la tipicalidad del guardia (Nisbett & Wilson, 1977). En este caso y
en otros estudios entre los sujetos, parece razonable concluir que un error de aplicación fue
hecho si la comparación entre los grupos conduce a un resultado que la mayoría de la gente
consideraría insostenible.
Hemos definido un error de aplicación como una respuesta que viola una regla válida que
el individuo entiende y acepta. Sin embargo, es a menudo difícil determinar la naturaleza de
un error, porque diferentes pruebas del entendimiento y aceptación de una regla puede
conducir diferentes resultados. Además, la misma regla puede ser violada en un contexto del
problema y no en otro. La tarea de verificación que provee un sorprendente ejemplo: Los
sujetos que no verificaron correctamente la regla “Si una carta tiene una vocal en un lado,
ella tiene un número par en el otro” no tuvo dificultad en la verificación de una regla
formalmente equivalente: “Si una carta es sellada y tiene una estampilla de cinco centavos”
(vea Johnson-Laird, Legrenzi & Sonino-Legrenzi, 1972; Johnson-Laird & Wason, 1977;
Wason & Shapiro, 1971).
Estos resultados ilustran un patrón típico en el estudio del razonamiento. Parece que la
gente no posee una regla general válida para la verificación de las ‘declaraciones-si’ ó más
ellos resolverían el problema de la carta. Por otro lado, ellos no son ciegos a la regla correcta
ó más ellos fallarían también en el problema de la estampilla. La declaración que la gente no
posee la intuición correcta es, estrictamente hablando, correcta – si la posesión de una regla
es tomada para significar que es siempre seguida. Por otro lado, esta declaración puede ser
mal guiada, puesto que ella podría sugerir un déficit más general de lo que de hecho es
observado.
Varias conclusiones de estudios tempranos de representatividad parecen tener un status
similar. Ha sido demostrado que muchos adultos no tienen generalmente intuiciones válidas
correspondientes a la ley de los números grandes, el papel de las proporciones base en la
inferencia Bayesiana, ó los principios de la predicción regresiva.
Las propiedades que hacen a los problemas formalmente equivalentes fáciles ó difíciles
de resolver parecen estar relacionados a los modelos mentales, ó esquemas, que los
401

problemas provocan (Rumelhart, 1979). Por ejemplo, parece más fácil ver la relevancia de
“no-q” a la implicación “p implica a q” en un esquema de control de calidad (Ellos olvidaron
colocar la estampilla a la carta sellada?) que en un esquema de confirmación (Implica la ley
de la negación de la conclusión la negación de la hipótesis?) Parece que el razonamiento
actual del proceso es un esquema unido ó un contenido unido de tal manera que las
operaciones diferentes ó las reglas inferenciales están disponibles en diferentes contextos
(Hayes & Simon. 1977). Consecuentemente, el razonamiento humano no pude ser
adecuadamente descrito en términos de contenido independiente de las reglas formales.
El problema del mapeo estadístico ó las intuiciones lógicas es más adelante complicado
por la posibilidad de alcanzar conclusiones altamente inesperadas por una serie de pasos
altamente intuitivos. Fue este método el que Sócrates empleó con gran éxito para convencer a
sus discípulos ingenuos que ellos tuvieron siempre verdades conocidas, las cuales él fue solo
haciéndolas descubrir. Deberían cualesquiera conclusiones que pueden ser alcanzadas por
una serie de pasos intuitivos ser consideradas intuitivas? Braine (1978) discutió este asunto
en el contexto del razonamiento deductivo, y él propuso la inmediatez de una prueba: Una
declaración es intuitiva solo si su verdad es inmediatamente apremiante y si ella es defendida
en un simple paso.
El asunto de las pistas Socráticas no ha sido explícitamente tratada en el contexto del
juicio bajo incertidumbre, y no existen reglas que distingan pruebas correctas de intuiciones
de criticados enigmas por un lado y de Socráticas instrucciones por el otro. Imagine, por
ejemplo, cómo Sócrates podría haber enseñado a un estudiante a dar la apropiada respuesta a
las siguientes interrogantes:

“Cuál hospital – un grande ó un pequeño – anotarán más a menudo los días en los cuales arriba del
60% de los bebés que nacieron fueron hombres?”

Esta es una pregunta difícil para los estudiantes no graduados de Stanford (Kahneman &
Tversky, 1972b, p. 441, 3), pero una respuesta correcta puede ser obtenida en una serie de
pasos fáciles, talvez como sigue:

“No estaría usted de acuerdo en que los bebés nacidos en un hospital particular en un día
particular pueden ser vistos como una muestra?”
“Del todo correcto. Y ahora, tendría usted la misma confianza en los resultados de una muestra
grande, ó de una pequeña?”
“Ciertamente. Y no estaría de acuerdo en que su confianza es mayor en una muestra que es menos
probable de estar en error?”
“Por supuesto usted siempre había conocido eso. Me diría usted ahora cuál es la proporción de
niños en una colección de bebés la cual usted considera la más cercana a un ideal de verdad?”
“Estamos de acuerdo de nuevo. Eso no significa, entonces, que un día en el cual más del 60% de
bebés nacidos son varones es un grave despegue de ese ideal?”
“Y por lo tanto, si usted tiene gran confianza en una muestra, no esperaría usted que la muestra
revele la verdad más que el error?” Etc.

El procedimiento Socrático es un modo pesado de manejar de conducir al entrevistado a


una respuesta deseada, pero existen modos más sutiles de adquirir la misma meta. Fischhoff,
Slovic y Lichtenstein, (1979) mostraron que los sujetos vienen a ser sensitivos a proporciones
base y a la confiabilidad de la evidencia cuando ellos encuentran sucesivos problemas que
varían solo en éstas críticas variables. Aunque estos investigadores no obtuvieron un efecto
de tamaño de muestra de tamaño uniforme en un diseño dentro de los sujetos, tales efectos
han sido obtenidos por Evans y Dusoir (1977) y por Bar-Hillel (1979) con una formulación
más transparente y más extremos resultados de muestra,.
402

La pista proveída por problemas paralelos pueden conducir a los sujetos a asignar peso a
una variable que es actualmente irrelevante a la respuesta correcta. Fischhoff y Bar-Hillel
(1980a) demostraron que los entrevistados estuvieron sensitivos a la irrelevante información
de proporción base si esa fue la única distinguiendo un set de problemas. Ciertamente, los
sujetos están propensos a creer que cualquier característica de los datos que es
sistemáticamente variada es relevante a la respuesta correcta. Los diseños dentro de los
sujetos están asociados con problemas significantes de interpretación en varias áreas de la
investigación psicológica (Poulton, 1975). En estudios de intuiciones, ellos son responsables
para inducir el efecto el cual ellos están intentando probar.

Sobre las limitaciones del paradigma preguntar-responder

En la sección precedente nosotros elevamos la posibilidad de que los diseños dentro de los
sujetos y la pistas Socráticas podrían impulsar las intuiciones bajo estudio. El problema es
actualmente mucho más amplio. La mayoría de la investigación del juicio bajo incertidumbre
y de inferencia inductiva en un paradigma de conversación en el cual el sujeto es expuesto a
la información y es requerido a responder preguntas ó a estimar valores, oralmente ó por
escrito. En esta sección discutimos algunas dificultades y limitaciones asociadas con este
paradigma preguntar-responder.
El uso de cuestionarios cortos completados por sujetos casualmente motivados es a
menudo criticado en los campos en que los sujetos actuarían diferentemente si ellos tomaran
la situación más seriamente. Sin embargo, la evidencia indica que los errores de
razonamiento y escogencia que fueron originalmente establecidos con preguntas hipotéticas
no son eliminados por la introducción de incentivos sustanciales (Grether, 1979; Grether y
Plott, 1979; Lichtenstein y Slovic, 1971, 1973; Tversky y Kahneman, 1981). Las preguntas
hipotéticas son apropiadas cuando las personas son capaces de predecir cómo ellos
responderían en un ajuste más realístico, y cuando ellos no tienen incentivos para apoyarse
sobre sus respuestas. Eso no es decir que las recompensas e incentivos no afectan el juicio.
Más bien, mantenemos que los errores de razonamiento y escogencia no desaparecen en la
presencia de las recompensas. Ni el periódico diario ni el estudio de pasadas decisiones
políticas y militares soportan la opinión optimista de que la racionalidad prevalece cuando
los intereses son altos (Janis, 1972; Janis & Mann, 1977; Jervis, 1975).
Talvez una más seria preocupación en relación al paradigma de preguntar-responder es
que no podemos con seguridad asumir que “las conversaciones experimentales” en las cuales
los sujetos reciben mensajes y responden interrogantes estimularán las inferencias que la
gente hace en su interacción normal con el entorno. Aunque algunos juicios en la vida diaria
son hechos en respuesta a interrogantes explicitas, muchos no son. Además, los experimentos
de conversación difieren en muchas maneras de la interacción social normal.
En interpretar las respuestas de los sujetos, los experimentadores son tentados a asumir (i)
que las interrogantes meramente obtienen de los sujetos una expresión evidente de
pensamientos que les habrían ocurrido espontáneamente y (ii) que toda la información dada a
los sujetos está incluida en el mensaje experimental. La situación es muy diferente del punto
de vista de los sujetos. Primero, la pregunta que el experimentador requiere podría no surgir
espontáneamente en la situación que el experimentador está intentando simular. Segundo, el
sujeto está normalmente preocupado con muchas interrogantes que el experimentador nunca
pensó preguntar, tales como: “Existe una repuesta correcta a esta interrogante? Espera el
experimentador que yo la encuentre? Es una obvia respuesta a toda probabilidad ser
corregida? Qué determinó la selección de la información que me fue dada? Es alguna de ellas
irrelevante e incluida justo para mal guiar, ó son todas relevantes? La simple respuesta
abierta que el experimentador observa está determinada en parte por las respuestas de los
403

sujetos a este grupo de interrogantes tácitas. Y el mensaje experimental es solo una de las
fuentes de información que los sujetos usan para generar ambas, las respuestas cubiertas y las
abiertas (Orne, 1973).
Siguiendo las conferencias de William James de Grice en 1967 (Grice, 1975), un gran
cuerpo de literatura en filosofía, lingüística y psico-lingüística ha tratado con el principio de
cooperación al significado de pronunciar discursos (para referencias, vea Clark & Clark,
1977). Por este principio, el escucha de una conversación está en su derecho de asumir que el
que habla está tratando de ser “informativo, verdadero, relevante y claro” (Clark & Clark,
1977, p. 560). Grice listó varias máximas que un orador cooperativo normalmente seguirá.
Por ejemplo, la máxima de cantidad prohibe al orador decir cosas que el escucha ya conoce ó
podría rápidamente inferir del contexto o del resto del mensaje. Es por ésta máxima que la
declaración “John trató de limpiar la casa” conlleva que el intento no fue exitoso: El escucha
puede asumir que un intento exitoso habría sido descrito por la sentencia más simple: “John
limpió la casa”.
Los sujetos vienen al experimento con la experiencia de una larga vida de cooperación en
conversación. Ellos generalmente esperarán encontrar un experimentador cooperativo,
aunque ésta expectativa está a menudo equivocada. La suposición de cooperatividad tiene
muchos efectos sutiles en la interpretación de los sujetos de la información a la cual ellos son
expuestos. En particular, ello lo hace excepcionalmente difícil para el experimentador para
estudiar los efectos de la información “irrelevante”. Debido a que la presentación de
información irrelevante viola las reglas de la conversación, los sujetos son probables de
buscar relevancia en cualquier mensaje experimental. Por ejemplo, Taylor y Crocker,
(1979a) comentaron sobre el hecho de que las impresiones de una persona de los sujetos
están afectadas por declaraciones que son ciertas de todos, por ejemplo, “Mark es
inusualmente tímido con sus profesores”. Pero la inferencia de los sujetos de que Mark es
inusualmente tímido podría ser justificada por la creencia de que un experimentador
cooperativo no incluiría una declaración totalmente redundante en una descripción de
personalidad. Similares asuntos surgen en otros estudios (v.g., Kahneman & Tversky, 1973,
4; Nisbett, Zukier & Lemley, 1981), los cuales investigaron el impacto de la información
irrelevante ó sin valor.
El papel de las presuposiciones incluidas en una interrogante fue ilustrada en un estudio
por Loftus y Palmer (1974), quien mostró que testigos oculares dan un estimado más alto de
la velocidad de un carro cuando preguntó “Cuán rápido iba el carro cuando chocó al otro
carro?” El uso de la palabra chocar en la pregunta implica que el interrogador, si es sincero y
cooperativo, cree que el carro iba rápido.
El análisis normativo de tal inferencia puede ser dividido dentro de dos problemas
separados. (i) Estaría el testigo afectado por la pregunta en formar una opinión privada de la
velocidad del carro? (ii) Estaría el testigo afectado por la pregunta en formular un estimado
público? La respuesta a (i) debe ser positiva si la pregunta conlleva nueva información. La
respuesta a (ii) es menos clara. Por un lado, parece inapropiada para la respuesta a una
pregunta a la información adherida contenida en la pregunta. Por otro lado, el testigo
cooperativo se espera que dé el mejor posible estimado en responder a una pregunta sobre
una cantidad. Qué es lo que el testigo debe hacer si ese estimado ha sido influenciado por la
pregunta? Debería la respuesta ser: ”Antes de que usted me preguntara, yo habría
pensado ...”? Cualesquiera sean los méritos normativos del caso, la evidencia indica que las
personas son a menudo incapaces de aislar las opiniones pasadas de las corrientes ó estimar
el peso de los factores que afectaron sus opiniones (Fischhoff, 1977b; Goethals & Reckman,
1973; Nisbett & Wilson, 1977; Ross & Lepper, 1980).
Nuestra investigación de anclaje (Tversky & Kahneman, 1974, 1) posteriormente ilustra
la potencia de las sugestiones sutiles. En un estudio requerimos a un grupo de sujetos evaluar
404

la probabilidad que la población de Turquía fuera mayor de 5 millones, y requerimos a otro


grupo evaluar la probabilidad de que la población de Turquía fuera menor de 65 millones.
Siguiendo esta tarea, los dos grupos registraron sus mejores adivinanzas sobre la población
de Turquía; los estimados medios fueron 17 millones y 35 millones respectivamente, para los
grupos expuestos a los anclajes bajos y a los altos. Estas respuestas pueden también ser
racionalizadas por la suposición de que los valores que aparecen en las preguntas de
probabilidad no están muy lejos de la correcta.
Hemos argüido que los efectos de sugestión pueden a veces ser justificados debido a que
no existe una clara demarcación entre la sugestión y la información. Es importante notar, sin
embargo, que las personas no aceptan sugestiones porque es apropiado hacerlo. En primer
lugar ellos usualmente no conocen que ellos han sido afectados por una sugestión (Loftus,
1979; Nisbett & Wilson, 1977). Segundo, similares efectos de sugestión son observados aún
cuando los entrevistados no pueden creer razonablemente que un anclaje que a ellos se les da
conlleva información. Los sujetos fueron requeridos a producir estimados de cantidades
ajustando hacia arriba ó hacia debajo de un valor aleatoriamente generado mostró una fuerte
evidencia de efectos de anclaje (Tversky & Kahneman, 1974, 1). No es sugestionabilidad
como tal que es problemático sino la inhabilidad aparente para descartar mensajes no
informativos.
Cuando los sujetos son requeridos a indicar su respuesta, escogiendo una respuesta de
una lista ó construyendo una distribución de probabilidad sobre un dado set de alternativas,
la escogencia de categorías del experimentador podría ser informativa. Loftus (1979) ha
mostrado que los entrevistados reportan mucho más dolores de cabeza por semana cuando la
respuesta es expresada como 1-5, 5-10, 10-15, etc., que cuando la escala es expresada como
1-3, 3-5, 5-7, etc. En este caso, la escala podría legítimamente afectar los límites de lo que es
ser llamado un dolor de cabeza. Aún cuando tales reinterpretaciones no son posibles, se
espera que los sujetos favorezcan la mitad del rango en sus estimados de cantidades y
producir distribuciones de probabilidad en las cuales cada una de las categorías es asignada a
una probabilidad despreciable (Olson, 1976; Parducci, 1965).
Sugestiones implicadas por el cuestionario podrían también contribuir a un resultado
observado por Fischhoff, Slovic y Lichtenstein (1978), quien requirió a los sujetos ingenuos
y mecánicos de garage experimentados evaluar la probabilidad de diferentes
malfuncionamientos que podrían causar una falla en el arranque de un carro. Ellos
encontraron que la probabilidad estimada de la categoría de “todos los otros problemas” fue
muy insensitivo a la completación de la lista y fue duramente incrementado cuando un factor
mayor (v.g., el sistema eléctrico completo) fue eliminado de esa lista.
Aún pistas sutiles e indirectas pueden ser efectivas. En un reciente estudio les dimos a los
sujetos la siguiente información: “El señor A es caucásico, edad 33 años. El pesa 190 libras.”
Un grupo de sujetos fue requerido a adivinar su altura. Otros sujetos también adivinaron su
altura, después de la primera adivinanza su tamaño de cintura. El promedio estimado fue
significantemente más alto en el primer grupo, por alrededor de una pulgada. Nosotros
conjeturamos que los sujetos quienes primero adivinaron el tamaño de cintura atribuyeron
más del peso del señor A, a su gordura que lo que no hicieron los sujetos quienes solo
adivinaron su altura.
Nosotros concluimos que el aspecto de conversación de los estudios del juicio se merece
una más cuidadosa consideración que la que ha recibido en la investigación pasada, la nuestra
incluida. No podemos siempre asumir que las personas harán ó deberían hacer las mismas
inferencias de la observación de un hecho y de habérsele dicho el mismo hecho, porque las
reglas de conversación que regulan la comunicación entre las personas no se aplica a la
información que es obtenida por la observación de la naturaleza. Es a menudo difícil requerir
interrogantes sin dar (útiles ó mal guiadas) pistas con relación a la respuesta correcta y sin
405

conllevar información sobre la respuesta esperada. Una discusión de un asunto normativo


relacionado concerniente a la interpretación de la evidencia está incluido en Bar-Hillel y Falk
(1980).
Naturalmente, los factores de prejuicio que hemos mencionado son probables de tener
mayor impacto en situaciones de alta incertidumbre. A las interpretaciones de los sujetos de
la actitud de conversación del experimentador no les serán dadas mucho peso si ellas entran
en conflicto con el conocimiento confidente de la respuesta correcta a un asunto. En el área
gris donde más investigación del juicio es llevada a cabo. Sin embargo, las variaciones del
contexto de conversación pueden afectar el proceso de razonamiento así como a la respuesta
observada.

Errores de juicio: Análisis positivos y negativos

Es a menudo útil distinguir entre cuentas de errores de juicio positivos y negativos. Un


análisis positivo se focaliza en los factores que produjeron una respuesta particular
incorrecta; un análisis negativo explica por qué no fue hecha la respuesta correcta. Por
ejemplo, el análisis positivo de la falla de un niño en una tarea de conservación Piagetiana
intenta especificar los factores que determinan la respuesta del niño, tal como, la altura
relativa del área de la superficie de los dos contenedores. Un análisis negativo del mismo
comportamiento se focalizaría en los obstáculos que hacen difícil que hacen difícil para el
niño adquirir y entender el volumen de la conservación. En la investigación del juicio bajo
incertidumbre, los análisis positivos están relacionados con la heurística que las personas
usan para hacer juicios, estimados y predicciones. Los análisis negativos están relacionados
con las dificultades de entendimiento y aplicación de las reglas elementales del
razonamiento. En el caso de un error de comprensión, el análisis negativo se focaliza en los
obstáculos que previenen a las personas de descubrir la regla relevante por sí mismos, ó de
aceptar simples explicaciones de el. El análisis negativo de un error de aplicación busca
identificar las maneras de en las cuales la codificación de los problemas pueden ocultar la
relevancia de una regla que es conocida y aceptada.
En general, un análisis positivo de un error es más útil cuando la misma heurística explica
los juicios en un variado set de problemas donde diferentes reglas normativas son violadas.
Correspondientemente, un análisis negativo es más iluminante cuando las personas
consistentemente violan una regla en diferentes problemas pero cometen errores que no
pueden ser atribuidos a una simple heurística. También viene a ser apropiado preguntar por
qué las personas se resisten a la regla si ellos no están convencidos por argumentos válidos
simples. Las dificultades de aprender los principios estadísticos de la experiencia diaria han
sido discutidos por varios autores, notablemente Einhorn y Hogarth (1978), L. R. Goldberg
(1968b) y Nisbett y Ross (1980). Fallas del aprendizaje son comúnmente rastreadas a la
inaccesibilidad de la codificación necesaria de instancias relevantes, ó a la ausencia de un
reaprovechamiento correctivo por juicios erróneos. La resistencia a la aceptación de una regla
es normalmente atribuida a su naturaleza contra-intuitiva. Como un ejemplo, retornamos
ahora al análisis de las razones para la resistencia al principio de la predicción regresiva.
Estudios de predicción intuitiva han proveído mucha evidencia para la prevalencia de la
tendencia a hacer predicciones que son radicales ó insuficientemente regresivas. (Para una
reciente revisión de esta literatura vea el Capítulo 15). En artículos anteriores ofrecimos un
análisis positivo de este efecto como una manifestación de la representatividad heurística
(Kahneman y Tversky, 1973, 4; 1979a, 30). Sin embargo, como veremos, existen razones
para regresar a un análisis negativo en orden de proveer un tratamiento más comprensivo.
406

Un análisis negativo es de especial interés para los errores de comprensión, en los cuales
las personas encuentran la regla correcta no-intuitiva ó aún contra-intuitiva. La mayoría de
los profesores de estadística elemental atestiguarán, los estudiantes encuentran el concepto de
regresión muy difícil de entender y aplicar a pesar de un tiempo de vida de experiencia en la
cual las predicciones extremas fueron a menudo también extremas. Los pronosticadores de
deportes y los maestros, por ejemplo, están familiarizados con manifestaciones de regresión a
la mediocridad: Logros excepcionales son seguidos más a menudo que no por decepciones y
fallas que son por mejoramiento.
Además, cuando la regresión de un criterio variable sobre una predicción es actualmente
lineal, y cuando las distribuciones condicionales del criterio (por valores fijados del que
predice) son simétricos, la regla de predicción regresiva puede ser defendida por un
argumento obligatorio: ella es sensible a hacer la misa predicción para todos los casos que
comparten el mismo valor de la variable del que la predice, y ella es sensible a escoger esa
predicción de tal manera que la media y la mediana del valor del criterio, para todos los casos
que comparten el mismo valor predicho Y, serán iguales a Y. Esta regla, sin embargo, entra en
conflicto con otras intuiciones, algunas de las cuales son discutidas en los siguientes párrafos.
1. “Una regla óptima de predicción debería al menos permitir, si no garantizar,
predicciones perfectamente exactas para el entero ensamble de los casos”. El principio de
predicción regresiva viola este aparente razonable requerimiento. Ella conduce a un set de
valores predichos que tienen menos variación que el correspondiente set de valores de
criterio actuales y de ese modo excluye la posibilidad de un set de predicciones precisamente
exactas. Ciertamente, la regla de regresión garantiza que un error será cometido cada par de
observaciones correlacionadas: Nosotros nunca podemos encontrar un hijo cuya altura
también permitió una predicción exacta de la altura del padre, excepto cuando ambos valores
están en la media de la distribución de altura. Parece extraño que una regla de predicción que
garantiza un error debería volverse óptima.
2. “La relación entre una observación y una predicción basada en ella debería ser
simétrica”. Parece razonable esperar que si B es predicho del conocimiento de A, entonces A
debería ser la predicción apropiada cuando B es conocida. Las predicciones regresivas violan
esta simetría, por supuesto, desde que las predicciones de las dos variables de cada una no
son gobernadas por la misma ecuación de regresión. Una simetría relacionada es encontrada
en la comparación de las predicciones regresivas a los valores actuales del criterio variable.
Las predicciones regresivas no son prejuiciadas, en el sentido de que el valor medio del
criterio, sobre todos los casos para los cuales un valor particular de Y fue predicho, se espera
que sea Y. Sin embargo, si consideramos todos los casos para los cuales el valor del criterio
fue Y, será encontrado que la media de sus punteos predichos descansa entre Y y el grupo
promedio. Estas simetrías son enigmáticas y contra-intuitivas para inteligentes pero
estadísticamente personas ingenuas.
Las asimetrías de predicción regresiva son especialmente problemáticas cuando la
observación inicial y el criterio son generados por el mismo proceso y no son distinguibles a
priori, como en el caso del muestreo repetido de la misma población ó en el caso de formas
paralelas de la misma prueba . El único modo de predicción que satisface la simetría en tales
situaciones es una regla de identidad, donde el punteo sobre las segunda forma es predicho
para ser el mismo como la observación inicial. El principio de la predicción regresiva
introduce una distinción para la cual no existe una razón obvia: Cómo es posible predecir el
signo de la diferencia entre dos valores sacados de la misma población, tan pronto como uno
de estos factores es conocido?
3. “Cualquier efecto sistemático debe tener una causa”. La diferencia entre las
observaciones iniciales y los valores del criterio correspondientes es un hecho, el cual puede
ser observado en cualquier gráfico disperso. Sin embargo, parece ser un efecto sin una causa.
407

En una situación de un test duplicado, por ejemplo, el conocimiento de que el primer punteo
fue alto vincula la predicción de que el segundo será más bajo, pero la primera observación
no causa que la segunda sea baja. La apariencia de un efecto no causado viola una predicción
poderosa. Ciertamente, el entendimiento de la regresión es severamente ocultado por el
hecho de que cualquier instancia de regresión sobre la cual en la cual uno tropieza por
accidente es probable de dársele una explicación causal. En el contexto de una hábil
ejecución, por ejemplo, la regresión de una prueba inicial a una subsecuente es comúnmente
atribuida a intenso esfuerzo después de una falla inicial y a un exceso de confianza en seguir
un suceso inicial. Es a menudo difícil darse cuenta que los ejecutores regresarían aún sin el
conocimiento de los resultados, meramente debido a una no confiabilidad en su ejecución. La
regresión de la primera ejecución sobre la segunda es también sorprendente porque a ella no
puede dársele una explicación causal.
Hemos esbozado un análisis negativo de las dificultades de las personas en entender y
aplicar el concepto de la predicción regresiva. Nosotros proponemos que las personas tienen
fuertes intuiciones sobre la predicción estadística y que algunos principios normativamente
correctos son contra-intuitivos precisamente porque ellos violan intuiciones existentes. En
esta opinión, los “principios” que las personas adoptan representan creencias significativas,
no meras racionalizaciones, y ellas juegan un papel sustancial en retardar el aprendizaje de
las reglas correctas. Estas creencias, sin embargo, son a menudo contradictorias y por tanto
irrealizables. Por ejemplo, es imposible construir una distribución no degenerativa de unión
de la altura de los padres y los primeros hijos de tal manera que la altura media de un padre
será un será un predictor no prejuiciado de la altura de su hijo y la altura de un hijo será un
predictor no prejuiciado de la altura de su padre.
En conclusión, hemos propuesto que algunos errores y prejuicios en el juicio bajo
incertidumbre llaman a un análisis dual; un informe positivo que explica la escogencia de una
respuesta particular errónea en términos de heurísticas y una informe negativo que explica
por qué la regla correcta no ha sido aprendida. Aunque los dos análisis no son incompatibles,
ellos tienden a destacar aspectos diferentes del fenómeno bajo estudio. El intento de integrar
los informes positivos y los negativos es probable que enriquezcan el análisis teórico del
razonamiento inductivo.

Resumen

Dirigimos en este capítulo tres grupos de problemas metodológicos y conceptuales en el


dominio del juicio bajo incertidumbre. Primero, distinguimos entre errores de aplicación y
errores de comprensión y discutimos diferentes métodos para estudiar las intuiciones
estadísticas. Segundo, revisamos algunas limitaciones del paradigma de preguntar-responder
de la investigación del juicio y exploramos los efectos de las sugestiones tácitas, pistas
Socráticas y reglas de conversación. Tercero, discutimos el papel de la explicaciones
positivas y negativas de los errores del juicio.
Las consideraciones surgidas en este capítulo complican el análisis empírico y el teórico
del juicio bajo incertidumbre; ellas también sugieren nuevas direcciones para un futura
investigación. Esperamos que una más profunda apreciación de los problemas conceptuales y
metodológicos asociados con el estudio de las intuiciones estadísticas conducirán a un mejor
entendimiento de las complejidades, las sutilezas y las limitaciones del razonamiento
inductivo humano.
408

35. Variantes de la incertidumbre

Daniel Kahneman y Amos Tversky

Los análisis de la incertidumbre en filosofía, estadística, y la teoría de la decisión


comúnmente tratan todas las formas de incertidumbre en términos de una dimensión simple
de la probabilidad ó del grado de creencia. Recientes estudios psicológicos del juicio bajo
409

incertidumbre han a menudo seguido esta tradición y se han focalizado en la correspondencia


de los juicios intuitivos a la lógica estándar de probabilidad (Einhorn & Hogarth, 1981;
Nisbett & Ross, 1980; Slovic, Fischhoff & Lichtenstein, 1977; Capítulo 34). Una extensa
perspectiva psicológica de la incertidumbre, sin embargo, revela una variedad de procesos y
experiencias, los cuales incluyen tales mecanismos básicos como habituación a la repetida
estimulación en una simple neurona y tales actividades complejas como la evaluación de
hipótesis científicas.
En este capítulo esbozamos algunas extensiones del rango de observaciones que son
normalmente consideradas en los análisis psicológicos de los juicios bajo incertidumbre. Dos
niveles de respuesta a la incertidumbre son discutidos. Primero describimos algunos procesos
básicos de expectativa y sorpresa en la percepción, los cuales pueden ser considerados los
precursores de la probabilidad subjetiva. Cuando retornamos a un examen fenomenológico,
en el cual distinguimos las atribuciones internas de las externas de la incertidumbre y
esbozamos cuatro modos de juicio que las personas pueden adoptar en evaluar la
incertidumbre.

Formas elementales de la probabilidad

La incertidumbre es un hecho con el cual todas las formas de vida deben estar preparadas
para contender. A todos los niveles de la complejidad biológica existe incertidumbre sobre la
significancia de los signos ó estímulos y sobre las posibles consecuencias de las acciones. A
todos los niveles, la acción debe ser tomada antes que la incertidumbre sea resuelta, y un
apropiado balance debe ser adquirido entre un alto nivel de buena disposición específica
para los eventos que son más probables de ocurrir y una habilidad general para responder
apropiadamente cuando lo inesperado sucede. Debido a que el foco del presente tratamiento
es sobre la creencia más que sobre la acción, no discutiremos los extraordinarios procesos por
los cuales los más bajos organismos distribuyen sus esfuerzos de respuesta de acuerdo con
probabilidades de reforzamiento (Herrnstein, 1970). Nuestra principal preocupación es esta

Este capítulo originalmente apareció en Cognition, 1982, 11, 143-157. Derechos de autor © 1981 por Elsvier
Sequoia. Reimpreso con permiso.
sección es con la incertidumbre de percepción.

Expectativas de percepción

Antes del evento existen expectativas. Después del evento puede haber sorpresa. La sorpresa
ha sido estudiada principalmente por los métodos psicofisiológicos, y ha sido medido por los
varios indicadores del orientar la respuesta (Lynn, 1966; Sokolov, 1969) y por el componente
P300 de los potenciales del evento relacionado (Duncan-Johnson & Donchin, 1977; Donchin,
Ritter & McCallum, 1978). Las expectativas han sido estudiadas en muchos contextos y por
una amplia variedad de métodos.
Nuestra discusión de las expectativas de percepción serán organizadas alrededor del
esquema mostrado en la Figura 1, el cual distingue tres tipos principales de expectativas. La
primera mayor distinción separa las expectativas activas de las pasivas: Una expectativa
activa ocupa la conciencia y saca de la limitada capacidad de atención; en contraste, una
expectativa pasiva es automática y sin esfuerzo y está mejor descrita como una disposición
que como una actividad (Posner, 1978).
Algunas expectativas son relativamente permanentes. Expectativas de larga duración
sobre covariaciones de atributos definen las categorías de percepción que usamos para
410

organizar y codificar la experiencia (Broadbent, 1971). Expectativas específicas sobre


objetos, por ejemplo, esas habitaciones y ventanas son probables que sean rectangulares,
funcionan como suposiciones permanentes que ayudan a determinar la interpretación de
estímulos ambiguos (Ittelson & Kilpatrick, 1951). Nosotros estamos crónicamente mejor
preparados para algunos eventos que para otros, como es ilustrado por el robusto efecto de la
frecuencia pasada sobre el umbral del reconocimiento por palabras (Broadbent, 1967;
Morton, 1969). Ciertamente, las expectativas algunas veces producen experiencias
alucinatorias que las personas no pueden distinguir de las reales, como en el efecto de la
restauración fonética. Por tanto, toda la información sensorial correspondiente a la “s” en la
palabra “legislatura” puede ser removida de una grabación del mundo y ser reemplazada por
una tos ó por algún otro sonido natural. Los sujetos que están expuestos a esta grabación
están absolutamente convencidos que ellos escucharon el fonema del fantasma (Warren,
1970).
Las expectativas pasivas y temporales median en los largos efectos del contexto del
reconocimiento (Foss & Blank, 1980) y varias variantes de los efectos de primera mano
(Posner, 1978). Por ejemplo, la inclusión de una letra en una señal de prevención que
introduce una prueba que facilita la respuesta a esa letra en una apresurada tarea que hace
juego, aún cuando las contingencias están tan arregladas que la señal de prevención no
conlleva ninguna información válida sobre el objetivo. Posner (1978) ha documentado
algunas importantes diferencias entre la expectativa pasiva que es fijada por una señal no
informativa de prevención y la expectativa activa producida cuando el objetivo es de hecho
predecible, aunque imperfectamente, de esa señal. Una expectativa pasiva produce un
beneficio (v.g., una respuesta más rápida) cuando es confirmada, pero ella no impide la
respuesta a los objetivos que no han sido apresurados. En contraste, una señal que causa al
sujeto prepararse para activamente para un objetivo particular también hace lenta la
respuesta a los objetivos no anticipados. En el lenguaje de las teorías de probabilidad, las
expectativas activas obedecen a un principio de complementariedad: Un alto grado de
preparación para un evento particular es adquirido a expensas de una pérdida de preparación
para otros eventos. El apresuramiento pasivo está asociado con un patrón no complementario
de beneficio sin costo.
Las expectativas pasivas y las anticipaciones concientes pueden entrar en conflicto, y
existe evidencia de que los procesos pasivos ejercen mayor influencia en la interpretación de
Insertar aquí la Figura 1 de la página 511 del testo original

estímulos ambiguos. Epstein y Rock (1960) opusieron los dos tipos de expectativas uno
contra el otro, usando un cuadro en el cual un perfil visto del lado derecho y uno visto del
lado izquierdo fueron juntados para formar un patrón de organización reversible en el campo
de la figura. Los observadores del cuadro compuesto vieron solo uno de los perfiles, el cual
se apropió del contorno común. Habiendo construido dos perfiles que podrían ser juntados en
este estilo, Epstein y Rock presentaron los perfiles separadamente en una regular alternación
para un número de pruebas, creando una expectativa conciente que cada una siempre sería
seguida por la otra. La composición fue luego presentada por la primera vez, y la cara que los
sujetos vieron en el fue grabada. De acuerdo con el efecto de primera mano, los observadores
casi siempre vieron el perfil que había sido mostrado en la prueba precedente más que el que
ellos concientemente esperaban que ocurriera.
Una demostración relacionada de un conflicto entre diferentes niveles de expectativa han
sido reportados, en la cual el componente P300 del electroencefalograma (EEG) fue la
principal variable dependiente. El P300 es una deflexión positiva en el EEG, el cual
alrededor de 300 msec después de la presentación de cualquier estímulo que el observador
trate como significante ó relevante para la tarea. Muchos estudios cuidadosos han demostrado
411

un cercano vínculo entre las probabilidades previas de los eventos y la magnitud del P300,
sugiriendo un incremento en la probabilidad subjetiva de repeticiones posteriores. En
contraste, la expectativa conciente de las repeticiones decrece consistentemente durante un
largo período, por la familiar falacia del jugador. Evidentemente, un observador puede ser
preparado, ó “preparado” para un evento mientras concientemente espera otro – y puede
mostrar evidencia psicológica de sorpresa a la ocurrencia de un evento que fue
concientemente predicho. Por tanto, existe un sentido en el cual un individuo puede tener
probabilidades conflictivas para el mismo evento al mismo tiempo. Estas observaciones
sugieren una imagen de la mente como una burocracia (Dennet, 1979) en la cual las
diferentes partes tienen acceso a diferentes datos, les asignan diferentes pesos, y sostener
diferentes opiniones de la situación.

La percepción como una apuesta

Las expectativas que se han desarrollado sobre un tiempo de vida de experiencia visual
tienen un profundo efecto en la percepción y son grandemente inaccesibles al conocimiento
conciente ó intención. Las demostraciones mejor conocidas de estos hechos han sido
desarrolladas por los estudiantes transaccionalistas de la percepción (Ittelson & Kilpatrick,
1961). Los observadores del famoso salón distorsionado y la ventana en rotación son
conducidos a tener experiencias visuales que contradicen ambos su conocimiento general y
su específico conocimiento con los objetos de las ilusiones. Por tanto, los amigos de uno
pueden ser vistos como gigantes ó enanos, quienes cambian de tamaño mientras caminan a lo
largo de la pared del salón distorsionado, y una servilleta de papel puede parecer deslizarse a
través de la ventana en rotación. Estos sorprendentes eventos son producidos por la
suposición dominante de que los salones y las ventanas son rectangulares. Aunque el
observador conoce muy bien que la suposición no es aplicable al caso a mano, este
conocimiento no tiene un efecto significante en la percepción conciente. Modelos de la
realidad que han sido construidos a través de los años no pueden ser revisados en la demanda
de para una ocasión particular. Estas observaciones de nuevo confirman que un observador
puede simultáneamente sostener opiniones conflictivas del mismo evento.
Hemos notado que la expectativas de percepción determinan lo que “vemos” en un
estímulo antiguo. Ciertamente, los transaccionalistas han interpretado la percepción como
una apuesta sobre la realidad (Kilpatrck, 1961). Un aspecto significante de tales escogencias
de percepción es el fuerte compromiso a la interpretación escogida. Nuestra experiencia no
contiene indicación de la equivocación del estímulo, y aún cuando las interpretaciones
perceptuales fluctúan a través del tiempo, como con el cubo de Necker, ellas tienden a ser
muy definidas en cualquier momento particular. La supresión de la incertidumbre y la
equivocación en la percepción sugiere que podemos estar biológicamente programados para
actuar en la mejor apuesta de percepción, como si esta apuesta no involucró riesgo de error.
Una diferencia significante entre las experiencias concientes de la percepción y del
pensamiento es que las últimas pueden representar duda e incertidumbre, mientras que las
anteriores no.
Aunque la supresión de la incertidumbre distingue las apuestas perceptuales de los juicios
concientes sobre eventos inciertos, el procesamiento de la incertidumbre a los dos niveles
puede ser similar en otros respectos. Dos sorprendentes observaciones de la investigación
transaccionalista sugieren hipótesis que parecen aplicar a las creencias concientes. La
primera es que la imagen reconstruida del medio ambiente tiende a ser coherente, reflejando
las restricciones normales y las dependencias entre los atributos de la escena y del estímulo.
Por lo tanto, cuando un objeto es presentado bajo condiciones que hacen ambas su tamaño y
412

su distancia ambiguos, la interpretación de la percepción escogida seleccionará un tamaño y


una distancia que relacionen al tamaño de la retina en la manera estándar: Si el objeto es
percibido de ser grande, entonces el también parece estar más lejos que si el es visto como
pequeño (Ittelson & Kilpatrck, 1951).
La segunda observación es que la construcción de percepción parece ser un proceso de
jerarquía, en el cual las decisiones sobre las características globales de la escena restringen y
dominan las decisiones sobre los objetos contenidos en el. El salón distorsionado provee el
mejor ejemplo. Lo que es visto no es un compromiso entre dos opiniones extremas: personas
medidas normalmente en un salón distorsionado, ó personas medidas extrañamente en un
salón normal. La última opinión simplemente domina a la primera, como si la forma del
salón estuviera computada antes del procesamiento de las personas en su inicio. Si reglas
similares pueden ser mostradas para operar, por ejemplo, en la construcción de escenarios de
eventos futuros es un problema que bien merece estudio.

La fenomenología de la incertidumbre

La sección precedente buscó mostrar que las reglas que gobiernan las expectativas de
percepción difieren de las reglas de la teoría de la probabilidad. La presente sección extiende
este análisis a las experiencias de duda e incertidumbre que los juicios de la probabilidad
subjetiva son asumidos para reflejar. Como veremos, las noción de probabilidad se refiere en
un lenguaje natural a varios distintos estados de la mente, para los cuales las reglas del
cálculo estándar de probabilidad pueden no ser igualmente aplicables.
Para apreciar la complejidad de las expectativas, considere una de sus manifestaciones: la
sorpresa que experimentamos cuando una expectativa es violada. Imagine que una moneda
debe ser lanzada al aire 40 veces. Qué número de “caras” esperaría usted? Si usted asume que
la moneda es limpia, usted probablemente establecería que el resultado 20-20 es más
probable que cualquier otro, aún usted estaría más sorprendido por este resultado que por un
resultado de 22 “caras” y 18 “cruces”. Está la “verdadera” probabilidad subjetiva de los dos
eventos indicados por el juicio considerado de su probabilidad relativa ó por la reacción
involuntaria de la sorpresa que ellos producirían?
Una posible interpretación es que ejemplo ilustra un conflicto entre dos aproximaciones
al juicio de la probabilidad: El juicio que el más probable resultado es 20-20 se deriva del
conocimiento de las reglas de la posibilidad, pero los resultados tales como el 22-18 ó el 17-
23 son más probables a otro nivel, donde la probabilidad está determinada por la
representatividad. Un resultado ligeramente desigual representa ambas la limpieza de la
moneda y la aleatoriedad del lanzamiento, el cual no es del todo representado exactamente
por el resultado igual.. En esta visión, la mayor realidad psicológica de las expectativas
basada en la representatividad se manifiesta a sí misma en la reacción de sorpresa.
Una interpretación ligeramente diferente, la cual se focaliza en la codificación de los
posibles resultados, es posible. Como veremos, ella es frecuentemente apropiada en la
conversación para extender la definición de un evento X a “X ó algo parecido a ella”. Si la
codificación espontánea de los eventos siguen reglas similares, los resultados tales como 22-
18 ó 17-23 serán espontáneamente codificados como “divididos iguales”. Una persona que
intenta juzgar la relativa probabilidad de los eventos considerará la declaración explícita de
los resultados, y notará que el 20-20 es más probable que, digamos, 22-18. Pero la reacción
de sorpresa puede estar determinada por la codificación natural de los eventos. El evento 22-
18 será entonces relativamente no sorprendente debido a que está codificado como un
resultado aproximadamente igual, el cual es ciertamente más probable que uno precisamente
igual.
413

El papel de la codificación de un evento es manifiesto en la interpretación de


aseveraciones inciertas, tal como “Yo estimo que . . .” ó algunas veces “Yo pienso que . . .”
Las aseveraciones inciertas son una clase de actos de discurso, los cuales están caracterizados
por condiciones de sinceridad específica y pruebas de validez. Considere, por ejemplo, la
predicción: “Yo pienso que el precio del oro estará más alto en un 50% en seis meses de lo
que está hoy”. Tomado literalmente, ésta es un punto de predicción, al cual debería
asignársele una probabilidad muy pequeña de confirmación. Pero la predicción no tiene el
propósito de ser tomada literalmente. Los puntos de las predicciones son normalmente
entendidos como declaraciones comparativas, ó como declaraciones del rango en el cual un
resultado se espera que caiga, por ejemplo, “Yo pienso que el incremento en el precio del oro
estará más cerca al 50% que al X% ó Y%”. El que lo dice y el que lo escucha normalmente
esperan estar de acuerdo en los valores tácitamente implícitos de X y Y. Por ejemplo, el
pronosticador citado arriba será considerado extraordinariamente exacto si el precio del oro
actualmente se eleva en 53% en los siguientes seis meses, aunque el pronosticador no estuvo
estrictamente cierto. Por tanto, una persona que hable quien acierta a una predicción
numérica está comprometido a un rango más que a un punto. La persona que habla está
también comprometida con la proposición que el valor es casi igualmente probable que esté
arriba del estimado como debajo de el, excepto cuando la naturaleza de la predicción hace
esto imposible. Por lo tanto, una persona que dice, “Yo pienso que el precio del oro se elevará
en un 50% en los próximos seis meses”, estará considerado de ser deliberadamente un mal
conductor si él ó ella también pensaron , pero no lo comunicaron, que el valor actual era
mucho más probable que estuviera arriba del estimado que debajo de el.
Es significante que las condiciones de sinceridad asociadas con una predicción no
requieran que el valor predicho (ó rango) de una variable sea considerado más probable que
los valores comparables (ó rangos). Por ejemplo, un hombre que asevera, “Yo pienso que Bill
John ganará la medalla de oro en el salto alto en la siguiente Olimpíada”, no será considerado
un mentiroso si el prefiere apostar contra esta proposición más que en ella, pero a él le está
prohibido añadir, “y las probabilidades de Jack Small son aún mejores”. Por lo tanto, el
lenguaje natural permite un privilegiado papel a la mejor adivinación, y la identificación de la
adivinación favorecida conlleva información sobre las alternativas a la cual ella puede
justamente ser comparada. La mención de un atleta favorito indica que el va a ser comparado
a otros atletas individuales más que a una separación de posibles ganadores. Una
consecuencia de esta regla es que ella es a veces posible de “predecir” un evento que es
considerado menos probable que su complemento si el complemento es naturalmente
codificado como una separación.
Una restricción relacionada se aplica a expresiones de confianza. Una declaración de
confianza expresa la incertidumbre de uno en una predicción, estimado ó inferencia a la cual
uno ya está comprometido. Por lo tanto, es natural preguntar, “Cuánta confiado está usted en
que usted está correcto?” pero es anómalo preguntar, “Cuán confiado está usted en que usted
está equivocado?” La confianza es la probabilidad subjetiva ó grado de creencia asociada
con que lo que “pensamos” sucederá.
El lenguaje común también provee un gran número de expresiones para hablar de los
eventos que pueden ocurrir, aunque nosotros no necesariamente “pensemos” que sucederán.
Por lo tanto, las personas evalúan las posibilidades de los candidatos, estiman los riesgos de
diferentes actividades, dan probabilidades para los juegos de football y entienden las
declaraciones de los pronosticadores sobre la probabilidad de lluvia. Retornamos ahora a un
análisis más detallado de los estados de incertidumbre que tales declaraciones pueden
expresar, siguiendo el esquema mostrado en la Figura 2. Los dos niveles de la figura,
atribuciones de incertidumbre y variantes de incertidumbre, son discutidos en las siguientes
secciones.
414

Atribuciones de la incertidumbre

La principal distinción mostrada en la Figura 2 se refiere a dos sitios a los cuales la


incertidumbre puede ser atribuida: el mundo externo de nuestro estado de conocimiento. Por
ejemplo, atribuimos a sistemas causales en el mundo real la incertidumbre asociada con el
lanzamiento de una moneda, la sacar de una mano de cartas de una baraja, el resultado de un
juego de football y el comportamiento del volcán Saint Helens. Estos sistemas causales
tienen disposiciones para producir diferentes eventos, y nosotros juzgar las probabilidades de
éstos eventos evaluando la fortaleza relativa de las disposiciones de competición. En
contraste, tales declaraciones como, “Yo pienso que el Mont Blanc es la montaña más alta en
Europa”, ó, “Yo espero deletrear su nombre correctamente”, reflejan una incertidumbre que
es atribuida a la mente de uno más que a una montaña ó una mujer (Howell & Burnett, 1978,
han aplicado los términos incertidumbre interna e incertidumbre externa, respectivamente,
para los eventos que los sujetos pueden ó no pueden controlar).
Nuestra distinción entre ignorancia e incertidumbre externa está cercanamente
relacionada a una más general distinción entre atribuciones de experiencia interna y externa.
El color, tamaño y textura, por ejemplo, son normalmente experimentados como propiedades
que pertenecen a objetos externos, pero dolores, sentimientos y memorias son atribuidos al
experimentar de los sujetos más que a la provocación del objeto.
La atribución de incertidumbre puede algunas veces ser inferida de una simple prueba
lingüística: Es apropiado describir la evaluación de la incertidumbre como “la probabilidad
es . . . ?” Ö debería uno decir “mi probabilidad es . . . ?” En contraste a la opinión Bayesiana,
la cual trata todas las probabilidades como subjetivas y personales, el lenguaje natural marca
la distinción entre la incertidumbre interna y externa. Por lo tanto es legítimo hablar de “el
mejor estimado de la probabilidad de un cambio del régimen de Arabia Saudita dentro del
próximo año”, pero es anómalo decir “el mejor estimado de la probabilidad que el Nilo sea el
río más largo del mundo es . . .” Los mejores estimados de la probabilidad pertenecen al
dominio público. Las expresiones de ignorancia privada no.
Esta prueba no siempre distingue la incertidumbre interna de la externa. Por ejemplo, uno
puede hablar de la probabilidad que Marlowe escribió Hamlet, aunque esta incertidumbre sea
Insertar aquí la Figura 2 de la página 516 del texto original.

atribuida a nuestra ignorancia más que a la fortaleza de la propensión de Marlowe a escribir


obras de teatro. El uso de “la probabilidad” en este ejemplo está justificado por la existencia
de un cuerpo público del conocimiento, el cual reduce pero no elimina la incertidumbre sobre
la autoría de Hamlet. No todos necesitan tener acceso a este conocimiento, pero el estimado
de probabilidad se refiere a una razonable ó consensual inferencia de la evidencia disponible.
En el ejemplo del Nilo, sin embargo, el cuerpo público de la evidencia naturalmente incluye
la respuesta correcta¸ público de la evidencia naturalmente incluye la respuesta correcta¸
puede solo ser privada.
La atribución de incertidumbre sobre un evento para disposiciones ó para ignorancia
depende, entre otras cosas, en la regulación. La incertidumbre sobre eventos pasados es
probable de ser experimentada como ignorancia, especialmente si la verdad es conocida para
alguien más, mientras que la incertidumbre sobre el futuro es más naturalmente atribuida a
las disposiciones del sistema relevante. Ciertamente, ha sido notado que la gente exhibe
diferentes actitudes al resultado de una moneda lanzada al aire, dependiendo en si ó no la
moneda ha sido ya lanzada (Rothbart & Snyder, 1979).

Variantes de la incertidumbre
415

El segundo nivel de la Figura 2 distingue cuatro variantes prototípicas de la incertidumbre,


identificadas por la naturaleza de los datos que el juez podría considerar en la evaluación de
la probabilidad. La incertidumbre externa puede ser evaluada en dos maneras: (i) un modo de
distribución, donde el caso en cuestión es visto como una instancia de una clase de casos
similares, para los cuales las frecuencias relativas de los resultados son conocidas ó pueden
ser estimadas; (ii) un modo singular, en el cual las probabilidades son evaluadas por las
propensiones del caso particular a mano. Los dos modos de juicio son ilustrados por la
siguiente historia verdadera.
Un equipo que estuvo relacionado con el desarrollo de un curriculum de una escuela
secundaria sobre el pensar bajo incertidumbre fue conducir una sesión de planeamiento. La
cuestión fue elevada al tiempo que sería requerido para completar la primera versión de un
libro de texto. Los participantes en la discusión fueron requeridos a estimar este valor tan
realisticamente como fuera posible; los siete estimados estuvieron en un rango de 18 meses a
3 años. El líder del equipo entonces se dirigió a uno de los participantes, un educador con
considerable competencia en los problemas de desarrollo del curriculum, con la siguiente
interrogante: “Cuál ha sido la experiencia de otros equipos que han tratado de escribir un
libro de texto y desarrollar un curriculum en una nueva área, sonde ningún curso previo de
estudió existió? Cuánto tiempo les tomó completar un libro de texto, de una etapa
comparable al estado presente de nuestro proyecto?” Las frías implicaciones de la respuesta
parecieron sorprender al experto quién dio a ellas, tanto como ellas sorprendieron a los otros
participantes: “La mayoría de equipos que yo podría pensar fallaron y nunca completaron un
libro de texto. Para aquellos que tuvieron éxito, el tiempo de terminación tuvo un rango de
cinco a nueve años, con una media de siete”.
Subsecuentes sondeos revelaron que todos los participantes habían producido sus
estimados iniciales en el modo singular, construyendo planes y escenarios,
con algunas ayudas de los márgenes de seguridad para contingencias imprevistas. Debido a
los efectos de anclaje (Tversky & Kahneman, 1974, 1) un estimado obtenido por agregar
márgenes de seguridad a los planes corrientes es probable que sean altamente optimistas. Un
notable aspecto de esta anécdota es que la información de distribución relevante no fue
espontáneamente usada, aunque estuvo disponible para un experto del conocimiento personal
y podría haber sido estimado por varios otros participantes.
Nuestro ejemplo ilustró la aplicación de los modos de razonamiento singular y de
distribución para la predicción de una variable continua: el tiempo requerido para completar
un proyecto. La información de distribución consistió en este caso del conocimiento sobre las
frecuencias relativas de diferentes tiempos de terminación. Por supuesto, un razonamiento
similar puede ser aplicado para evaluar la probabilidad de un discreto resultado, tal como la
falla del proyecto. La frecuencia relativa de ese resultado en una clase relevante provee la
base para una evaluación de distribución de la probabilidad, y otra información sobre el caso
particular, usado en el modo singular, puede producir una impresión de propensión a la falla
ó al éxito. Existen muchas instancias en las cuales la misma interrogante puede ser
aproximada en ya sea el modo singular ó el de distribución.
Compare los siguientes ejemplos:

1. “Posibilidades son que usted encontrará a John en casa si usted llama mañana por la mañana.
El dijo que prefiere trabajar en casa”.
2. “Posibilidades son que usted encontrará a John en casa si usted llama mañana por la mañana.
El a menudo ha estado allí cuando yo lo he llamado”.
416

La declaración 1 permite solo un juicio singular de la probabilidad de que John estará en


casa. La declaración 2 podría soportar ambas una evaluación de distribución y una singular.
La frecuencia relativa de las mañanas similares en las cuales John ha estado en casa proveen
un estimado natural de la probabilidad de encontrar a él mañana, pero la declaración tiene
también dotado a John con una propensión a emplear las mañanas en casa, tanto como lo hizo
la declaración 1.
Hemos conjeturado (Kahneman & Tversky, 1979a, 30) que las personas generalmente
prefieren el modo singular, en el cual ellas toman una “visión interior” del sistema causal que
la mayoría produce inmediatamente el resultado, sobre una visión “exterior”, la cual
relaciona el caso a mano con un esquema de muestreo. Nuestro ejemplo de planificación
ilustra esta preferencia para el modo singular. El también ilustra otro efecto, el cual
sospechamos ser muy general: El modo de juicio de distribución es más probable que el
singular para producir estimados exactos de los valores y razonables evaluaciones de la
probabilidad.
Ahora volvemos a una distinción entre los modos de evaluación de la incertidumbre
interna, los cuales están ilustrados por los siguientes ejemplos:

3. “Yo reo que Nueva York está al norte de Roma, pero no estoy seguro”.
4. “Yo pienso que su nombre es Doris, pero no estoy seguro”.

La incertidumbre expresada en estas declaraciones es claramente interna: las


declaraciones reflejan ignorancia (parcial) más que disposiciones de objetos externos. Es
seguramente inverosímil hablar de la propensión de que Nueva York esté al norte de Roma
(incidentalmente, no es ó de Linda de ser recordada como Doris.
Las dos declaraciones difieren en la naturaleza de la evidencia sobre la cual ellos están
prejuiciados. La declaración 3 podría reflejar un proceso de examinar y pesar
cuidadosamente la evidencia y los argumentos (v.g., Nueva York es mucho más frío que
Roma; Roma está en la mitad de Italia, etc.). La declaración 4 tiene un diferente carácter. La
confianza que ella expresa está basada en un juicio introspectivo de la fortaleza de una
asociación. Como sucede a menudo cuando chequeamos el deletreo de una palabra,
examinando si “luce correcta”, la confianza descansa en una experiencia no analizada. En
estudios de psicofísica y memoria, la confianza asociada con juicios está significantemente
correlacionada con la exactitud. Las personas son más probables de tener confianza cuando
ellos están correctos que cuando no, aunque sus evaluaciones de la probabilidad de que ellos
estén correctos sean pobremente calibrados (vea el Capítulo 22).
Como en el caso de la incertidumbre externa, la incertidumbre interna asociada con una
cuestión dada puede algunas veces ser evaluada en ambos modos el razonado y el
introspectivo. Por ejemplo, una cuestión concerniente a la edad de una estrella del cine puede
aproximada introspectivamente, buscando por una respuesta que suene familiar ó en un modo
razonado, tratando de inducir la respuesta de otro conocimiento.
No deseamos sugerir que cualquier experiencia de incertidumbre pueda ser asignada a
una de las cuatro variantes de la Figura 2. Existen indudablemente muchos casos mezclados e
indeterminados. Hemos visto que la incertidumbre en un problema dado puede ser atribuida a
disposiciones externas, a la ignorancia de uno, ó a la combinación de las dos y que ella puede
ser evaluada en un modo singular, en un modo de distribución, ó en una mixtura de modos.
El propósito de nuestro tratado fue destacar algunas dimensiones significantes de la variación
en experiencias de incertidumbre, no ofrecer una exhaustiva y mutuamente exclusiva
clasificación de estas experiencias. Por un intento de clasificar las operaciones
experimentales en la medida de probabilidades subjetivas, vea Howell y Burnett (1978).
417

Discusión

Aunque el lenguaje de probabilidad puede ser usado para expresar cualquier forma de
incertidumbre, las leyes de la teoría de la probabilidad no aplican a todas las variantes de
incertidumbre con igual fuerza. Estas leyes son más probables de ser aceptadas, y satisfechas
en los juicios intuitivos, cuando una incertidumbre externa es evaluada en un modo de
distribución ó de frecuencia. Por ejemplo, la complementariedad de la probabilidad subjetiva
es muy vinculante cuando consultamos las estadísticas del clima en orden de evaluar la
probabilidad que lloverá el próximo año el 12 de abril: El set relevante de los pasados días de
abril es claramente separable dentro de los días en los cuales hubo lluvia y días en los cuales
no hubo.
La complementariedad es menos vinculante en otras variantes. Cuando la incertidumbre
es evaluada en términos de propensiones, argumentos, ó confianza, es menos obvio que las
probabilidades se agregarían a la unidad – aún si ella es conocida con certeza que una de las
alternativas es correcta. Por ejemplo, uno puede cuestionar por qué el grado de creencia en la
aseveración que Nueva York está al norte de Roma y el grado de creencia en la aseveración
que Nueva York está al Sur de Roma debería sumarse al mismo valor como los grados de
creencia para cualquier otro par de declaraciones complementarias. Ciertamente, varios
autores (v.g., L. J. Cohen, 1977; Shafer, 1976) han propuesto que la complementariedad no
debería aplicarse al grado de creencia. En particular, Shafer ha argüido contra la
complementariedad de la creencia en los campos que existen situaciones en las cuales dos
hipótesis mutuamente exclusivas y exhaustivas, ambas tienen un soporte sustancial y otras
situaciones en las cuales ni las hipótesis tienen mucho soporte. Similares interrogantes
podrían surgir sobre la necesidad de la complementariedad en impresiones de confianza y en
evaluaciones de propensiones conflictivas.
Las variantes de la incertidumbre pueden diferir en la confianza con la cual ellas son
evaluadas. Imagine que una tachuela ha sido lanzada al aire cuatro veces y ha aterrizado dos
veces sobre su punta y dos veces sobre su cabeza. Dados estos datos, la mayoría de
observadores asignarán una probabilidad de .5 al evento que la tachuela aterrizará sobre su
cabeza en el siguiente lanzamiento. Ellos también asignarán una probabilidad de 0.5 al
evento que una moneda lanzada al aire mostrará “cruces”, pero ellos expresan mucha mayor
confianza en sus juicios sobre la moneda que sobre la tachuela. Como este ejemplo ilustra, es
muy posible asignar diferentes grados de confianza al mismo juicio de propensión. La
confianza sobre las probabilidades es importante porque controla las decisiones. Existe
evidencia (Ellsberg, 1961; Raiffa, 1961) que las personas prefieren apostar en eventos que
tienen probabilidades conocidas, tal como el lanzamiento al aire de una moneda, más que en
eventos que están asociados con una combinación de incertidumbre externa e ignorancia, tal
como el lanzamiento de una tachuela.
Existen vínculos naturales entre las concepciones de la probabilidad avanzada por
diferentes escuelas del pensamiento sobre este tópico y los modos de incertidumbre que
hemos discutido. Por lo tanto, la interpretación frecuentista ú objetiva de la probabilidad
restringe el concepto de la incertidumbre externa generada por un proceso de muestreo. En
contraste, la escuela Bayesiana ó personal trata toda la incertidumbre como ignorancia. En la
escuela Bayesiana, las preferencias son la base de las creencias, y las probabilidades son
derivadas de las preferencias entre apuestas. Desde un punto de vista psicológico, sin
embargo, este apostar heurístico parece irreal. La controversia ha sido a menudo definida en
este dominio, debido a que la existencia de que son individualmente obligatorias y
mutuamente incompatibles, y debido a que no existen acuerdos sobre un criterio para
establecer disputas normativas cuando las intuiciones entran en conflicto. Un análisis
418

psicológico podría talvez contribuir a la discusión normativa, proveyendo una adecuada


descripción de las intuiciones de las cuales las varias posiciones sacan su interés.

****************

Referencias
Consultar las páginas 521-551 del Texto Original
419

También podría gustarte