Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística
y
Verdad
C. Radhakrishna Rao
U
UNIVERSITAT DE BARCELONA
B
e-UMAB
Estadística
y
Verdad
C. Radhakrishna Rao
U
UNIVERSITAT DE BARCELONA
B
Consejo editor:
T. Aluja
M. J. Bayarri
F. Carmona
C. M. Cuadras (coordinador)
F. R. Fernández
J. Fortiana
G. Gómez
W. González-Manteiga
M. J. Greenacre
J. M. Oller
J. Puerto
A. Satorra
e-UMAB
Electronic-University Mathematical Books
ISBN: 84-475-2641-0
D.L.: B-12.797-2004
Agradezco a mi madre A. Laxmikanthamma el haberme inculcado gran interés
por la búsqueda del conocimiento. Ella, en mi adolescencia, me despertaba cada
dı́a a las cuatro de la madrugada y encendı́a la lámpara de aceite para que yo
pudiera estudiar durante las tranquilas horas de la ma ñana cuando la mente se
encuentra despejada.
ÍNDICE GENERAL
PREÁMBULO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
PREFACIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
c Publicacions de la Universitat de Barcelona
ÍNDICE GENERAL 7
c Publicacions de la Universitat de Barcelona
PRESENTACIÓN A LA EDICIÓN ESPAÑOLA
Fue durante el congreso sobre Statistical Data Analysis and Inference, Neuchâtel
(Suiza), agosto de 1989, cuando tuvimos ocasión de conocer el libro Statistics and
Truth de C. R. Rao. Tras leer buena parte del libro, enseguida nos dimos cuenta de
la importancia y profundidad de su contenido, y ası́ se lo comentamos al Profesor
Rao. Él entonces nos sugirió que lo tradujéramos al español y nosotros aceptamos
inmediatamente. “¡No sabı́amos el trabajo que se nos vendrı́a encima! Pero creı́mos
que serı́a magnı́fico facilitar al público hispanoparlante la lectura de tan interesante
obra.
El libro es, en esencia, una amena disertación de cómo acercarse a la Verdad por
los caminos del Azar, que ya no debe ser más el resultado de nuestra ignorancia. El
Azar forma parte de la Ciencia y de la Vida, como bien se demuestra a lo largo de
la obra, desde una perspectiva histórica, filosófica y metodológica. La medida de la
incertidumbre es parte esencial de la Estadı́stica, cuyo objeto es el estudio adecuado de
las leyes del Azar y de cómo extraer e interpretar la información contenida en los datos.
El Profesor Rao nos presenta todas estas ideas de forma convincente, ilustrándolas
con numerosos ejemplos de aplicación a la biologı́a, medicina, industria, economı́a,
derecho, etc., de un modo tan claro y entretenido que sólo él, con su insuperable
prestigio cientı́fico y dilatada experiencia, serı́a capaz de escribir.
Esta traducción cuenta con la autorización de A. P. Mitra, Director General del
Council of Scientific & Industrial Research de la India. Tal autorización llevó cierto
tiempo, que junto con el exceso de trabajo (¡cómo está cambiando la universidad
española!) y la dificultad inherente de la traducción (contiene docenas de citas y
párrafos cuyo contenido no nos fue fácil expresar) parecieron poner impedimentos
a la finalización de la misma. El desarrollo de la Estadı́stica ha sido tan rápido estos
últimos años, que todavı́a no existe término equivalente para algunas palabras como
outlier y bootstrap, de las que hemos optado por mantener la voz inglesa junto con una
posible traducción.
Esta versión traducida de Statistics and Truth ha sido posible con la ayuda de
Mercè Aicart, responsable de la preparación del original, y de M. Joaniquet, que
10 ESTADÍSTICA Y VERDAD
C. M. Cuadras y J. M. Oller
c Publicacions de la Universitat de Barcelona
PREÁMBULO
A comienzos del año 1987, el CSIR (Council of Scientific & Industrial Research)
instituyó un ciclo de conferencias selectas cuyo objetivo era invitar a cientı́ficos
eminentes de la India y del extranjero para impartir tres conferencias sobre temas de
su propia elección. Dichas conferencias, conocidas como Conferencias Selectas del
CSIR, tenı́an que ser celebradas en diferentes lugares del paı́s. El primer ciclo de las
mismas ha sido dedicado a la memoria del genio matemático Srinivasa Ramanujan.
Es un buen augurio que las primeras de dichas conferencias (Conferencias del
CSIR a la memoria de Ramanujan) empezara con nada menos que el profesor C.
Radhakrishna Rao, National professor (y actualmente Eberly professor de Estadı́stica
en la Universidad de Pennsylvania), un distinguido cientı́fico de ámbito internacional.
Las conferencias fueron impartidas en el Laboratorio Nacional de Fı́sica, en
Delhi, en el Instituto de Investigación Central del Cuero, en Madras, y en el
Instituto Estadı́stico de la India, en Calcuta, y fueron ampliamente valoradas por los
profesionales de la estadı́stica, fı́sicos, quı́micos y biólogos, estudiantes de diversas
edades ası́ como profesionales y funcionarios. El alcance de dichas conferencias fue
amplio y se difundió por diversas áreas de las actividades humanas, tanto cientı́ficas
como administrativas.
Facilitando que las conferencias sean ahora publicadas, el CSIR espera que una
más amplia comunidad de cientı́ficos del mundo entero pueda beneficiarse de la
experiencia y conocimientos de un hombre de renombrado talento como el profesor
Rao.
Quiero expresar mi gratitud por los esfuerzos del Dr. Y. R. Sarma para la edición
e impresión rápida de dicho volumen.
A.P. MITRA
New Delhi Director General
31 de Diciembre de 1987. Council of Scientific & Industrial Research
PREFACIO
Considero un gran honor haber sido elegido para impartir las Conferencias en
Memoria de Ramanujan bajo los auspicios del CSIR (Council of Scientific & Industrial
Research). Aprovecho esta ocasión para agradecer al Dr. A. P. Mitra, Director General
del CSIR, el haberme proporcionado este honor y darme la oportunidad de participar
en la conmemoración del centenario del nacimiento de Ramanujan.
Impartı́ tres conferencias, la primera en Delhi, la segunda en Calcuta y la tercera
en Madras, como estaba previsto, las cuales he recopilado en cuatro capı́tulos para
poder ser publicadas. Al principio de cada conferencia he introducido algunas palabras
acerca de la vida y el trabajo de Ramanujan, el genio matemático fuera de lo común,
quien ya era una figura legendaria en mi juventud. Sirva esta introducción para
llamar la atención de las jóvenes generaciones sobre los resultados de Ramanujan,
para remarcar la necesidad de la reforma de nuestro sistema educativo y reorganizar
nuestros institutos de investigación, para fomentar la creatividad y la originalidad entre
los estudiantes.
Cuando yo era un estudiante, la estadı́stica se encontraba en sus principios
y he podido observar de cerca su evolución durante los últimos 50 años como
una disciplina independiente de gran importancia y un poderoso instrumento para
adquirir conocimiento en cualquier campo de investigación. La razón explicativa de
tan fenomenal desarrollo no es difı́cil de encontrar.
La Estadı́stica, como método de aprendizaje a partir de la experiencia y toma de
decisiones bajo incertidumbre, debe haber sido practicada desde los principios de la
humanidad. Pero el razonamiento inductivo implicado en estos procesos nunca fue
sistematizado debido a la naturaleza incierta de las conclusiones derivadas a partir
de los datos proporcionados o información. El cambio de dirección ocurrió sólo a
principios del presente siglo, al percibir que el razonamiento inductivo puede ser hecho
preciso cuantificando la cantidad de incertidumbre implicada en las conclusiones
inferidas. Esto preparaba el terreno para establecer, mediante un proceso puramente
deductivo, una estrategia óptima que implicara mı́nimo riesgo, para cada situación de
incertidumbre considerada. Una vez que este mecanismo fue formulado, se abrieron
14 ESTADÍSTICA Y VERDAD
las compuertas, y dejaron de haber barreras para las aplicaciones que aguardaban
impacientemente los nuevos métodos, que podrı́an finalmente dar resultados.
Desde los tiempos de Aristóteles hasta mediados del siglo XIX el azar era
considerado, tanto por los cientı́ficos como por los filósofos, un indicio de nuestra
ignorancia que hacı́a nuestras predicciones imposibles. Hoy en dı́a se reconoce que el
azar es inherente a todos los fenómenos naturales, y la única forma de comprender la
naturaleza y efectuar predicciones óptimas (con mı́nimo error) es estudiar las leyes (o
la estructura ı́ntima) del azar y formular reglas de decisión apropiadas. Éste puede
aparecer como un obstáculo o llegar a ser irritante en nuestra vida corriente, pero
también puede ser una ayuda y fuente de creatividad. Estamos ahora aprendiendo a
utilizar el azar en beneficio de toda la humanidad.
He escogido hablar de los fundamentos y del desarrollo moderno y futuro de
la estadı́stica, debido a mis contactos con estadı́sticos durante los últimos 45 años,
ya sea como profesor, investigador y asesor en estadı́stica, o bien como director
administrativo de los asuntos académicos de una gran organización dedicada a la
estadı́stica. Además, crecı́ en un perı́odo de intenso desarrollo en la historia de la
moderna estadı́stica.
Como estudiante me especialicé en matemáticas —la lógica de deducir
consecuencias a partir de premisas dadas. Más tarde estudié estadı́stica, —una
aproximación racional al aprendizaje a partir de la experiencia. He logrado darme
cuenta de la importancia de ambas en todas las empresas humanas tanto si se trata
de un avance del conocimiento natural como si es una forma eficiente de la gestión de
nuestras tareas diarias. Creo que:
c Publicacions de la Universitat de Barcelona
PREFACIO 15
pasados los sesenta. Estadı́sticamente hablando quizá sea cierto. A medida que
envejecemos tendemos a apegarnos a nuestras ideas pasadas y tratamos de propagarlas.
Esto puede no ser beneficioso para la Ciencia. La Ciencia avanza cambiando, gracias
a la introducción de nuevas ideas. Éstas pueden surgir sólo en las desinhibidas mentes
jóvenes, capaces de concebir lo que puede parecer imposible pero que puede ser el
núcleo de un cambio revolucionario. Pero estoy tratando de imitar a lord Rayleigh, un
cientı́fico que se mantuvo activo toda su vida. A la edad de sesenta y siete años (que es
exactamente mi edad actual) cuando su hijo (también un famoso fı́sico) le preguntó su
opinión sobre la observación de Huxley, Rayleigh respondió:
Esto puede ser cierto si uno se entretiene en criticar el trabajo de los j óvenes,
pero no veo porqué esto tiene que ser necesariamente ası́ si uno sigue trabajando
en las cosas en las que se es experto.
Sin embargo J. B. S. Haldane solı́a decir que los cientı́ficos indios eran demasiado
corteses y no criticaban su trabajo entre ellos, lo que no es bueno para el progreso
cientı́fico.
Es para mı́ un placer agradecer al Dr. Y. R. K. Sarma del Indian Statistical Institute
la generosa ayuda que me prestó para la edición, en forma de libro, de las Conferencias
a la memoria de Ramanujan, que di en varios lugares ası́ como el haber procurado su
publicación final.
El trabajo contenido en este libro, está financiado parcialmente por el Centro de
Investigaciones Cientı́ficas de la Fuerza Aérea, proyecto AFSO-88-0030.
Deseo agradecer a Phyllis J. Straub por su paciencia y diligencia en la
mecanografı́a del manuscrito.
Calcuta,
31 de Diciembre de 1987. C. R. Rao
c Publicacions de la Universitat de Barcelona
PREFACIO A LA SEGUNDA EDICIÓN
C. R. Rao
State College
Primero de Junio de 1991.
PREFACIO A LA EDICIÓN ESPAÑOLA
State College,
10 de Diciembre de 1993 C. R. Rao
SRINIVASA RAMANUJAN—UN CASO ENIGMÁTICO1
01. Las observaciones iniciales de cada conferencia acerca de Ramanujan han sido agrupadas como parte del
prefacio.
22 ESTADÍSTICA Y VERDAD
“Sólo una pequeña parte de su trabajo parece poder ser previsible a primera
vista, y después de comprenderlo, hay todavı́a una gran parte de su trabajo
sobre la cual no es arriesgado predecir que no habrı́a sido descubierta por
nadie que haya vivido en este siglo. Además, algunas de las fórmulas que
Ramanujan encontró, nadie las ha podido comprender o probar. Probablemente
nunca entenderemos cómo Ramanujan las obtuvo.”
c Publicacions de la Universitat de Barcelona
SRINIVASA RAMANUJAN—UN CASO ENIGMÁTICO 23
donde b en el exponente del 7 en la segunda lı́nea de (1) debe ser sustituido por
(b/2) + 1, tal como fue demostrado por Atkin (1967), [Glasgow Math. J., vol. 8,
pp. 14-32]. El que Ramanujan no hallara la fórmula correcta, a la que habrı́a llegado
empleando razonamientos matemáticos, es una cuestión relativamente sin importancia;
que él concibiera la idea de tal propiedad, muestra los inexplicables procesos mentales
subyacentes a su descubrimiento.
¿Cómo surge una idea brillante? ¿Qué tipo de preparación necesita una mente para
volverse creativa? Los genios ¿nacen o se hacen? Tal vez no haya respuestas definitivas
a estas preguntas. A pesar de todo, incluso si dichas respuestas pudieran ser halladas,
quizás no serı́amos capaces de explicar la rapidez con que las ideas brillantes emanaban
del cerebro de Ramanujan. Todo ello resulta más intrigante debido a que Ramanujan
no tenı́a educación formal en matemática avanzada, nunca habı́a sido iniciado en
la investigación matemática y no era consciente de las áreas problemáticas ni de
las tendencias modernas de las matemáticas. Estableció teoremas sin demostración,
y sin indicar cuál era su motivación. Él mismo no podı́a explicar cómo obtenı́a
los resultados. Solı́a decir que la diosa Namakkal le inspiraba las fórmulas en
sueños. Frecuentemente, al levantarse de la cama, anotaba algunos resultados y
rápidamente los verificaba, a pesar de que no siempre era capaz de proporcionar
una demostración rigurosa. Muchos de los teorema propuestos por Ramanujan han
resultado ser correctos. ¿Tiene lugar la creatividad a nivel subconsciente?
El profesor P. C. Mahalanobis fue un contemporáneo de Ramanujan en Cambridge
(Inglaterra). Solı́a narrar varias anécdotas relacionadas con Ramanujan que han
c Publicacions de la Universitat de Barcelona
24 ESTADÍSTICA Y VERDAD
Según Ranganathan, la primera vez que Ramanujan mostró tener algún interés
por las matemáticas fue a la edad de 12 años. Se dice que preguntó a un amigo,
que estudiaba en una clase más avanzada de la Escuela Superior de la ciudad de
Kumbakonam, acerca de la “verdad más fundamental” en Matemáticas. Se cree que
éste le presentó el Teorema de Pitágoras y el problema de Acciones en Bolsa como
las “verdades más fundamentales”! El teorema de Pitágoras pertenece a la auténtica
matemática donde las conclusiones son obtenidas a partir de premisas dadas a través de
una serie de razonamientos deductivos y no hay ninguna duda acerca de la corrección
de las mismas. El problema de acciones en bolsa pertenece a la probabilidad, ahora una
floreciente rama de las matemáticas, donde las conclusiones obtenidas son inciertas;
c Publicacions de la Universitat de Barcelona
SRINIVASA RAMANUJAN—UN CASO ENIGMÁTICO 25
Perı́odo −1914 1914 1915 1916 1917 1918 1919 1920 1921
Número
de artı́culos 5 1 9 3 7 4 4 3 1
Ramanujan murió en 1920 a la edad de 33 años. Durante los dos o tres últimos
años de su vida su salud fue declinando. A pesar de ello, continuó trabajando y
dejó tras sı́ numerosos resultados anotados en un cuaderno, descubierto hace unos
pocos años. Este “cuaderno perdido” tiene nuevos teoremas que han abierto nuevas
áreas de investigación en teorı́a de números.
Como el Dr. Askey dijo, “Ramanujan no es importante sólo como matemático sino
porque nos muestra lo que la mente humana puede hacer”. Contemplemos la misteriosa
fórmula que Ramanujan escribió sin ninguna demostración para calcular el número π:
1 1 3
∞ 4n + 2
1 √ 4 n 2
n 4 n 1
=2 2 (1103 + 26390n) .
π n=0
(1)n (1)nn! 99
02. Mediante otra versión de la misma fórmula, en 1987 los hermanos J. M. Borwein y P. B. Borwein calcularon
el número π con 100 millones de cifras. El récord mundial, conseguido en octubre de 1995, basado también en una fórmula
de Borwein, está en 6,442,450,938 cifras. N. del T.
c Publicacions de la Universitat de Barcelona
26 ESTADÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
INCERTIDUMBRE, AZAR Y CREATIVIDAD
o como Einstein, el más grande fı́sico de los últimos tres siglos o tal vez de todos los
tiempos, pensaba:
Algunos teólogos argumentan que nada es aleatorio para Dios porque él causa todo lo
que ocurre; otros dicen que incluso Dios está a merced de sucesos aleatorios. En su
libro “El jardı́n de Epicuro” Anatole France observa,
Nuestros éxitos o fracasos son explicados más en términos de azar que por nuestras
habilidades y esfuerzos.
La incertidumbre, en una situación dada, puede presentarse de diversas formas.
Puede ser debido a
∗ falta de información
∗ errores desconocidos en los datos disponibles
∗ tecnologı́a inadecuada para la obtención de la información requerida
∗ imposibilidad de realizar las medidas necesarias
∗ ...
c Publicacions de la Universitat de Barcelona
INCERTIDUMBRE, AZAR Y CREATIVIDAD 29
lograr descubrir nuevos fenómenos o postular nuevas teorı́as? ¿Es el proceso implicado
un arte, una tecnologı́a o una ciencia?
Intentos de responder a estas preguntas empezaron sólo a comienzos del presente
siglo, tratando de cuantificar la incertidumbre. No se han conseguido éxitos completos
en este esfuerzo pero los logros obtenidos han producido una revolución en todas las
esferas del saber humano. Todo ello ha abierto nuevas áreas de investigación y ha
ayudado al avance del conocimiento de la naturaleza y del bienestar humano. También
ha cambiado nuestra forma de pensar y ha permitido remarcables descubrimientos de
los secretos de la naturaleza, que nuestros prejuicios acerca del determinismo y nuestra
incapacidad para manejar el azar habı́an impedido anteriormente.
Una descripción completa de estos avances y las razones para el largo retraso en
la concepción de estas ideas están expuestas en el siguiente capı́tulo.
c Publicacions de la Universitat de Barcelona
30 ESTADÍSTICA Y VERDAD
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
1
9
7 8 1 6 6 5 7 2 0 8 0 2 6 3 1 4 0 7 0 2 4 3 6 9 9 7 2 8 0 1 9 8
3 2 0 4 9 2 4 3 4 9 3 5 8 2 0 0 3 6 2 3 4 8 6 9 6 9 3 8 7 4 8 1
2 9 7 6 3 4 1 3 2 8 4 1 4 2 4 1 2 4 2 4 1 9 8 5 9 3 1 3 2 3 2 2
8 3 0 3 9 8 2 2 5 8 8 8 2 4 1 0 1 1 5 8 2 7 2 9 6 4 4 3 2 9 4 3
5 5 5 6 8 5 2 6 6 1 6 6 8 2 3 1 2 4 3 8 8 4 5 5 4 6 1 8 4 4 4 5
2 6 3 5 7 9 0 0 3 3 7 0 9 1 6 0 1 6 2 0 3 8 8 2 7 7 5 7 4 9 5 0
3 2 1 1 4 9 1 9 7 3 0 6 4 9 1 6 7 6 7 7 8 7 3 3 9 9 7 4 6 7 3 2
2 7 4 8 6 1 9 8 7 1 6 4 4 1 4 8 7 0 8 6 2 8 8 8 8 5 1 9 1 6 2 0
7 4 7 7 0 1 1 1 1 6 3 0 2 4 0 4 2 9 7 9 7 9 9 1 9 6 8 3 5 1 2 5
5 3 7 9 7 0 7 6 2 6 9 4 2 9 2 7 4 3 9 9 5 5 1 9 8 1 0 6 8 5 0 1
9 2 6 4 4 6 0 7 2 0 1 2 3 9 2 0 7 7 6 6 3 8 1 7 3 2 5 6 1 6 4 0
5 8 5 8 7 7 6 6 3 1 7 0 0 5 0 0 2 5 9 3 0 5 4 5 5 3 7 0 7 8 1 4
2 8 8 9 6 6 2 8 6 7 5 7 8 2 3 1 1 5 8 9 0 0 6 2 0 0 4 7 3 8 1 5
5 1 3 1 8 1 8 6 3 7 0 9 4 5 2 1 6 6 6 5 5 3 2 5 5 3 8 3 2 7 0 2
9 0 5 5 7 1 9 6 2 1 7 2 3 2 0 7 1 1 1 4 1 3 8 4 4 3 5 9 4 4 8 8
7 9 0 0 5 8 7 0 2 6 0 6 8 8 1 3 5 5 0 9 4 3 2 4 0 0 3 0 4 7 5 0
3 6 9 3 9 2 1 2 0 5 5 7 7 3 6 9 7 1 6 2 9 5 6 8 1 3 1 2 9 4 3 8
0 3 8 0 3 3 3 8 0 1 3 8 4 5 6 0 4 2 0 3 6 4 9 6 3 8 0 6 0 3 4 7
0 2 4 6 4 4 6 9 9 7 1 9 8 3 1 6 1 2 8 5 0 3 5 7 2 3 8 9 2 3 9 0
7 2 6 6 0 0 8 1 6 8 9 7 2 8 5 1 4 6 6 6 0 6 2 0 4 5 9 6 3 4 0 0
9 3 1 2 4 7 7 9 5 3 3 7 8 9 1 8 4 5 5 0 3 9 9 4 5 5 7 3 9 2 2 9
6 1 1 1 6 0 9 8 0 9 6 5 7 3 5 2 6 8 4 7 3 0 3 4 9 9 7 7 3 7 7 0
2 3 1 0 4 4 7 6 9 1 4 8 0 6 7 9 2 6 6 2 2 0 6 2 0 5 2 2 9 2 3 4
9 8 2 6 8 8 5 7 8 6 7 5 6 6 4 2 5 4 7 1 8 8 2 0 4 3 0 8 2 1 0 5
6 7 0 3 8 2 4 8 6 0 6 4 6 9 6 2 0 0 5 3 8 1 8 8 6 4 9 4 4 5 0 9
1 1 1 0 9 4 8 6 6 5 3 3 3 9 5 4 1 9 4 4 1 5 1 6 1 6 8 2 3 4 0 4
9 6 5 1 1 4 5 6 5 6 1 3 0 3 5 7 4 2 4 4 3 3 4 1 9 6 0 5 3 5 6 7
8 3 5 0 5 7 2 8 4 3 3 8 0 8 2 4 7 8 9 9 1 3 0 7 5 8 1 4 8 6 8 8
6 9 8 2 5 1 2 6 7 7 3 6 3 3 8 3 6 2 1 5 3 4 4 1 8 5 7 8 2 2 7 7
6 4 9 0 7 6 4 4 7 0 8 5 8 3 6 1 5 6 6 2 4 1 4 1 9 8 7 7 3 7 4 7
8 5 7 0 2 1 5 0 8 1 4 0 4 3 5 5 5 3 2 1 2 5 4 8 0 2 8 0 7 5 4 3
9 1 6 9 0 4 0 8 4 3 5 3 6 1 2 2 8 9 1 3 9 9 3 0 4 1 6 9 6 0 3 2
2 1 2 7 0 1 6 2 6 1 7 6 4 9 6 9 8 1 8 5 9 3 1 2 8 7 4 8 8 5 7 5
8 0 9 0 9 8 7 2 1 9 6 8 0 2 6 3 0 0 8 1 2 6 6 2 6 8 3 1 3 1 0 6
2 9 5 9 9 0 1 1 1 4 4 8 4 3 4 6 7 0 1 9 8 1 4 8 1 5 5 7 8 4 0 0
c Publicacions de la Universitat de Barcelona
INCERTIDUMBRE, AZAR Y CREATIVIDAD 31
N B B N B N B B N N N N N B N N N B B N B B B N N
N B N N N N N B B N B N B B B N N B B B B B B B N
B B N B B B N N B N B B B N N N N N B B N B N B B
N B B B B N N B N N B B N N B N B B N N B N N B N
B N B N B N B N N B N N N N B N N N N N N N B N B
B N B N N B N B N N B N B N B N B N N N B B N N N
N B B N N N B B N B N B N N B N B N N N B N B N B
N N N B B B B B N B B N B B B B B B N N N N B B N
N N N B B N B B B N N N B B B B B N N B N N N B B
B B N N B B B N B N N N B N B N B B B B B N B N B
N B N N N B B B N B N B N N N B N N B B B N B N N
B N B N B B B N B N B B N B B N B B B N N N N B N
B B B B N N N B B B B B B B B N N N N B B B N N B
N B N B N N N N B B N B B B B N B N N B B N N N N
N N B N N N N B B B N B N B B N B N B B N N N B N
B B B N B N B B B B B B B B N N N B N B B B B N N
B B N B N B B B N N N N N B B N B N B B B B B N B
N N N B N N B B B N N B B N N N N B N B N N N N N
B B N B N B N B B B B N N N B N N B N N B N B B N
N B N B N N N B N N N N N N N N N B N B B B B B N
N B N B N B B N N N N N B B N N B N B N B B N N N
N B N B N B B N N N N N B B N N B N B N B B N N N
B B B N B B N N N N B B B B N N B B B N N N N N N
B N N B B N N N B N B B N N N B B N B B B B N N N
N N N N B B N B N N B B N B B N N N B B N B N B B
B B N B N B N B N B B N B B N B N B N B N N N B B
N B N B N B B B B B N B B B N N N B N B N B N B B
N N N N B B N B B N B B N N B N B B B B N N N B N
B N B N N B N B B B B B N B N B B B N N N N N B B
B N B N N N N N B B B N N B B B N B N B N B B N N
B N B B B N N N N B B N N N B N B B B B B N N B N
B N B N N B N N B B B B B B B B N N B N N N B B N
B N N B B N N N N N N B B N N N B B B N B N N B B
B B N N B B B B N N B B B N B N N B N B N B N N B
B N B N B B N B N B B N N N N B N B B B N B N N B
N B B N N B N N N N B B B B N N B B B B N B N B B
N B N B N N B N N B B N B N B N B B B B B N N B N
N N B N B B N B N N B B B N N N N N B B N B N B B
B B B N B N N B N N N B N N B N B B B B B B B B B
Tabla 1.2: Datos sobre el color de sucesivas bolas sacadas de una bolsa que
contiene igual número de bolas blancas y negras
c Publicacions de la Universitat de Barcelona
32 ESTADÍSTICA Y VERDAD
Enero
H V V H H V V V V H V H V H V V V H H V H H V H H
H V H V V V V V V H V V V V V H H H H V V H V V V
V V V V V V V V H V V V H H H V V H V V H H H V H
H V H V V V H V V V H H V V H V H H V V H V H V V
H H V H V V H V H H H V V H H V H V H H H V V V H
H H V H V H V V V V V H V H H V H V H V V H V V H
H H H H H H H H V V H V V V H V V V V H H V H H H
H V H V V V V H H H H V H H H V V V V V
Febrero
H H V H H
H H V V V H H H H V H H H V H H V H H V H H V H H
V V V H V H H V H V H H V H V V H V H V V V H V V
H V V H H H V V V H H H H H V V V H H H V V H H V
V H V H V H V V V V H H V V H H V V H V H V V H V
H H
Marzo
V H H H V V V V V V V H V H H H H H V V V H V
V H V H H V H V H H H H H V V H V H H V H V V H V
V H H H H H V V H V H V V H H V V V V V V V H H V
V V H H V V V V H V H H V H V
Abril
H V H H H H V V V
H H V H V V H H H V H V V V H H V H H V V H H V H
H V H V V V V V H V V V V V V H H V V V H V H V H
V V H V V V V H H V H V V V V V V V H H H V V H V
H V H H V V H V H H V V H V H V H V H V H H V H V
H H H H V H V V V H H V H H H V V H H H V V V H H
H H V H H H V V V H H V H V H V H V H V V V H V H
V H V V H H V V H H H V V H V V V V V V H V V H H
Julio
H V V V V H V V V V H H V H H H H V V H H V H V V
H H H V V H V H V V H V H V V H V H V V V V V V V
V H V H H V V V V V H V H V V V H V V H H V H V H
V H V V H H H V V V V V V H V V V H H V V V V H H
H V H H V V H V H H H H H H H V V V V H H H H V V
H H V V V V V V V H V V V V H H V V H H H H H V V
H
Octubre
V V V H H H H V H H V V H V V H V V H V V V V V
V H V H V H H H H V H V H H H H V H V V V H H H V
V H V V H V V H H H H H V H H H V V V V V H V V H
H V V H H V H V V H H V V H H V V H H V H H H V H
H V V H H V V H V V V V V V H H V H H V V H H V H
H H V V H H H H V H H H V H H H H V H V H H V H H
V V H V V H H H V H V H H V H V V V H H H H H H H
V H V H V V V H H H V H H V H V V H V H V V V H V
V H H H V V H V H H V H H H V V V H H V V H V V V
V H V V H H V V V H H H V V H H H H H H H H H V H
V V H V V V H V H H
Tabla 1.3: Datos sobre el sexo de sucesivos niños nacidos en un hospital indio
observados durante ciertos periodos de algunos meses de 1956
c Publicacions de la Universitat de Barcelona
INCERTIDUMBRE, AZAR Y CREATIVIDAD 33
libro puede verse en la tabla 1.1. Ésta fue seguida por otra publicación de dos grandes
pioneros de la Estadı́stica, R. A. Fisher y F. Yates, la cual contenı́a 15.000 dı́gitos
formados listando los dı́gitos del 15 al 19 de tablas logarı́tmicas de 20 cifras.
¡Un libro de números aleatorios! Una colección fortuita y sin sentido de números,
ni realidad ni ficción. ¿Para qué sirve? ¿Por qué los cientı́ficos están interesados
en ellos? Esta habrı́a sido la reacción de los cientı́ficos y personas no expertas
a principios de siglo. Pero un libro de números al azar es una invención tı́pica
del siglo veinte, cuando ha aparecido la necesidad de los números aleatorios para
resolver problemas del mundo real. Ahora la producción de números aleatorios es una
industria multimillonaria en todo el mundo, implicando considerable investigación y
sofisticados ordenadores de alta velocidad.
¿Qué es una secuencia de números aleatorios? No hay una definición sencilla,
excepto una poco precisa, mencionada anteriormente, como aquella que no sigue
ningún particular patrón.1 ¿Cómo se puede generar una secuencia tan ideal de
números? Por ejemplo, se puede tirar una moneda un número de veces y recordar la
secuencia de 0’s (para cruces) y 1’s (para caras) tal como sigue:
011010 · · ·
01. Técnicamente hablando, una secuencia de sı́mbolos al azar es aquella que no puede ser registrada por medio
de un algoritmo de una forma más corta que la secuencia misma.
02. El número π, del que ya se conocen 6,442,450,983 dı́gitos decimales, ha sido propuesto como un generador
natural de números aleatorios (Y. Dodge, International Statistical Review, 64(3), 329-344, 1996). N. del T.
c Publicacions de la Universitat de Barcelona
34 ESTADÍSTICA Y VERDAD
Número Frecuencias
Niño varón Blanco Esperado
0 5 4 6.25
1 27 34 31.25
2 64 65 62.50
3 65 70 62.50
4 30 22 31.25
5 9 5 6.25
Total 200 200 200.00
Tabla 1.4
Podemos sumarizar los datos de la tablas 1.2 y 1.3 en una forma que se conoce
como distribución de frecuencias. Las frecuencias de 0, 1, 2, 3, 4, 5 niños varones
en sucesiones de 5 nacimientos consecutivos, y de bolas blancas en sucesiones de 5
extracciones consecutivas de bolas, vienen dadas en la tabla 1.4.
Las frecuencias esperadas son valores teóricos, que se observarı́an como un
promedio, si el experimento con 200 pruebas se repitiera muchas veces. Las
frecuencias pueden ser representadas gráficamente en forma de histogramas (Figura 1).
0 1 2 3 4 5 0 1 2 3 4 5
n = 200 n = 200
Como puede verse, los dos histogramas son similares, indicando que el mecanismo
fortuito de determinación del sexo es el mismo que el de la extracción de bola blanca
o negra de una bolsa con igual número de bolas de los dos colores o similar al de la
tirada de una moneda. Un simple ejercicio como el anterior puede proveer las bases
c Publicacions de la Universitat de Barcelona
INCERTIDUMBRE, AZAR Y CREATIVIDAD 35
para la formulación de una teorı́a sobre la determinación del sexo. Dios lanzando una
moneda! De hecho los tests estadı́sticos mostraron que los nacimientos de niños y
niñas proveen una secuencia binaria de más confianza que la generada artificialmente.
Quizás Dios está lanzando una moneda perfecta. En la India se produce un nacimiento
cada segundo, lo que constituye una barata y conveniente forma de generar secuencias
binarias aleatorias.
En la práctica, además de los ordenadores, recursos naturales como el diodo
de polarización invertida, son utilizados para generar números aleatorios basados
en la teorı́a de la mecánica cuántica que postula la aleatoriedad de ciertos
eventos a nivel atómico. Nótese que la teorı́a misma es verificable comparando los
números ası́ observados con secuencias generadas mediante estrategias artificiales.
Sin embargo, los matemáticos creen que para construir una secuencia de números
aleatorios válida (satisfaciendo muchos requerimientos) no se deberı́an usar
procedimientos aleatorios sino convenientes procedimientos determinı́sticos! (Ver
Hull y Dobell (1962) para una excelente discusión sobre este tema). Los números
ası́ generados son descritos como pseudo-aleatorios, y mostraron servir al propósito
deseado en la mayorı́a de las aplicaciones prácticas.
Ya hemos visto como secuencias aleatorias de números generados artificialmente
nos capacitan para descubrir, por comparación, mecanismos fortuitos similares en
la naturaleza y explicar la causa de sucesos naturales tales como la secuencia de
nacimientos de niños y niñas. Hay varias formas de aprovechar el azar: profundizar
sobre preguntas desconcertantes, resolver problemas demasiado complejos para
admitir una solución exacta, generar nueva información y quizá también para ayudar a
la creatividad y desarrollar nuevas ideas. Brevemente describiré algunas de ellas.
c Publicacions de la Universitat de Barcelona
36 ESTADÍSTICA Y VERDAD
“El registro mensual del juego de la ruleta en Monte Carlo puede proporcionarnos
material para el análisis de los fundamentos del conocimiento”.
. . . . . .
.
. . .. .
. .. .
. . . .
. . .
. . .
.
.
. . . .
. . . . . ..
c Publicacions de la Universitat de Barcelona
INCERTIDUMBRE, AZAR Y CREATIVIDAD 37
la total del cuadrado, a medida que m crece, siempre que los pares (x, y), escogidos
para determinar los puntos, sean verdaderamente aleatorios. El éxito (o precisión) de
este método depende de la medida en que podamos confiar en el generador de números
aleatorios y en cuantos números podamos producir fijados unos determinados recursos.
Bajo el liderazgo de Karl Pearson el método fue utilizado por alguno de
sus estudiantes para encontrar la distribución de algunos estadı́sticos muestrales
complicados, pero no se popularizó de inmediato, excepto quizás en la India, en el
ISI,3 donde el profesor P. C. Mahalanobis explotó los métodos de Monte Carlo, que el
llamaba muestreo aleatorio experimental, para resolver cierta variedad de problemas
tales como determinar el plan de muestreo óptimo en trabajos de inspección, y el
tamaño y la forma óptima de gráficas en trabajo experimental.
La razón del retraso en reconocer las potencialidades de este método puede ser
atribuido a la no disponibilidad de instrumentos para producir verdaderos números
aleatorios y en cantidad suficiente, lo cual afecta a la precisión de los resultados.
También, en ausencia de instrumentos estándar para generar números aleatorios, los
editores de revistas eran reticentes a publicar artı́culos que contuvieran resultados de
simulaciones. Ahora la situación es completamente diferente gracias a la aparición
de los generadores de auténticos números aleatorios y el fácil acceso a ellos.
Somos capaces de acometer investigaciones de problemas complejos y dar al menos
soluciones aproximadas para uso práctico. Los editores de revistas insisten en que
todo artı́culo sometido deberı́a contener resultados de simulaciones incluso cuando
las soluciones exactas son posibles! Es un hecho que el carácter mayoritario de
la investigación en estadı́stica, quizás también en otros campos, está cambiando
gradualmente, haciendo mayor énfasis en lo que se llama “number crunching
methods”, de los cuales un ejemplo tı́pico es el “método bootstrap” en estadı́stica,
defendido por Efron, que se ha hecho muy popular. Hacemos que los números trabajen.
En India, debido a razones desafortunadas, no hemos sido capaces de explotar la
programación basada en métodos de simulación para el trabajo de investigación y
perdimos la oportunidad de estar a la cabecera de la investigación cientı́fica mundial,
como ası́ éramos considerados antes de la llegada de los ordenadores.
1.2.3. Encuestas
c Publicacions de la Universitat de Barcelona
38 ESTADÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
INCERTIDUMBRE, AZAR Y CREATIVIDAD 39
Llave 0 1 0 0 0 1 1
Emisor
Mensaje 1 0 1 1 0 0 0
Llave 0 1 0 0 0 1 1
Receptor
Mensaje Decodificado 1 0 1 1 0 0 0
Los bancos usan códigos secretos basados en los números aleatorios para
garantizar la privacidad de las transacciones hechas mediante cajeros automáticos.
Para este propósito un número aleatorio es generado como una clave con la norma
de convertir un mensaje en un código que sólo es descifrable con el conocimiento
de la misma. Más tarde, después de dar dicha clave al computador central y al cajero
automático, los dos mecanismos pueden comunicarse por teléfono de forma segura.
Tras recibir el mensaje del cajero automático que espera el número del cliente y la
cantidad de dinero que quiere retirar, el computador central verifica la cuenta del cliente
y da instrucciones al cajero automático para hacer o no el pago.
c Publicacions de la Universitat de Barcelona
40 ESTADÍSTICA Y VERDAD
Algunos de las actuales aplicaciones de los números aleatorios, que inició una gran
demanda de generadores de los mismos, es la resolución de problemas complicados
tales como el problema del vendedor viajante, donde se trata de determinar la
trayectoria más corta a seguir para visitar un determinado número de lugares,
comenzando desde un sitio determinado y volviendo al punto de partida.
Otro interesante ejemplo es la programación del juego del ajedrez. Aunque el
ajedrez es un juego potencialmente analizable de forma determinista, los programas
de la Inteligencia Artificial (IA) a veces incorporan movimientos al azar como una
forma de evitar la terrible complejidad del juego.
El ámbito de aplicación de los números aleatorios y el concepto de azar parecen
ser ilimitados.
c Publicacions de la Universitat de Barcelona
INCERTIDUMBRE, AZAR Y CREATIVIDAD 41
“Usted tiene una seria enfermedad. De diez personas que tienen esta
enfermedad sólo una sobrevive. Pero no se preocupe. Es afortunado por venir
a verme, ya que recientemente he tenido nueve pacientes con esta enfermedad y
todos ellos han muerto”.
Semejante opinión fue seriamente sostenida por el filósofo alemán Karl Marbe
(1916), quien, basándose en el estudio de 200.000 registros de nacimientos en cuatro
ciudades de Bavaria, concluyó que la probabilidad de que una pareja tenga un niño
varón aumenta si unos dı́as atrás han nacido una gran cantidad de niñas.
Otra opinión, que es la contrapartida a la teorı́a de Marbe de la “Estabilización
Estadı́stica”, es la “Teorı́a de la Acumulación” propuesta por otro filósofo, O.
Sterzinger (1911), el cual formó la base para una “Ley de Series”, o la tendencia del
mismo suceso a ocurrir en periodos cortos, formulada por un biólogo, Paul Kammarer
(1919). Un proverbio dice,
que la gente toma seriamente, y aplica a todo tipo de sucesos. El profesor J. Narlikar
(1982), en una conferencia de la 16ava Asamblea del Instituto Indio de Estadı́stica,
hizo referencia a una controversia entre Fred Hoyle y Martin Ryle donde aparecı́a tal
falacia. El profesor Narlikar mencionó que su simulación, o experimento de Monte
Carlo, mostró que un sistema homogéneo y regular puede exhibir heterogeneidades
locales (por ejemplo, cortas rachas del mismo suceso) con alguna frecuencia, y las
observaciones de Ryle de tales heterogeneidades en la densidad de fuentes radioactivas
no se contradice con la teorı́a de Hoyle del estado estacionario del Universo.
Daré otro ejemplo. Se ha establecido que los tamaños poblacionales de una gran
variedad de animales exhiben aproximadamente ciclos de tres años, es decir, el tiempo
medio que pasa entre dos sucesivos picos del tamaño poblacional es alrededor de
3 años. (Un pico es definido como un año en el cual hay más animales que en el
inmediato anterior y en el inmediato posterior). La ubicuidad de tal fenómeno conduce
a creer que quizás se trate de una nueva ley natural. Tal creencia sufrió un duro golpe
cuando se observó que si disponemos en una gráfica números aleatorios a intervalos
equidistantes, la distancia media entre picos se aproxima a 3 cuando la serie de
números aumenta. De hecho, tal propiedad es fácilmente demostrable usando el hecho
c Publicacions de la Universitat de Barcelona
42 ESTADÍSTICA Y VERDAD
de que la probabilidad de que el número que está en medio sea mayor que los otros
dos en un conjunto de 3 números aleatorios es 1/3. Esto da un tiempo medio de 3 años
entre picos.
S: ¿Fumas marihuana?
T: ¿Tu número de teléfono acaba en cifra par?
y pedimos al entrevistado que tire una moneda y responda S correctamente si sale cara
y T correctamente si sale cruz. El investigador no sabe qué pregunta será contestada
y el secreto de la información estará garantizado. De entre todas las respuestas, la
proporción real de individuos que fuman marihuana puede ser estimada como se
muestra a continuación.
π̂ = 2p − λ
Ahora haré referencia a problemas más fundamentales que están siendo resueltos
mediante el concepto de azar. Narran la construcción de modelos para el universo y
sirven de marco a las leyes naturales.
Durante mucho tiempo se creyó que todos los sucesos naturales tenı́an un
inequı́voco carácter determinista, la formulación más extrema se encuentra en Laplace
(1812), con la idea de un ‘demonio matemático’, un espı́ritu dotado de una ilimitada
c Publicacions de la Universitat de Barcelona
INCERTIDUMBRE, AZAR Y CREATIVIDAD 43
capacidad para la deducción matemática, quien era capaz de predecir todos los
futuros sucesos en el mundo si en un determinado momento conocı́a todas las
magnitudes que caracterizaban su estado actual. El determinismo, al cual ya he hecho
referencia, está profundamente arraigado en la historia y prehistoria del pensamiento
humano. Como concepto tiene dos significados. Hablando en términos generales, es
una creencia incondicional en los poderes y omnipotencia de la lógica formal como
un instrumento para el conocimiento y descripción del mundo externo. En un sentido
más estricto, es la creencia de que todos los fenómenos y sucesos del mundo obedecen
a leyes causales. Además, ello implica la confianza en la posibilidad de descubrir, al
menos en principio, aquellas leyes que permiten deducir el conocimiento del mundo.
Sin embargo, se comprendió a mediados del siglo pasado que la búsqueda de leyes
naturales deterministas está llena de dificultades lógicas y prácticas, por lo que se
empezó la búsqueda de modelos alternativos basados en mecanismos aleatorios.
Hay otro aspecto del demonio matemático de Laplace que concierne al
conocimiento de las condiciones iniciales de un sistema. Es bien sabido que a causa
de los errores de medida, es difı́cil conocer las condiciones iniciales con precisión
(es decir, sin error). En tal caso, hay una posibilidad de que ligeras diferencias en
las condiciones iniciales den lugar a predicciones ampliamente diferentes para el
futuro estado del sistema. Un ejemplo tı́pico fue propuesto por Lorenz en 1961 con
el registro gráfico de patrones de tiempo atmosférico a lo largo del tiempo partiendo
de un punto cercano al punto inicial. La Figura 3 reproducida más adelante, del libro
Caos de James Gleick, muestra cómo bajo la misma ley los patrones del tiempo
atmosférico, comenzando desde las condiciones iniciales con una diferencia en una
de sus medidas .506217 en lugar de .506, aumenta más y más la separación hasta
que cualquier semejanza desaparece. Este fenómeno de extrema dependencia en las
condiciones iniciales es descrito como el efecto mariposa —‘la noción de que una
mariposa que agite el aire hoy en Pekı́n puede producir una tormenta el mes próximo
en Washington.’
Tres grandes desarrollos tuvieron lugar aproximadamente al mismo tiempo en
tres diferentes campos del conocimiento. Están todos basados en la premisa que el
azar es inherente en la naturaleza. Adolph Quételet (1869) utilizó los conceptos de
probabilidad al describir los fenómenos sociales y biológicos. Gregor Mendel (1870)
formuló sus leyes de la herencia mediante simples mecanismos aleatorios como
lanzar un dado. Boltzman (1866) dio una interpretación estadı́stica a una de las más
fundamentales proposiciones de la fı́sica teórica, la segunda ley de la Termodinámica.
Las ideas propuestas por estos valientes fueron revolucionarias en su naturaleza. Si
bien no fueron aceptadas inmediatamente, se consiguieron rápidos avances en todas
estas áreas durante el siglo XX, utilizando conceptos estadı́sticos.
c Publicacions de la Universitat de Barcelona
44 ESTADÍSTICA Y VERDAD
04. Galileo Galilei, conocido por su nombre de pila, era un astrónomo italiano, matemático y fı́sico, que ha sido
reconocido como el fundador de la moderna fı́sica experimental. Su nombre está asociado con el descubrimiento de las
leyes del péndulo, los cráteres en la Luna, los cuatro satélites brillantes de Júpiter, el telescopio, etc. Tales descubrimientos
convencieron a Galileo de que la “Teorı́a Copernicana” de Nicolás Copérnico, de que la Tierra gira sobre su eje y da vueltas
alrededor del Sol, era cierta. Pero esto contradecı́a las enseñanzas de la Iglesia y Galileo fue obligado por la Inquisición
a retractarse de sus opiniones. Es interesante remarcar que hace unos años, el Papa Juan Pablo II exculpó a Galileo de los
antiguos cargos formulados por la Iglesia, sobre la base de un informe remitido por una comisión nombrada por él.
c Publicacions de la Universitat de Barcelona
INCERTIDUMBRE, AZAR Y CREATIVIDAD 45
“Hemos visto cómo los fı́sicos clásicos se esfuerzan en vano para reconciliar la
creciente evidencia experimental con las ideas preconcebidas sobre causalidad,
derivadas de experiencias de cada dı́a pero elevadas al nivel de postulados
metafı́sicos, y cómo ellos lucharon en una batalla perdida contra la intrusi ón
del azar. Hoy, el orden ha sido invertido: el azar se ha convertido en la primera
noción, la mecánica una expresión de sus leyes cuantitativas, y la evidencia
aplastante de la causalidad con todos sus atributos en el reino de la experiencia
ordinaria, es satisfactoriamente explicado por la ley estadı́stica de los grandes
números”
c Publicacions de la Universitat de Barcelona
46 ESTADÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
INCERTIDUMBRE, AZAR Y CREATIVIDAD 47
Cuando por primera vez presentamos un descubrimiento, puede parecer a los demás
como carente de armonı́a o razón y profundamente subjetivo. Tales eran realmente las
reacciones ante los descubrimientos de Ramanujan y Einstein. Se necesitaron varios
años de experimentación y verificación para admitir la teorı́a de Einstein como un
nuevo paradigma, y quizás medio siglo para reconocer que el curioso estilo que
presentaban las fórmulas de Ramanujan tenı́a una base teórica de gran profundidad
y significado.
Comentando el pensamiento aleatorio, y el papel del azar en la creatividad,
Hofstadter dice,
“Tengo poca paciencia con los cientı́ficos que cogen un tablero de madera,
c Publicacions de la Universitat de Barcelona
48 ESTADÍSTICA Y VERDAD
buscan la parte más delgada y taladran un gran n úmero de agujeros allı́ donde
es mas fácil”.
Einstein trabajó en el campo de la fı́sica, una importante rama de la ciencia. Una teorı́a
cientı́fica es válida sólo cuando es establecida su aplicabilidad al mundo real. Pero una
vez formulada, es sostenida por una fuerte fe, más que por razonamientos deductivos
o inductivos. Esto se refleja en la frase de Einstein referente a la naturaleza de Dios:
c Publicacions de la Universitat de Barcelona
INCERTIDUMBRE, AZAR Y CREATIVIDAD 49
Referencias
KAMMARER, P. (1919). “Das Gasetz der Serie, eine Lehre von den Wiederholungen im
Labensund im Welteshehen”. Stuttgart y Berlin.
c Publicacions de la Universitat de Barcelona
50 ESTADÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
APÉNDICE: DISCUSIÓN
x, f (x), f f (x) , . . .
que proporcionan un modelo preciso para varios fenómenos fı́sicos tales como las
turbulencias en los fluidos.
El caos del que los cientı́ficos están hablando es matemático en esencia y su
estudio se hace atractivo y posible gracias al uso de los computadores. Se trata de
un pasatiempo que ha resultado ser agradecido, al abrir nuevas vı́as de modelado de
fenómenos observados en la naturaleza mediante modelos determinı́sticos.
Un ejemplo interesante del famoso matemático Mark Kac (ver su autobiografı́a
Enigmas de la Suerte, pp. 74-76) muestra cómo el grafo de una función determinista
podrı́a simular el trazo de un mecanismo aleatorio. Para contrastar la teorı́a de
Smoluchowski sobre el movimiento browniano de un pequeño espejo suspendido
de una fibra de cuarzo en un vaso que contiene aire, Kappler dirigió un ingenioso
experimento en 1931 para obtener trazados fotográficos del movimiento del espejo.
Uno de estos trazados de 30 segundos de duración se reproduce en la figura siguiente.
0 10 20 30
TIEMPO (seg.)
Kac observa que, mirando la gráfica, “es difı́cil escapar al sentimiento de que se
está ante la presencia de auténtico azar y de que el registro gráfico sólo puede
haber sido producido por un mecanismo aleatorio”. El experimento de Kappler parece
confirmar la teorı́a de Smoluchowski, de que el espejo es golpeado al azar por las
moléculas del aire determinando que la gráfica del desplazamiento del espejo siga un
proceso estacionario Gaussiano.
Kac muestra que podemos producir una gráfica indistinguible, a través de
cualquier análisis estadı́stico, del grafo de Kappler, representando la función,
c Publicacions de la Universitat de Barcelona
APÉNDICE: DISCUSIÓN 53
A.2. Creatividad
c Publicacions de la Universitat de Barcelona
54 ESTADÍSTICA Y VERDAD
“No puedo, sin embargo, basar esta convicci ón en razones lógicas, sólo puedo
poner mi dedo meñique como testigo”.
El Dr. Ghosh concluye su comentario diciendo: No sé si mis opiniones son una
especie de Popperismo en el campo de la creatividad. No conozco las opiniones de
Popper sobre la ciencia lo suficientemente bien en relación a esto.
Doy las gracias al Dr. Ghosh por suscitar cuestiones fundamentales en el muy
debatido concepto de la creatividad.
Limito mi réplica a la creatividad cientı́fica que es quizás diferente a la que se da
en música, literatura y arte (ver Chandrasekhar 1975).5 En ciencia, la mayor parte del
trabajo de investigación consiste en operaciones comparables a abrillantar, tapar un
agujero o arreglar una gotera. Sólo un pequeño porcentaje de investigación se puede
considerar claramente creativo, pudiendo presentarse a dos niveles de sofisticación:
que se efectúe dentro del marco de un paradigma ya existente o bien que, a un
nivel superior, implique un paradigma nuevo. El mecanismo de ambos tipos de
procesos creativos tal vez no se conozca completamente, pero algunos aspectos del
mismo son generalmente aceptados: pensamiento subconsciente cuando la mente no
está restringida por los procesos lógico-deductivos, una idea afortunada, transformando
05. Shakespeare, Newton and Beethoven on Patterns of Creativity. The Nora and Edwary Rayerson Lecture. The
University of Chicago.
c Publicacions de la Universitat de Barcelona
APÉNDICE: DISCUSIÓN 55
Yo no busco, encuentro.
Picasso
Mi trabajo siempre trataba de conciliar la verdad con la belleza; pero cuando tenı́a
que escoger entre una u otra, generalmente escogı́a la belleza.
H. Weyl
Tengo mis resultados desde hace tiempo, pero a ún no conozco la forma de llegar a
ellos.
Johann Gauss
Norbert Wiener
c Publicacions de la Universitat de Barcelona
56 ESTADÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
APÉNDICE: DISCUSIÓN 57
“Nos gustarı́a imaginar que los grandes descubridores, los cientı́ficos cuyo
comportamiento estamos intentando comprender, estarı́an satisfechos con esta
interpretación de su actividad, como pensamiento humano normal (si bien de
gran calidad) ... La Ciencia tiene que ver con la forma de ser del mundo, no
como nos gustarı́a que fuera. Por tanto debemos continuar realizando nuevos
experimentos, guiados por las nuevas evidencias, en una b úsqueda heurı́stica
que nunca acaba pero que es siempre fascinante”.
c Publicacions de la Universitat de Barcelona
58 ESTADÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
APÉNDICE: DISCUSIÓN 59
elección de fa , falta de conocimiento del resto de los factores y a los errores de las
medidas. Entonces modelar la incertidumbre del resultado eligiendo f a y el error a
través de un mecanismo aleatorio resulta ser una necesidad.
¿Qué es el azar y cómo lo podemos modelar? ¿Cómo podemos combinar
los efectos de causas conocidas con los posibles efectos de causas desconocidas
en la explicación de fenómenos observables o la predicción de futuros sucesos?
¿Qué queremos decir con “explicar un fenómeno” y “predecir un resultado” cuando
hay incertidumbre? Realmente, hay dificultades lógicas en la respuesta a tales
preguntas. Si estamos considerando un modelo aleatorio, la pregunta de modelar
aleatoriamente en el propio modelado aleatorio, surgirı́a de forma natural. Debemos
dejar de lado estos temas filosóficos e interpretar la explicación de un fenómeno
como las hipótesis de trabajo a partir de las cuales podemos obtener deducciones con
márgenes de error permisibles.
El primer esfuerzo en esta dirección es el desarrollo de la teorı́a de errores, donde
la incertidumbre en las mediciones tiene que ser considerada en la interpretación de
los resultados (estimación de cantidades desconocidas y verificación de hipótesis). La
siguiente etapa es la caracterización de los fenómenos observables en términos de leyes
de azar gobernando los sistemas fı́sicos. Éste es probablemente el mayor avance en
el pensamiento humano y en la comprensión de la naturaleza. Un llamativo ejemplo
es el trabajo de Gregor Mendel, quien introdujo, por primera vez, hace 120 años, el
paradigma del indeterminismo en la historia de la ciencia. Estableció los principios de
la genética, los mecanismos hereditarios, observando datos sujetos a fluctuaciones al
azar. Las ideas de Mendel condujeron a la moderna teorı́a de la evolución, que es una
“mezcla de azar y necesidad—azar al nivel de la variación y necesidad al considerar la
selección”. Más tarde vino la revolución con la explicación de los fenómenos fı́sicos
a través del comportamiento aleatorio de las partı́culas fundamentales. El concepto de
azar ha realmente ayudado a desentrañar el misterio de lo que se ocultaba detrás de lo
que parecı́a ser fortuito.
Hemos progresado y aprendido a utilizar el azar en cualquier situación que se
presente en nuestra vida diaria, investigación cientı́fica, producción industrial o en la
toma de decisiones complejas. Hemos desarrollado métodos para extraer señales de
mensajes codificados por sucesos al azar (ruido) y a reducir los efectos aleatorios
a través de mecanismos de feedback y control (cibernética, servomecanismos).
Hemos diseñado métodos para la coexistencia pacı́fica con el azar, métodos que
nos permiten trabajar con efectividad a pesar de la presencia de los fenómenos
aleatorios (uso de códigos correctores de errores, repetición de experimentos para
asegurar la consistencia de los mismos, introducción de redundancia para posibilitar
la fácil identificación). Pero lo más asombroso de todo es que hemos aprendido a
c Publicacions de la Universitat de Barcelona
60 ESTADÍSTICA Y VERDAD
utilizar el azar para resolver problemas que de otra forma serı́an difı́ciles de resolver
(método de Monte Carlo, búsqueda aleatoria) y para obtener mejoras (selección en
programas de reproducción o crianza). Un elemento de azar es a veces introducido
deliberadamente por los ingenieros en el diseño de máquinas para mejorar su
rendimiento. Paradójicamente, introducimos artificialmente elementos de azar en la
recolección de datos (como en programas de muestreo y diseño de experimentos) para
obtener información válida e insesgada.
La aceptación hasta sus últimas consecuencias del Dios que juega a los dados
haciendo funcionar el universo todavı́a no se ha realizado. Tal como dice Rustum Roy
(en su libro Experimentando con la Verdad, p. 188):
El estudio del remarcable mundo del azar est á sólo en sus comienzos. La ciencia
apenas ha rozado la superficie de este mundo de extra ños sucesos e ilimitado
potencial.
Pero la búsqueda de los inapreciables tesoros del azar ha empezado, y no hay
forma de saber qué riquezas podremos descubrir. Una cosa, sin embargo, es
segura: habremos empezado a pensar en el azar, no como un obst áculo irritante,
no como algo “no esencial asociado a los fen ómenos” (como se define en los
diccionarios filosóficos), sino como una fuente de ilimitadas posibilidades que
incluso ni la más rica imaginación puede intuir.
c Publicacions de la Universitat de Barcelona
APÉNDICE: DISCUSIÓN 61
A.4. Ambigüedad
Además del azar y la aleatoriedad que acabamos de citar, hay otro obstáculo en la
interpretación de los datos observados. Hay una cierta ambig üedad en la identificación
de objetos (personas, lugares o cosas) como pertenecientes a distintas categorı́as. ¿Soy
un estadı́stico, un matemático o un administrativo? Puedo dar diferentes respuestas
en diferentes situaciones. A veces, puedo decir que soy una tercera parte de cada
uno. Naturalmente, es esencial definir las categorı́as con tanta precisión como sea
posible para evitar confusiones en la comunicación de nuestras ideas y en los
trabajos de investigación. Pero la ambigüedad en la introducción de conceptos y en
la construcción de definiciones no puede ser evitada. “Puesto que no hay unas reglas
divinas para establecer categorı́as, y mucho menos humanas, se trata de una dificultad
fundamental” (Kruskal, 1978). Creo que la necesidad de estudiar los “conjuntos
difusos” en matemáticas surgió para tratar la ambigüedad en la identificación de
objetos.
Sin embargo, es interesante notar que Edward Levi, en su clásico libro de 1949
sobre razonamiento legal, escribió ampliamente sobre el importante papel de la
ambigüedad en los tribunales de justicia. Kruskal (1978) proporcionó las siguientes
citas textuales del libro de Levi para intentar dar luz sobre este tema.
Por tanto, para el Dr. Levi, la ambigüedad no es un “monstruo”, sino algo beneficioso
y necesario para la coherencia de la sociedad.
c Publicacions de la Universitat de Barcelona
62 ESTADÍSTICA Y VERDAD
Parece que dos elementos esenciales que hacen la vida interesante son el azar y la
ambigüedad-impredecibilidad de los sucesos naturales y la falta de una interpretación
única de los vocablos que utilizamos para comunicarnos. En el pasado, ambos eran
considerados como obstáculos inevitables. Estamos aprendiendo ahora no sólo a
aceptarlos como inevitables, sino quizás, a considerarlos como esenciales para el
progreso de nuestra sociedad!
c Publicacions de la Universitat de Barcelona
EL DOMINIO DEL AZAR O LA EVOLUCIÓN
DE LA ESTADÍSTICA
L. J. Savage
La Estadı́stica tiene unas raı́ces muy antiguas pero una corta historia. Su origen
podrı́a remontarse a los comienzos de la humanidad, pero sólo en tiempos recientes
ha emergido como una disciplina de gran importancia práctica. En la actualidad, es
un área muy activa, ampliamente utilizada a pesar de las controversias acerca de sus
fundamentos y métodos. Han habido modas en estadı́stica defendidas por diferentes
escuelas de estadı́sticos. La llegada de los ordenadores ha supuesto un considerable
impacto en el desarrollo de la metodologı́a estadı́stica bajo el tı́tulo más amplio de
análisis de datos. No está claro cual será el futuro de la estadı́stica. Efectuaré un breve
estudio del origen de la misma, comentaré los actuales desarrollos y especularé sobre
su futuro.
este sentido? ¿Existen problemas puramente estadı́sticos que los estadı́sticos tratan
de resolver? Si no, ¿es algún tipo de arte, lógica o tecnologı́a aplicada a resolver
problemas de otras disciplinas?
Hace unas pocas décadas el término “estadı́stica” ni era frecuentemente
utilizado ni bien comprendido. A menudo, la estadı́stica era vista con escepticismo.
No habı́a profesionales llamados estadı́sticos excepto unos pocos empleados en
departamentos gubernamentales para recoger y tabular datos utilizados para propósitos
administrativos. No habı́a en las universidades cursos que posibilitaran obtener tı́tulos
académicos en estadı́stica. Ahora la situación ha cambiado completamente.
Hay una gran demanda de expertos en estadı́stica en todos los campos del
saber humano. Un gran número de estadı́sticos están empleados en el gobierno,
industria y organizaciones de investigación. Las universidades empiezan a enseñar la
estadı́stica como una disciplina autónoma. Todos estos grandes progresos nos llevan a
las siguientes preguntas:
Las primeras estadı́sticas que nos constan son, quizás, muescas en árboles
efectuadas por hombres primitivos, incluso antes de que se desarrollara el arte de
contar, para tener un recuento de su ganado y otras posesiones. La necesidad de recoger
datos y registrar la información debió aparecer cuando los seres humanos abandonaron
su independiente existencia nómada y empezaron a vivir en comunidades organizadas.
Tenı́an que compartir sus recursos, utilizarlos adecuadamente y planificarlos para
futuras necesidades. Más tarde vino el establecimiento de monarquı́as. Hay evidencias
de que los monarcas de los antiguos reinos en todo el mundo tenı́an servidores
que recogı́an datos detallados sobre la gente y los recursos del estado. Uno de
los primeros emperadores chinos, Liu Pan, consideró la estadı́stica tan importante
que responsabilizó a su primer ministro de la misma, tradición que ha continuado
durante largo tiempo en China. Estaba interesado en conocer cuántos hombres capaces
podrı́an ser movilizados en tiempos de emergencia y cuántos serı́an necesarios para
las necesidades básicas de la vida civil; cuan numerosos o cuan ricos eran ciertas
minorı́as que podı́an ser afectadas por algunos cambios contemplados en las leyes de la
propiedad, o del matrimonio; cuál era la capacidad de una provincia a efectos fiscales,
la propia y la de sus vecinos.
c Publicacions de la Universitat de Barcelona
EL DOMINIO DEL AZAR O LA EVOLUCI ÓN DE LA ESTADÍSTICA 65
Existe la evidencia de que en una época tan antigua como 2000 a.C., en la época
de la dinastı́a Hsia, fueron efectuados censos en China. Durante la dinastı́a Chow
(1111 a.C.-211 a.C.), un cargo administrativo titulado “Shih-Su” (tenedor de libros)
fue establecido para encargarse de trabajos estadı́sticos. En el libro Kuan Tzu, Capı́tulo
24 titulado Indagación, se establecen sesenta y cinco preguntas para llevar a buen fin
cada uno de los aspectos del gobierno de un estado. Por ejemplo, ¿cuántos granjeros
poseı́an tierra y casas? ¿Cuáles eran las existencias de comida que tenı́a una familia?
¿Cuántos viudas, viudos, huérfanos, incapacitados o enfermos habı́a?
El cuarto libro del Antiguo Testamento contiene referencias a antiguos censos
efectuados cerca de 1500 a.C., e instrucciones a Moisés para efectuar un censo de los
guerreros de Israel.
La palabra “censo” se deriva de la palabra latina censere, que significa gravar con
un impuesto. El censo romano fue establecido por el sexto rey de Roma, Servio Tulio
(578-534 a.C.). Bajo su reinado, oficiales romanos llamados censores efectuaron un
registro a intervalos regulares de cinco años de la gente y de sus propiedades con el
objeto de recoger impuestos y para determinar el número de guerreros útiles. Cinco
años antes de Cristo, César Augusto amplió el censo para incluir por entero al Imperio
Romano. El último censo romano ordinario fue efectuado en el año 74 d.C. No hay
constancia de ningún censo efectuado en cualquier parte de Occidente durante varios
siglos después de la caı́da del Imperio Romano. Censos periódicos y sistemáticos tal
como los conocemos hoy en dı́a, no empezaron hasta el siglo XVII.
Es interesante indicar que en la India fue desarrollado un sistema muy elaborado,
de lo que nosotros ahora llamarı́amos datos oficiales o estadı́stica oficial 300 a.C. En
el texto Artaśāstra de Kautilya, publicado entre los años 321-300 a.C. (ver subsección
5.2.3, cap. 5), hay una descripción detallada de cómo los datos deberı́an ser recogidos
y registrados. Gopa, el contable del pueblo, estaba encargado de registrar todo tipo de
datos acerca de la gente, tierra utilizada, producción agrı́cola, etc. Un ejemplo de sus
deberes mencionado en Artaśāstra decı́a textualmente:
c Publicacions de la Universitat de Barcelona
66 ESTADÍSTICA Y VERDAD
No está claro porqué y cómo fue recogida tal cantidad de datos, qué maquinaria
administrativa fue usada, qué precauciones fueron tomadas para asegurar precisión y
exhaustividad y para qué propósito fueron utilizados.
El término Estadı́stica tiene sus raı́ces en la palabra latina status, que significa “el
estado” y que fue acuñado por el erudito alemán Gottfried Achenwall a mediados del
siglo XVIII para significar
“recogida, procesamiento y utilizaci ón de los datos por parte del Estado”.
“la ciencia que nos indica cuál es el orden polı́tico de todos los estados
modernos del mundo conocido”.
c Publicacions de la Universitat de Barcelona
EL DOMINIO DEL AZAR O LA EVOLUCI ÓN DE LA ESTADÍSTICA 67
Hacia la misma época la palabra “publicista” fue también utilizada como una
alternativa a estadı́stica, pero su uso desapareció pronto. C. A. V. Malchus amplió el
alcance de la estadı́stica en su libro, Statistic und Staatskunde publicado en 1826, como
En Gran Bretaña, Sir John Sinclair usó la palabra estadı́stica en una serie de libros
publicados de 1791-1799, titulados “Datos Estadı́sticos de Escocia: una investigación
sobre el estado del paı́s con el fin de poder descubrir y cuantificar la felicidad disfrutada
por sus habitantes y las posibilidades de su futuro desarrollo”. Se dijo que los británicos
expresaron su sorpresa a Sir John por utilizar las palabras alemanas “estadı́stica” y
“estadı́stico” en lugar de las equivalentes en inglés.
Ası́, para los “aritméticos de la polı́tica” del siglo XVIII, la estadı́stica era la
ciencia del arte de gobernar, su función era la de ser los ojos y oı́dos del gobierno.
Sin embargo, los datos brutos son usualmente voluminosos y confusos. Deben ser
convenientemente resumidos para su fácil interpretación y posible uso para adoptar
decisiones polı́ticas. Los primeros intentos en esta dirección fueron hechos por un
próspero comerciante de Londres, John Graunt (1620-1674), al analizar las Relaciones
de Mortalidad (listas de fallecidos y la causa de fallecimiento). Preparó un escrito
en el que habı́a “reducido varios grandes y confusos volúmenes (las Relaciones de
Mortalidad) en unas pocas tablas perspicaces, y abreviado las observaciones que fluı́an
de ellas en unos pocos párrafos sucintos, sin ninguna larga serie de demasiado locuaces
deducciones”. Sacó conclusiones útiles sobre cuestiones tales como las proporciones
relativas de muertes por diversas enfermedades y sobre el crecimiento de población
en la campiña y en la ciudad de Londres. También construyó tablas de la vida que
asentaron los fundamentos de la Demografı́a. John Graunt fue, por lo tanto, un pionero
en demostrar el uso de la estadı́stica, en describir el estado actual de los asuntos y en
conducir el curso futuro de los sucesos.
Los siguientes pasos en la aplicación de la estadı́stica a los asuntos humanos
fueron dados por el matemático belga Adolphe Quételet (1796-1874). Bajo la
influencia de Laplace, estudió probabilidades, desarrolló su interés en la estadı́stica
y sus aplicaciones a los asuntos humanos. Recolectó toda clase de datos sociales y
describió su distribución de frecuencias en términos de la ley normal, que llamó “ley
de las causas accidentales”. En 1844, Quételet asombró a los escépticos al usar la
ley normal para describir la distribución de las alturas de los hombres, permitiendo
descubrir la elusión del servicio militar en Francia. Comparando la distribución de
las alturas de aquellos que respondieron a la llamada del servicio con la distribución
en la población general, calculó que alrededor de 2.000 hombres habı́an eludido el
c Publicacions de la Universitat de Barcelona
68 ESTADÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
EL DOMINIO DEL AZAR O LA EVOLUCI ÓN DE LA ESTADÍSTICA 69
Estaba claro que si las estadı́sticas tenı́an que ser útiles y desarrollarse
como herramientas de investigación, la cooperación internacional era necesaria. Para
intercambiar experiencias y establecer medidas comunes de actuación, se llevaron a
cabo alrededor de 10 congresos internacionales, los cuales tuvieron lugar en el periodo
1853-1876, según la invitación cursada por diferentes paı́ses de Europa. Como dichos
congresos fueron útiles y provechosos, con motivo del quincuagésimo aniversario en
1885, de la Real Sociedad Estadı́stica de Londres, se propuso el establecimiento de
una Sociedad Estadı́stica Internacional, para llevar a cabo las resoluciones acordadas
en cada congreso y para dictaminar planes para aquellos que tuvieran que celebrarse
en el futuro. Después de diversas discusiones se resolvió establecer una organización
denominada Instituto Internacional de Estadı́stica. Ası́ nació, el 24 de junio de 1885, el
ISI. Los estatutos del Instituto señalan, entre otras cosas, el contenido de las sesiones
bienales, la nominación de los socios, las publicaciones, etc. El principal énfasis se
puso en conseguir una “uniformidad en los métodos de recogida y resumen de datos
estadı́sticos, llamando la atención de los gobiernos para que resuelvan sus problemas
mediante el uso de estadı́sticas”. En 1913 se estableció en La Haya una oficina
permanente del ISI para ocuparse de las publicaciones del Instituto.
c Publicacions de la Universitat de Barcelona
70 ESTADÍSTICA Y VERDAD
a esta pregunta, vamos a examinar los procesos lógicos o tipos de razonamiento que
usualmente empleamos para resolver problemas y crear nuevos conocimientos, y los
cambios que han tenido lugar en nuestro pensamiento durante los últimos veinticinco
siglos.
2.2.1.1. Deducción
El razonamiento deductivo fue introducido por los filósofos griegos hace más de
dos mil años y se ha perfeccionado durante los últimos siglos a través del estudio de
las matemáticas. Consideremos las premisas o axiomas denotadas por A 1 , A2 , A3 , . . .
cada una de las cuales aceptamos que es cierta per se. Podemos escoger cualquier
grupo de axiomas, digamos A 1 , A2 para demostrar la proposición P1 . La verdad de
P1 únicamente depende de la verdad de los axiomas A1 , A2 ; el hecho de que otros
axiomas no sean usados explı́citamente en mi argumentación no tiene importancia
alguna. Análogamente, utilizando A 2 , A3 , A4 podemos derivar la proposición P2 y
ası́ sucesivamente.
Razonamiento Deductivo
AXIOMAS: A1 A2 A3 A4 ··· (Postulado)
C
C
C
C
? CW ?
PASOS LÓGICOS C (Prueba)
C
C
C
C
PROPOSICIONES: P1 P2 ··· (Deducción)
Por razonamiento deductivo ningún conocimiento se crea más allá de las premisas,
dado que todas las proposiciones obtenidas están implı́citamente en los axiomas. No
hay ninguna afirmación de que los axiomas o las proposiciones deducidas tengan
alguna relación con la realidad. Como indicó Bertrand Russell:
c Publicacions de la Universitat de Barcelona
EL DOMINIO DEL AZAR O LA EVOLUCI ÓN DE LA ESTADÍSTICA 71
Las matemáticas son un juego realizado con reglas estrictas, pero no se sabe si
algún dı́a se encontrará que son un manojo de inconsistencias.
c Publicacions de la Universitat de Barcelona
72 ESTADÍSTICA Y VERDAD
2.2.1.2. Inducción
Predicción
Contraste de hipótesis
Razonamiento inductivo
H1
d
1 H2
d2 ..
D = .. .
. H. D (preferida)
dn ..
Hk
c Publicacions de la Universitat de Barcelona
EL DOMINIO DEL AZAR O LA EVOLUCI ÓN DE LA ESTADÍSTICA 73
Estos son varios ejemplos de situaciones en la vida real donde deben tomarse
decisiones bajo incertidumbre. Hemos observado datos que pueden ser el resultado
de diferentes grupos de posibles hipótesis o causas, es decir, los datos no determinan
unı́vocamente a las hipótesis.
El razonamiento inductivo es el proceso lógico por el cual seleccionamos una
hipótesis según los datos obtenidos, pasando de lo particular a lo general. Siguiendo
este camino estamos creando nuevo conocimiento, pero es un conocimiento incierto al
no quedar bien determinadas las hipótesis a partir de los datos. Esta ausencia de certeza
de nuestra inferencia basada en unos datos observados, a diferencia de la inferencia
deductiva a partir de unos axiomas dados, se mantiene durante todo el proceso de
elaboración del razonamiento inductivo. A la mente humana acostumbrada a la lógica
deductiva, la idea de desarrollar una teorı́a o de introducir reglas de razonamiento que
no siempre proporcionan resultados verdaderos, debe aparecer como inaceptable. Ası́,
el razonamiento inductivo persistı́a más como un arte con cierto grado de éxito, en
función de la habilidad, experiencia e intuición de cada uno.
* ¿podemos trazar reglas para preferir una hipótesis basándonos en unos datos
observados?
El cambio de mentalidad llega sólo a principios del siglo XX. Se fue poniendo
en evidencia que aunque el conocimiento obtenido a través de cualquier regla que
pretenda generalizar lo particular, es incierto, se alcanza cierto conocimiento, aunque
de diferente naturaleza, en cuanto pueda cuantificarse la incertidumbre. El nuevo
paradigma es la siguiente ecuación lógica:
Conocimiento debido a
Conocimiento Conocimiento
+ la cuantificación de la =
incierto cierto
incertidumbre
c Publicacions de la Universitat de Barcelona
74 ESTADÍSTICA Y VERDAD
* Tal cuantificación podrı́a ser utilizada en descubrir una regla de decisión que no
nos traicionara muy a menudo, que minimizara la frecuencia de las decisiones
erróneas, o las pérdidas debidas a las mismas.
c Publicacions de la Universitat de Barcelona
EL DOMINIO DEL AZAR O LA EVOLUCI ÓN DE LA ESTADÍSTICA 75
2.2.1.3. Abducción
Algunas veces las nuevas teorı́as son propuestas sin ninguna base empı́rica,
puramente por intuición o ráfagas de imaginación, lo cual se llama abducci ón
en terminologı́a lógica. Dichas teorı́as son verificadas con posterioridad mediante
experimentos. Son ejemplos famosos la estructura en doble hélice del ADN, la teorı́a
de la relatividad, la teorı́a electromagnética de la luz, etc.
La distinción entre inducción y abducción es algo sutil. Con la inducción somos
guiados por resultados experimentales y sus análisis nos proporcionan una percepción
clara. Pero el último paso en la creación de nuevo conocimiento depende hasta cierto
punto de las experiencias previas y del vuelo de la imaginación. Esto nos conduce a
creer que toda inducción es abducción.
Resumiendo, el avance en el conocimiento depende de tres procesos lógicos:
c Publicacions de la Universitat de Barcelona
76 ESTADÍSTICA Y VERDAD
p(h) · p(d|h)
p(h|d) =
p(d)
c Publicacions de la Universitat de Barcelona
EL DOMINIO DEL AZAR O LA EVOLUCI ÓN DE LA ESTADÍSTICA 77
“Es una gran verdad que cuando no est á a nuestro alcance determinar lo que es
verdadero, debemos aceptar aquello que sea m ás probable”.
El azar tal vez sea la antı́tesis de cualquier ley. Pero el camino a seguir es descubrir
c Publicacions de la Universitat de Barcelona
78 ESTADÍSTICA Y VERDAD
las leyes del azar. Buscamos diversas alternativas y probabilizamos su ocurrencia como
medida de su incertidumbre. Conociendo las consecuencias de cada resultado y la
probabilidad de que ocurra, la toma de decisiones llevadas a cabo bajo incertidumbre
puede reducirse a un ejercicio de lógica deductiva. Ya no será más una cuestión de
acierto o fracaso a la buena de Dios. Comentando acerca de la teorı́a de la probabilidad
y la inferencia estadı́stica, como un éxito extraordinario en la historia de la filosofı́a,
Hacking dice:
La Estadı́stica, tal como se estudia y practica hoy en dia, ¿es una ciencia, una
tecnologı́a o un arte? Quizás sea una combinación de estas tres cosas.
Es una ciencia en el sentido que tiene una identidad por si misma con un largo
repertorio de técnicas derivadas de unos principios básicos. Estas técnicas no pueden
ser utilizadas de forma rutinaria; el usuario debe adquirir la necesaria experiencia
para saber escoger la técnica correcta en cada situación determinada e introducir
modificaciones si es necesario. La estadı́stica juega un papel importante para establecer
leyes empı́ricas en ciencias sociales. Además, existen temas filosóficos en conexión
con los fundamentos de la estadı́stica —la forma en que la incertidumbre puede ser
cuantificada y expresada— que pueden ser discutidos con independencia de la materia
que estemos estudiando. Por consiguiente, en un sentido más amplio, la estadı́stica es
una disciplina independiente, quizás la disciplina de todas las disciplinas.
Es una tecnologı́a, en el sentido de que la metodologı́a estadı́stica puede
construirse en cualquier sistema operativo con el fin de mantener un determinado nivel
y estabilidad de realización, como en programas de control de calidad y producción
industrial. Los métodos estadı́sticos pueden ser también usados para controlar, reducir
y hacer permisible la incertidumbre, maximizando de este modo la eficiencia de los
esfuerzos individuales e institucionales.
La Estadı́stica es también un arte, porque su metodologı́a, que depende del
c Publicacions de la Universitat de Barcelona
EL DOMINIO DEL AZAR O LA EVOLUCI ÓN DE LA ESTADÍSTICA 79
c Publicacions de la Universitat de Barcelona
80 ESTADÍSTICA Y VERDAD
Estos sucesos son excepcionales, pero a pesar de todo pueden desanimar a los
expertos en estadı́stica a aventurarse en nuevas o más desafiantes áreas y por tanto
restringir la expansión de la estadı́stica.
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS:
EXAMEN CRUZADO DE DATOS
El estilo de tratar los análisis estadı́sticos cambia con el tiempo mientras que
el objetivo de “extraer toda la información de los datos” o de “resumir y exponer”
permanece inalterado. La estadı́stica no ha alcanzado una mayorı́a de edad, como
para convertirse en una disciplina estable basada en principios incontrovertibles.
Ciertos métodos han alcanzado popularidad en un momento determinado, siendo
reemplazados en el transcurso del tiempo por otros que parecen más novedosos.
A pesar de las controversias, tanto la metodologı́a estadı́stica como el campo de
sus aplicaciones están en expansión. Los ordenadores, junto con la disponibilidad de
efectuar de forma sencilla complejos gráficos, han tenido un gran impacto en análisis
de datos. Puede ser interesante hacer un breve resumen de algunos acontecimientos
que han influido en su desarrollo.
Por costumbre se ha considerado la estadı́stica descriptiva y la teórica como dos
ramas de la misma estadı́stica con distinta metodologı́a. Años atrás, se trataba de
resumir los resultados en términos de “estadı́stica descriptiva” calculando medidas
de situación y dispersión, momentos de órdenes más elevados o diversos ı́ndices,
y también exponer determinadas caracterı́sticas de los datos a través de gráficos
tales como histogramas, diagramas de barras y gráficas bidimensionales. No se
hace referencia al mecanismo estocástico (o distribución de probabilidad) que
originó los datos observados. Las estadı́sticas descriptivas ası́ efectuadas se utilizan
82 ESTADÍSTICA Y VERDAD
01. Se considera que los 20 máximos descubrimientos, sin especificar el orden, son: Plásticos, el test de
inteligencia, teorı́a de la relatividad de Einstein, grupos sanguı́neos, pesticidas, televisión, producción de plantas, redes,
antibióticos, el cráneo de Taung, fisión atómica, la teorı́a del big-bang, la pı́ldora, drogas para enfermedades mentales,
lámpara de vacı́o, ordenador, transistor, estadı́stica (qué es verdad y qué es debido al azar), DNA y láser.
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 83
c Publicacions de la Universitat de Barcelona
84 ESTADÍSTICA Y VERDAD
02. Outliers.
03. En una comunicación dirigida al ISI, R. A. F. mencionó los cuadros de control de Shewhart, el muestreo
secuencial de Wald y la planificación del muestreo como las tres importantes novedades de la metodologı́a estadı́stica.
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 85
NUEVAS MEDIDAS
¿CÓMO SE DETERMINAN?
DATOS
ESPECIFICACIÓN
MODELACIÓN (validación cruzada, cómo usar opiniones expertas
y hallazgos previos, análisis Bayesiano?)
fue llevado a cabo por Tukey (1962, 1977) y Mosteller y Tukey (1968) al desarrollar
lo que es conocido como análisis exploratorio de datos (EDA). La filosofı́a básica de
EDA es entender los especiales rasgos de los datos y utilizar procedimientos robustos
para acomodar una amplia clase de posibles modelos estocásticos para los datos. En
lugar de preguntarse la pregunta tı́picamente fisheriana de qué compendios estadı́sticos
son apropiados para un determinado modelo estocástico, Tukey propuso preguntar
qué clase de modelos estocásticos es apropiado dado un compendio estadı́stico
c Publicacions de la Universitat de Barcelona
86 ESTADÍSTICA Y VERDAD
Las secuencias del análisis de datos indicadas en el Cuadro 1 como CED y IDA
no deberı́an ser observadas como distintas categorı́as con diferentes metodologı́as.
Sólo muestra lo que deberı́amos hacer para empezar cuando tratamos con datos, y
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 87
Los estadı́sticos son a menudo requeridos para trabajar sobre datos recogidos
por otros. La primera labor de un estadı́stico, como Fisher puntualizó, es el examen
cruzado de datos (CED) para obtener toda la información necesaria, para un
análisis significativo de datos e interpretación de resultados. Una posible lista de
comprobaciones para el CED bajo amplias categorı́as, con puntos especı́ficos en cada
una de ellas, serı́a como sigue.
Las respuestas a algunas de estas cuestiones pueden ser obtenidas hablando con
los investigadores que han recogido los datos; pero para el resto, las respuestas se
obtendrán a partir del apropiado análisis de datos, por ejemplo, dirigiendo las preguntas
a los datos o mediante examen cruzado de datos. No es una cuestión de rutina, aunque
la representación gráfica de datos a través de histogramas, gráficos en dos dimensiones
c Publicacions de la Universitat de Barcelona
88 ESTADÍSTICA Y VERDAD
Fuente: Peter L. Panum. Observaciones hechas durante la Epidemia de Sarampión en las Islas Faroe en el año
1846. New York: Delta Omega Society, 1940, p. 82. Notas del editor (Dr. J. A. Doull) y traductores (Ada Hatcher
y Joseph Dimont).
Tabla 3.1
Los autores concluyen que “a pesar de que la tasa de afectados es alta en todos
los grupos de edad, el ı́ndice de mortalidad varı́a significativamente, siendo el más alto
por debajo de un año y luego aumenta constantemente para los grupos de mayores de
treinta años”. ¿Es esta conclusión válida?
Lo que es interesante destacar en la tabla es que el porcentaje de afectados de
sarampión es uniforme para todos los grupos de edades (indicado entre lı́neas verticales
en la tabla) con poca o ninguna variación respecto al total general de afectados (77.6).
¿Podrı́a esto ocurrir por casualidad incluso si el porcentaje verdadero de afectados
fuera el mismo en todos los grupos de edades? Existe una fuerte sospecha de que
el número de afectados en cada grupo de edad no fuera observado, sino que se
reconstruyó a partir de la proporción de población en cada grupo de edad, que era
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 89
154 92
= .7777 . . . ∼ .778; = .7796 ∼ 780 (2.1.2)
198 118
tal como comunicaron los autores y también explica por qué el porcentaje de afectados
difiere ligeramente en el tercer decimal. Una consulta al informe original de Panum
en alemán reveló que el número de afectados no fue originariamente clasificado
en grupos de edad, sino que se reconstruyó del modo explicado en la ecuación
(2.1.1.) por el editor de la traducción inglesa asumiendo un porcentaje uniforme de
afectados. Los porcentajes indicados en la columna señalada con paréntesis en la tabla
anterior no se encuentran en la tabla de la página 87 de la traducción inglesa, la
cual fue probablemente completada por los autores Fox, Hall y Elveback en el libro
“Epidemiologı́a, Hombre y Enfermedad”, del modo explicado en (2.1.2.). En vista de
esto, la edad especı́fica del ı́ndice de mortalidad computado a partir de los valores
reconstruidos del número de afectados en cada grupo y su consecuente interpretación,
puede no ser válida. Un estadı́stico es a menudo requerido para llevar a cabo trabajos
detectivescos! (La cantidad de la segunda fila en la columna entre lı́neas verticales
deberı́a ser 77.6!).
c Publicacions de la Universitat de Barcelona
90 ESTADÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 91
Basados en esta limitación del cerebro humano, los estadı́sticos han desarrollado
técnicas para detectar las falsificaciones. El siguiente experimento llevado a cabo por
c Publicacions de la Universitat de Barcelona
92 ESTADÍSTICA Y VERDAD
(i) Tirar una moneda 1000 veces y anotar el número de caras en grupos de 5 (columna
3, datos simulados).
(ii) Indagar en los registros de una maternidad, el número de varones nacidos en 200
grupos de 5 nacimientos consecutivos (columna 2, datos del hospital).
(iii) Imaginar que estáis tirando una moneda y escribir debajo los resultados de 1000
tiradas imaginarias, hallad la frecuencia de distribución del número de caras en
grupos de 5 tiradas (columna 5, datos imaginarios A).
(iv) Los estudiantes no habı́an aprendido la distribución binomial aún. Pero les
indiqué qué frecuencia de distribución de caras en grupos de 5 tiradas se esperaba
(columna 4 de la tabla) y les pedı́ que escribieran debajo los resultados de las
1000 tiradas imaginarias (columna 6, datos imaginarios B).
Se aprecia que los valores ji-cuadrado, con 5 grados de libertad cada uno,
midiendo las desviaciones de las frecuencias observadas respecto las esperadas, son
moderados para los datos reales. El valor ji-cuadrado para los datos imaginarios A es
mayor, dado que los estudiantes imaginan más grupos semejantes de chicos y chicas
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 93
de lo que es posible debido al azar. El valor ji-cuadrado para los datos imaginarios B,
cuando los estudiantes conocı́an los valores esperados, es sorprendentemente pequeño,
demostrando que ellos escogieron los datos para ajustarlos a lo que se esperaba.
Ahora echemos un vistazo a los datos obtenidos según los experimentos llevados
a cabo por Mendel, que le sirvieron de base para formular leyes de la herencia de los
caracteres, estableciendo los fundamentos de la Genética. En un remarcable estudio,
R. A. Fisher (Annals of Science, 1, 1936, pp. 115-137), examinó los datos calculando
los valores ji-cuadrado midiendo las desviaciones de la teorı́a de Mendel en diversos
grupos de experimentos. Los resultados aparecen en la Tabla 3.4.
χ2 > valor
Tabla 3.4: Valores χ 2 de la desviación esperada y probabilidad de (χ
observado) para cada grupo de experimentos llevados a cabo por Mendel
(Fuente: R. A. Fisher), Annals of Science, 1, 1936
Vemos que las probabilidades son extremadamente altas en cada caso, indicando
que “los datos han sido probablemente falseados con el fin de demostrar una
remarcable concordancia con la teorı́a”. La probabilidad total de dicha concordancia
es
7
1 − .99993 =
100000
c Publicacions de la Universitat de Barcelona
94 ESTADÍSTICA Y VERDAD
Haldane (1948) facilitó varios ejemplos de datos recopilados por genetistas que
exhibı́an un alto grado de proximidad con la teorı́a postulada. Haldane menciona que,
si un experimentador conociera qué tests pudiera hacer servir un estadı́stico para
detectar datos falsos, él podrı́a falsificar de tal modo que los datos no parecieran
sospechosos para estos tests, y ası́ pudieran respaldar su teorı́a dentro de los lı́mites de
errores de muestreo. Haldane llama a esto falsificación de segundo orden. Por ejemplo,
si la teorı́a sugiere una relación 3:1 para dos tipos de sucesos, podemos escoger siempre
dos números de tal modo que su relación no esté ni cerca ni lejos de 3:1, lo que quiere
decir que el valor de la ji-cuadrado de desviación de la teorı́a no es ni muy pequeño ni
muy grande. No obstante, hay tests estadı́sticos mediante los cuales tal falsificación de
segundo orden podrı́a ser detectada.
Pedı́ a uno de mis colegas, un cientı́fico, que escribiera una secuencia imaginaria
de cincuenta H’s y T’s para respaldar una teorı́a especificando la relación 1:1 para H’s
y T’s pero que no aparezca tan próximo a la unidad que pudiera levantar sospechas.
Escribió la siguiente secuencia:
T H T H T H H T H H
H T T H T H T H H H
T H H H T H T H T T
H H T T H T T H H H
T H H T T H H H T H
la cual tiene 29 H’s y 21 T’s. El test ji-cuadrado para contrastar una desviación de la
relación 1:1 es
(29−25)2 (21−25)2
χ2 = + = 1.28
25 25
6, 6, 5, 6, 6
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 95
parece ser más uniforme de lo que se esperaba al azar. El test ji-cuadrado para estos
valores es
2 2 2 2 8
χ2 = + + 0 + + = = 1.6
5 5 5 5 5
7
15 pies 1 in. 1 lı́neas
9
1
15 pies 1 in. 1 lı́neas
2
respectivamente, donde 1 lı́nea = 1/12 pulgadas, con una precisión de 1 sobre 3000
para comparación. La velocidad del sonido se calculó en 1142 pies por segundo con
una precisión de 1 sobre 1000. Newton calculó la precisión de los equinoccios en
50 01 12 lo cual tiene una precisión de 1 sobre 3000. Tan alto grado de precisión
fue inaudito con las técnicas de observación de los tiempos de Newton.
En el Capı́tulo sobre el Fraude en la Historia del libro Traidores de la Verdad,
de William Broad y Nicholas Wade, se mencionan los nombres de otros famosos
cientı́ficos. Cito:
c Publicacions de la Universitat de Barcelona
96 ESTADÍSTICA Y VERDAD
* John Dalton, el gran quı́mico del siglo XIX que descubrió las leyes de
combinatoria quı́mica y probó la existencia de diferentes tipos de átomos,
publicó elegantes resultados que ningún quı́mico hasta hoy ha sido capaz de
reproducir.
* El fı́sico americano Robert Millikan ganó el Premio Nobel por ser el primero en
medir la carga eléctrica de un electrón. Pero Millikan desfiguró en gran medida su
trabajo para hacer que sus resultados experimentales parecieran más convincentes
de lo que en realidad eran.
¿Por qué algunos famosos cientı́ficos manipularon los hechos? ¿Qué hubiera
sucedido si hubiesen sido más honestos? (Estas preguntas fueron formuladas por el
Dr. J. K. Ghosh).
Para contestar estas preguntas uno debe reconocer las diversas facetas de un
descubrimiento cientı́fico —encontrar hechos (datos), postular una teorı́a o una ley para
explicar los hechos y el deseo de cualquier cientı́fico de establecer la prioridad de sus
descubrimientos, para ganarse el respeto de sus iguales y recoger los beneficios de su
reconocimiento. Cuando un cientı́fico está convencido de su teorı́a, existe la tentación
de buscar “hechos” o deformarlos para respaldarla. El concepto de concordancia
con la teorı́a dentro de unos aceptables márgenes de error no existió hasta que fue
desarrollada la metodologı́a estadı́stica para probar las hipótesis. Se pensaba que un
gran concordancia con los datos implicaba una teorı́a más exacta y una evidencia
más convincente para que todo ello fuera aceptado por los colegas. Ahora sabemos —
debido a la aparición de ideas estadı́sticas— que una concordancia demasiado ajustada
de los datos, puede implicar la existencia de una teorı́a falsa!
En tiempos no muy lejanos, se han dado muchos ejemplos en que los datos fueron
falseados para establecer hipótesis equivocadas (como en el caso de Sir Cyril Burt).
Tales ejemplos han resultado considerablemente perjudiciales para la sociedad y el
progreso de las ciencias.
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 97
π = 3,14159265. . .
2l
ρ= .
πa
R
ρ casi seguramente, N ∞,
N
es decir, R/N será tanto más próximo a ρ como mayor sea N. Entonces tendremos que
la estimación Monte-Carlo de π se obtiene de la ecuación aproximada
R 2l
≈
N πa
N 2l
π≈ · . (F)
R a
c Publicacions de la Universitat de Barcelona
98 ESTADÍSTICA Y VERDAD
1808 2l 5 5 l
≈ = usando la conocida relación por
3408 πa 3π 6 a
y la estimación
Es remarcable que una ciencia que empezó estudiando los juegos de azar,
haya llegado a ser el más importante objeto del conocimiento humano.
No concebı́a que una técnica utilizada para obtener nuevos conocimientos podrı́a ser
manipulada para respaldar afirmaciones equivocadas. Laplace debió pensar que estos
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 99
(i) Arreglar: “Recortar pequeños trozos aquı́ y allá de aquellas observaciones que
difieren por encima de la media, y añadirlas a aquellas que difieren por debajo”.
(ii) Cocinar: “Arte de varias formas, cuyo objeto es dar a las observaciones
ordinarias la apariencia y carácter de las de mayor grado de exactitud.
Uno de sus muchos métodos es el de hacer numerosas observaciones, y
posteriormente, seleccionar sólo aquellas que concuerdan o están muy próximas
a la concordancia. Si se hacen 100 observaciones, el cocinero se sentirı́a muy
desgraciado si no pudiera escoger quince o veinte para servir”.
c Publicacions de la Universitat de Barcelona
100 ESTAD ÍSTICA Y VERDAD
* Rechazar los outliers y tratar al resto como muestras válidas de la población bajo
estudio.
* Rechazar los outliers y hacer ajustes en los análisis estadı́sticos.
* Aceptar (“serı́a más filosófico”) lo que parecen ser outliers como un fenómeno
normal de la población sometida a estudio y usar un apropiado modelo de análisis
estadı́stico.
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 101
sea N. Por lo tanto, bajo el criterio del error cuadrático medio, popular entre los
estadı́sticos, es preferible incluir una falsa observación en una población cuya media
puede diferir como mucho una desviación estándar del parámetro bajo estimación!
La mejora introducida puede ser de considerable magnitud en el caso de trabajar con
muestras pequeñas.
Ag Y
PL
RD RD
Figura 1 Figura 2
PNA
DNR
Figura 3
c Publicacions de la Universitat de Barcelona
102 ESTAD ÍSTICA Y VERDAD
Está claro que las predicciones en cada uno de estos casos serán erróneas ya que
la relación entre las variables no parece ser la oportuna, sino inducida artificialmente
al estar mezclando diferentes grupos de datos o bien omitiendo selectivamente algunos
otros.
Abunda considerablemente la literatura acerca del análisis de regresión, cubriendo
varios métodos de estimación, detección de datos atı́picos (outliers) y observaciones
influyentes, selección de variables predictoras (independientes), transformación de
variables, etc. Cualquier programa fácilmente asequible tiene la posibilidad de
calcular coeficientes de regresión a través de un procedimiento robusto, de utilizar
los residuos para detectar datos atı́picos (outliers) y observaciones influyentes, y
revisar estimaciones de coeficientes de regresión. No obstante, esto no es suficiente
para entender plenamente la naturaleza de los datos y establecer relaciones entre
variables con fines predictivos. Parece claro que debe prestarse una mayor atención
a determinados grupos de datos que se salen fuera del intervalo de las variables
predictoras o bien de las dependientes, antes que mezclar diferentes grupos de datos
homogéneos.
Representemos los datos en un problema de regresión como (Y : X ), donde Y
es un n−vector de variables dependientes y X es una n × p matriz de variables
independientes, todo ello expresado como desviaciones de las correspondientes
medias. A continuación tomemos S = X X , T = (Y : X )(Y : X ), hi = Xi S−1 Xi, donde
Xi es la i−ésima fila de X y ri es el residuo (valor observado menos valor predicho)
correspondiente al punto i−ésimo de los datos. Entonces se sugieren los siguientes
análisis.
(iii) Generalmente los residuos ri son representados gráficamente respecto del ı́ndice
i o de los valores ajustados ŷi . Será de ayuda en la interpretación de los datos el
√
representar ri respecto 1 − hi , ası́ todos los residuos de cada columna tendrán el
mismo error estándar. Además, los gráficos de los residuos obtenidos o bien de los
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 103
3.3. Especificación
—Aldous Huxley
c Publicacions de la Universitat de Barcelona
104 ESTAD ÍSTICA Y VERDAD
—A. N. Whitehead
σ2 [1 + φ20 (τ) + · · · + φ2r (τ) + γr2+ 1 φ2r + 1 (τ) + · · · + γk2 φ2k (τ)] . (3.2)
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 105
Si γr + 1 , . . ., γk son todos menores que la unidad, entonces (3.2) es menor que (3.3), de
modo que la selección de un polinomio de grado menor proporciona un mejor resultado
aunque no sea el verdadero modelo. En la práctica, los coeficientes de los términos del
polinomio de grado superior son probablemente más pequeños. Entonces, el uso del
verdadero modelo podrı́a dar como resultado una pérdida de eficiencia!
Además, la elección en la especificación puede depender del propósito con que
realizamos el análisis de datos. Por ejemplo, en el problema anterior, la elección del
grado del polinomio para predicción puede depender del intervalo de tiempo en el que
la predicción sea necesaria. En general, será una buena estrategia considerar diferentes
especificaciones para los mismos datos con el fin de contestar diferentes preguntas.
¿Qué criterios debemos considerar para elegir entre diferentes modelos una vez
establecido el propósito del análisis? Éste no es un problema fácil y no disponemos
de una metodologı́a satisfactoria para ello. El principio de máxima verosimilitud no
nos puede ayudar en este caso. Sin embargo, la máxima verosimilitud con una función
de penalización facilita respuestas satisfactorias si trabajamos con muestras grandes.
Un ejemplo de tal propuesta es el AIC (Criterio de Información de Akaike). Hay
otro criterio como el BIC (Criterio de Información de Bayes) y el GIC (Criterio de
Información General). En muestras pequeñas, el método más apropiado parecer ser la
validación cruzada.
¿Qué es una validación cruzada? Es una técnica mediante la cual la elección
puede efectuarse entre modelos competitivos valorando la pérdida asociada usando
una distribución de probabilidad estimada. La idea es antigua y se utilizaba en test de
hipótesis para la predicción del tiempo en la década de los veinte. Los datos están
subdivididos en dos grupos: el primer grupo es usado para estimar el modelo y el
segundo para validarlo. Recientemente el método ha sido modificado, dotándolo de
la teorı́a apropiada y aplicándolo con éxito en varias áreas de investigación (Mosteller
y Tukey, (1968), Mosteller y Wallace, (1964) y Stone, (1974)).
Una importante aplicación de la validación cruzada es la selección de variables
en análisis de regresión múltiple. Sea E(Y ) = X(s) β(s) el modelo lineal basado en
un subgrupo (s) obtenido seleccionando de entre las p variables independientes.
Calculando el residuo jack-knife
β̂(i)
ri(s) = yi − Xi(s) (3.4)
(s)
donde β(i)
(s) es estimado mediante la omisión del i−ésimo punto. Entonces el error en
c Publicacions de la Universitat de Barcelona
106 ESTAD ÍSTICA Y VERDAD
n
CV E(s) = n −1 2
ri(s) . (3.5)
i=1
(Folklore)
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 107
—Jawaharlal Nehru
c Publicacions de la Universitat de Barcelona
108 ESTAD ÍSTICA Y VERDAD
alternativos. La posibilidad de usar diferentes modelos para los mismos datos y para
contestar diferentes preguntas deberı́a ser explorada.
El análisis inferencial de datos deberı́a ser de tipo interactivo: nuevas
caracterı́sticas de los datos pueden surgir durante el análisis bajo un modelo especı́fico,
precisando un cambio en el análisis contemplado originalmente.
Estudios de simulación para determinar el éxito de ciertos procedimientos, las
técnicas bootstrap y jack-knife para la estimación de varianzas de estimadores (Efron,
(1979)) trabajando con complicadas estructuras de datos, que presuponen un intenso
uso de ordenadores, han proporcionado dimensiones adicionales al análisis de datos,
aunque es necesario tener alguna precaución a la hora de interpretar los resultados de
tales análisis.
En análisis inferencial de datos, existe el aforismo bien aceptado de que una vez
la validez de un modelo está asegurada, hay un método óptimo para analizar los
datos, tal como el uso de x como una estimación de la esperanza de una población
normal basada en una determinada muestra, o del valor medio de una población finita
basada en una muestra aleatoria sin reemplazamiento. Como ejemplo del segundo
caso, supongamos que el problema es estimar el rendimiento medio de unos árboles
plantados en una hilera tomando una muestra de tamaño 3. Nuestra receta dice que si
x1 , x2 , x3 son los rendimientos observados de 3 árboles escogidos al azar, entonces una
buena estimación es x = (x1 + x2 + x3 )/3. No obstante, si después de extraer la muestra,
encontramos que 2 de los 3 árboles escogidos son próximos uno al otro, ası́ como sus
correspondientes rendimientos, digamos x 1 y x2 , entonces podremos mejorar dando
la estimación alternativa x = (y + x3 )/2 donde y = (x1 + x2 )/2. Podrı́a verse que si
el rendimiento de árboles consecutivos está altamente correlacionado, entonces la
varianza de x es menor que la de x en muestras donde al menos han sido escogidos
dos árboles consecutivos. Estas estrategias tales como usar diferentes métodos para
diferentes configuraciones de la muestra, bajo el mismo modelo estocástico, deberı́an
ser exploradas.
Aparece entonces el problema de “Oh! Calcuta”. Supongamos que alguien
desconocedor de la gran diferencia de población existente entre pueblos y ciudades
(a las que nos referiremos como unidades) en el estado de Bengala Occidental, trata
de estimar la población total del mismo tomando una simple muestra al azar de las
citadas unidades. La fórmula usual en tal caso, que puede probarse que es la óptima de
muchas formas, es Nx, donde N es el número total de unidades de Bengala Occidental
y x es la población media en la muestra de n unidades escogidas al azar. Supongamos
que Calcuta figura entre la muestra, cuya población es varias veces la de cualquier
otra unidad en Bengala Occidental. En este caso serı́a desacertado sugerir Nx como la
estimación de la población total, especialmente cuando n, el tamaño de la muestra es
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 109
N −1
x1 + (x2 + · · · + xn ).
n−1
Referencias
c Publicacions de la Universitat de Barcelona
110 ESTAD ÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: EXAMEN CRUZADO DE DATOS 111
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS:
DISTRIBUCIONES AFECTADAS Y NEBULOSAS
von Neumann
4.1. Introducción
Por ejemplo, ciertos sucesos pueden no ser observables y por tanto, nos falta su
registro. Esto es lo que se denomina muestreo truncado, censurado o incompleto.
O bien un suceso que ha ocurrido puede ser observable sólo con una cierta
probabilidad dependiendo de la naturaleza del mismo, tal como su perceptibilidad y
el procedimiento empleado para observarlo, resultando una desigual probabilidad de
muestreo. O tal vez un suceso que ha ocurrido puede cambiar de una forma aleatoria
mientras dura el proceso de observación, convirtiéndose en un suceso modificado, en
cuyo caso la alteración o desperfecto ha de ser modelado apropiadamente para el
análisis estadı́stico. Algunas veces los sucesos proceden de dos o más fuentes con
diferentes mecanismos estocásticos, pueden mezclarse y confundirse en el mismo
registro, resultando muestras contaminadas. En todos estos casos, la especificación de
un modelo que dé cuenta de los sucesos originales (tal como ocurren) puede no ser la
apropiada para dar cuenta de los sucesos registrados (datos observados), a menos que
sea convenientemente modificada. Ejemplos de dicha situación han sido facilitados por
Rao (1965, 1975, 1985).
En un artı́culo clásico, Fisher (1934) mostró la necesidad de tal ajuste en la
especificación del modelo, atendiendo a la forma como se determinan los datos. El
autor extendió las ideas básicas de Fisher en Rao (1965) y desarrolló la teorı́a de las
distribuciones afectadas como un método de ajuste aplicable a muchas situaciones.
Presentaremos la teorı́a general de las distribuciones afectadas ası́ como algunas
innovaciones recientes, a través de varios ejemplos.
4.2. Truncamiento
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 115
w(x, T )p(x, θ)
pT (x, θ) = (2.1)
u(T, θ)
donde w(x, T ) = 1 si x ∈ T, = 0 if x ∈
/ T, y u(T, θ) = E[w(X , T )]. La expresión (2.1) es
la densidad de probabilidad original ponderada por medio de una función apropiada,
y nos procura un ejemplo sencillo de una probabilidad de distribución afectada cuya
definición general vendrá dada en la próxima sección.
Supongamos que el suceso cero no es observable en un muestreo de una
distribución binomial con ı́ndice n y probabilidad de éxito π. Sea R T la variable
aleatoria TB (Binomial Truncada). Entonces
n
r πr (1 − π)n − r
P(RT = r) = , r = 1, . . ., n (2.2)
1 − (1 − π)n
resultados que son algo mayores que los correspondientes a una distribución binomial
ordinaria, que son nπ y π respectivamente.
Los siguientes datos se refieren al número de hermanos y hermanas en familias
de chicas cuyos nombres fueron hallados en una agenda de teléfonos particular de un
profesor europeo. (El primer número entre paréntesis nos da el número de hermanas,
incluyendo la alumna, y el segundo número, es el de hermanos.)
(1, 0), (1, 0), (1, 1), (1, 1), (1, 1), (1, 1), (1, 1), (1, 1), (1, 1), (1, 1)
(1, 1), (2, 0), (2, 0), (2, 0), (2, 1), (2, 1), (2, 1), (2, 1), (1, 2), (1, 2)
(3, 0), (3, 1), (3, 1), (1, 3), (1, 3), (4, 0), (4, 1), (1, 4) (2.4)
Puesto que hay al menos una chica presente en cada familia, podemos tratar de ver si
los datos se ajustan a una distribución TB, con la observación de cero hermanas siendo
faltante. El número esperado de chicas bajo esta hipótesis, asumiendo π = 0,5, es
5
f (n)E(r|n) (2.5)
n=1
donde f (n) es el número de familias observado de tamaño n (es decir, el número total
de hermanos y hermanas). Usando las fórmulas (2.3) y (2.5) y los datos (2.4), tenemos:
c Publicacions de la Universitat de Barcelona
116 ESTAD ÍSTICA Y VERDAD
Los números observados parecen concordar bien con los esperados bajo la
hipótesis de la distribución binomial truncada. Sin embargo, puede darse un resultado
bastante distinto en una situación similar, como en los siguientes datos que nos dan el
número de hermanas y hermanos en familias de chicas conocidas por un estudiante en
Calcuta.
(2,1), (1,1), (3,0), (2,0), (3,1), (1,0), (2,1), (1,0), (1,1), (1,1). (2.6)
En la sección 4.2 hemos considerado situaciones en las que ciertos sucesos son
inobservables. Pero se tiene un caso más general cuando un suceso que ocurre tiene
una cierta probabilidad de ser registrado (o incluido en la muestra). Sea X una variable
aleatoria con p(x, θ) como f.d.p., donde θ es un parámetro, y supongamos que cuando
ocurre X = x, la probabilidad de registrarlo es w(x, α), dependiendo del valor de x
ocurrido y posiblemente también de un parámetro desconocido α. Entonces la f.d.p. de
la variable aleatoria resultante X w es
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 117
w(x, α)p(x, θ)
pw (x, θ, α) = . (3.1)
E[w(X , α)]
f (x)p(x, θ)
pw (x, θ) = (3.2)
E( f (x))
xα p(x, θ)
pw (x, θ) = (3.3)
E[X α ]
θr
, r = 1, 2, . . . (3.4)
−r log(1 − θ)
(1 − θ)θr − 1 , r = 1, 2, . . .
que muestra que X w −1 tiene una distribución geométrica. Una distribución geométrica
truncada algunas veces se ajusta bien a la distribución observada del tamaño familiar
(Feller, 1968). Pero, si la información sobre el tamaño familiar ha sido obtenida a partir
de los niños de una escuela, entonces las observaciones pueden tener una distribución
de magnitud sesgada. En tal caso, un buen ajuste a la distribución geométrica para el
tamaño familiar observado indicarı́a que la distribución subyacente, es, de hecho, la
distribución logarı́tmica (3.4).
c Publicacions de la Universitat de Barcelona
118 ESTAD ÍSTICA Y VERDAD
Pearson tipo V,
Pe(k) x−k−1 exp(−x−1 )/Γ(k) Pe(k − 1)
Lognormal,
1 log x − µ 2
LN(µ, σ 2
) 1 exp −
√ LN(µ + σ2 , σ2 )
(2πσ2 ) 2 x σ 2
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 119
w(y)p(x, y, θ)
pw (x, y, θ) = . (4.1)
E[w(Y )]
w(x, θ)p(x, θ)
pw (x, θ) = (4.2)
E[w(X , θ)]
c Publicacions de la Universitat de Barcelona
120 ESTAD ÍSTICA Y VERDAD
de la distribución (4.1), entonces una estimación de E(X ), el valor medio con respecto
a la f.d.p. original p(x, y, θ), que es el parámetro de interés, es
E[w(Y )] xi
n
(4.5)
n i=1
w(yi )
1
n
xi (4.6)
n i=1
serı́a un estimador insesgado de E(X w ), el valor medio con respecto a la f.d.p. afectada
pw (x, θ) como en (4.2).
Supongamos que averiguamos de cada miembro var ón de una clase o de cualquier
reunión, el número de hermanos incluyéndose él mismo y el número de hermanas
que tiene y surge la siguiente cuestión. ¿Cuál es el valor aproximado de B/(B + S),
donde B y S son el número total de hermanos y hermanas en todas las familias con
miembros masculinos? Está claro que estamos muestreando una distribución truncada
de familias con al menos un miembro varón, ası́ que B/(B + S) debe ser mayor que
1/2. Pero ¿cuánto mayor?
Sorprendentemente, cuando k, el número de varones preguntados, no es muy
pequeño, se pueden hacer predicciones detalladas de las magnitudes relativas de B
y S, y de la razón B/(B + S). Esto puede ser establecido en la forma de un teorema
empı́rico.
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 121
El papel que juegan B y S se invierte si los datos son recogidos a partir de los
miembros femeninos en una reunión.
Consideremos una familia con n hijos. Entonces bajo la hipótesis de distribución
binomial con π = 1/2 e ı́ndice n, la probabilidad de r varones es
n
n 1
p(r) = r , r = 1, 2, . . .. (5.1)
2
En nuestro caso, hay al menos un chico, lo que hace que la distribución apropiada sea
truncada. Una posibilidad es una distribución binomial truncada (TB),
n
n 1
r 2
pT (r) = n , r = 1, 2, . . . (5.2)
1
1−
2
c Publicacions de la Universitat de Barcelona
122 ESTAD ÍSTICA Y VERDAD
En Rao (1977), se argumenta que (5.3) es más apropiado para los datos observados
que (5.2). La Tabla 4.2 da la frecuencia observada de distribuciones del número de
hermanos en familias de diferentes tamaños basadas en datos obtenidos separadamente
a partir de estudiantes femeninos y masculinos en universidades de Shangai (China),
Manila (Filipinas) y Bombay (India), y los valores esperados sobre las hipótesis de TB
como en (5.2) y WB como en (5.3). Se aprecia en la tabla anterior que la WB (binomial
afectada) proporciona un mejor ajuste que la TB (binomial truncada), indicando que
una familia con r hermanos ha sido muestreada con probabilidad proporcional a r.
Aceptando la hipótesis de distribución binomial afectada (de magnitud sesgada),
a saber,
n − 1
n−1 1
p(r) = r−1 , r = 1, 2, . . ., n, (5.4)
2
n n − 1
n−1 1 n+1 n−1
E(r|n) = r r−1 = ⇒ E(r − 1) = . (5.5)
r=1
2 2 2
k
k
ni − 1 T −k
E(B − k) = E(ri − 1) = = = E(S). (5.6)
1 1
2 2
T +k B B 1 k
E(B) = , E =E = + . (5.7)
2 T B+S 2 2(B + S)
Omitiendo los sı́mbolos de esperanza o valor medio en (5.6) y (5.7), podemos obtener
igualdades aproximadas, tal como se formuló en el Teorema Empı́rico 1.
Durante los últimos veinte años, mientras daba clase a estudiantes y a profesores
en diferentes partes del mundo, recogı́ datos acerca del número de hermanos y
hermanas de la familia de cada individuo de mi audiencia. Los resultados están
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 123
resumidos en las Tablas 4.3-4.5. Se puede ver que las predicciones que facilita el
teorema empı́rico son correctas en prácticamente todos los casos. Como test adicional,
para contrastar si se ajustan o no a la distribución afectada, se calcula en cada caso el
estadı́stico
cuya distribución asintótica, bajo la hipótesis antes mencionada, es una ji-cuadrado con
un grado de libertad. Tales valores ji-cuadrado son todos pequeños, proporcionando
una cierta evidencia a favor de la distribución binomial afectada. [En realidad, los
valores ji-cuadrado son demasiado pequeños, por lo que necesitarı́amos estudios
adicionales para esclarecer el mecanismo subyacente que genera los datos observados].
B B−k
Lugar y año k B S χ2
B+S B+S−k
Bangalore (India, 75) 55 180 127 .586 .496 0.02
Delhi (India, 75) 29 92 66 .582 .490 0.07
Calcuta (India, 63) 104 414 312 .570 .498 0.04
Waltair (India, 69) 39 123 88 .583 .491 0.09
Ahmedabad (India, 75) 29 84 49 .632 .523 0.35
Tirupati (India, 75) 592 1902 1274 .599 .484 0.50
Poona (India, 75) 47 125 65 .658 .545 1.18
Hyderabad (India, 74) 25 72 53 .576 .470 0.36
Tehran (Iran, 75) 21 65 40 .619 .500 0.19
Isphahan (Iran, 75) 11 45 32 .584 .515 0.06
Tokyo (Japón, 75) 50 90 34 .725 .540 0.49
Lima (Perú, 82) 38 132 87 .603 .519 0.27
Shangai (China, 82) 74 193 132 .594 .474 0.67
Columbus (USA, 75) 29 65 52 .556 .409 2.91
College St. (USA, 76) 63 152 90 .628 .497 0.01
Total 1206 3734 2501 .600 .503 0.14
k =
número de estudiantes, B = número total de hermanos
incluyendo el entrevistado, S = número total de hermanas.
Estimación de π bajo la distribución binomial de magnitud sesgada
= (B − k)/(B + S − k)
c Publicacions de la Universitat de Barcelona
124 ESTAD ÍSTICA Y VERDAD
S S−k
Lugar y año k B S χ2
B+S B+S−k
Lima (Perú, 82) 16 37 48 .565 .464 .36
Los Baños (Filipinas, 83) 44 101 139 .579 .485 .18
Manila (Filipinas, 83) 84 197 281 .588 .500 .00
Bilbao (España, 83) 14 19 35 .576 .525 .10
Shangai (China, 82) 27 28 55 .662 .500 .00
B B−k
Lugar y año k B S χ2
B+S B+S−k
State College (USA, 75) 28 80 37 .690 .584 2.53
Warsaw (Polonia, 75) 18 41 21 .660 .525 2.52
Poznan (Polonia, 75) 24 50 17 .746 .567 1.88
Pittsburgh (USA, 81) 69 169 77 .687 .565 2.99
Tirupati (India, 76) 50 172 132 .566 .480 0.39
Maracaibo (Venezuela, 82) 24 95 56 .629 .559 1.77
Richmond (USA, 81) 26 57 29 .663 .517 0.03
Total 239 664 369 .642 .535 3.95
f: 1 2 3 4 5 6
B
E : 1 .75 .67 .625 .6 .58
B+S
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 125
Estos números muestran que en cualquier situación donde el tamaño promedio familiar
presumiblemente no exceda de 6, se pueden hacer las predicciones siguientes sobre el
número total de hermanos (B) y de hermanas (S) obtenidos a partir de los miembros
varones de cualquier reunión:
(ii) B/(B + S), más que estar próximo a 12 , lo está a 0.6 o incluso 23 .
n 1 2 3 4 5 6 7 8 9 10
1 3 1 11 1 42 1 163 1
B>S 1
2 4 2 16 2 64 2 256 2
1 3 10 35 90
B=S 0 0 0 0 0
2 8 32 128 512
1 1 5 6 22 29 93 166
B<S 0 0
4 8 16 32 64 128 256 512
Se aprecia que P(B > S) es mucho mayor que P(B < S) cualquiera que sea n, por lo
que en cualquier audiencia, la relación entre bg (varones pertenecientes a familias con
B > S) y bl (aquellos con B < S) es probablemente alta, dependiendo de la distribución
del tamaño familiar. Podemos ahora establecer otro teorema empı́rico.
3 11 1
E(bg ) = p1 + p3 + p5 + · · · + (p2 + p4 + · · · ), (5.9)
4 16 2
c Publicacions de la Universitat de Barcelona
126 ESTAD ÍSTICA Y VERDAD
1 1
E(bl) = p3 + p4 + · · · , (5.10)
4 8
Nota 3. Sea p(b, n) la probabilidad de que una familia sea de tamaño N = n y número
de hermanos B = b, y supongamos que la probabilidad de seleccionar a esta familia es
proporcional a b. Entonces
bp(b, n) bp(n)p(b|n)
pw (b, n) = = , (5.11)
E(B) E(B)
E(B|n)
pw (n) = · p(n). (5.12)
E(B)
np(n)
pw (n) =
E(N)
(5.13)
1 1
E w
=
N E(N)
k
1 (5.14)
ni
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 127
np(n)/E(N), n = 1, 2, . . ., (6.1)
c Publicacions de la Universitat de Barcelona
128 ESTAD ÍSTICA Y VERDAD
alcohólicos es
n
p(n) r πr φn − r , r = 0, . . . , n; n = 1, 2, . . ., (6.2)
(1 − φn )
p(n), n = 1, 2, . . .. (6.3)
1 − E(φN )
Si hemos elegido domicilios al azar y anotado los tamaños de las familias que tuvieran
al menos un alcohólico, entonces la hipótesis nula sobre el exceso de alcohólicos en
familias numerosas podrı́a ser probada comparando las frecuencias observadas con
las esperadas bajo el modelo (6.3). Sin embargo, bajo el patrón de muestreo adoptado
para averiguar los valores de n y r, a partir de un alcohólico admitido en una clı́nica, la
distribución afectada de (n, r),
n πr φn − r
p (n, r) = rp(n)
w
, (6.4)
r πE(N)
es más apropiada. Si tenemos información sobre el tamaño familiar n ası́ como del
número de alcohólicos (r) en la familia, podrı́amos comparar las frecuencias conjuntas
observadas de (n, r) con las esperadas bajo el modelo (6.4).
Partiendo de (6.4), la distribución marginal de n viene dada por
np(n)/E(N), n = 1, 2, . . ., (6.5)
que fue utilizada por Smart y Sprott como modelo para las frecuencias observadas del
tamaño familiar. Se ha visto en (6.3) que en la población general, la distribución del
tamaño familiar con al menos un alcohólico es
(1 − φn)p(n)
,
1 − E(φN )
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 129
p(n)/E(N), s = 1, . . ., n, n = 1, 2, . . ., (6.7)
∞
1
P(S = s) = p(i), s = 1, 2, . . .. (6.8)
E(N) i = s
c Publicacions de la Universitat de Barcelona
130 ESTAD ÍSTICA Y VERDAD
n=1 2 3 4
s O E O E O E O E
1 21 21 22 16 17 13.3 11 11.75
2 10 16 14 13.3 10 11.75
3 9 13.3 13 11.75
4 13 11.75
O = observadas, E = esperadas.
a Reproducido de la Tabla 1 de Smart (1963).
03. Éste puede ser otro ejercicio de clase. Si se va a cualquier oficina y se pregunta quiénes nacieron en primer
lugar, en segundo lugar, etc., se verá como hay preponderancia de primogénitos y hermanos mayores.
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 131
s n=1 2 3 4
1 7 14 9 6
2 6 4 2
3 2 0
4 0
Patil (1984) analizó un estudio llevado a cabo en 1966 por el Instituto Nacional
de Estadı́stica y Economı́a Aplicada en Marruecos para estimar el tiempo de estancia
media de los turistas. Se llevaron a cabo dos clases de inspección, una contactando
con turistas residentes en hoteles y otra contactando con turistas en las estaciones
fronterizas en el momento de su salida del paı́s. El tiempo medio de estancia sobre
3000 turistas encuestados en hoteles, fue de 17.8 dias, y sobre 12321 turistas en
las estaciones fronterizas fue de 9 dias. Esto fue detectado por los responsables del
departamento de planificación, quienes determinaron que las estimaciones procedentes
de los hoteles fueran descartadas.
Está claro que las observaciones recogidas de los turistas que salı́an del paı́s
corresponden a la distribución real del tiempo de estancia, ası́ que el promedio
observado de 9.0 es una estimación válida de la duración media de la estancia. Puede
demostrarse que en una situación de equilibrio entre las entradas y las salidas de los
turistas de un paı́s, el tiempo de permanencia determinado por los contactos en los
hoteles tiene una distribución sesgada por el tamaño, ası́ que la media observada
será una estimación por exceso de la duración media de la estancia. Si X w es una
variable aleatoria (v.a.) de magnitud sesgada, entonces
c Publicacions de la Universitat de Barcelona
132 ESTAD ÍSTICA Y VERDAD
El parámetro µ puede ser estimado en base a las observaciones sobre Y, siempre que
la forma funcional de F(y), la distribución del tiempo de estancia, sea conocida.
Es interesante observar que la f.d.p. (7.2) es la misma que la obtenida por
Cox (1962) estudiando la distribución del tiempo hasta que ocurre un fallo de un
determinado componente usado en diferentes máquinas, a partir de las observaciones
de los tiempos de uso de los componentes durante el periodo de la investigación.
∞
p
r = (1 − p) −1
pn s(r, n), r = 1, 2, . . ., (8.2)
n=r
donde
∞
p= pi s(0, i). (8.3)
1
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 133
(λπ)r
pr = e−λπ · , r = 1, 2, . . .. (8.4)
r!(1 − e−λπ )
(λπ)r
p =
u
e−λπ · , (8.6)
r
r!(1 − e−λπ )
que coincide con (8.4). Rao y Rubin (1964) demostraron que la igualdad p ur = pr es
una caracterización de la distribución de Poisson.
Los modelos deteriorados del tipo aquı́ descritos, fueron introducidos por Rao
(1965). El lector puede encontrar desarrollos teóricos sobre los mismos ası́ como
caracterización de las distribuciones de probabilidad relacionadas, en Alzaid, Rao y
Shanbhag (1984).
c Publicacions de la Universitat de Barcelona
134 ESTAD ÍSTICA Y VERDAD
De forma similar
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 135
p (b,t) =
s
σ−1 p(b,t|l)p(l)s(l)dl
= σ−1 p(b,t)p(l|b,t)s(l)dl = p(b,t)w(b,t),
p(l, b,t)s(l)
ps (l|b,t) =
= p(l|b,t),
p(l, b,t)s(l)dl
pd (b,t|l) = p(b,t|l),
Resulta interesante observar que todas las distribuciones que implican a L como
variable principal son afectadas. Una consecuencia inoportuna de este resultado es que
la regresión de L sobre (B, T ) estimada a partir del conjunto de muestras completas
sobre L, B, T no coincide con la verdadera regresión de L sobre (B, T ) en la población
original de huesos de fémur. Pero otras distribuciones como
son independientes de s(l), y las propiedades de éstas podrı́an ser utilizadas para
estimar todos los parámetros desconocidos cuando no se conoce s(l).
Por ejemplo, mediante todas las mediciones disponibles de B y T (tomadas sobre
huesos deteriorados o conservados), los valores medios µ B y µT de B y de T de la
población original podrı́an ser estimados a partir de los promedios usuales. De las
observaciones sobre el conjunto completo de L, B y T podemos estimar las regresiones
de B sobre L y de T sobre L de la forma habitual. Entonces los valores faltantes de L
pueden ser estimados en cada caso, es decir, cuando disponemos sólo de B o de T , por
regresión inversa usando la ecuación de regresión de B sobre L ó de T sobre L. Ası́,
la media de los valores observados de L y los valores estimados de L en los casos de
observaciones faltantes, se toma como una estimación de µ L , el valor medio de L en
la población original. De forma similar, los momentos de segundo orden pueden ser
estimados usando la relación entre los parámetros de la distribución original de L, B y
T y de las distribuciones condicionales (9.4).
c Publicacions de la Universitat de Barcelona
136 ESTAD ÍSTICA Y VERDAD
f (x)g(t)
(10.1)
P(X ≤ T )
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 137
c Publicacions de la Universitat de Barcelona
138 ESTAD ÍSTICA Y VERDAD
τ−µ
σΦ
σ
tτ = µ + (11.2)
τ−µ
1−Φ
σ
Referencias
c Publicacions de la Universitat de Barcelona
PRINCIPIOS Y ESTRATEGIAS DEL ANÁLISIS DE DATOS: DISTRIBUCIONES AFECTADAS Y NEBULOSAS 139
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA
BÚSQUEDA DE LA VERDAD
Una hermosa teorı́a, destruida por un hecho sucio, feo y peque ño.
Thomas H. Huxley
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 143
(b) (a)
Creación de Nuevas Ideas INFERENCIA
HIPÓTESIS Verificación de
O (Conjeturas lúcidas) la Teoría
TEORÍA
(c) (h)
Razonamiento Razonamiento
Deductivo Inductivo
(d) (g)
Diseño de experimentos
CONSECUENCIAS DATOS
(Garantizar la validez
(e) de los datos) (f)
Toda hipótesis será posiblemente rechazada con la acumulación de más datos, una
situación francamente descrita por Karl Popper:
01. Una detallada discusión sobre la diferencia entre razonamiento deductivo e inductivo se da en el capı́tulo 2.
c Publicacions de la Universitat de Barcelona
144 ESTAD ÍSTICA Y VERDAD
“Un repaso completo del proceso de recogida de datos o del diseño experimental,
puede a menudo incrementar el rendimiento diez o doce veces, con el mismo
costo en tiempo y trabajo. El consultar a un estadı́stico después de finalizar un
experimento, es, a menudo, meramente pedirle que lleve a cabo un examen post
mortem. Quizás le tenga que decir que el experimento falleció”.
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 145
“El pensamiento estadı́stico será algún dı́a tan necesario para el ciudadano
competente como la habilidad de leer y escribir”
c Publicacions de la Universitat de Barcelona
146 ESTAD ÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 147
c Publicacions de la Universitat de Barcelona
148 ESTAD ÍSTICA Y VERDAD
Shakespeare
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 149
c Publicacions de la Universitat de Barcelona
150 ESTAD ÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 151
en el siglo IV a.C. por Kautilya, ministro del famoso rey Chandragupta Maurya.
No obstante, varios eruditos han manifestado sus dudas tanto en el autor del texto
Arthaśāstra como en el periodo de su publicación.
Hace algunos años, Trautmann (1971) hizo una investigación estadı́stica respecto
del autor y de la fecha de publicación de Arthaśāstra. Encontró una considerable
variación de estilos de prosa en diferentes partes del libro y llegó a la conclusión de
que Kautilya podrı́a no haber sido el único autor de Arthaś āstra, sino que debe haber
sido escrita por varios autores, quizás 3 ó 4, en diferentes periodos de tiempo, situados
alrededor de la mitad del siglo II de nuestra era. Desde entonces no se conocen más
obras de Kautilya, siendo difı́cil decir qué parte fue escrita por él, e incluso si llegó a
hacer alguna contribución a dicha obra.
Los trabajos de Platón han sobrevivido más de 22 siglos y sus ideas filosóficas y su
elegante estilo han sido ampliamente estudiados. Lamentablemente, nadie menciona o
quizás nadie sabe el orden cronológico correcto en el cual aparecieron sus 35 diálogos,
6 piezas cortas y 13 cartas. El problema de la seriación cronológica de los trabajos
de Platón se planteó hace un siglo pero sin llegar a ninguna conclusión. Algunos
estadı́sticos analizaron el problema hace unos años y nos han facilitado lo que parece
ser una solución lógica.
c Publicacions de la Universitat de Barcelona
152 ESTAD ÍSTICA Y VERDAD
El método estadı́stico comenzó por establecer para cada par de trabajos un ı́ndice
de similitud. En un estudio llevado a cabo por Boneva (1971), el ı́ndice estaba basado
sobre la distribución de frecuencias en cada trabajo, de 32 posibles descripciones de
las últimas 5 sı́labas de una frase, técnicamente llamada Cláusula. Basándose en el
único supuesto de que los trabajos próximos en el tiempo tenı́an un estilo similar, y
ninguna otra información ajena, se ha podido desarrollar un método para deducir el
orden cronológico de los trabajos de Platón.
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 153
c Publicacions de la Universitat de Barcelona
154 ESTAD ÍSTICA Y VERDAD
del ingenio de Charles Lyell que nació en 1797 y escribió el célebre libro Principios de
Geologı́a. En el tercer volumen publicado en 1833, dio cálculos detallados sobre estas
épocas, lo que representa un enfoque estadı́stico altamente sofisticado basado en una
idea completamente nueva.
N◦ supervivientes
Nombre dado al p= ◦ Ejemplos
N de diferentes
estrato geológico especies fósiles
PLEISTOCENO 96 % Grupo Siciliano
(el más reciente)
PLIOCENO 40 % Sub-apenino
(bastante reciente) Rocas italianas
Peñasco Inglés
MIOCENO 18 % ...
(poco reciente)
EOCENO 3 % ó 4 % ...
(principio del reciente)
... ... ...
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 155
Es éste otro ejemplo citado por Fisher (1952) para ilustrar cómo la estadı́stica
descriptiva elemental conduce a un importante descubrimiento.
En los primeros años del presente siglo, Johannes Schmidt del Carlsberg
Laboratory en Copenhague, encontró que el número de vértebras y radios de aletas
de las mismas especies de pescado capturado en diferentes localidades, variaba
considerablemente; a menudo incluso siendo de diferentes partes de un mismo fiordo.
Con la anguila, sin embargo, en la que la variación del número de vértebras es mayor,
Schmidt encontró aproximadamente la misma media, y la misma desviación tı́pica, en
muestras sacadas de Europa, de Islandia, de las Azores y del Nilo, a pesar de ser todas
ellas regiones muy distanciadas. Dedujo que las anguilas de todos estos diferentes
sistemas fluviales vienen de un área común de crianza en el océano, que posteriormente
fue descubierta en una de las expediciones del buque de investigación “Dana”.
Esta pregunta surgió en una discusión sobre la teorı́a de Darwin y, con el fin
de contestarla, un genético danés W. Johannsen llevó a cabo un experimento, que
actualmente podrı́a parecernos muy simple, pero no en 1909 cuando Johannsen
publicó sus primeros resultados. Cito una nota de Marc Kac (1983), quien empezó a
estudiar esta materia cuando tenı́a 13 años.
Kac continúa:
c Publicacions de la Universitat de Barcelona
156 ESTAD ÍSTICA Y VERDAD
¿Por qué algunos árboles son zurdos y otros diestros? ¿Es este carácter heredable
genéticamente? La pregunta puede ser contestada considerando plantas progenitoras
con hojas dispuestas en diferentes combinaciones espirales y anotando las mismas
caracterı́sticas en la progenie.
Los datos conseguidos a tal fin son mostrados en la Tabla 5.4. Las proporciones de
izquierda a derecha son casi las mismas para todas las combinaciones de progenitores,
lo cual indica que no hay ninguna base genética para que los árboles sean zurdos o
diestros.
Por tanto dicha proporción parece enteramente determinada por factores externos
que actúan al azar. Pero, ¿por qué hay una ligera preponderancia de los descendientes
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 157
diestros (alrededor del 55 %) en los datos observados (Tabla 5.4)? Debe haber algo
en el entorno que tiende a dar una mayor probabilidad para que un árbol disponga sus
hojas hacia la derecha. Y si es ası́, ¿depende esta probabilidad de la situación geográfica
del árbol? Para decidir esto necesitamos recoger datos de varias partes del mundo. Se
encontró entonces que la proporción de zurdos era 0.515 en las muestras procedentes
del Hemisferio Norte y 0.473 en las procedentes del Hemisferio Sur. La diferencia
puede ser debida a la influencia del movimiento de rotación de la Tierra2 , lo cual
también explica el fenómeno del vórtice de la bañera (la espiral derecha o izquierda
que el agua forma al sacar el tapón de la bañera) que, bajo condiciones controladas,
circula en el sentido contrario a las manecillas del reloj en el Hemisferio Norte y en el
mismo sentido que las manecillas del reloj en el Hemisferio Sur.
Las investigaciones hubiesen permanecido exclusivamente en el ámbito
académico si Davis no hubiese sentido la curiosidad para buscar algunos rasgos en
que, posiblemente, pudieran diferir los árboles zurdos de los diestros. Comparó la
producción de árboles zurdos y diestros en una plantación durante un periodo de 12
años; se sorprendió de encontrar que la producción era superior en más de un 10 % en
los primeros que en los segundos. Aunque no se pudo ofrecer ninguna explicación —el
problema debe ser sometido a nuevas investigaciones y puede no tener fácil solución—,
la conclusión empı́rica es de gran importancia económica. Plantando una selección
de solamente árboles zurdos, la producción puede incrementarse en un 10 %! Davis
se planteó la pregunta de si las mujeres zurdas serı́an más fértiles que las diestras.
Un estudio de la Sanford Corporation sugiere que las zurdas son excepcionalmente
creativas y bien parecidas. Se dice que hay tal representación de zurdos que éstos
pueden estar orgullosos: Benjamin Franklin, Leonardo da Vinci, Albert Einstein,
Alejandro el Grande, Julio César, . . . .
El fenómeno de lo zurdo y lo diestro parece ser universal en el reino vegetal.
Tal vez el lector no haya notado la existencia de flores de la misma especie cuyos
pétalos están dispuestos siguiendo espirales hacia la derecha o hacia la izquierda
en su propio jardı́n (más técnicamente, disposición helicoidal). Y hay enredaderas
gemelas con espirales sólo hacia la derecha (dextrógiras) y otras con espirales sólo
hacia la izquierda (levógiras). Los experimentos en el Instituto Indio de Estadı́stica, en
Calcuta, para tratar de cambiar sus hábitos, acabaron en fracaso. Parecı́an reaccionar
violentamente a tales tentativas.
Es también curioso que todos los organismos vivos (excepto posiblemente formas
muy simples) son zurdos en su constitución bioquı́mica. Todos los aminoácidos,
excepto la glicina, existen en dos formas L (levo) y D (dextro). Las formas L y
c Publicacions de la Universitat de Barcelona
158 ESTAD ÍSTICA Y VERDAD
D son imágenes reflejadas una de otra y son llamadas moléculas zurdas y diestras,
respectivamente. Todos los 24 aminoácidos encontrados en las proteı́nas de las plantas
y animales, ası́ como en organismos simples como bacterias, mohos, virus, etc.,
son zurdos. Ambas moléculas, la zurda y la diestra, tienen exactamente las mismas
propiedades y la vida podrı́a haber sido posible con sólo aminoácidos D o incluso con
una mezcla de algunos L y otros D. ¿Es entonces un accidente de la naturaleza que los
organismos vivos hayan evolucionado mejor en el sistema L que en el sistema D? O
bien, ¿es posible que las moléculas zurdas estén intrı́nsecamente más adaptadas para la
estructuración de organismos vivos? Debe haber alguna misteriosa fuerza que explique
la tendencia de la naturaleza hacia la izquierda, que la ciencia todavı́a no ha explorado.
R L
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 159
El Dr. Roger Sperry, ganador del Premio Nobel, demostró que en cada individuo,
hay una parte del cerebro dominante, ya sea la izquierda o la derecha, abundando más
los individuos con cerebro izquierdo dominante. Al parecer, el modo más simple para
caracterizar una persona con cerebro derecho dominante serı́a por su habilidad creativa,
mientras que una persona con cerebro izquierdo dominante, lo serı́a por su lógica.
Si le preguntan cuál es su estatura, podrá, sin duda, dar una rápida respuesta
—un cierto número. Alguien puede haberle medido alguna vez y darle ese número.
Pero puede ser que no se haya preguntado cómo este número está cualificado para
representar su estatura. Y si ciertamente lo hizo, la respuesta habrı́a sido que es
una observación obtenida cuidadosamente siguiendo un ‘procedimiento prescrito para
la medición de la estatura’. Para tales casos prácticos una definición operacional
de estatura puede ser satisfactoria. Pero entonces surgen otras cuestiones. ¿Es la
caracterı́stica que tratamos de medir (de una forma prescrita) dependiente de la hora del
dı́a en que efectuamos dicha medición? Y, si es variable, ¿cómo especificar su valor?
Por ejemplo, ¿hay alguna diferencia entre las estaturas (reales) de un individuo por la
mañana y por la tarde? Si la hay, ¿cuál es la magnitud de la diferencia y existe alguna
explicación fisiológica?
Una simple investigación estadı́stica nos puede proporcionar la respuesta.
Cuidadosas mediciones de la estatura de 41 estudiantes en Calcuta llevadas a cabo
por la mañana y por la tarde, mostraron una diferencia media de 9.6 mm, siendo
más alta la medida efectuada por la mañana en cada caso (ver Rao, (1957)). Si, de
hecho, la estatura de un individuo en diferentes momentos del dı́a es igual, entonces
cualquier diferencia observada es atribuible a errores de medición que pueden ser
positivos o negativos con igual probabilidad. En tal caso, la probabilidad de que las
41 diferencias sean positivas es del orden de 2−41 , lo que corresponde a un suceso que
ocurre menos de 5 veces en 1013 experimentos, indicando que las probabilidades contra
la hipótesis de que no hay diferencia en la estatura, son extremadamente altas. Parece
que crecemos alrededor de 1 cm cuando estamos dormidos por la noche y que nuestra
estatura disminuye en la misma medida cuando estamos en el trabajo durante el dı́a!
Habiendo establecido que por la mañana y al anochecer las estaturas son
diferentes, la próxima pregunta puede ser, ¿qué parte del cuerpo se estira más cuando
estamos dormidos? Para examinar esto, se hicieron mediciones de la longitud entre
ciertos puntos marcados en el cuerpo, tanto por la mañana como al anochecer. Se
encontró que la diferencia de alrededor 1 cm ocurre en la parte del cuerpo donde se
c Publicacions de la Universitat de Barcelona
160 ESTAD ÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 161
implica necesariamente que la reclamación sea correcta. En tal caso, podemos calcular
la probabilidad de que la reclamación sea correcta. Si ésta es alta, entonces pueden
haber motivos para aceptar la demanda.
Sean F, M y C los fenotipos del padre putativo, madre e hijo. Asumiendo que
ninguna selección de fenotipos está implicada en la elección de cónyuge, podemos
estimar P(F|M,C), la probabilidad de que un padre sea de fenotipo F siendo la madre
de fenotipo M y el hijo de fenotipo C. Sea P(F) la probabilidad de que un individuo
tomado al azar de la población sea de fenotipo F. Si p es la probabilidad “a priori”
de que la afirmación de la madre sea cierta en un caso de disputa de paternidad y
PA (F|M,C) es la probabilidad de que el acusado sea de fenotipo F, entonces tenemos
pP(F|M,C)
PI =
PA (F|M,C)
Un valor alto de PI , llamado ı́ndice de paternidad, aportarı́a motivos para pensar que
la afirmación de la madre es cierta. Si p = 0.8 y P(F)/P(F|M,C) = 0.3, entonces
PI = 0.93, valor lo bastante alto como para considerar seriamente la demanda.
Hasta ahora, los grupos sanguı́neos y caracterı́sticas bioquı́micas de la sangre han
sido usados en casos de paternidad controvertida. Recientemente, se ha encontrado
que la comparación del patrón de ADN (ácido desoxirribonucleico), verdadera “huella
dactilar genética”, proporciona una alta probabilidad de detección (para la indagación
de la verdad).
c Publicacions de la Universitat de Barcelona
162 ESTAD ÍSTICA Y VERDAD
comunidad minoritaria se refugiaron en el Fuerte Rojo, que era una área protegida,
y otro pequeño número, en la tumba de Humayun, otra zona que incluı́a un antiguo
monumento. El Gobierno tenı́a la responsabilidad de alimentar a estos refugiados. Esta
labor fue encargada a contratistas, y en ausencia de cualquier conocimiento acerca
del número de refugiados, el gobierno se vió obligado a aceptar y pagar las cifras
presentadas por aquéllos para alimentar a los mismos. El gasto gubernamental de esta
factura pareció ser extremadamente alto y se sugirió que se preguntara a los estadı́sticos
(ya que cuentan) que determinaran la cantidad de refugiados que habı́a dentro del
Fuerte Rojo.
El problema pareció ser difı́cil bajo las problemáticas condiciones que prevalecı́an
en aquel momento. Una complicación posterior surgió cuando los expertos estadı́sticos
llamados para hacer el trabajo pertenecı́an a la comunidad mayoritaria (diferente de la
de los refugiados) y su seguridad no podı́a ser garantizada si las técnicas estadı́sticas a
aplicar, para estimar el número de refugiados, exigı́an su entrada en el Fuerte Rojo. El
primer problema para los expertos era hacer una estimación del número de personas
dentro de un área dada sin otra información previa sobre el orden de magnitud de su
número, sin tener oportunidad alguna de ojear las concentraciones de personas dentro
del área y sin hacer uso de ninguna técnica de muestreo conocida para la estimación,
ni de métodos censales.
Los expertos tuvieron que pensar varios modos de resolver el problema. Renunciar
hubiera sido interpretado por el gobierno como un fallo de la estadı́stica y/o de
los estadı́sticos. Tuvieron, sin embargo, acceso a las facturas presentadas por los
contratistas al gobierno, en las que figuraba la cantidad de varios artı́culos, como arroz,
legumbres y sal, comprados para alimentar a los refugiados. Razonaron como sigue:
Sean R, P y S las cantidades de arroz, legumbres y sal usadas cada dı́a para
alimentar a todos los refugiados. Partiendo de estudios de consumo, las necesidades
per cápita de estos artı́culos son conocidas, digamos r, p y s respectivamente. Entonces
R/r, P/p y S/s nos facilitarı́an estimaciones paralelas (igualmente válidas) del mismo
número de personas. Cuando estas relaciones fueron obtenidas usando los valores R, P
y S citados por los contratistas, se encontró que S/s tenı́a el valor más pequeño y R/r el
más grande, indicando que la cantidad de arroz, que es el artı́culo más caro comparado
con la sal, fue probablemente exagerada. (El precio de la sal era extremadamente bajo
en la India en aquellos años y no hubiese sido provechoso exagerar la cantidad de sal).
La estimación S/s fue propuesta por los estadı́sticos como indicativa del número de
refugiados en el Fuerte Rojo. El método propuesto fue verificado para proporcionar
una buena aproximación al número de refugiados en la tumba de Humayun (el más
pequeño de los dos campos con sólo un número relativamente pequeño de refugiados),
que fue determinado independientemente.
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 163
c Publicacions de la Universitat de Barcelona
164 ESTAD ÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 165
c Publicacions de la Universitat de Barcelona
166 ESTAD ÍSTICA Y VERDAD
podrı́a probablemente superarse con un pequeño esfuerzo de cada parte para aprender
el lenguaje del otro.
El investigador puede ser impaciente y no apreciar el deseo de los estadı́sticos de
entender su problema y la naturaleza de los datos, sobre los cuales depende únicamente
la elección de las técnicas estadı́sticas a aplicar. En este caso serı́a como aquel paciente
que pide al doctor que le prescriba una medicina para la enfermedad que él piensa
que está sufriendo sin permitir que el doctor le examine. Serı́a una falta de ética para
un estadı́stico el aceptar datos de otros con valor aparente, aplicarles la estadı́stica y
producir unos resultados finales que puedan satisfacer al cliente.
Tras el diálogo con el investigador, el estadı́stico tiene que hacer frente a
serios problemas. Tiene masas de datos que le han entregado —datos supuestamente
generados de acuerdo con un diseño particular escogido por el investigador y recogido
sin errores. Los datos obtenidos, ¿pueden servir de soporte para lo que se supone que
han de servir? ¿Pueden los estadı́sticos verificarlo a partir de los datos proporcionados?
¿Cómo pueden comunicarse mediante cifras?
El diálogo entre los estadı́sticos y las cifras, o el examen de datos, es esencial
y es una excitante parte del análisis de datos. No existe un lenguaje suficientemente
desarrollado para este menester y depende mucho de la habilidad del estadı́stico para
confeccionar números que hablen por ellos.
En los datos proporcionados a los estadı́sticos, algunos números pueden parecer
sospechosos al ser muy baja o muy elevada su frecuencia comparada con otras,
algunos pueden haber sido registrados sin una apropiada identificación, etc. Un repaso
a los registros originales puede ser suficiente para resolver algunos casos. Tests de
consistencia rutinarios podrı́an ayudar en otros. Para el resto no hay prescripciones
generales.
Veamos un ejemplo. Se requirió a un estadı́stico para analizar medidas
antropométricas efectuadas sobre diversas castas y tribus en la Bengala unida. El peso
de un individuo fue una de las diez caracterı́sticas medidas, y las series de medidas
de peso (en stones)3 eran como sigue: 7.6, 6.5, 8.1, . . .. La persona que editó las
mediciones convirtió los valores dados en stones a libras multiplicando cada cifra por
14. Tales valores 7.6, 6.5, 8.1, . . . . mencionados en stones fueron expresados en libras
como 14 × 7.6 = 106.4, 14 × 6.5 = 91.0, 14 × 8.1 = 113.4, . . . . etc. El estadı́stico, en
lugar de mirar los valores editados, quiso buscar los registros originales. Observó algo
que pensó que era anómalo, que en el lugar del decimal de las observaciones sobre
el peso, los dı́gitos 7, 8, 9 habı́an desaparecido completamente! Algo debı́a haber
sucedido. Las cifras registradas parecı́an inocentes, las cifras convertidas parecı́an
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 167
Esta es la historia sobre cómo el mecanismo genético del grupo sanguı́neo Rhesus
(Rh) fue puesto al descubierto en poco tiempo por un grupo de investigadores en
Inglaterra. El factor Rhesus fue descubierto por Levine en 1939 en el caso de un niño
nacido muerto, que en el suero de la madre se encontró que contenı́a un anticuerpo
referido como ∆ (o andi-D) capaz de aglutinar la sangre del 85 % de los donantes
blancos americanos. Esto sugirió la existencia de un posible factor mendeliano con dos
alelos, la presencia de uno de los cuales producirı́a el antı́geno D. Posteriormente, para
c Publicacions de la Universitat de Barcelona
168 ESTAD ÍSTICA Y VERDAD
abreviar la explicación, otros anticuerpos fueron encontrados uno tras otro, llamados
γ (o anti-c), Γ (o anti-C), H(o anti-E) que producı́an diferentes combinaciones de
reacciones (+ y −) según las cuales por lo menos 7 diferentes alelos (o complejos
genéticos) podı́an ser distinguidos. Las reacciones de los anticuerpos γ, Γ, ∆ y H
determinadas por estos 7 complejos genéticos, designados como R 1 , R2 , r, R0, R , R , Rz
vendrı́an dadas como se muestra en el primer bloque de la Tabla 5.5.
Haciendo suposiciones a partir de las reacciones de γ, Γ, ∆, H con las 7
configuraciones genéticas conocidas, Race (1944) argumentó como sigue e hizo
algunas predicciones.
Ninguna de las configuraciones genéticas reacciona en el mismo sentido
con respecto a γ y Γ, indicando que éstos son anticuerpos complementarios. Es
perfectamente posible que este tipo de anticuerpos complementarios también existan
en el caso de los anticuerpos ∆ y H. Designemos a éstos como δ y η, respectivamente.
Hay posiblemente otro complejo genético, designado como R y , cuyas reacciones
se especifican en la última fila de la Tabla 5.5 para completar el sistema, en el que cada
reactivo (anticuerpo) reacciona positivamente con cuatro y negativamente con otras
cuatro configuraciones genéticas.
Un año después de estas conjeturas, Mourant (1945) descubrió el anticuerpo η y
Diamond el anticuerpo δ.
Fisher (1947) propuso que la naturaleza de las configuraciones genéticas vendrı́a
determinada en términos de tres factores mendelianos, situados muy cerca entre sı́ en
el mismo cromosoma, con alelos para cada factor designados como (C, c), (D, d) y (E,
e). La presencia de los genes C, D y E produce reacciones positivas con los anticuerpos
Γ, ∆ y H respectivamente y la presencia de c, d y e produce reacciones positivas con
los anticuerpos γ, δ, y η respectivamente.
Ahora sabemos que el mecanismo genético es más complejo, con la posibilidad
de más de dos alelos para cada uno de los tres loci. No obstante, la investigación
implicando una organización cuidadosa de los datos recogidos de forma sistemática,
facilitó una rápida y eficiente clarificación de lo que parecı́a una confusa y oscura
situación, cuando el factor Rhesus fue inicialmente descubierto.
Referencias
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA: UN INSTRUMENTO INEVITABLE EN LA B ÚSQUEDA DE LA VERDAD 169
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA DE DOMINIO PÚBLICO
Samuel Butler
Para entender los pensamientos de Dios debemos estudiar estadı́sticas, dado que
éstas son las medidas de su voluntad.
Francis Nightingale
“De nada sirve que mejoremos la comunicación que los cientı́ficos tienen
entre sı́ acerca de su propio trabajo, si al mismo tiempo no logramos que un
conocimiento real de la ciencia llegue a ser, en nuestra época, parte de la vida
diaria”.
Tan sólo medio siglo más tarde se ha reconocido la importancia de lo que dijo
Bernal, y se han realizado serios esfuerzos para difundir el conocimiento cientı́fico
entre el público. Las Academias Nacionales de Ciencias de los paı́ses avanzados han
nombrado equipos para examinar el problema y sugerir caminos para su resolución.
Hace 5 años la Real Sociedad del Reino Unido empezó a publicar una revista, llamada
Science and Public Affairs, con el propósito de fomentar el conocimiento, por parte del
público, de las publicaciones cientı́ficas y aclarar las implicaciones en la vida diaria de
los descubrimientos cientı́ficos y tecnológicos. El nuevo eslogan puesto en circulación
por la Real Sociedad es
Sin lugar a dudas, la Ciencia impregna casi todo lo que hacemos en sociedad, y
la importancia del conocimiento de la ciencia para el hombre de la calle no precisa
ser remarcada. El público debe conocer cómo la nueva tecnologı́a puede serle útil
para mejorar su nivel de vida. Deben conocer las consecuencias de la explotación
de nuevos descubrimientos para su propio beneficio sin hacer caso de los efectos
perjudiciales para la sociedad y el medio ambiente. Deberı́an ser conscientes que una
polı́tica gubernamental, como establecer plantas de energı́a nuclear por todo el paı́s,
afectará sus vidas y las de sus hijos.
Cuando Bernal escribió el libro, la Estadı́stica no era conocida como una disciplina
independiente. Creció en importancia en el segundo cuarto del siglo XX, como un
método para extraer información de datos observados y como el camino lógico
de tomar decisiones en casos de incertidumbre. Como tal, el conocimiento de la
estadı́stica es de gran valı́a para la humanidad en todos los sentidos de la vida. Si
Bernal todavı́a viviera para publicar una nueva edición de La Función Social de la
Ciencia, podrı́a haber añadido, impresionado por la ubicuidad de la Estadı́stica, que el
conocimiento público de la ciencia estadı́stica es mucho más importante que cualquier
otro campo cientı́fico.
¿Qué es la Estadı́stica? ¿Es ciencia, tecnologı́a, lógica, o arte? ¿Es una disciplina
independiente como las matemáticas, la medicina, la quı́mica y la biologı́a, con una
temática a estudiar bien definida? ¿Qué fenómenos estudiamos con la Estadı́stica?
La Estadı́stica es una disciplina peculiar que no tiene por objeto ninguna parte
concreta de la realidad por si misma. Parece que existe y se desarrolla para resolver
problemas de otras áreas. En palabras de L. J. Savage
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA DE DOMINIO PÚBLICO 173
c Publicacions de la Universitat de Barcelona
174 ESTAD ÍSTICA Y VERDAD
después de una guerra y gracias al ejército del victorioso faraón. ¿Cómo llegaron a
ser estas cifras tan armoniosamente redondeadas? ¿Eran cifras efectivas hechas por los
contables reales o cifras ficticias concebidas para la activa imaginación del victorioso
faraón? ¿Era el drástico redondeo de las cifras un intento de subrayar la magnitud del
botı́n?
Samuel Johnson creı́a:
lo que ya habı́a sido anticipado por Weirus, un fı́sico alemán del siglo XVI, una época
en que la mayor parte de Europa estaba sometida al temor de las enfermedades y la
brujerı́a. Weirus calculó que exactamente
7.405.926
fantasmas habitaban la Tierra! La mayorı́a de la gente creyó que tal cifra debı́a ser el
recuento real ya que Weirus era un hombre erudito.
Recuerdo lo que se recomendaba en una Guı́a de Impuestos mientras rellenaba mi
declaración de la renta en EE.UU.
“Un detallado examen del informe G.A.O. confirma una forma importante de
reducir la probabilidad de una inspección. Evitar redondear a dólares cuando
se detallan ganancias y gastos. Cifras tales como $100, $250, $400, $600
inducen sospechas al inspector, mientras que cifras tales como $171, $313, $496
disminuyen la probabilidad de inspección. Si tiene que tasar algunos gastos,
hágalo en cantidades raras”.
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA DE DOMINIO PÚBLICO 175
es una respuesta particular o bien qué confianza podemos poner en ella. Los datos
observados necesitan ser procesados para averiguar hasta qué grado la incertidumbre
puede disiparse. El conocer la cantidad de incertidumbre asociada a los datos es la
llave para tomar la decisión apropiada. Ello nos permite sospesar las consecuencias
de diferentes opciones y escoger una que sea la menos perjudicial. La Estadı́stica,
tal como es entendida actualmente, es la lógica a través de la cual podemos subir un
peldaño en la escalera que nos lleva de los datos a la informaci ón.
A medida que la información aumenta gradualmente, reduciendo la incertidumbre
a un nivel mı́nimo aceptable, vamos subiendo varios peldaños más en la escalera
del estado del conocimiento, lo que nos da seguridad en las decisiones que
tomamos (sujetas naturalmente a un inevitable aunque pequeño riesgo). Tal nivel de
conocimiento puede no ser alcanzable en todas las áreas y en todas las situaciones.
Esto crea la necesidad de la estadı́stica, como la metodologı́a de la toma de decisiones
bajo un nivel de incertidumbre asociada a los datos obtenidos.
De acuerdo con el distinguido cientı́fico, Rustum Roy, el conocimiento que encaja
en un cuerpo determinado del saber, lo amplı́a, constituyendo nuevo saber, lo que
supone un peldaño más en la escalera del conocimiento.
No es más que un antiguo proverbio:
Llegará un tiempo tal vez no muy lejano que se comprender á que para una
formación completa como ciudadano eficiente . . ., es tan necesario saber
calcular, pensar en términos de promedios, máximos y mı́nimos, como lo es
ahora saber leer y escribir.
H.G. Wells
c Publicacions de la Universitat de Barcelona
176 ESTAD ÍSTICA Y VERDAD
ha sido nuestra incapacidad para prever el futuro y tomar decisiones polı́ticas sabias.
La polı́tica sana se basa en una buena información. Ası́ hay necesidad de ampliar la
base de datos para reducir la incertidumbre y tomar mejores decisiones.
La importancia de la información como ingrediente clave en la planificación
y ejecución de un proyecto más que la pericia tecnológica, es ahora ampliamente
reconocido, y somos testigos de la revolución informática, ya que empresas tanto
públicas como privadas están haciendo grandes inversiones en la adquisición y
procesamiento de la información. Se dice que en los EE.UU. alrededor del 40 ó 50 %
de los empleados en el sector público y en el privado están ocupados en estas
actividades.
Que hay demanda pública de estadı́stica se demuestra por el hecho de que
los periódicos dedican considerable espacio en dar toda clase de información.
Tenemos la predicción detallada del tiempo por un periodo que se prolonga alrededor
de una semana, hecho que permite planificar nuestras actividades al aire libre.
Están las cotizaciones de la Bolsa, que nos indican qué inversiones pueden sernos
más provechosas. Una sección especial está dedicada a los deportes con el fin de
mantenernos informados de los acontecimientos deportivos de todas las partes del
mundo. Un periódico diario de Edmonton, Canadá, publica lo que se denomina el
ı́ndice diario de mosquitos, con el fin de convencer al público de que las autoridades
municipales están haciendo los máximos esfuerzos para controlar el nivel de mosquitos
en las ciudades. El New York Times dedica casi el 30 % de su espacio para toda clase
de estadı́sticas ası́ como reportajes basados en ellas.
Hay revistas con estudios de consumidores que informan al público acerca de los
precios de artı́culos de consumo y los resultados comparativos de varios productos del
mercado.
Comprender bien la estadı́stica resulta importante a varios niveles. El primero es
a nivel individual. La necesidad de conocer las tres reglas (leer, escribir y contar) es
bien conocida. Pero esto no es suficiente para hacer frente a las incertidumbres que
encuentra un individuo en cada momento de su vida. Tendrá que tomar decisiones
para matricularse en un colegio, casarse, hacer inversiones y resolver los problemas
del trabajo diario. Esto requiere diferentes tipos de habilidades, que nosotros podemos
llamar la cuarta regla: el razonamiento estadı́stico, comprensión de las incertidumbres
de la naturaleza y del comportamiento humano y minimización del riesgo en la
toma de decisiones, haciendo servir la propia experiencia y la colectiva. Además, el
conocimiento estadı́stico para un individuo será una ventaja para su propia protección
y la de su familia contra infecciones, contra la propaganda de los polı́ticos y de los
anuncios poco escrupulosos, de los negociantes, eliminando la superstición que es
peor que la enfermedad, aprovechándose de las predicciones del tiempo, enterándose
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA DE DOMINIO PÚBLICO 177
de desastres como la radiación que se escapa de las plantas nucleares y muchas otras
cosas que afectan a su vida y sobre las que no posee control.
¿Necesita el hombre de la calle estudiar estadı́stica para adquirir lo que
denominamos la cuarta regla? La respuesta es no. Una cierta educación estadı́stica en
la enseñanza media, junto con las matemáticas, serı́a suficiente. Nuestro actual sistema
educativo está más orientado a estimular a los estudiantes a creer en la palabra escrita
y les previene contra la toma de decisiones con riesgo simbolizado en frases como “No
cuentes los pollos antes de que salgan del cascarón”, en lugar de prepararlos para vivir
en un mundo incierto y aprender a hacer frente a situaciones lı́mite de la vida moderna
sin precipitación.
Debemos aprender cómo enfrentarnos a un riesgo calculado. Recientemente, se
publicó un reportaje en la prensa, que decı́a que entre los nombres grabados en el
“Vietnam Veterans Memorial” en Washington, hay por lo menos 38 que erróneamente
han sido dados por muertos. Cuando la persona responsable fue preguntado por ello,
dijo: “No era posible en el momento de la construcción saber si estos soldados
estaban muertos, porque los datos eran incompletos. Yo no sabı́a si serı́a posible añadir
nombres una vez construido el Memorial. Tuve la creencia de que sus nombres podı́an
perderse para la historia si no los hubiera incluido”.
En el siguiente nivel tenemos a polı́ticos y artı́fices de la polı́tica, para quienes
el conocimiento estadı́stico es importante. Los gobiernos tienen una descomunal
maquinaria administrativa para recopilar datos. Son estos los medios que se usan para
tomar decisiones polı́ticas correctas en la administración cotidiana y formular planes
de largo alcance para fines sociales. Los polı́ticos intentan buscar consejos técnicos
para tomar decisiones. No obstante, es importante que adquieran por si mismos algún
conocimiento técnico para comprender e interpretar la información. Las siguientes
anécdotas ilustran este punto.
Un informe sometido a Tea Board por un asesor estadı́stico, contenı́a una tabla
con el tı́tulo: Número estimado de gente que toma el té con error estándar. Pronto
01. El error estándar es usualmente un número adjunto a una estimación, para dar una idea aproximada de la
magnitud del error en la misma.
c Publicacions de la Universitat de Barcelona
178 ESTAD ÍSTICA Y VERDAD
fue enviada una carta al estadı́stico preguntando qué clase de error estándar es el
que la gente toma con el té.
Una comisión regia, revisando un informe estadı́stico en el que se decı́a que las familias
de clase media tenı́an una media de 2.2 hijos, comentó:
“La cifra de 2.2 hijos por mujer adulta es en ciertos aspectos absurda. Se sugiere
que se ayude a la clase media pagándoles dinero con el fin de incrementar la
media hasta una cifra más redondeada y conveniente”.
Punch
“Señor, cuando un estadı́stico dice que 3.2 personas han muerto, significa que 3
personas realmente han fallecido y que 2 están a punto de morir”.
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA DE DOMINIO PÚBLICO 179
¿Cómo hemos de interpretar estas cifras? ¿Qué mensaje nos transmiten? ¿De
qué utilidad son para un individuo en la modelación de su estilo de vida, para
incrementar su felicidad?
Consideremos la primera cifra de la Tabla 6.1, la pérdida en esperanza de vida
de un hombre si permanece soltero. Ésta puede ser obtenida de información asequible
usualmente en los registros de fallecimientos por sexos, estado civil y edad al fallecer.
De los registros de varones, simplemente debe computarse separadamente, el promedio
de edad al fallecer para los casados y para los solteros. La diferencia en estos
promedios es la cifra: 3500 dias. Esto probablemente indica una amplia evidencia del
riesgo de quedarse soltero, habla favorablemente de la institución del matrimonio y
da un fuerte respaldo al consejo de casarse lo antes posible y ası́ ahorrar alrededor
de 10 años de vida! No obstante, ello no implica una causa [casarse] y un efecto
[vivir 10 años más] aplicable a cada individuo. Puede ser bastante probable que para
un individuo determinado, casarse sea suicida! Sin duda, una detallada tabulación de
c Publicacions de la Universitat de Barcelona
180 ESTAD ÍSTICA Y VERDAD
Hace algunos años los pronósticos del tiempo acostumbraban a usar expresiones
como estas: lloverá mañana, probablemente lloverá mañana, no se esperan
precipitaciones para mañana, etc. Los pronósticos eran frecuentemente equivocados.
Pero hoy en dı́a las predicciones tienen diferente lectura: existe un 60 % de
probabilidades de que llueva mañana. ¿Qué significa este 60 %? ¿Contiene esta
afirmación más información que las anteriores predicciones? Quizás, para quienes no
saben qué significa la palabra “probabilidad”, las predicciones diarias pueden ser algo
confusas y dar la impresión de que no son tan precisas como acostumbraban a ser.
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA DE DOMINIO PÚBLICO 181
En el pasado, los reyes trataban de conocer la opinión pública mediante una red de
espı́as. Probablemente, la información ası́ recogida les ayudaba a configurar la polı́tica
pública, decretando leyes y obligando su cumplimiento. La historia de los sondeos para
conocer la opinión pública, empezó con la primera publicación de las encuestas Gallup.
c Publicacions de la Universitat de Barcelona
182 ESTAD ÍSTICA Y VERDAD
Actualmente estas consultas han llegado a ser rutinarias en periódicos y otros medios
de comunicación jugando un importante papel en los mismos. Recogen la opinión del
público en diferentes asuntos polı́ticos, sociales y económicos, publicando resúmenes
de los resultados. Estas encuestas de opinión son muy valiosas en los sistemas polı́ticos
democráticos. Indican a los lı́deres polı́ticos y a la administración cuáles son las
aspiraciones, deseos y necesidades de la sociedad. También son noticia informando
a los ciudadanos sobre lo que piensan los demás. Esto puede ayudar a cristalizar la
opinión pública en asuntos importantes.
Los resultados de las encuestas de opinión pública se anuncian en un determinado
estilo estadı́stico, que necesita una aclaración. Por ejemplo, las noticias radiadas
pueden ser:
100(r/p) − e, 100(r/p) + e
con una alta “probabilidad”, normalmente elegida como el 95 % (o bien 99 %). Esto
significa que el suceso tal que el intervalo no cubra el valor real es tan raro como sacar
una bola blanca en una extracción al azar de una bolsa que contiene 5 (ó 1) bolas
blancas y 95 (99) bolas negras.
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA DE DOMINIO PÚBLICO 183
Tabla 6.2: Número de muertos antes, durante y después del mes de nacimiento
Un amigo mı́o, un buen cristiano, dio a la Iglesia la totalidad del primer mes de
su salario en su primer trabajo. Cuando le pregunté si creı́a en Dios, contestó: “yo no
sé si Dios existe o no, pero por si acaso es más seguro creer que Dios existe y actuar
de acuerdo con ello”. Quizás creencias y supersticiones ocupan un lugar en la vida de
cada uno, pero es un peligro cuando son las únicas guı́as de nuestras actividades.
¿Tienen los procesos psicosomáticos algún efecto en el funcionamiento biológico
de nuestro cuerpo? No hay evidencia experimental ni en un sentido ni en otro. No
c Publicacions de la Universitat de Barcelona
184 ESTAD ÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA DE DOMINIO PÚBLICO 185
porcentaje de
Aprobados Suspendidos
aprobados
Mujeres 6 3 .666
Hombres 34 3 .919
Total 40 6 .870
% de
Aprobados Suspendidos
aprobados
Mujeres 16 3 .842
Hombres 64 3 .955
Total 80 6 .930
03. Las diferencias entre las proporciones de hombres y mujeres, respecto a una cierta propiedad, al considerar un
resultado parcial y el resultado global, se conoce como paradoja de Simpson. N. del T.
c Publicacions de la Universitat de Barcelona
186 ESTAD ÍSTICA Y VERDAD
En este caso, la relación es (.842)/(.955) = .882 > .8. El juez dijo sensatamente
que lo que era relevante era la “totalidad de las personas” al hacer un test y no
un subconjunto particular de las mismas. Este es un ejemplo tı́pico donde las partes
interesadas tratan de seleccionar una parte de los datos que parecen diferir de la
totalidad de los mismos, aplicándola a su caso especı́fico.
A menudo, la evidencia cuantitativa es expresada en forma de un promedio o
una proporción, basado en una encuesta sobre una pequeña parte de los individuos
de una población, acerca de una medición particular u opinión. ¿Representaba la cifra
indicada la caracterı́stica particular de la totalidad de la población? Depende mucho
de que el número de individuos relacionados sea el adecuado y de la ausencia de
desviaciones en su selección.
El dar por buenas las estimaciones muestrales de una población precisa de un
cuidadoso examen del procedimiento seguido al llevar a cabo la encuesta, de cómo
asegurar la representatividad de la muestra y usar un tamaño muestral adecuado para
asegurar un determinado grado de precisión en las estimaciones resultantes. La justicia
estarı́a mejor servida si los jueces tuviesen algún conocimiento de la metodologı́a
aplicable en las encuestas, con el fin de que pudiesen facilitarles la decisión, en
cada caso individual, de si aceptar o rechazar unas estimaciones muestrales. No es
que estemos sugiriendo que un juez deba ser un estadı́stico cualificado, pero serı́a
ventajoso para un juez que tuviera algún conocimiento de la inferencia estadı́stica y de
la incertidumbre que conlleva tomar una decisión, para ası́ poder formarse una opinión
independiente basada en los argumentos estadı́sticos que le sean presentados.
Cualquier juicio envuelve la evaluación de la probabilidad de que un determinado
suceso sea verdadero, dadas todas las evidencias, tomar una decisión y considerar
las consecuencias de condenar a una persona inocente y de no llegar a condenar
a un culpable. Las frases habituales para expresar verbalmente varios grados de
probabilidad son como las siguientes:
Con el fin de determinar cómo interpretan los jueces generalmente estos criterios
para calificar las pruebas, el juez Weinstein estudió a sus compañeros en los tribunales
del distrito, cuyas probabilidades expresadas en porcentajes se detallan en la siguiente
tabla.
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA DE DOMINIO PÚBLICO 187
El universo está gobernado más por probabilidades estadı́sticas que por lógica.
Pero esto lo hace todavı́a más maravilloso. Si la vida es como obtener seiscientas
veces seguidas el mismo resultado en un juego de azar, sabemos que no es
probable que esto suceda más que una sola vez en muchos siglos, pero tambi én
sabemos que ello puede ocurrir en esta habitaci ón, esta noche, sin perturbar el
frágil orden cósmico. Ello resulta tranquilizador.
G.K. Chesterton
c Publicacions de la Universitat de Barcelona
188 ESTAD ÍSTICA Y VERDAD
De vez en cuando nos llegan estudios sobre individuos que poseen percepción
extrasensorial (PES) con la habilidad de leer la mente de otros, astrólogos que
hacen predicciones exactas y coincidencias asombrosas, como que alguien gane a la
loterı́a dos veces en cuatro meses. Estos acontecimientos son noticia y quizás resultan
interesantes de leer. ¿Sugieren la existencia de poderes ocultos que los causan?
Es quizás poco prudente descartar completamente la posibilidad de que existan
ciertos individuos con extraordinarias habilidades (como PES), o que las posiciones de
los planetas en el momento del nacimiento determinen el curso de los acontecimientos
de la vida de un individuo. No obstante, el anuncio de historias afortunadas, a menudo
sobre una base selectiva, no nos proporciona una gran evidencia a favor de tales
posibilidades.
Basta considerar, por ejemplo, un experimento tı́picamente extrasensorial, donde
se pide a una persona que adivine cuál de los dos posibles objetos con los que se
experimenta, ha sido escogido y puesto debajo de una carpeta. La posibilidad de que
un individuo acierte con todas las respuestas correctas en cuatro pruebas repetidas,
por puro azar, es 1/16. Esto significa que si 64 individuos de una población arbitraria
son puestos a prueba, hay una probabilidad alta de que haya entre 3 y 4 individuos
que contesten correctamente. Este experimento no sugiere que estos 3 ó 4 individuos
tengan PES. No obstante, si sólo se publicasen tales logros, atraerı́an nuestra atención.
Consideremos otro ejemplo. Si se está en una fiesta con al menos 23 personas y
les preguntamos sobre sus fechas de nacimiento, podemos encontrarnos a 2 de ellas
que han nacido el mismo dı́a del año. Esto podrı́a parecer una coincidencia asombrosa,
pero los cálculos probabilı́sticos demuestran que esta circunstancia ocurre con una
probabilidad del 50 %.
En un artı́culo publicado en el Journal of the American Statistical Association
(Vol. 84, pp. 853-880), dos profesores de la Universidad de Harvard, Diaconis y
Mosteller, demuestran que la mayor parte de las coincidencias, hechos que pueden
parecer asombrosos, son sucesos que tienen una probabilidad razonable de ocurrir de
vez en cuando.
Existe una ley estadı́stica que indica que con un tamaño muestral suficientemente
grande, cualquier suceso, aunque sea pequeña la probabilidad de que suceda en un
ensayo aislado, acabará ocurriendo. Puede ocurrir en cualquier momento sin podérsele
atribuir ninguna causa especial.
c Publicacions de la Universitat de Barcelona
LA ESTADÍSTICA DE DOMINIO PÚBLICO 189
c Publicacions de la Universitat de Barcelona
190 ESTAD ÍSTICA Y VERDAD
que no estamos plenamente preparados para tal cometido. Nuestro éxito dependerá de
que se consiga y procese la información necesaria para tomar una decisión óptima
gracias a la cual los recursos disponibles, tanto en el terreno personal como en el
material, sean explotados al máximo para mejorar el nivel de vida de los ciudadanos.
Esto debe ser llevado a cabo de un modo cuidadoso con el fin de asegurar que:
La Estadı́stica podrı́a ser la clave tecnológica para lograr esta revolución, una
tecnologı́a para dar forma a un nuevo mundo a través de la paz.
Referencias
c Publicacions de la Universitat de Barcelona
ÍNDICE DE MATERIAS
Abducción, 75 lógica, 60
Abul Fazl, 66 naturaleza, 43
ADN, 75, 161 necesidad, 58
Achenwall Gottfried, 66
Ain-i-Akbari, 66
Akaike, H., 105
Alcoholismo, 127 Babbage, C., 68, 99
Aleatoriedad, 27 Barnett, V., 141
Alzaid, A. H., 133, 138 Bayes, Thomas, 76, 187
Ambigüedad, 61 Benzécri, F., 103, 109
Aminoácidos (D & L), 157 Benzécri, J. P., 103, 109
Análisis de datos Bernal, 171, 172
descriptivo, 82 Bertin, J., 111
exploratorio, 85 Bielfeld, J. von, 66
inferencial, 82, 86, 107, 108 Black, P., 153, 169
Andrews, D. F., 111 Bohr, 142
Andrews, G., 48 Boltzman, L., 43, 49
Anscombe, F. J., 111 Boneva, L. I.,152, 168
Aristóteles, 14, 27 Born, M., 45
Arreglar observaciones, 99 Bose, R. C., 83
Artı́culos del federalista, 150 Bose, S. N., 45
Askey, 22, 25 Bose-Einstein, 45
Atkin, 23 Bradshaw, G. L., 57
Autorı́a controvertida, 150 Broad, W., 91, 95
Azar, 29 Buffon, problema de la aguja, 97
Azar y, Burt, C., 91, 96
caos, 51 Butler, S., 144, 171
creatividad, 46, 53 Byron, Lord, 188
192 ESTAD ÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
ÍNDICE DE MATERIAS 193
Incertidumbre, 28, 69
Galileo, G., 44, 95 control de la, 69
Gauss, J., 55 cuantificación de la, 73, 74
Gauss, K., 44 principio de Heisenberg, 45
Geometrı́a fractal, 51 Indeterminismo, paradigma del, 59
Ghosh, J. K., 53, 54, 56, 96 Índice de paternidad, 161
Gleick, J., 43, 49 Inducción, 72, 75
Glotocronologı́a, 152 Inferencia en análisis de datos, 86
c Publicacions de la Universitat de Barcelona
194 ESTAD ÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona
ÍNDICE DE MATERIAS 195
c Publicacions de la Universitat de Barcelona
196 ESTAD ÍSTICA Y VERDAD
c Publicacions de la Universitat de Barcelona