Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Una Grafica Vale Mas Que Mil Valores P
Una Grafica Vale Mas Que Mil Valores P
La prueba de hipótesis, con mucho la técnica estadística más común para generar
conclusiones a partir de los datos, no es, sin embargo muy informativa. Hace hincapié en
una cuestión confusa y banal (“¿Es cierto que un conjunto de medias de poblaciones no son
idénticas unas a otras?”) cuya respuesta es, en un sentido matemático, casi inevitablemente
conocida (“No”). La prueba de hipótesis, tal como se acostumbra a aplicar, ignora dos
cuestiones que generalmente son mucho más interesantes, importantes y relevantes: ¿Cuál
es el patrón que siguen las medias según las condiciones, y cuáles son las magnitudes de
varias medidas de variabilidad (p. ej., errores típicos de las medias o estimadores de las
desviaciones típicas de las poblaciones)? El simple recurso de construir una gráfica con
estadísticos muestrales relevantes, y sus barras de variabilidad asociadas, es una forma
sustantivamente mejor de comunicar los resultados de un experimento. En el medio actual
con microordenadores, hay muchos programas relativamente baratos que le permiten a uno
hacer esto. Hago aquí algunos breves comentarios informales acerca de algunos de esos
programas.
En esta sección, contaré dos historias con las que pretendo ilustrar las relaciones
entre la comprobación de hipótesis y los procedimientos GME. En estas historias, los
nombres, experimentos y datos se han cambiado para evitar herir susceptibilidades,
vergüenzas y acritud profesional en general.
p = (1 – e-d/c) (1)
P = -ln(1 – p)
Las curvas resultantes que relacionan la ejecución con la duración serían lineales y
no exponenciales. Es decir, con el uso de P en lugar de p, la ecuación 1 se convierte en
P = d/c. (2)
Loeb, una persona muy visualmente orientada, decidió que las funciones lineales del
tipo descrito en la ecuación 2 eran más fáciles de evaluar, comprender y comparar que
las funciones exponenciales del tipo de la descrita en la ecuación 1. Dado que no vio
desventajas en expresar la ejecución en términos de P en lugar de en términos de p, esto
es lo que hizo.
Sus datos, que se reproducen en la Figura 1, confirmaron bastante bien sus
predicciones. Cada panel muestra la ejecución como una función de la duración de la
exposición. Las dos curvas de cada panel representan los dos niveles de incertidumbre
del estímulo. Para cada curva, los puntos de los datos representan las medias de las
condiciones junto con las barras de error típico relevantes, y la línea sólida representa la
función lineal de mejor ajuste. Loeb describió otros cuantos aspectos interesantes e
importantes de los datos de la Figura 1 que tenían que ver con la relación exacta entre
las pendientes de las cuatro funciones, pero me saltaré la discusión de esos aspectos, que
no son relevantes para la historia actual.
Prueba de hipótesis como alternativa a la Figura 1. Los revisores de la RRI
fueron bastante positivos con el manuscrito de Loeb, y el editor lo aceptó con revisiones
menores. Sin embargo, en la última etapa de la interacción del editor con Loeb – como
parte de la normalmente favorable correspondencia en la que se incluye un documento
verde para firmar por el que se transfiere a la revista el derecho de copia – apareció un
inconveniente. En su carta, el editor añadió: “En mi lectura final de su manuscrito, he
notado que Vd. no ha realizado ninguna prueba de hipótesis sobre los datos de la Figura
1. Por favor, incluya tales pruebas, junto con los valores F relevantes en la versión final
de su manuscrito”. Dado que era el año que Loeb preparaba oposiciones, ella no quiso
que ningún problema pudiera poner en peligro la publicación de su manuscrito, de
modo que sumisamente añadió el siguiente párrafo en su sección de resultados:
El editor de la RRI se vio tan complacido con este párrafo, que sugirió que la Figura
1, que dijo que ahora era redundante, fuese eliminada (siguiendo así una larga tradición
de editores (científicos) de revistas que, presionados por los editores (los que publican)
conscientes del costo del papel, sugieren siempre que se eliminen las figuras. Esta vez
Loeb se mantuvo en sus trece y a su debido tiempo se publicaron tanto la Figura 1 como
el párrafo reproducido más arriba.
¿Qué tiene esta historia de malo? Miremos un momento todo esto. ¿Qué es lo que
resulta importante saber a partir de los datos de Loeb? Simplemente mirando la Figura 1
podemos inferir bastante. Primero, dado que la función lineal predicha queda dentro de
de las barras de error, concluimos que la tendencia lineal describe las curvas bastante
adecuadamente. Segundo, puesto que los propios intervalos de confianza son bastante
pequeños, concluimos que los datos poseen una sustancial potencia estadística: Es decir,
cualquier desviación de las medias poblacionales relevantes respecto de las medias
muestrales (y así cualquier desviación respecto de la tendencia lineal por parte de las
curvas de las poblaciones) debe ser pequeña. Tercero, al comparar las dos curvas dentro
de cada panel, podemos concluir que la incertidumbre mayor provoca peor ejecución.
Finalmente, comparando las curvas de los dos paneles podemos concluir que si se evita
la codificación verbal se consigue peor ejecución. Estas dos conclusiones últimas son
inequívocas, dadas las grandes diferencias de las condiciones en relación con los
pequeños intervalos de confianza.
La Figura 1 también nos permite alguna conclusión completamente banal. Por
ejemplo, podemos concluir que, dentro de una curva dada, las ocho medias de las
poblaciones correspondientes a las ocho duraciones de la exposición no son idénticas
unas a otras; si lo fueran, entonces, dados los tamaños de los intervalos de confianza, las
medias de las muestras no variarían plausiblemente unas de otras tanto como varían.
Podemos llegar a conclusiones análogas sobre las demás variables. Llamo banales a
esas conclusiones porque sabemos a priori que deben ser verdaderas. Ningún conjunto
de valores reales, de verdad, de medias poblacionales de condiciones experimentales
pueden ser idénticas hasta un número infinito de lugares decimales. Deben diferir.
Entonces, ¿por qué es interesante concluir que difieren? No lo es. Lo que resulta
interesante no es que las medias de las poblaciones difieren unas de otras, sino cuál es el
patrón que siguen las medias poblacionales. Aquí, por ejemplo, es importante ser capaz
de concluir que la relación entre las medias poblacionales y la duraciones de exposición
es lineal.
El procedimiento de comprobación de hipótesis que describió Loeb en el párrafo
lacónico, denso, preciso y que sonaba a científico reproducido más arriba no tiene nada
que ver con las conclusiones interesantes. No nos dice nada sobre la apariencia del
patrón de medias poblacionales, o de en qué medida podemos confiar en el patrón
inferido (es decir, cuánta potencia estadística hay). En lugar de eso, meramente
confirma las conclusiones banales, diciéndonos de nuevo que no es verdad que varios
conjuntos de medias poblacionales sean iguales unos a otros. En resumen, la
información proporcionada por el procedimiento GME, expresado en la Figura 1,
subsume el procedimiento estándar de comprobación de hipótesis expuesto en el párrafo
citado. Si tienes el párrafo, aún necesitas la figura. Pero si tienes la figura, no hay
necesidad del párrafo. La comprobación de hipótesis es superflua.
Las calificaciones medias de dicha de los grupos de tratamiento Estándar y Lowry fueron 5,05
y 5,03 respectivamente. La diferencia entre los grupos no fue estadísticamente significativa,
t(38) = 1,06, p > 0,05.
(Los párrafos que vienen a continuación, en general, están obsoletos. Desde 1993
han pasado demasiados años en términos de aplicaciones informáticas – los 15 hasta
2008, son un siglo en ese terreno – de modo que, aunque algunos extremos se
mantienen, como la escasa utilidad de los paquetes estadísticos generalistas de
estructura rígida, ni los programas que el autor cita, ni la filosofía general de sus
elecciones serían defendibles actualmente. Por ello, podemos saltar a la última sección
interesante).
CONCLUSIONES
REFERENCIAS
(en el artículo)
NOTAS
1
La idea básica es la siguiente. La hipótesis nula típicamente propone que algún parámetro de la población (p. ej., una
media poblacional, la diferencia entre dos medias poblacionales, una correlación en la población) es exactamente igual
a una determinada constante. Sólo raras veces puede esa hipótesis ser cierta de hecho. Consideremos, por ejemplo, un
experimento en el que se comparan dos tratamientos A y B. La hipótesis nula podría ser: “la diferencia entre la
puntuación resultado del Tratamiento A y la puntuación resultado del Tratamiento B es cero (hasta un número infinito
de lugares decimales)”. Tal hipótesis nula no puede ser literalmente verdadera. De tal manera, los resultados de una
prueba de significación no nos dicen, como anuncian, si la hipótesis nula es falsa de hecho (ya sabemos a priori que es
falsa). Más bien, los resultados simplemente nos dicen que hay suficiente potencia experimental para detectar la
inevitablemente existente diferencia media en la población.
2
Por propósitos ilustrativos, supongo en todo el artículo que las medias muestrales son los datos primarios de interés.
Todos los argumentos puede aplicarse igualmente a cualquier estadístico muestral.
3
Los términos “desviación típica de los grupos de tratamiento” conllevan cierta ambigüedad: pueden referirse o bien a
las desviaciones típicas muestrales, concretas, de los dos grupos, o bien a las estimaciones de las desviaciones típicas de
las poblaciones relevantes (esos dos estadísticos difieren en un factor de n/[n – 1]). En esta discusión me referiré
siempre a estas últimas.
4
No la media aritmética de hecho, sino la desviación típica de la media de las dos varianzas individuales de los grupos
de tratamiento.