Está en la página 1de 9

Una gráfica vale más que mil valores p:

Acerca de la irrelevancia de la prueba de hipótesis en la


era de los microordenadores.
GEOFFREY R. LOFTUS
University of Washington, Seattle, Washington.

La prueba de hipótesis, con mucho la técnica estadística más común para generar
conclusiones a partir de los datos, no es, sin embargo muy informativa. Hace hincapié en
una cuestión confusa y banal (“¿Es cierto que un conjunto de medias de poblaciones no son
idénticas unas a otras?”) cuya respuesta es, en un sentido matemático, casi inevitablemente
conocida (“No”). La prueba de hipótesis, tal como se acostumbra a aplicar, ignora dos
cuestiones que generalmente son mucho más interesantes, importantes y relevantes: ¿Cuál
es el patrón que siguen las medias según las condiciones, y cuáles son las magnitudes de
varias medidas de variabilidad (p. ej., errores típicos de las medias o estimadores de las
desviaciones típicas de las poblaciones)? El simple recurso de construir una gráfica con
estadísticos muestrales relevantes, y sus barras de variabilidad asociadas, es una forma
sustantivamente mejor de comunicar los resultados de un experimento. En el medio actual
con microordenadores, hay muchos programas relativamente baratos que le permiten a uno
hacer esto. Hago aquí algunos breves comentarios informales acerca de algunos de esos
programas.

Quiero defender dos argumentos principales es este artículo. Primero, la prueba de


hipótesis está sobrevalorada, es excesivamente usada y prácticamente inútil como medio
de iluminación de lo que los datos tratan de decirnos en un experimento. Segundo, los
métodos gráficos de presentación representan un modo mucho mejor de
proporcionarnos tal iluminación, en particular dada la facilidad con la que pueden
aplicarse esos métodos con la tecnología de computación actual.

LA PERDURABLE TIRANÍA DE LA COMPROBACIÓN DE HIPÓTESIS

En 1962, al final de su tarea como editor del augusto Journal of Experimental


Psychology, Arthur Melton escribió un editorial en el que resumió los criterios usados
en la revista para aceptar manuscritos. Esos criterios se movían excesivamente alrededor
de la prueba de hipótesis. En concreto, Melton señaló que (1) casi nunca se publicaban
artículos en los que no se rechazaba la hipótesis nula, y (2) el rechazo al nivel de
significación del 0’05 era raramente adecuado para la aceptación; en lugar de ello, se
requería típicamente un rechazo al nivel del 0’01.
El editorial de Melton bendijo una práctica que ya se había extendido dentro de las
ciencias sociales: el uso de la prueba de hipótesis como una técnica necesaria (y casi
suficiente) para el análisis de datos. Esta práctica no ha cambiado mucho durante estos
30 años; hoy la prueba de hipótesis es el medio principal de inferencia de conclusiones a
partir de los datos en aproximadamente el 90 % de los artículos en las revistas
principales de la Psicología.
La comprobación de hipótesis proporciona la ilusión de la objetividad científica
mediante la santificación de una probabilidad arbitraria (p = 0’05) de rechazar
incorrectamente alguna hipótesis nula que casi inevitablemente se sabe a priori que es
falsa (véanse Bakan, 1966; Gigerenzer et al., 1989); Loftus, 1991; Nunnally, 1960, para
aclaraciones de este argumento)1. La prueba de hipótesis, tal como se la aplica
normalmente, virtualmente no proporciona información acerca de dos aspectos críticos
de un experimento: el grado de potencia experimental y la relación mútua de un
conjunto de parámetros de la población (típicamente medias poblacionales)2. Sostendré
que el simple recurso de presentar una figura que represente las medias muestrales junto
con barras de error relevantes (un procedimiento al que me referiré por conveniencia
para la exposición como procedimiento gráfica-más-barra-de-error, o procedimiento
GME) proporciona esencialmente toda la información que proporciona un
procedimiento de contraste de hipótesis, más cierta información adicional. Más aún, la
información que comparten los procedimientos de prueba de hipótesis y GME es
generalmente una información sin interés y sin importancia, mientras la información
adicional que proporciona el procedimiento GME es generalmente interesante e
importante.
Hay muchas razones por las que la prueba de hipótesis se convirtió originalmente en
la técnica de análisis de datos por defecto en las ciencias sociales (véanse las
discusiones de Cohen, 1990; Gigerenzer et al., 1989; Loftus, 1991). Una de ellas es que
resulta muy fácil de ejecutar. Introduce los datos brutos en un programa de ordenador, y
le devuelve un valor z, o t, o F, que le dice todo lo que necesita para escribir su artículo.
(Como Cohen, 1990, astutamente apunta, algunos mercachifles de programas de
paquetes estadísticos han ido tan lejos como para pregonar sus mercancías afirmando
que ni siquiera tienes que comprender la estadística para usar el programa).
En contraste con la relativa facilidad de la prueba de hipótesis, construir gráficas
con errores típicos ha sido, hasta años recientes, bastante tedioso. Primero tenías que
comprar papel para gráficos, lápices, sacapuntas y muchas gomas de borrar. Después
tenías que gastar un tiempo considerable sólo para conseguir una tosca gráfica
preliminar. Luego habías de llevar tu tosca gráfica a un artista gráfico caro,
generalmente bastante lejano al otro lado del campus en la Facultad de Medicina o en
cualquier sitio, y esperar una semana o así al resultado final. Si te arrepentías sobre lo
que querías representar, el ciclo completo había de comenzar de nuevo. Había poca
retroalimentación inmediata, y el proceso no era divertido.
En la década pasada, sin embargo, las cosas cambiaron drásticamente. Con la
explosión de los gráficos por computadora, de los procedimientos de cortar y pegar, y
con programas gráficos baratos, es muy fácil presentar gráficamente los datos, o un
conjunto de gráficos, mejor que un compendio de razones F. Y esto es lo que debemos
hacer.

Dos novelas en clave

En esta sección, contaré dos historias con las que pretendo ilustrar las relaciones
entre la comprobación de hipótesis y los procedimientos GME. En estas historias, los
nombres, experimentos y datos se han cambiado para evitar herir susceptibilidades,
vergüenzas y acritud profesional en general.

1. El curso temporal de la adquisición de la información visual


Hace un par de años, una psicóloga cognitiva llamada Julia Loeb envió un
manuscrito a la Revista de resultados importantes (RRI). Loeb estaba interesada en la
codificación perceptiva y en el recuerdo de matrices simples de puntos. Su tarea era
sencilla: en cada uno de múltiples ensayos, un sujeto veía un estímulo que constaba de
cuatro puntos inscritos en cuatro celdillas seleccionadas al azar de una matriz n x n. Tras
la presentación de la matriz, se pedía al sujeto que reprodujese las posiciones de los
puntos.
El diseño de Loeb constaba de tres variables independientes (todas ellas intra-
sujetos). En primer lugar, se mostraba el estímulo durante una de ocho duraciones de
exposición. Había también dos niveles de incertidumbre del estímulo, y dos niveles de
codificación verbal/no verbal (para los propósitos de la discusión actual no es necesaria
una descripción detallada de esas variables). Loeb trabajó con 10 sujetos en su
experimento.
Loeb había desarrollado una teoría que implicaba lo siguiente: primero, la ejecución
de la tarea (la proporción de puntos correctamente situados) se relacionaba
exponencialmente con la duración de la exposición. Así, si d es la duración de la
exposición, y p es la ejecución, la ecuación

p = (1 – e-d/c) (1)

describe la relación entre ellas (aquí c es una constante). La segunda implicación de


la teoría de Loeb era que tanto los estímulos más inciertos como la falta de codificación
verbal llevaría a una peor ejecución.
Para examinar los resultados, Loeb planeó una gráfica de la probabilidad de situar
correctamente los puntos, p, en función de la duración de la exposición, d, y también
determinar el grado en que las curvas resultantes se ajustarían a la ecuación 1. Cuando
comenzaba a hacerlo, sin embargo, se dio cuenta de que si expresaba la ejecución, no en
términos de la proporción correcta sin tratar, p, sino en términos de la puntuación
transformada,

P = -ln(1 – p)

Las curvas resultantes que relacionan la ejecución con la duración serían lineales y
no exponenciales. Es decir, con el uso de P en lugar de p, la ecuación 1 se convierte en

P = d/c. (2)

Loeb, una persona muy visualmente orientada, decidió que las funciones lineales del
tipo descrito en la ecuación 2 eran más fáciles de evaluar, comprender y comparar que
las funciones exponenciales del tipo de la descrita en la ecuación 1. Dado que no vio
desventajas en expresar la ejecución en términos de P en lugar de en términos de p, esto
es lo que hizo.
Sus datos, que se reproducen en la Figura 1, confirmaron bastante bien sus
predicciones. Cada panel muestra la ejecución como una función de la duración de la
exposición. Las dos curvas de cada panel representan los dos niveles de incertidumbre
del estímulo. Para cada curva, los puntos de los datos representan las medias de las
condiciones junto con las barras de error típico relevantes, y la línea sólida representa la
función lineal de mejor ajuste. Loeb describió otros cuantos aspectos interesantes e
importantes de los datos de la Figura 1 que tenían que ver con la relación exacta entre
las pendientes de las cuatro funciones, pero me saltaré la discusión de esos aspectos, que
no son relevantes para la historia actual.
Prueba de hipótesis como alternativa a la Figura 1. Los revisores de la RRI
fueron bastante positivos con el manuscrito de Loeb, y el editor lo aceptó con revisiones
menores. Sin embargo, en la última etapa de la interacción del editor con Loeb – como
parte de la normalmente favorable correspondencia en la que se incluye un documento
verde para firmar por el que se transfiere a la revista el derecho de copia – apareció un
inconveniente. En su carta, el editor añadió: “En mi lectura final de su manuscrito, he
notado que Vd. no ha realizado ninguna prueba de hipótesis sobre los datos de la Figura
1. Por favor, incluya tales pruebas, junto con los valores F relevantes en la versión final
de su manuscrito”. Dado que era el año que Loeb preparaba oposiciones, ella no quiso
que ningún problema pudiera poner en peligro la publicación de su manuscrito, de
modo que sumisamente añadió el siguiente párrafo en su sección de resultados:

Un ANOVA 8 x 2 x 2 de medidas repetidas reveló un efecto principal de la duración de la


exposición, con una F(7, 63) = 354,49, p < 0,05; un efecto principal de la incertidumbre del
estímulo, con una F(1, 9) = 16,02, p < 0,05; y un efecto principal de la estrategia de
codificación, con una F(1, 9) = 121,33, p < 0,05. Las interacciones de la duración de la
exposición con la incertidumbre y con la estrategia de codificación fueron ambas significativas,
con F(7, 63) = 82, 23 y 77,90 respectivamente, ambas ps < 0,05. La interacción incertidumbre x
estrategia fue significativa, con una F(1, 9) = 24,98, p < 0,05. La interacción duración x
incertidumbre x estrategia fue significativa, con una F(7, 63) = 13,23, p < 0,05.

El editor de la RRI se vio tan complacido con este párrafo, que sugirió que la Figura
1, que dijo que ahora era redundante, fuese eliminada (siguiendo así una larga tradición
de editores (científicos) de revistas que, presionados por los editores (los que publican)
conscientes del costo del papel, sugieren siempre que se eliminen las figuras. Esta vez
Loeb se mantuvo en sus trece y a su debido tiempo se publicaron tanto la Figura 1 como
el párrafo reproducido más arriba.
¿Qué tiene esta historia de malo? Miremos un momento todo esto. ¿Qué es lo que
resulta importante saber a partir de los datos de Loeb? Simplemente mirando la Figura 1
podemos inferir bastante. Primero, dado que la función lineal predicha queda dentro de
de las barras de error, concluimos que la tendencia lineal describe las curvas bastante
adecuadamente. Segundo, puesto que los propios intervalos de confianza son bastante
pequeños, concluimos que los datos poseen una sustancial potencia estadística: Es decir,
cualquier desviación de las medias poblacionales relevantes respecto de las medias
muestrales (y así cualquier desviación respecto de la tendencia lineal por parte de las
curvas de las poblaciones) debe ser pequeña. Tercero, al comparar las dos curvas dentro
de cada panel, podemos concluir que la incertidumbre mayor provoca peor ejecución.
Finalmente, comparando las curvas de los dos paneles podemos concluir que si se evita
la codificación verbal se consigue peor ejecución. Estas dos conclusiones últimas son
inequívocas, dadas las grandes diferencias de las condiciones en relación con los
pequeños intervalos de confianza.
La Figura 1 también nos permite alguna conclusión completamente banal. Por
ejemplo, podemos concluir que, dentro de una curva dada, las ocho medias de las
poblaciones correspondientes a las ocho duraciones de la exposición no son idénticas
unas a otras; si lo fueran, entonces, dados los tamaños de los intervalos de confianza, las
medias de las muestras no variarían plausiblemente unas de otras tanto como varían.
Podemos llegar a conclusiones análogas sobre las demás variables. Llamo banales a
esas conclusiones porque sabemos a priori que deben ser verdaderas. Ningún conjunto
de valores reales, de verdad, de medias poblacionales de condiciones experimentales
pueden ser idénticas hasta un número infinito de lugares decimales. Deben diferir.
Entonces, ¿por qué es interesante concluir que difieren? No lo es. Lo que resulta
interesante no es que las medias de las poblaciones difieren unas de otras, sino cuál es el
patrón que siguen las medias poblacionales. Aquí, por ejemplo, es importante ser capaz
de concluir que la relación entre las medias poblacionales y la duraciones de exposición
es lineal.
El procedimiento de comprobación de hipótesis que describió Loeb en el párrafo
lacónico, denso, preciso y que sonaba a científico reproducido más arriba no tiene nada
que ver con las conclusiones interesantes. No nos dice nada sobre la apariencia del
patrón de medias poblacionales, o de en qué medida podemos confiar en el patrón
inferido (es decir, cuánta potencia estadística hay). En lugar de eso, meramente
confirma las conclusiones banales, diciéndonos de nuevo que no es verdad que varios
conjuntos de medias poblacionales sean iguales unos a otros. En resumen, la
información proporcionada por el procedimiento GME, expresado en la Figura 1,
subsume el procedimiento estándar de comprobación de hipótesis expuesto en el párrafo
citado. Si tienes el párrafo, aún necesitas la figura. Pero si tienes la figura, no hay
necesidad del párrafo. La comprobación de hipótesis es superflua.

2. Técnicas de terapia marital


Los aficionados forofos de la prueba de hipótesis podrían alegar que los datos de
Loeb, tal como se han descrito, no son datos típicamente psicológicos. Los datos de
Loeb implicaban diseños factoriales, una hipótesis específica acerca de la forma de la
función obtenida (lineal), una transformación muy elaborada de la variable dependiente;
este no es el tipo de experimentación más frecuente y básica que es común en nuestro
campo. ¿Qué tal un diseño experimental más simple en el que simplemente haya dos
grupos, y todo lo que se quiera saber es si esos dos grupos difieren uno de otro? Con
seguridad no necesitas una gráfica. Una prueba t lo consigue. ¿O no?
Dos tratamientos. Consideremos otro ejemplo (de nuevo más o menos ficticio). Un
psicólogo clínico, Jonathan Lowry, desarrolló un nuevo tratamiento de terapia marital
(llamado Tratamiento Lowry). Realizó un experimento para comprobar la eficacia del
Tratamiento Lowry, en contraste con otro tratamiento mucho más largo y caro en boga
entonces, al que todo el mundo conoce como Tratamiento Estándar. Se asignaron
aleatoriamente cuarenta parejas de casados a dos grupos. Las asignadas al primer grupo
se sometieron al Tratamiento Estándar, mientras las parejas del segundo grupo lo
hicieron al Tratamiento Lowry. La medida resultado fue la calificación de dicha marital
(en una escala de 1 a 7) un año después del tratamiento. La esperanza de Lowry era que
su tratamiento fuese tan bueno como el Estándar, en cuyo caso, al ser más simple y más
barato, sería preferible.
Para su regocijo, Lowry no encontró diferencia entro los dos tratamientos. Escribió
un artículo sobre su experimento, que envió a la más importante revista de terapia
marital, Eterna compañía (EC). Expresó de esta manera su principal hallazgo:

Las calificaciones medias de dicha de los grupos de tratamiento Estándar y Lowry fueron 5,05
y 5,03 respectivamente. La diferencia entre los grupos no fue estadísticamente significativa,
t(38) = 1,06, p > 0,05.

Los revisores de EC pensaron que la ausencia de diferencias entre los dos


tratamientos tenía importantes implicaciones prácticas, porque se podía alcanzar el
mismo grado de dicha marital mucho más fácilmente de lo que había sido posible
previamente, así que el editor de EC estaba inclinado a publicar el artículo de Lowry. El
editor estaba un tanto nervioso por publicar una conclusión que dependía de la
aceptación de una hipótesis nula, porque se le había grabado firmemente durante sus
estudios de licenciatura que aceptar la hipótesis nula era inaceptable. Pensó que al
menos Lowry debería realizar un análisis de potencia. Sin embargo, aunque el editor no
lo hubiese admitido delante de nadie, no comprendía muy bien eso de la potencia. Tras
ponderar el problema un poc tiempo, simplemente aceptó el artículo sin modificaciones.
El significado de “diferencia no significativa”. Cuando leí el trabajo de Lowry,
estaba irritado. ¿Qué significaba “diferencia no significativa”? Como he señalado antes,
no puede significar que las medias poblacionales de los dos grupos de tratamiento son
idénticas. Esa es una imposibilidad matemática. No obstante, la identidad de los grupos
de tratamiento no es un problema en el terreno práctico. La que importa es la pregunta:
¿Son los dos tratamientos lo suficientemente similares como para que alguien se sienta
justificado para optar por el más barato y fácil de usar Tratamiento Lowry en lugar del
Tratamiento Estandar?
La “diferencia no significativa” de la que Lowry ha informado puede reflejar alguna
de muchas posibilidades. Por simplificar, consideremos dos alternativas polares. La
primera es que Lowry era un investigador descuidado, y que había tanta variabilidad
dentro de sus grupos de tratamiento (es decir, tan poca potencia experimental) que la
diferencia entre las medias poblacionales en los dos grupos podría plausiblemente tomar
cualquier valor. Esta posibilidad queda ilustrada en la Figura 2A, en la que los pequeños
círculos representan las medias de los dos grupos, y las barras de error representan los
errores típicos. Nótese que el tamaño de las barras de error de la Figura 2A (grande)
proporciona un reflejo directo de la potencia (baja). Aunque caiga en la redundancia,
insisto en que las barras de error siempre reflejan directamente la potencia experimental:
cuanto más grandes las barras de error, más baja la potencia.
La segunda posibilidad era que hubiese baja variabilidad dentro de los grupos de
tratamiento (es decir, alta potencia experimental) de modo que cualquier diferencia de
hecho en la población entre las medias de los dos grupos debería ser bastante pequeña.
Esta posibilidad queda ilustrada en la Figura 2B. La intuición del editor de EC era
correcta: debería haberse realizado algún tipo de análisis de potencia.
Además de saber algo de la potencia experimental, tendría un interés práctico
sustancial conocer las desviaciones típicas3 de cada uno de los dos grupos de
tratamiento. Tal conocimiento podría proporcionar alguna indicación del rango de dicha
marital que cualquier pareja con problemas podría esperar alcanzar tras cada
tratamiento. Por ejemplo si la desviación típica de del grupo de Tratamiento Lowry
fuese pequeña, se podría asegurar a cualquier pareja a la que se administrase este
tratamiento que su eventual dicha quedaría bastante cerca de la media de 5; a la inversa,
dada una desviación típica grande, la magnitud concreta de la dicha marital eventual
para una pareja a la que se diese el Tratamiento Lowry sería más incierta.
En resumen, el artículo de Lowry proporcionába pocos indicios sobre nada que
tenga que ver con la variabilidad de la dicha marital.
Aunque la información directa no sea directamente accesible en la lacónica
descripción de Lowry de sus resultados, es pacialmente calculable a partir de los
tamaños de las muestras, las medias muestrales y el valor t. Con esta información, fui
capaz de calcular el error típico de la diferencia entre las dos medias poblacionales, que
era de aproximadamente 0’14, que es bastante pequeño, dado que la escala completa de
dicha varía entre 1 y 7. Parecía que el experimento de Lowry tenía una potencia
experimental relativamente alta; es decir, en términos prácticos, que cualquier diferencia
existente entre las dos medias de las poblaciones de tratamientos debería ser pequea.
Así, los datos concretos de Lowry estaban más de acuerdo con el ejemplo de la Figura
2B que con el de la Figura 2A.
Aunque no pude calcular las desviaciones típicas individuales de los dos grupos,
pude calcular la desviación típica media4 de los dos grupos, que es 0’434. En la medida
en que los dos grupos tuvieran desviaciones típicas iguales, esto nos diría que una pareja
que recibiese el Tratamiento Lowry (o el Tratamiento Estándar, igualmente) podría, con
una probabilidad del 95 %, acabar con una dicha marital dentro de dos desviaciones
típicas alrededor de la media, o, sin mucha precisión, con una puntuación entre 4 y 6.
Ésta es una información importante para cualquiera que de hecho considerase someterse
a uno de los dos tratamientos.
Para conseguir más información, envié un correo a Lowry pidiéndole sus datos.
Poco más tarde, Lowry me los mandó en un correo. Cortar del correo y pegar esos datos
en una hoja de cálculo Excel previamente preparada, me permitió calcular todo lo que
yo quería saber. Lo que descubrí fue interesante y de alguna manera inesperado: Las
desviaciones típicas individuales de los grupos de tratamiento fueron 0’608 para el
tratamiento Lowry y 0’086 para el Tratamiento Estándar. Así, el tratamiento Estándar,
aunque más costoso, es más preciso en términos de la dicha marital que se acaba
obteniendo con él.
Para generar una representación gráfica de toda esta información, pegué las medias,
desviaciones típicas y errores típicos de Excel en mi programa de gráficos. Con un par
de pulsaciones al ratón y un poco de tecleo, conseguí el gráfico de la Figura 3.
En esta gráfica, los dos círculos negros representan las dos medias muestrales. Cada
media tiene dos barras de error asociadas a ella, representando el error típico de la
media (barra más corta) y la desviación típica del grupo (barra más larga). Mantengo,
como hice con el ejemplo de Loeb, que esta gráfica comunica la información que
proporciona el procedimiento estándar de comprobación de hipótesis, y además una
información adicional más interesante. La identidad virtual de las dos medias, en
conjunción con los tamaños de las barras de error típico comunica la información de la
comprobación de hipótesis de que los grupos “no son estadísticamente diferentes”. Que
las barras de error sean relativamente pequeñas indica alta potencia, lo que, a su vez,
implica que la diferencia de hecho entre las dos medias poblacionales debe ser también
pequeña. Los tamaños de las desviaciones típicas proporcionan información sobre el
rango en el que verosímilmente estaría una pareja al azar de cualquier tratamiento, dado
que se sometieron a un tratamiento o a otro. En resumen, esta gráfica simple
proporciona visual e intuitivamente toda la información importante y útil de los
resultados de Lowry, que me llevó varios párrafos comunicar textualmente. Si Lowry
hubiera sustituido con algo similar a la Figura 3 su descripción aprobada por la APA de
sus resultados que apareció en su artículo en EC, sus lectores lo hubieran pasado mejor
y hubiesen estado mejor informados.

LOS ACTUALES, Y FÁCILES DE USAR, GRAFICOS POR ORDENADOR

No soy en ningún caso el primero en defender que las representaciones gráficas en


general, y el procedimiento GME en particular, son técnicas útiles para comprender y
comunicar información de los datos de un experimento (véase Tufte, 1983, 1990;
Tukey, 1977). Espero que los ejemplos precedentes, aunque sean anecdóticos, ayuden a
iluminar por qué esto es así. En esta sección final, haré algunos comentarios acerca de
lo esencial de las actuales versiones de los tipos de representación gráfica que aparecen
en la figura 3.

(Los párrafos que vienen a continuación, en general, están obsoletos. Desde 1993
han pasado demasiados años en términos de aplicaciones informáticas – los 15 hasta
2008, son un siglo en ese terreno – de modo que, aunque algunos extremos se
mantienen, como la escasa utilidad de los paquetes estadísticos generalistas de
estructura rígida, ni los programas que el autor cita, ni la filosofía general de sus
elecciones serían defendibles actualmente. Por ello, podemos saltar a la última sección
interesante).

CONCLUSIONES

El argumento principal que he tratado de defender en este artículo es que la prueba


de hipótesis es una ola del pasado (y nunca debiera haber sido una ola). Caracterizar las
conclusiones en términos de comprobación de hipótesis exige reducir la compleja y
multidimensional información que emerge generalmente a partir de un experimento en
una o más decisiones binarias que están casi siempre lógicamente predeterminadas.
He sostenido que presentar los datos en la forma de uno o más gráficos bien
diseñados – en particular gráficos que representen las medias de las muestras junto con
varias medidas de variabilidad inferida – comunica potencialmente la información
importante e interesante del experimento, de manera que (1) es directa e inmediata, y (2)
no supone un atributo seudo-preciso (como p < 0’05) que hace poco más que engañar a
los lectores cándidos de modo que crean que se ha llegado a una importante conclusión
acerca de la realidad. En concreto, el tamaño de los errores típicos de las medias
proporciona una medida directa e intuitiva de con cuanta precisión puede inferirse la
situación de las medias de las poblaciones, y así el patrón general que siguen esas
medias poblacionales.
Dada esta estrategia, es importante disponer de instrumentos potentes y fáciles de
usar. Hay muchos de tales instrumentos en el mundo actual de los microordenadores.
Cualquiera de los listados en la Tabla 1 podría ser perfectamente adecuado para la tarea,
aunque obviamente los programas difieren en varios aspectos. (Recuérdese que es una
tabla de 1993).
Creo que la familia de técnicas GME, ilustrada con las figuras 1 – 3, tienen un
enorme potencial para comunicar eficazmente información de resultados
experimentales. Espero que los miembros de nuestra disciplina, como nuestros
hermanos de las ciencias naturales, se valdrán de este potencial más de lo que lo hacen
actualmente. En un editorial de Memory & Cognition (Loftus, 1993), persigo aún más
esta esperanza, y la doto con más armas.
(Se refiere al hecho de que fue elegido editor de esa revista, y desde ese puesto
defendería mejor su modo de ver la presentación de los resultados experimentales.
Cuando años más tarde dejó de ser el editor de Memory & Cognition la política de
aceptación de artículos había cambiado en el sentido propuesto de una forma
absolutamente clara. Su labor editorial se recuerda como una de las más positivas de
la historia de esa publicación).

REFERENCIAS
(en el artículo)

NOTAS
1
La idea básica es la siguiente. La hipótesis nula típicamente propone que algún parámetro de la población (p. ej., una
media poblacional, la diferencia entre dos medias poblacionales, una correlación en la población) es exactamente igual
a una determinada constante. Sólo raras veces puede esa hipótesis ser cierta de hecho. Consideremos, por ejemplo, un
experimento en el que se comparan dos tratamientos A y B. La hipótesis nula podría ser: “la diferencia entre la
puntuación resultado del Tratamiento A y la puntuación resultado del Tratamiento B es cero (hasta un número infinito
de lugares decimales)”. Tal hipótesis nula no puede ser literalmente verdadera. De tal manera, los resultados de una
prueba de significación no nos dicen, como anuncian, si la hipótesis nula es falsa de hecho (ya sabemos a priori que es
falsa). Más bien, los resultados simplemente nos dicen que hay suficiente potencia experimental para detectar la
inevitablemente existente diferencia media en la población.
2
Por propósitos ilustrativos, supongo en todo el artículo que las medias muestrales son los datos primarios de interés.
Todos los argumentos puede aplicarse igualmente a cualquier estadístico muestral.
3
Los términos “desviación típica de los grupos de tratamiento” conllevan cierta ambigüedad: pueden referirse o bien a
las desviaciones típicas muestrales, concretas, de los dos grupos, o bien a las estimaciones de las desviaciones típicas de
las poblaciones relevantes (esos dos estadísticos difieren en un factor de n/[n – 1]). En esta discusión me referiré
siempre a estas últimas.
4
No la media aritmética de hecho, sino la desviación típica de la media de las dos varianzas individuales de los grupos
de tratamiento.

También podría gustarte

  • Descript Iva
    Descript Iva
    Documento57 páginas
    Descript Iva
    Leila Padilla Benitez
    Aún no hay calificaciones
  • Tarea 7
    Tarea 7
    Documento2 páginas
    Tarea 7
    Leila Padilla Benitez
    Aún no hay calificaciones
  • Tarea 4
    Tarea 4
    Documento1 página
    Tarea 4
    Leila Padilla Benitez
    Aún no hay calificaciones
  • TAREA 4 (Hecha)
    TAREA 4 (Hecha)
    Documento2 páginas
    TAREA 4 (Hecha)
    Leila Padilla Benitez
    Aún no hay calificaciones
  • TAREA 3 (Hecha)
    TAREA 3 (Hecha)
    Documento1 página
    TAREA 3 (Hecha)
    Leila Padilla Benitez
    Aún no hay calificaciones
  • Tarea 2
    Tarea 2
    Documento1 página
    Tarea 2
    Leila Padilla Benitez
    Aún no hay calificaciones