Documentos de Académico
Documentos de Profesional
Documentos de Cultura
5.3.3. ¿Afecta la visita a una universidad a la percepción que se tiene de ella? ................ 15
5.4.3. ¿La valoración de la puntuación del test sigue una distribución normal, tanto para
hombres como para mujeres? .................................................................................... 18
Resumen ...................................................................................................................... 29
2
UD 5. Test de hipótesis
Así, si tras el tratamiento algunos pacientes mejoran, el investigador debe decidir si la mejora es
debida al tratamiento o, por el contrario, se debe a una casualidad o efecto aleatorio. Hay que
recordar que el investigador tiene generalmente acceso a una muestra, no a la población.
• Si suponiendo que la hipótesis es cierta, es razonable que se den los datos observados,
entonces, la hipótesis se acepta.
• Si suponiendo que la hipótesis es cierta, la probabilidad de que se den los datos observados
es muy pequeña, la hipótesis se rechaza.
Para esta unidad es imprescindible tener el software libre gratuito PSPP, pues dicho software
proporciona una gran variedad de test para ser realizados, y proporciona el p-valor. El software
SPSS también es adecuado, de hecho, es más completo, pero es de pago.
El verdadero valor que proporciona el investigador es saber qué hace cada uno de los test,
e identificar cuál es el adecuado en cada caso. El software PSPP realiza el cálculo matemático.
3
5.1. Contraste de hipótesis
El contraste de hipótesis es uno de los objetivos principales del estudio estadístico si se opta por
adoptar un enfoque positivista. Una hipótesis es una afirmación o conjetura, relativa al tema
que queremos estudiar, que está basada en el marco teórico especificado durante la revisión
bibliográfica (por ejemplo, en el Estado español, los hombres comienzan a delinquir antes que las
mujeres) y puede ser evaluada a través del análisis de datos recolectados en una muestra.
Imaginemos que queremos saber si hombres y mujeres sufren enfermedades del corazón por
igual. Se plantea la llamada hipótesis nula, o H 0.
H0: «El porcentaje de hombres y mujeres con enfermedades del corazón es el mismo».
La hipótesis nula parte de la idea de que no hay diferencia entre ambos grupos. Por defecto, al
intentar demostrar que hay diferencias de comportamiento en dos grupos, se parte de que no
hay diferencia, y hay que demostrar, o aportar pruebas suficientes, de que sí que hay un
comportamiento diferente. Algo así como la presunción de inocencia: a alguien se le presupone
inocente hasta que se demuestre lo contrario.
¿Cómo podemos decir si H0 es falsa o no? Podemos hacer un estudio sobre 100 hombres y 100
mujeres. ¿Qué ocurre si, sobre esa muestra, el porcentaje de hombres con problemas de corazón
es del 30 %, y el de mujeres es del 20 %? Hemos estudiado en el tema anterior que, al hacer un
estudio, tenemos siempre un error en la estimación. Por tanto, hay que ver:
El primer paso dentro de todo contraste de hipótesis es la definición de las dos hipótesis o teorías
con las que vamos a trabajar, denominadas hipótesis nula e hipótesis alternativa:
Es una afirmación que normalmente mantiene que el efecto que estamos buscando no existe
(es nulo, es decir, «el porcentaje de hombres y mujeres con enfermedades del corazón es el
mismo»).
Mantiene que el efecto buscado será distinto de 0 en la población de la que hemos extraído la
muestra de estudio (por ejemplo, «existen diferencias en el porcentaje de hombres y mujeres
con enfermedades del corazón»); es decir, que existirá un efecto del factor que estamos
analizando (en este caso, el sexo) sobre el comportamiento de la variable dependiente recogida
en la muestra.
4
Sabías que:
Konstantín Tsiolkovski fue el autor que acuñó la frase «la ausencia de evidencia no es
evidencia de ausencia», que se puede aplicar al hecho de que no podemos asumir que la
hipótesis nula sea verdadera sobre la base de que no hemos hallado resultados que nos
permitan rechazarla.
Un contraste de hipótesis, por tanto, supone una comparación que nos permite bien aceptar la
hipótesis nula, bien rechazar la hipótesis nula y aceptar en tal caso la hipótesis alternativa. La
aceptación o el rechazo de la hipótesis nula se basan en las evidencias halladas en la muestra
estudiada. Así, rechazaremos la hipótesis nula cuando la probabilidad de hallar unos resultados
como los obtenidos en la muestra de estudio sea muy baja. Al contrario, aceptaremos la hipótesis
nula cuando los resultados obtenidos en la muestra no proporcionen evidencias suficientes como
para refutarla, lo cual no quiere decir que la hipótesis nula sea verdadera.
• Error tipo I: es aquel que se comete cuando rechazamos la hipótesis nula (H 0) y esta es
verdadera.
• Error tipo II: lo cometemos cuando aceptamos la hipótesis nula (H0) y esta es falsa.
Decisión
No rechazar H0 Rechazar H0
Tabla 1. Resumen esquemático de los tipos de errores que podemos cometer cuando aceptamos/rechazamos nuestra
hipótesis nula (H0).
A partir del esquema presentado en la tabla 1, podemos concluir que, al llevar a cabo un contraste
de hipótesis, asumimos que podemos cometer un error o error tipo I. El valor del error tipo I
es equivalente al nivel de significación que hayamos definido arbitrariamente para nuestro
análisis. Este valor puede entenderse como la probabilidad de que cometamos un error tipo I
(véase tabla 1) habiendo llevado a cabo el mismo contraste de hipótesis un número muy alto de
ocasiones.
5
El nivel de significación se fija antes de realizar el contraste de hipótesis y en la mayoría de los
estudios de investigación se corresponde con un valor de =0,05 o bien =0,01 (valores en tanto
por uno). Por tanto, si fijamos el nivel de significación =0,05, diremos que aceptamos o
rechazamos nuestra hipótesis nula con un nivel de significación de 0,05.
Nota
Recuérdese que, cuanto más grande sea la muestra, más se aproximará la distribución
muestral a la distribución poblacional y mejor representada estará esta última.
Al contrario que con el error tipo I (), cuyo valor conocemos, el valor del error de tipo II () no
lo podemos calcular. Lo importante, sin embargo, es que entendamos que, para un mismo tamaño
muestral, la disminución del error tipo II () resultará en un aumento del error tipo I () y
viceversa.
La decisión final sobre el valor del error tipo I () y, por tanto, también del error tipo II ()
dependerá del caso concreto que estemos tratando. Debemos ser conscientes de que al disminuir
el valor de estamos disminuyendo el tamaño de la región crítica de nuestra distribución,
mientras que dicha región aumentará al disminuir el valor del error . Esta relación entre los
valores de y de con el área de la región crítica de nuestra distribución está directamente
relacionada con el concepto de potencia estadística.
Por tanto, en línea con lo expuesto previamente, la causa más común para una potencia
estadística baja en nuestro análisis es la utilización de un tamaño muestral inadecuado. Debido a
esta razón, hemos de ser precavidos a la hora de interpretar un test estadístico que no sea
significativo y, por ello, nos lleve a aceptar la H 0. Debido a la probabilidad que existe de estar
cometiendo un error tipo II (), como consecuencia de la baja potencia de nuestro test, no
podemos concluir que hemos demostrado la H0, sino que se ha de ser crítico y barajar otras
opciones que nos puedan haber llevado a tal conclusión, por ejemplo, la baja potencia estadística
que presenta nuestro análisis estadístico.
6
5.1.3. Interpretación del p-valor
Toda prueba estadística acaba aportándonos un valor p (o p-valor) que nos indica si hemos de
aceptar la H0 o bien rechazarla, asumiendo, por tanto, la hipótesis alternativa (H 1). Para
interpretar un p-valor, hemos de tener en cuenta que nos indica la probabilidad de que un
resultado al menos tan extremo como el obtenido se deba al azar; es decir, responde a la pregunta
de cuán probable sería obtener el resultado observado al ser H 0 cierta. La aceptación o el rechazo
de la hipótesis nula, por lo tanto, se basan en el resultado del p-valor en relación con el nivel de
significación previamente definido. Así, habiendo definido un nivel de significación de =0,05, la
interpretación del p-valor será la siguiente:
Cuanto menor sea el p-valor obtenido en una prueba estadística, mayor fuerza tendrán las
evidencias presentadas para el soporte de nuestra hipótesis alternativa H 1, ya que indica que la
probabilidad de obtener los resultados observados, siendo cierta la H 0, es muy baja.
Ejemplo:
En una habitación gigante hay un montón de bolas. Nosotros no las vemos, pues
estamos en otra habitación. Hay un botón que cada vez que lo apretamos, pasa una
de las bolas de la habitación gigante a la nuestra.
Nos han dicho que la mitad de las bolas son blancas y la mitad son negras. ¿Cómo
podemos verificar si eso es cierto?
H0: «La mitad de las bolas de la habitación de al lado son blancas y la mitad son
negras».
Realizando el experimento de apretar el botón varias veces y ver las bolas que aparecen.
Hay que tener en cuenta que, aunque la mitad de las bolas sean blancas y la otra mitad sean
negras, podría ocurrir que sacando 20 bolas todas fueran negras. La probabilidad es muy
pequeña, pero NO ES CERO.
7
comportamiento observado tiene una probabilidad de ocurrencia menor del 5 %, se rechaza
la hipótesis.
Concepto de p-valor
Ahora, imaginemos:
Apretamos el botón y sale 1 bola negra. Dado que en la habitación de al lado la mitad son
blancas y la mitad son negras, la probabilidad sería del 50 %.
Apretamos el botón y sale otra bola negra. En este caso, la probabilidad de que salgan 2
negras seguidas sería del 25 %, suponiendo que H0 es cierta.
Apretamos el botón y sale otra bola negra. Suponiendo H0 cierta, la probabilidad de 3 negras
es de 12,5 %.
Apretamos el botón y sale otra bola negra. Suponiendo H0 cierta, la probabilidad de 4 negras
es de 6,25 %. Es poco probable que salgan 4 bolas negras, si la mitad son blancas, pero la
probabilidad no es 0.
Apretamos el botón y sale otra bola negra. Suponiendo H0 cierta, la probabilidad de 5 negras
es de 3,125 %.
Si el nivel de significación fuera del 0,01, todavía H 0 no se podría rechazar. Porque según H0
la probabilidad de lo observado es del 3,125 %, y queremos estar seguros al 99 % (1 menos
la significación, 1−0,01=0,99, o 99 %). Deberíamos observar 7 bolas negras seguidas para
rechazar H0, con un nivel de significación del 99 %.
Los test de hipótesis se realizan para comparar siempre dos cosas. O bien el grupo A con el grupo
B (hombres y mujeres), o bien el grupo A, en un momento y en otro (si está enfermo antes, y si
está enfermo después). Por tanto, hablaremos de dos tipos de muestras:
8
Muestras emparejadas
Muestras independientes
Ejemplo:
Muestras emparejadas: para cada individuo se mide la presión sanguínea mínima y máxima,
es decir, dos variables para cada individuo.
A la hora de realizar comparaciones entre diferentes grupos que conforman nuestra muestra,
disponemos de dos tipos bien diferenciados de pruebas estadísticas: las pruebas paramétricas y
las pruebas no paramétricas.
Nota
9
Tal y como se puede deducir de su nombre, para poder utilizar pruebas paramétricas, hemos
de cumplir con una serie de parámetros o condiciones previas. El primero de ellos es que la
variable dependiente que estamos analizando sea cuantitativa (discreta o continua). La segunda
condición es que la distribución de probabilidad de la variable dependiente analizada sea normal.
A veces, la variable cuantitativa deberá cumplir una condición más, y es la de igualdad de
varianzas. Si se quiere comparar, por ejemplo, el salario en dos grupos distintos (hombres y
mujeres), deberá cumplirse que la varianza de los salarios entre los hombres es igual a la varianza
de los salarios entre las mujeres.
Por el contrario, en el supuesto de que no cumplamos con alguna de las condiciones mencionadas
anteriormente, entonces nos veremos obligados a utilizar pruebas no paramétricas, por ejemplo,
cuando la distribución de datos no sea normal o bien cuando la variable analizada sea cualitativa.
Hay que formular la hipótesis, que siempre se hace como H0, hipótesis nula, donde se supone
que no hay ningún efecto. El objetivo del análisis es determinar si la diferencia que se observe da
indicios suficientes para rechazar H0 o no.
El nivel de significancia indica con qué probabilidad queremos estar seguros de que al rechazar
H0 realmente H0 es falsa. Se suele suponer siempre una fiabilidad del 95 %, y una significancia
de (1−0,95) de 0,05.
Hay que calcular el p-valor, que es la probabilidad de que siendo H 0 verdadera se den los datos
con los que se ha realizado el test.
Y tenemos que obtener la conclusión. Si el p-valor está por debajo de 1 menos la significancia,
se rechaza H0. Si la significancia es del 95 %, el p-valor debería estar por debajo de
1−significancia, es decir, por debajo de 0,05.
10
• Base de datos de enfermedades del corazón. Sin embargo, esta base de datos, como
veremos, tiene ciertas limitaciones.
• «BBDD Interes Estudiantes.sav», que es una base de datos ficticia creada para la
asignatura y que utilizaremos para varios de los test que vamos a aprender. En dicha base
de datos se representa a 500 estudiantes que acaban bachillerato y visitan una
universidad. En la universidad realizan dos test, y además se indica si los estudiantes
están interesados en asistir a dicha universidad antes y después de la visita, para saber si
la visita ha tenido efecto positivo en el interés.
Cuando se estudian parejas de variables categóricas hay dos principales análisis que se van a
querer realizar:
Figura 2. Algoritmo para decidir qué análisis utilizar cuando se analizan variables categóricas.
11
Asociación entre variables categóricas
A veces el investigador va a querer saber si existe asociación entre dos variables categóricas,
como, por ejemplo, si el nivel de estudios depende del sexo (hombre / mujer). O si la proporción
de hombres y mujeres trabajadores depende de la región geográfica.
Tendremos que comparar grupos utilizando para ello la prevalencia que cada uno de ellos
presenta (es decir, sus frecuencias relativas). Los test estadísticos que se presentan a
continuación analizan si existe relación entre los valores de prevalencia de la variable
dependiente en función de las categorías de la variable independiente. La hipótesis nula de
estas pruebas es que no existe relación entre las variables dependiente e independiente
analizadas, es decir, que el valor que toma la variable dependiente no se ve determinado por
el valor que presenta la variable independiente.
Si las dos variables categóricas son dicotómicas, también se dispone del test exacto de
Fisher.
A veces es interesante estudiar el efecto de una acción sobre una serie de individuos, como,
por ejemplo, el efecto de un tratamiento, de una terapia, o si han cambiado de opinión sobre
si les gusta algo tras haber recibido información sobre lo que estaban opinando.
Las variables deben ser dicotómicas (sí/no), el estado antes de la acción, y el estado después
de la acción.
Aunque el cálculo de los estadísticos es laborioso y complicado, hay que tener en cuenta que la
dificultad real es identificar el test a llevar a cabo, dado que el software de análisis PSPP va a
calcular los estadísticos y el p-valor. Vamos a ver ejemplos paso a paso.
Sano 57 42 99
Enfermo 41 60 101
Con la matriz que debería observarse para esos 200 casos, si la prevalencia de las enfermedades
de corazón fuera la misma en hombres y en mujeres, que sería:
12
Mujer Hombre Total
Dado que el 50,5 % de las personas tienen enfermedades del corazón (101 de 200), aplicamos
ese porcentaje tanto a hombres como a mujeres.
El análisis chi-cuadrado calcula si esas diferencias son significativas, o pueden achacarse al azar,
pero no vamos a entrar en el detalle matemático de cómo lo hace.
Es una pregunta interesante que se puede responder gracias a nuestro fichero de datos de
enfermedades del corazón, dado que tenemos la variable MALE (0 mujer, 1 hombre), y la variable
TENYEARCHD (0 sano, 1 enfermo).
1. Formular la hipótesis.
2. Nivel de significancia.
3. Test a utilizar.
4. Calcular el p-valor.
5. Conclusión.
Formular la hipótesis
H0: «El porcentaje de personas enfermas del corazón es el mismo entre hombres y mujeres».
Con los datos del fichero de datos veremos si hay evidencias para rechazar H 0, o, por el
contrario, no podemos rechazar H0, y la aceptamos.
Nivel de significancia
Test a utilizar
Queremos ver si hay relación entre dos variables categóricas, MALE y TENYEARCHD. Es decir,
si el porcentaje de cada TENYEARCHD es el mismo entre hombres y mujeres.
Debemos usar el test de chi-cuadrado. Como, además, ambas variables son dicotómicas,
también podemos usar el test exacto de Fisher.
13
Calcular el p-valor
Continuar y OK.
Conclusión
Figura 3. Resultado PSPP. Lo primero, PSPP indica el análisis que se ha realizado, que es una tabla de contingencia,
con un test chi-cuadrado. Indica que hay 200 casos válidos para la tabla.
Figura 4. Resultado PSPP. Muestra la tabla de contingencia, y cada elemento de la tabla tiene cuatro valores. Los
casos totales, el porcentaje por filas, el porcentaje por columnas, y el porcentaje sobre el total. Así, hay 42 hombres
sanos. El 41,84 % de las mujeres sí tienen enfermedades del corazón, mientras ese porcentaje sube al 58,82 % para
los hombres.
Figura 5. Resultado PSPP. Muestra el resultado del análisis chi-cuadrado, y como ambas variables son dicotómicas,
también el resultado del test exacto de Fisher.
Se observa de la tabla de contingencia que el 58,82 % de los hombres tiene enfermedades del
corazón, mientras que entre las mujeres el porcentaje es del 41,84 %. En las mujeres es
inferior, pero debemos comprobar si esa diferencia es significativa.
14
De la tabla del test, observamos para el test chi-cuadrado un p-valor de 0,016 («Sig. Asint.»),
y para la prueba exacta de Fisher, p-valor=0,024. En ambos casos el p-valor está por debajo
de 0,05, así que rechazamos la hipótesis nula H 0, y podemos afirmar que la incidencia de
enfermedades del corazón pasados 10 años, es mayor en hombres que en mujeres.
En el fichero «BBDD Interes Estudiantes.sav» queremos ver el interés que tenían en la universidad
antes de que la visitaran, y el interés que tienen después de visitarla, a ver si el hecho de visitarla
ha aumentado dicho interés.
Formulas la hipótesis
Con los datos del fichero veremos si hay evidencias para rechazar H0, o, por el contrario, no
podemos rechazar H0, y la aceptamos.
Nivel de significancia
Test a utilizar
Queremos ver si la visita ha tenido un efecto. Tenemos, por tanto, dos variables dicotómicas
emparejadas.
Calcular el p-valor
Seleccionamos McNemar.
OK.
15
Conclusión
Figura 6. Resultado PSPP. Lo primero, PSPP indica el análisis que se ha realizado, que es un test de McNemar entre
las variables INTERÉS_ANTES e INTERÉS_DESPUÉS.
Figura 7. Resultado PSPP. Muestra la tabla de contingencia, con las personas que había interesadas antes (19+163) y
las que hay interesadas después (155+163). Se ve la gente que pasa de Sí a No, y de No a Sí.
Se observa de la tabla de contingencia que 155 personas que antes no estaban interesadas
después sí lo están, y 19 personas que antes sí lo estaban luego no lo están.
Parece que el interés ha aumentado, pero el test debe decirnos si ese aumento es significativo,
o no. El test de McNemar da un p-valor de 0,000 (la casilla de «Sig. Exacta»), lo que indica que
es significativa al 100 % (1 menos el p-valor, en porcentaje). Ese 100 % es superior al 95 %
que se había definido.
Este concepto es esencial para la puesta en práctica de las diferentes pruebas de comparación de
muestras que explicaremos más adelante, ya que, tal y como se ha apuntado en el apartado
anterior, el que la distribución de datos a analizar se ajuste, o no, a una distribución normal va a
determinar que podamos utilizar, o no, pruebas paramétricas de comparación de muestras.
Para testar si nuestra distribución de datos es normal, tenemos a nuestra disposición diferentes
pruebas de bondad de ajuste, por ejemplo, el test de Kolmogorov-Smirnov (sin o con corrección
de Lilliefors), el test de Shapiro-Wilk o el test de Shapiro-Francia. Todas estas pruebas nos
permiten comprobar si las distribuciones de probabilidades sobre las que estamos trabajando se
ajustan a las características que ha de presentar una distribución normal. Por consiguiente, la
hipótesis nula (H0) de cualquier test de normalidad es que la distribución de nuestros datos se
ajusta a la distribución normal.
Nosotros vamos a utilizar el test de Kolmogorov-Smirnov (al que podremos referirnos también
como K-S), que se puede llevar a cabo con paquetes estadísticos como SPSS y R, y también con
PSPP.
16
5.4.1. ¿La variable GLUCOSE sigue una distribución normal?
A, B, C…
Las distribuciones normales tienen curtosis 0, y asimetría 0. Si usamos PSPP para calcular los
descriptivos de las variables GLUCOSE y HEARTRATE obtenemos curtosis y asimetría elevadas
en GLUCOSE (por lo que intuimos que no será normal) y curtosis y asimetría pequeñas en
HEARTRATE, por lo que podría ser normal.
Figura 9. Salida PSPP. Se observa una curtosis y asimetría elevada en la variable GLUCOSE y reducidas en
HEARTRATE.
Formular la hipótesis
Con los datos del fichero de datos veremos si hay evidencias para rechazar H 0, o, por el
contrario, no podemos rechazar H0, y la aceptamos.
Nivel de significancia
Test a utilizar
Calcular el p-valor
Abrimos PSPP.
OK.
17
Conclusión
El resultado del test da un p-valor («Sig. Asint.») de 0,000, por tanto, se rechaza H0. La variable
glucosa no sigue una distribución normal, como esperábamos a la vista de la curtosis y la
asimetría.
En este caso, el p-valor obtenido es 0,020, es decir, inferior al 0,05. La significatividad sería del
98,0 % (1 menos el p-valor). Al 95 % de fiabilidad rechazamos H0, sin embargo, al 99 % de
fiabilidad aceptaríamos H0.
5.4.3. ¿La valoración de la puntuación del test sigue una distribución normal,
tanto para hombres como para mujeres?
18
PSPP dará una salida mostrada en la figura 12 indicando que se ha ordenado el fichero, y se ha
dividido por la variable MALE.
Figura 12. Salida PSPP. Indica que los datos se han ordenado por la variable MALE y se ha dividido el fichero por la
misma variable.
Luego se procede con el test K-S, y ahora tendrá doble salida, una para mujeres (male = 0) y
otra para hombres (male = 1), mostradas en la figura 13.
Figura 13. Salida PSPP. Como el fichero se ha dividido según la variable MALE, cualquier análisis saldrá tantas veces
como grupos se hayan creado, en este caso dos, hombres y mujeres.
El p-valor para mujeres es 0,0,145, el p-valor para hombres es 0,509. Por tanto, a un 95 % de
fiabilidad (con un nivel de significación del 95 %) la variable HEARTRATE no es normal para
mujeres, pero sí para hombres.
Cuando nos encontremos con una base de datos en la que se pueden observar dos distribuciones
de probabilidades independientes (por ejemplo, los latidos del corazón para los grupos hombres
y mujeres) nos veremos obligados a comprobar que las varianzas de ambas muestras de datos
son homogéneas con el fin de decidir qué prueba estadística es la que hemos de utilizar.
19
en la literatura es el test de Levene. Todos estos test contrastan la hipótesis nula de que las
varianzas de los grupos comparados son iguales.
Los test paramétricos que comparan dos o más grupos y que necesitan que las varianzas de los
distintos grupos sean iguales generalmente incluyen la realización del test de homogeneidad de
varianzas, así como el valor F para comprobar si se cumple el supuesto o no.
• El número de grupos para comparar: dos grupos vs. más de dos grupos.
• El tipo de muestra analizada: muestras independientes vs. muestras emparejadas.
• Los datos analizados siguen una distribución normal.
• Las muestras que se han de analizar presentan, o no, varianzas iguales.
Figura 14. Algoritmo que se debe seguir para la selección de la prueba estadística más adecuada para la comparación
de medias. En naranja están representadas las pruebas no paramétricas, mientras que en verde se indican las pruebas
paramétricas. Las pruebas se han clasificado en función del número de grupos que se van a comparar, el tipo de
muestra que se va a analizar y de si se cumplen los requisitos de normalidad de la distribución de datos. Para el
supuesto de muestras independientes, se ha tenido en cuenta, además, la igualdad de varianzas entre muestras.
20
5.6.1. ¿El nivel de glucosa es el mismo en hombres y mujeres?
A, B, C…
Si el factor solo tiene dos niveles (hombres y mujeres), el test más adecuado es el de Mann-
Whitney. Dicho test se puede realizar en PSPP a través de código. El resultado es idéntico al
Kruskal-Wallis.
Figura 15. Resultado PSPP. El p-valor del test Mann-Whitney es de 0,560 aceptándose la igualdad de nivel de
glucosa.
Esta información está disponible en la base de datos de enfermedades del corazón, donde
debemos estudiar el nivel de glucosa (variable GLUCOSE) en función del sexo (MALE).
Formular la hipótesis
Queremos averiguar si el nivel de glucosa es igual entre hombres y mujeres. La hipótesis nula,
H0, es suponer que no hay diferencias. Debemos recordar que se parte de que no hay
diferencias, y los datos son los que deben proporcionar evidencia suficiente para decir que H0
es falsa, y rechazarla, con una probabilidad alta.
Con los datos del fichero veremos si hay evidencias para rechazar H 0, o, por el contrario, no
podemos rechazar H0, y la aceptamos.
Nivel de significancia
Test a utilizar
21
Se quiere comparar el nivel en hombres con el nivel en mujeres, así que son grupos
independientes, hombres y mujeres, que están identificados gracias a la variable MALE.
Calcular el p-valor
Presionamos OK.
Conclusión
Figura 16. Resultado PSPP. Indica las pruebas que se han realizado: Kruskal-Wallis de la variable GLUCOSE para los
grupos 0 y 1 de la variable MALE (mujeres y hombres), y Mediana de la misma variable, para los mismos grupos.
Figura 17. Resultado PSPP. Resultado del test de Kruskal-Wallis. El valor más relevante es el último, la «Sign.
Asint.», que es el p-valor = 0.560.
Figura 18. Resultado PSPP. Resultado del análisis de la Mediana. Cuenta cuántos hombres y mujeres hay por encima
y por debajo de la mediana, y hace un chi-cuadrado con la tabla de contingencia. El p-valor es 0,481, que es el valor
que aparece como «Sign. Asint».
22
5.6.2. ¿El nivel de colesterol es el mismo para hombres y mujeres?
Esta información está disponible en la base de datos de enfermedades del corazón, donde
debemos estudiar el nivel de colesterol (variable TOTCHOL) en función del sexo (MALE).
Formular la hipótesis
Con los datos del fichero veremos si hay evidencias para rechazar H 0, o, por el contrario, no
podemos rechazar H0, y la aceptamos.
Nivel de significancia
Test a utilizar
Habría que hacer un test K-S para estudiar la normalidad de la variable, y veríamos que la
variable TOTCHOL es normal.
Queremos comparar la variable TOTCHOL entre dos grupos distintos, hombres y mujeres, según
la variable MALE, así que se trata de dos muestras independientes.
Calcular el p-valor
Presionamos OK.
23
Conclusión
Figura 19. Resultado PSPP. Primero, indica el test realizado, que es un T-TEST, de la variable TOTCHOL, para los
grupos 0 y 1 de la variable MALE (mujeres y hombres). También aparece una tabla con la puntuación media de
hombres y mujeres. La diferencia es pequeña…, ¿es significativa?
Figura 20. Resultado PSPP. Resultados de los test. En la izquierda está el test de Levene de igualdad de varianzas, y
en la derecha, el T-Test propiamente dicho.
En la izquierda está el resultado del test de Levene, para comprobar si las varianzas son iguales.
F=0,51 y el p-valor de 0,474, por tanto, dado que p>0,05, aceptamos la hipótesis nula de
igualdad de varianzas. Es decir, las varianzas son iguales en ambos grupos: hombres y mujeres.
Como las varianzas son iguales, cogemos la primera fila de resultados de la parte derecha,
donde dice p-valor=0,027>0,05, es decir, rechazarmos H0.
Si el p-valor del test de Levene hubiera sido menor que 0,05, es decir, rechazamos que las
varianzas son iguales, deberíamos coger la segunda fila de la parte derecha de la tabla.
Esta información está disponible en la base de datos de enfermedades del corazón, donde
debemos estudiar el nivel de colesterol (variable TOTCHOL) en función de la educación
(EDUCATION).
24
A, B, C…
El ANOVA se usa cuando el factor tiene tres o más niveles. Con dos, se ha usado el T-TEST o
t de Student. Sin embargo, PSPP permite usar el ANOVA cuando el factor tiene solo dos
niveles. En este caso, también realiza el test de Levene de igualdad de varianzas, pero no
permite usar la corrección de Welch para calcular el p-valor en el caso de varianzas distintas.
Formular la hipótesis
Queremos averiguar si el nivel de colesterol es igual para todos los niveles de educación. La
hipótesis nula, H0, es suponer que no hay diferencias.
H0: «El nivel de colesterol es el mismo para todos los niveles de educación».
Con los datos del fichero veremos si hay evidencias para rechazar H 0, o, por el contrario, no
podemos rechazar H0, y la aceptamos.
Nivel de significancia
Test a utilizar
Vimos que la variable EDUCATIONT, según el test de Kolmogorov-Smirnov (K-S), era normal
para los distintos niveles de educación.
Queremos comparar la variable TOTCHOL entre cuatro grupos distintos, dado que hay cuatro
niveles de educación, según la variable EDUCATION, así que se trata de más de dos muestras
independientes.
Aquí hay que utilizar, por tanto, un ANOVA (acrónimo de ANalysis Of VAriance, análisis de la
varianza).
Calcular el p-valor
En PSPP:
OK.
25
Conclusión
Figura 21. Resultado PSPP. Primero indica el test utilizado, el ONEWAY, refiriéndose al ANOVA de un factor. También
provee información de la media, la desviación estándar y el intervalo de confianza para la media, para cada uno de
los cuatro niveles de educación.
Figura 22. Resultado PSPP. Provee el resultado del test de Levene, en este caso el p-valor=0,269, es decir, las
varianzas son iguales en todos los grupos.
Figura 23. Resultado PSPP. Provee el p-valor del ANOVA, en este caso, 0,740.
Se observa que los niveles de colesterol son más altos en unos grupos que en otros, es decir,
hay diferencias, pero ¿son significativas?
En el test de ANOVA, el p-valor es de 0,740 (claramente mayor que 0,05), así que no se rechaza
la hipótesis inicial H0 de que el nivel de colesterol es igual para todos los niveles de educación.
Si hubiera salido que hay diferencias significativas en los niveles de colesterol, habría que
comparar, mediante t-Student, los distintos grupos dos a dos, para ver entre qué grupos las
diferencias son significativas.
Esta información está disponible en la base de datos de enfermedades del corazón, donde
debemos comparar las variables presión sistólica (SYSBP) y la diastólica (DIABP).
Formular la hipótesis
Con los datos del fichero veremos si hay evidencias para rechazar H 0, o, por el contrario, no
podemos rechazar H0, y la aceptamos.
26
Nivel de significancia
Test a utilizar
Figura 24. Resultado PSPP. Resultado del test de normalidad Kolmogorov-Smirnov (K-S), donde la variable sysBP el
p-valor es 0.24 (rechazándose la normalidad con una fiabilidad del 95%) y la diaBP tiene un p-valor de 0.56, lo que
indicaría que está en el límite.
Que nos dice que, a un 95 % de fiabilidad, SYSBP no es normal (p-valor = 0,024 < 0,05), pero
DIABP sí (p-valor = 0,056 > 0,05). Sin embargo, a un 99 % de fiabilidad, tanto SYSBP como
DIABP son normales (ambos p-valor mayores que 0,01).
Tenemos dos variables medidas para cada persona, así que tenemos muestras emparejadas.
Si consideramos que ambas son normales, usaremos un test t de Student, o T-Test para
muestras emparejadas.
Si consideramos que una de ellas no presenta normalidad, entonces tenemos que usar un test
de WILCOXON.
Calcular el p-valor
Vamos a Analizar > Comparar Medias > Prueba T para Muestras Emparejadas.
OK.
OK.
27
Conclusión
En el caso del test t-Student (consideramos que ambas son normales), obtenemos:
Figura 25. Resultado PSPP. Primero indica el test utilizado, el T-TEST, con muestras emparejadas con las variables
SYSBP y DIABP. También provee la correlación entre ambas variables, algo que se verá en otra unidad didáctica. Por
último, PSPP provee del resultado del test.
Se observa que la presión sistólica media es de 137,75 y la diastólica media de 84,75. Tenemos
que saber si esa diferencia es significativa o no.
En el resultado del test nos da el p-valor de 0,000, menor que 0,05, por lo que rechazamos H 0,
y podemos afirmar que las presiones sistólica y diastólica, son distintas.
28
Resumen
En esta unidad didáctica hemos visto las pruebas estadísticas de comparación de proporciones y
medias más utilizadas, si bien es cierto que existen otras pruebas para supuestos más
complicados que los tratados en esta ocasión (p. ej., comparación de medias de muestras
emparejadas provenientes de más de dos grupos).
Los conceptos clave que el alumno debe dominar, para cualquier test, son los siguientes:
• Nivel de confianza.
• Significatividad.
• p-valor.
El alumno ha de tener claro que la selección de la prueba que se va a utilizar para nuestro análisis
se cimenta sobre la previa comprobación de varios requisitos, como son la normalidad de la
distribución o la igualdad de varianzas para los supuestos de muestras emparejadas. Por tanto,
debe tener claro lo que son los test de:
• Kolmogorov-Smirnov (K-S).
• Levene.
Y, por último, conocer los principales test, tanto para comprobar proporciones como para
comprobar valores medios, para saber cuál tiene que aplicar con el software PSPP.
29
Mapa de contenidos
30
Recursos bibliográficos
Bibliografía básica
31