Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de Varianza PDF
Analisis de Varianza PDF
Análisis de
Varianza
4. Análisis de Varianza
4. Análisis de Varianza
e.4.1. ¿Quiénes obtienen mejores resultados en Matemáticas, los estudiantes que viven en
zonas rurales, en pequeñas ciudades, en ciudades medias o en grandes ciudades?
H0:
Es decir, que las muestras obtenidas sean de la misma población. Y la alternativa (H1), que
alguna de las igualdades no se cumpla (que pertenezcan a poblaciones diferentes).
El ANOVA utiliza una estrategia bastante razonable: si los resultados de cada uno de los grupos
(en nuestro ejemplo el rendimiento en Matemáticas de los estudiantes que viven en pueblos,
ciudades pequeñas, medias o grandes) no contienen errores sistemáticos, los valores medios
respectivos no diferirán mucho los unos de los otros y su dispersión, debido a los errores
aleatorios, será comparable a la dispersión presente individualmente en cada grupo (tipo de
hábitat). Así, la prueba se basa en la estimación del estadístico F, que muestra el grado de
parecido existente entre las medias que se comparan.
Si las medias de las poblaciones son iguales, las medias de las muestras de los grupos serán
parecidas, por lo que las únicas diferencias serán las atribuidas al azar, y el valor del estimador
F será de 1. Si las medias poblacionales son diferentes, entonces el valor mayor que 1, y más
alto conforme mayor sea la diferencia.
El estadístico F está asociado a un nivel crítico (la probabilidad de obtener valores como el
obtenido o mayores). Si éste es mayor a nuestro nivel de error asumido (que habitualmente
será del 95%, de decir de un 0,05) se rechaza la hipótesis nula, que indica la igualdad de
medias, y se acepta la alternativa.
Además de determinar que existen diferencias entre las medias, es posible que deseemos
saber qué medias difieren. Existen dos tipos de contrastes para comparar medias: a priori y
post hoc.
Los contrastes post hoc se realizan después de haber llevado a cabo el experimento.
2. Los resultados obtenidos para cada conjunto deben seguir una distribución normal,
aunque soporta bastante bien el incumplimiento de este supuesto siempre que su
distribución sea simétrica1.
Veámoslo:
1
La prueba para comprobar la normalidad de distribución de una variable es la de Kolmogorov-Smirnov,
se verá en el tema 7.
2
Para verificar este supuesto, en el subcuadro de opciones está la Prueba de homogeneidad de las
varianzas, que calcula el estadístico de Levene para contrastar la igualdad de las varianzas de grupo. Si
las varianzas no son iguales, en este mismo subcuadro se encuentra la opción "Brown-Forsythe". Calcula
el estadístico de Brown-Forsythe para contrastar la igualdad de las medias de grupo.
Rendimiento en Matemáticas
Suma de
cuadrados gl Media cuadrática F Sig.
Inter-grupos 52621,047 3 17540,349 54,020 ,000
Intra-grupos 2141072,744 6594 324,700
Total 2193693,791 6597
La interpretación es igual que en la T de Student del tema anterior, si el nivel crítico asociado al
estadístico F es menor que 0,05 (o el α que estemos considerando) se rechaza la hipótesis y se
acepta la alterna, es decir, se concluye que, efectivamente, hay relación entre el hábitat y el
rendimiento en Matemáticas (o que los cuatro hábitat forman parte de la misma población).
Sin embargo, de lo que no tenemos información es entre qué tipo de hábitat hay diferencias,
ni el sentido de las mismas. Para ello se necesitan los contrastes a posteriori.
Una vez que se ha determinado que existen diferencias entre las medias, los contrastes de
comparaciones múltiples post hoc, o comparaciones a posteriori, permiten determinar entre
qué medias existen diferencias significativas.
El procedimiento es sencillo. Sólo hay que pulsar la opción "Post Hoc" del cuadro de diálogo de
ANOVA de un factor. Lo difícil quizá es elegir entre tantas opciones. En el Anexo, al final de
este tema, se presenta un cuadro resumen con las características de los diferentes
estadísticos.
FIGURA 4.2. SUBCUADRO DE DIÁLOGO ANOVA DE UN FACTOR: COMPARACIONES MÚLTIPLES POST HOC
Una posibilidad razonable es elegir el estadístico de HDS Tukey (opción Tukey) si las varianzas
son iguales y el estadístico Games-Howell si no se asumen varianzas iguales.
Los resultados para nuestro ejemplo se muestran en las tablas 4.2 y 4.3.
TABLA 4.2. RESULTADOS DEL ANOVA DE UN FACTOR CON COMPARACIONES MÚLTIPLES POST HOC
Rendimiento en Matemáticas
HSD de Tukey
(I) Habitat (pueblo, (J) Habitat (pueblo, Intervalo de confianza al 95%
ciudad pequeña, media ciudad pequeña, media Diferencia de
o grande) o grande) medias (I-J) Error típico Sig. Límite inferior Límite superior
Pueblos (menos de Ciudades pequeñas (de -3,085022* ,598434 ,000 -4,62281 -1,54723
10.009 habs.) 10.001 a 10.000 habs.)
Ciudades medias (de -6,209442* ,611973 ,000 -7,78202 -4,63686
100.001 a 500.000 habs.)
Ciudades grandes (más -8,560321* ,788173 ,000 -10,58568 -6,53496
de 500.000 habs.)
Ciudades pequeñas (de Pueblos (menos de 3,085022* ,598434 ,000 1,54723 4,62281
10.001 a 10.000 habs.) 10.009 habs.)
Ciudades medias (de -3,124419* ,551351 ,000 -4,54122 -1,70762
100.001 a 500.000 habs.)
Ciudades grandes (más -5,475298* ,742086 ,000 -7,38223 -3,56837
de 500.000 habs.)
Ciudades medias (de Pueblos (menos de 6,209442* ,611973 ,000 4,63686 7,78202
100.001 a 500.000 habs.) 10.009 habs.)
Ciudades pequeñas (de 3,124419* ,551351 ,000 1,70762 4,54122
10.001 a 10.000 habs.)
Ciudades grandes (más -2,350879* ,753047 ,010 -4,28597 -,41578
de 500.000 habs.)
Ciudades grandes (más Pueblos (menos de 8,560321* ,788173 ,000 6,53496 10,58568
de 500.000 habs.) 10.009 habs.)
Ciudades pequeñas (de 5,475298* ,742086 ,000 3,56837 7,38223
10.001 a 10.000 habs.)
Ciudades medias (de 2,350879* ,753047 ,010 ,41578 4,28597
100.001 a 500.000 habs.)
*. La diferencia de medias es significativa al nivel 0.05.
La interpretación es igualmente sencilla. En cada una de las filas compara las medias de los
grupos por pares. La interpretación, una vez más, es fijándose en el nivel crítico y compararlo
con nuestro α (normalmente 0,05). De esta forma se puede observar que hay diferencias en el
rendimiento de los estudiantes en Matemáticas entre los que viven en pueblos y en ciudades
pequeñas, entre pueblos y ciudades medias... y así entre todos los pares de grupos.
En la segunda de las tablas nos ofrece los resultados y encontramos ayuda para una mejor
interpretación.
TABLA 4.3. RESULTADOS DEL ANOVA DE UN FACTOR CON COMPARACIONES MÚLTIPLES POST HOC,
SUBCONJUNTOS HOMOGÉNEOS
HSD de Tukeya,,b
Subconjunto para alfa = 0.05
Habitat (pueblo, ciudad pequeña,
media o grande) N 1 2 3 4
Pueblos (menos de 10.009 habs.) 1515 48,28904
Ciudades pequeñas (de 10.001 a 2258 51,37406
10.000 habs.)
Ciudades medias (de 100.001 a 2027 54,49848
500.000 habs.)
Ciudades grandes (más de 798 56,84936
500.000 habs.)
Sig. 1,000 1,000 1,000 1,000
Se muestran las medias para los grupos en los subconjuntos homogéneos.
a. Usa el tamaño muestral de la media armónica = 1403,800.
b. Los tamaños de los grupos no son iguales. Se utilizará la media armónica de los tamaños de los grupos. Los niveles
de error de tipo I no están garantizados.
Se observa que existen cuatro grupos diferenciados (cuatro poblaciones), cada una de un tipo
de hábitat, indicándose la media del rendimiento de cada grupo. De esta forma, los resultados
apuntan a que los niños y niñas que viven en pueblos sacan el peor resultado (48,28), después
(con diferencias estadísticamente significativas) los que viven en ciudades pequeñas (51,37),
después los que viven el ciudades medias (54,49) y lo que mejores resultados obtienen en
rendimiento en Matemáticas son los que viven en grandes ciudades (56,84 de media). Este
resultado, obtenido a partir de datos reales, nos muestra la desigual distribución del
rendimiento en función del lugar donde vive el niño, y muestra unas preocupantes señales de
inequidad en función del hábitat.
Así, puede verse el siguiente caso inventado (tabla 4.4). El rendimiento promedio de todos los
estudiantes es de 6. El de los niños es igual que el de la niñas, de 6; y sacan los mismos
resultados los estudiantes con profesores varones que con profesoras, 6. Sin embargo, se
produce un curioso efecto de interacción, dado que si el género del docente y del estudiante
coinciden los resultados serán claramente mejores que si no coinciden.
FIGURA 4.4. CUADRO DE DIÁLOGO "UNIVARIANTE" PARA HACER UN ANÁLISIS DE VARIANZA FACTORIAL
Entonces seleccione:
Y pinchamos en "Aceptar".
Efectos fijos: un factor de efectos fijos es aquel en el que contamos con todas las
alternativas en la variable. Bien sea porque están todas -por ejemplo, el hábitat- bien
porque queremos ver la diferencia entre esas alternativas. Es decir, las alternativas son
la población de alternativas de respuesta sobre los que se quiere hacer la inferencia.
Efectos aleatorios: un factor de efectos aleatorios, por su parte, es aquel que las
alternativas seleccionadas son una muestra aleatoria de todas las alternativas posibles.
Luego haremos un ejemplo de las mismas.
1. Hay diferencias en Rendimiento en Matemáticas en función del Hábitat (el nivel crítico
que aparece en la 3ª fila es 0,000<0,05), como ya habíamos visto.
2. Hay diferencias en función de la edad de escolarización en preescolar (4ª fila).
3. No hay diferencias en función de la interacción (5ª columna: 0,082>0,05).
El Análisis de Covarianza (ANCOVA) es una técnica de control estadístico que permite eliminar
de la variable dependiente del ANOVA el efecto atribuible a variables no incluidas en el diseño
y, con ello, no sometidas a control.
3
Estadísticamente, una relación espuria es una relación en la cual dos acontecimientos no tienen
conexión, aunque aparentemente la tienen debido a un tercer factor no considerado aún (llamado
"factor de confusión" o "variable escondida"). La relación espuria da la impresión de la existencia de un
vínculo apreciable entre dos grupos que es inválido cuando se examina objetivamente.
Entonces selecciona:
Y pinchamos en "Aceptar".
El resultado buscado se presenta en la cuarta fila: nos indica que existen diferencias en el
rendimiento en función del Hábitat, incluso habiendo controlado el Nivel Socio-económico de
las familias de los estudiantes (0,00<0,05).
En la fila tercera nos indica que la variable "Nivel Socio-económico", al mostrar un nivel crítico
de menos de 0,05 se encuentran relacionadas con la variable dependiente, y tiene sentido
incluirlo en el modelo. Es decir, el Hábitat y el Nivel Socio-económico son dos factores de
inequidad en el sistema educativo cuya influencia es aditiva.
4.5. Ejercicios
e.4.4. ¿Existen diferencias significativas en el Rendimiento en Lengua de los estudiantes en
función del Hábitat? Si es así, ¿dónde viven los estudiantes que sacan mejores y peores
resultados?
e.4.8. ¿El entorno socio-económico donde está situado el centro influye en el Rendimiento de los
estudiantes en Matemáticas? ¿Si lo controlamos por titularidad de centro?