Está en la página 1de 27

ANÁLISIS DE

VARIANZA
LOGRO ESPERADO
Resuelve problemas utilizando la técnica del análisis de varianza de acuerdo al
procedimiento dado en problemas de contexto profesional/científico.

INDICADORES DE LOGRO

• Obtiene el cuadro del ANOVA en situaciones contextualizadas.


• Realiza la prueba de hipótesis de acuerdo al procedimiento dado en situaciones
contextualizadas.
INTRODUCCIÓN

En algunas ocasiones es de interés contrastar la hipótesis nula (H0) de que


las medias de k poblaciones (k ≥ 3) son iguales frente a la hipótesis alterna
(H1) de que por lo menos una de las medias poblacionales es diferente.
Una técnica que permite contrastar esa hipótesis es el análisis de la
varianza.
INTRODUCCIÓN AL ANÁLISIS DE VARIANZA (ANOVA)

Si las medias de las poblaciones (𝜇𝑗 ) son iguales, se espera que las medias muestrales (𝑥𝑗 )
sean similares; es decir, si la variabilidad entre las medias muestrales es pequeña, es posible
que la hipótesis nula (H0) sea verdadera. Por el contrario, si la variabilidad entre las medias
muestrales es grande, es posible que la hipótesis nula (H0) no sea verdadera.

El análisis de varianza es una técnica estadística que se aplica para determinar si las diferencias
observadas entre las medias muestrales 𝑥𝑗 ; 𝑗 = 1, 2, … , 𝑘 son lo suficientemente grandes para
rechazar la hipótesis nula (𝐻𝑜 ∶ 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 ); esto implica que por lo menos 2 de las
medias poblacionales (𝜇𝑗 ) son diferentes. Para determinar si las medias poblacionales (𝜇𝑗 ) son
iguales, la técnica se basa en comparar la estimación de la varianza en base a la variabilidad
entre las medias muestrales y la estimación de la varianza en base a la variabilidad entre los
datos de cada muestra.

El termino ANOVA se debe a su nombre en ingles Analysis of variance.


SUPUESTOS DEL ANÁLISIS DE VARIANZA
1. Normalidad. La variable de estudio (variable de respuesta) de cada población
sigue una distribución normal.
2. Homogeneidad de varianzas. La varianza poblacional de la variable respuesta es
la misma en todas las poblaciones.
3. Muestras independientes. Las observaciones seleccionadas de una población
son independientes de las observaciones seleccionadas de las otras
poblaciones.
ANÁLISIS DE VARIANZA
Teniendo en cuenta los supuestos, si la hipótesis nula es verdadera H0: 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 , una forma de estimar la
varianza es mediante 𝜎 2 = 𝑛𝜎𝑥2 , siempre que los tamaños de muestra en cada población sean iguales. A esta
estimación de la varianza poblacional se le conoce como estimación de la varianza 𝜎 2 entre poblaciones o
tratamientos.
Si la hipótesis nula es falsa, las medias muestrales serán diferentes, entonces la estimación entre tratamientos
sobreestimará la varianza poblacional 𝜎 2 .

Otra forma de estimar la varianza es a partir de la estimación de la varianza de cada población; es decir, 𝜎 2 se estima
con el promedio de las varianzas de las k poblaciones, siempre que los tamaños de muestra en cada población sean
iguales. Como la estimación de las varianzas de las k poblaciones solo se basa en la variación dentro de cada
muestra, la estimación 𝜎 2 no es afectada por el hecho que las medias poblacionales sean iguales o no. A esta
estimación de la varianza poblacional se le conoce como estimación de la varianza 𝜎 2 dentro de las poblaciones o
tratamientos.

De acuerdo a lo explicado, la estimación de la varianza poblacional 𝜎 2 entre poblaciones o tratamientos solo


proporcionará una buena estimación de la varianza si la hipótesis nula es verdadera; en caso contrario, la estimación
no será buena. En cambio, la estimación de la varianza poblacional 𝜎 2 dentro de las poblaciones o tratamientos
proporcionará una buena estimación de la varianza en cualquiera de los casos.
Si la hipótesis nula (H0) es verdadera, las 2 estimaciones serán similares con cociente próximo a 1, pero si la hipótesis
nula es falsa el cociente será grande.
DISPOSICIÓN DE LOS DATOS
Los datos se disponen de la siguiente manera:

Población o tratamiento
observación 1 2 … k Total
1 𝑥11 𝑥12 … 𝑥1𝑗
2 𝑥21 𝑥22 … 𝑥2𝑗
… … … … …
i 𝑥𝑖1 𝑥𝑖2 … 𝑥𝑖𝑗
𝑛𝑗 𝑛1 𝑛2 … 𝑛𝑘 𝑛 𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘
𝑇𝑗 𝑇1 𝑇2 𝑇𝑘 𝑇 𝑇 = 𝑇1 + 𝑇2 + ⋯ + 𝑇𝑘

donde:
𝑥𝑖𝑗 : Valor de la observación i en la población o tratamiento j
k : Número de poblaciones o tratamientos
𝑛𝑗 : Tamaño de la muestra en la población o tratamiento j
n : Tamaño de la muestra
𝑇𝑗 : Suma de las observaciones en la población o tratamiento j
𝑇 : Suma de todas las observaciones
NOTACIONES
Considerando que de cada una de las k poblaciones o tratamientos se toma una muestra aleatoria de
tamaño 𝑛𝑗 , se tiene:
𝑛𝑗 𝑛𝑗
𝑥
𝑖=1 𝑖𝑗
(𝑥
𝑖=1 𝑖𝑗
− 𝑥𝑗 )2
𝑥𝑗 = 𝑠𝑗2 =
𝑛𝑗 𝑛𝑗 − 1

𝑥𝑖𝑗 ∶ valor de la observación i en la población o tratamiento j


𝑛𝑗 : Número de observaciones en la población o tratamiento j
𝑥𝑗 : Media muestral de la población o tratamiento j
𝑠𝑗2 : Varianza muestral de la población o tratamiento j
𝑠𝑗 : Desviación estándar muestral de la población o tratamiento j
COMPONENTES DEL ANÁLISIS DE VARIANZA
La media muestral general se denota como:
𝑘 𝑛𝑗
𝑗=1 𝑥
𝑖=1 𝑖𝑗
𝑥=
𝑛
𝑘 2
CMTR (Cuadrado medio entre tratamientos) 𝑗=1 𝑛𝑗 𝑥𝑗 − 𝑥 𝑆𝐶𝑇𝑅
Es la estimación de la varianza poblacional (σ2) entre poblaciones o 𝐶𝑀𝑇𝑅 = =
𝑘−1 𝑘−1
tratamientos.

Donde el numerador viene a ser la suma de cuadrados entre poblaciones o tratamientos (SCTR). En la práctica SCTR se estimará
2
𝑘 𝑇𝑗 𝑇2
de la siguiente manera: 𝑗=1 𝑛 −
𝑗 𝑛
𝑘
𝑗=1 𝑛𝑗 − 1 𝑠𝑗2 𝑆𝐶𝐸
CME (Cuadrado medio debido al error) 𝐶𝑀𝐸 = =
Es la estimación de la varianza poblacional (σ2) dentro de las poblaciones 𝑛−𝑘 𝑛−𝑘
o tratamientos
Donde el numerador viene a ser la suma de cuadrados debido al error (SCE). En la práctica SCE se estimará de la siguiente
manera: SCE = SCT − SCTR

Prueba F (Comparación de las estimaciones de las varianzas) 𝐶𝑀𝑇𝑅


La distribución muestral del cociente de las 2 estimaciones independientes (CMTR 𝐹=
𝐶𝑀𝐸
y CME) de la varianza poblacional (σ2) sigue una distribución F.
ANOVA
El cuadro del ANOVA tiene la siguiente forma:
Fuente de Grados de Cuadrados
Suma de Cuadrados (SC) F
Variación libertad (GL) Medio (CM)
𝑘
Población o 𝑇𝑗2 𝑇2 𝑆𝐶𝑇𝑅
k -1 SCTR = − 𝐶𝑀𝑇𝑅 =
Tratamiento 𝑛𝑗 𝑛 𝑘−1 𝐶𝑀𝑇𝑅
𝑗=1 𝑭𝒄𝒂𝒍 =
𝐶𝑀𝐸
𝑆𝐶𝐸
Error n-k SCE = SCT − SCTR 𝐶𝑀𝐸 =
𝑛−𝑘
𝑘 𝑛𝑗
2
𝑇2
Total n -1 SCT = 𝑥𝑖𝑗 −
𝑛
𝑗=1 𝑖=1

Donde:
SCTR : Suma de cuadrados entre poblaciones o tratamientos
SCE : Suma de cuadrados debido al error
SCT : Suma de cuadrados total
CMTR : Cuadrado medio debido a la población o tratamiento
CME : Cuadrado medio debido al error
F : Estadístico de prueba
PASOS PARA REALIZAR LA PRUEBA DE ANÁLISIS DE
VARIANZA
Paso 1: Plantear las hipótesis
𝐻𝑜 ∶ 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 (Todas las medias poblacionales son iguales)
𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝜇𝑗 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒; 𝑗 = 1,2, … , 𝑘 (No todas las medias poblacionales son iguales)
Paso 2: Establecer el nivel de significancia
Paso 3: Calcular el estadístico de prueba
Fuente de Grados de Cuadrados
Suma de Cuadrados (SC) F
Variación libertad (GL) Medio (CM)
𝑘
Población o 𝑇𝑗2 𝑇2 𝑆𝐶𝑇𝑅
k -1 SCTR = − 𝐶𝑀𝑇𝑅 =
Tratamiento 𝑛𝑗 𝑛 𝑘−1 𝐶𝑀𝑇𝑅
𝑗=1 𝑭𝒄𝒂𝒍 =
𝐶𝑀𝐸
𝑆𝐶𝐸
Error n-k SCE = SCT − SCTR 𝐶𝑀𝐸 =
𝑛−𝑘
𝑘 𝑛𝑗
2 𝑇2
Total n -1 SCT = 𝑥𝑖𝑗 −
𝑛
𝑗=1 𝑖=1
Paso 4: Establecer la región de rechazo

Paso 5: Concluir de acuerdo al enunciado del problema


PRUEBA DE NORMALIDAD (ANDERSON-DARLING)
La prueba de Anderson-Darling es útil para probar si los datos proceden de una
distribución normal.
Paso 1: Plantear las hipótesis
Ho ∶ Las variables aleatorias siguen una distribución normal
H1 : Las variables aleatorias no siguen una distribución normal
Paso 2: Establecer el nivel de significancia
Pasos 3 y 4: Determinar el p-valor
Si el p-valor es menor que el nivel de significancia (p-valor < α), se rechaza la
hipótesis nula (Ho).
Paso 5: Concluir de acuerdo al enunciado del problema
PRUEBA DE HOMOGENEIDAD (BARTLETT)
Paso 1: Plantear las hipótesis
Ho: 𝜎12 = 𝜎22 = ⋯ = 𝜎𝑘2
Las varianzas en las k poblaciones son iguales
H1 : Al menos un 𝜎𝑗2 es diferente
Al menos una de las varianzas en las k poblaciones es diferente
Paso 2: Establecer el nivel de significancia
Pasos 3 y 4: Determinar el p-valor
Si el p-valor es menor que el nivel de significancia (p-valor < α), se rechaza la
hipótesis nula (Ho).
Paso 5: Concluir de acuerdo al enunciado del problema
EJEMPLO
Con la finalidad de comparar el tiempo de vida (en horas) de los focos ahorradores de 3
marcas (Sam, Phi y Gam), el dueño de una cadena de hoteles seleccionó 5 focos de
cada marca, los probó y obtuvo los siguientes resultados:
MARCA
Sam Phi Gam
6.1 5.2 5.5
6.2 5.5 5.3
6.5 5.3 5.2
6.7 5.4 5.1
6.8 4.9 4.9

Con un nivel de significancia del 5%, ¿existe evidencia estadística para pensar que hay
diferencias significativas entre los tiempos de vida de los focos ahorradores de las 3
marcas?
(Asuma que se cumplen los supuestos de normalidad y homogeneidad de varianzas)
SOLUCIÓN
Sean las variables:
X1= Tiempo de vida de los focos ahorradores de la marca Sam
X2= Tiempo de vida de los focos ahorradores de la marca Phi
X3= Tiempo de vida de los focos ahorradores de la marca Gam

De los datos se obtiene:


n1=5 n2=5 n3=5 n=15
T1=32.3 T2=26.3 T3=26 T=84.6
Calcular la suma de los cuadrados de los totales
2 2
𝑇 84.6
𝑆𝐶𝑇 = 𝑥2𝑖𝑗 − = 482.98 − = 5.836
𝑛 15

𝑇2𝑗 𝑇2 32.32 26.32 262 84.62


𝑆𝐶𝑇𝑅 = − = + + − = 5.052
𝑛𝑗 𝑛 5 5 5 15
Paso 1:
H0: 𝜇1 = 𝜇2 = 𝜇3 (Los tiempo de vida promedio de los focos ahorradores de las 3 marcas son iguales)
H1: Al menos un 𝜇j es diferente (Los tiempo de vida promedio de los focos ahorradores de las 3 marcas no son iguales)
Paso 2:
𝛼 = 0.05
Paso 3:
Fuente de gl SC CM Fcal
variabilidad
Tratamiento 2 5.052 2.526 38.862
Error 12 0.784 0.065
Total 14 5.836

Paso 4:
F(0.05,2,12)=3.89
Paso 5:
Como Fcal=38.862>F(0.05,2,12)=3.89, se encuentra en la región de rechazo, se rechaza H0. Con un n.s. del 5%, e.e.e. para pensar
que los tiempo de vida promedio de los focos ahorradores de las 3 marcas no son iguales.
COMPARACIONES MÚLTIPLES
Si al realizar la prueba de hipótesis para comparar las medias de 3 o más
poblaciones se rechaza la hipótesis nula, es necesario conocer que
poblaciones o tratamientos producen diferentes resultados.
MÉTODO DE TUKEY
El método de Tukey genera intervalos de confianza para todas las diferencias por pares
entre las medias de los niveles de los factores mientras controla la tasa de error
individual en un nivel especificado. Es importante considerar la tasa de error individual
cuando se hacen comparaciones múltiples, porque la probabilidad de cometer un error
de tipo I para una serie de comparaciones es mayor que la tasa de error para cualquier
comparación individual. Para contrarrestar esta tasa de error más elevada, el método de
Tukey ajusta el nivel de confianza de cada intervalo individual para que el nivel de
confianza simultáneo resultante sea igual al valor especificado.

El método exige que el número de repeticiones sea constante en todas las


poblaciones o tratamientos.
EJEMPLO
Comparaciones en parejas de Tukey

Agrupar información utilizando el método de Tukey y una confianza de 95%

Factor N Media Agrupación


Sam 5 6.460 A
Phi 5 5.260 B
Gam 5 5.200 B

Con una confianza del 95%, se puede pensar que el tiempo promedio de vida de los focos ahorradores de
la marca Sam es mayor.
MÉTODO MCB de Hsu
• El método MCB de Hsu es un método de comparaciones múltiples que ha sido
diseñado para identificar que nivel de factor es mejor, los que son
estadísticamente diferentes y equivalentes al mejor. Se puede entender como
mejor, al nivel de factor con el mayor o menor promedio.
• El método MCB de Hsu crea un intervalo de confianza para la diferencia entre las
medias de cada nivel y la mejor de las medias.
OBSERVACIONES
• El método de Tukey genera intervalos de confianza más anchos y pruebas de
hipótesis menos potentes para una tasa de error especificado. Esta prueba es
más recomendable cuando se desea todas las comparaciones por pares.

• El método MCB de Hsu solo compara un subconjunto de todas las posibles


comparaciones en pareja, a diferencia del método de Tukey, que realiza todas las
comparaciones. Por lo tanto, el método MCB de Hsu genera intervalos de
confianza más estrechos y pruebas más potentes para cualquier tasa de error
especificado.
VERIFICANDO LO APRENDIDO
¿Qué prueba estadística se ha aplicado en la clase?
¿Cuáles son las hipótesis en esta prueba?
¿Que distribución de probabilidades sigue el estadístico de prueba?
¿Cómo se obtienen los grados de libertad?
METACOGNICIÓN

¿Que aspectos le han parecido interesantes?


¿Que contenido considera más importante del tema trabajado?
¿Qué competencias del tema podría aplicar en su vida diaria?
RESUMEN
Análisis de varianza
Hipótesis de prueba
H0 : μ1 = μ2 = μ3 = ⋯ = μk

H1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝜇𝑗 es diferente

Estadístico de Prueba

CMTra
Fcal = ~ 𝐹𝛼; 𝑘−1; 𝑛−𝑘;
CME

Cuadro ANOVA
PARA REFORZAR LO APRENDIDO

RESOLVER LOS EJERCICIOS


DE TRABAJO AUTÓNOMO
LIBRO
REFERENCIA BIBLIOGRÁFICAS

1. Montgomery, D. (2014). Applied statistics and probability for engineers


(6a ed.). United States of America.: Hoboken, NJ2.
2. Mendenhall, W. & Sincich, T. (2016). Statistics for engineering and the
sciences (6a ed.). Boca Raton: CRC Press, Taylor & Francis Group.

También podría gustarte