Está en la página 1de 14

Universidad Simón Bolívar

Prof. R. Rojas

Análisis de Varianza
El análisis de varianza (ANOVA) se utilizar para verificar si hay diferencias
estadísticamente significativas entre medias cuando tenemos más de dos muestras o
grupos en el mismo planteamiento.
Para el análisis se puede ver qué tipos de datos se disponen y qué información se
busca que relacione los distintos tipos de datos. Siempre que se realiza este análisis se
tiene dos tipos de información o dos tipos de datos:
a) Información cuantitativa: los datos en la variable dependiente, cuya varianza o
diversidad analizamos.
b) Información cualitativa: los criterios o categorías que se han utilizado para clasificar
a los sujetos (variable independiente).

Cuando se tiene un solo criterio de clasificación, los datos se representan como:

K grupos

Su ecuación del modelo se plantea como

Donde 𝜇𝑖 representa las medias y los errores son

Por el método de mínimos cuadrados la media se puede expresar como

Para el análisis de varianza se hacen tres suposiciones básicas:


Universidad Simón Bolívar
Prof. R. Rojas

1) En la variable dependiente (en la que medimos a los sujetos) tenemos unidades de


intervalo, (y observaciones independientes)
2) La variable dependiente (la que medimos) sigue la distribución normal;
3) Las varianzas de las distintas poblaciones representadas en las muestras no
difieren significativamente entre sí. (homocedasticidad).

El ANOVA no constituye un método o procedimiento único; según los diseños y datos


disponibles existen diversos modelos de análisis. El método adecuado para plantear y
analizar muchos diseños experimentales y cuasi-experimentales, y también estudios
exploratorios.

Para este análisis se consideran que dos grupos son distintos cuando la variabilidad
entre los grupos, entre las medias, es mayor que la variabilidad dentro de los grupos.

Un ejemplo: tenemos dos grupos, uno de enanos y otro de gigantes:


 Cada grupo tiene su media en altura; la media de los gigantes es mayor que la media
de los enanos.
 Dentro de cada grupo hay también diferencias; no todos los enanos son igualmente
bajitos ni todos los gigantes son igualmente altos.

Pero ¿cuál sería nuestra conclusión si se comprueba que la diferencia entre las medias
de los gigantes y de los enanos es más o menos igual a las diferencias que se pueden
encontrar entre los sujetos dentro de cada grupo?… Pues sencillamente que no se tienen
ni enanos ni gigantes, la hipótesis es falsa, y por lo que respecta a estatura, podemos
considerar que todos pertenecen al mismo grupo (o hablando con más propiedad, que todos
pertenecen a la misma población por lo que respecta a la altura). Este tipo de planteamiento
se resuelve estudiando la variabilidad de los datos.

La diversidad o variación que se encuentra dentro de los grupos (expresada por la


varianza dentro de los grupos) es la diversidad normal, aleatoria; lo normal es que no todos
los sujetos de una muestra sean idénticos en una determinada característica. Si las medias
difieren entre sí (varianza entre grupos) más de lo que se puede esperar por azar (varianza
dentro de los grupos), afirmaremos que las medias son distintas o, lo que es lo mismo
(expresado en términos más formales), que las muestras proceden de poblaciones distintas
con distinta media.

Básicamente la varianza total (del grupo total) la va a descomponer en dos varianzas:


a) Una varianza nos va a expresar las diferencias entre las medias (entre los grupos)
b) Otra varianza nos va a expresar las diferencias o variabilidad entre los sujetos,
dentro de los grupos (y que consideramos que es la variabilidad normal)

Esquemáticamente, se tiene:
Universidad Simón Bolívar
Prof. R. Rojas

SCTra Suma de Cuadrados SCE Suma de Cuadrados entre


SCT Suma de cuadrados Total dentro de los grupos los grupos

=
+

Variabilidad dentro de los Variabilidad entre los


Variabilidad Total grupos grupos
Diferencial con respecto a = Diferencia de cada sujeto con Diferencia de cada media
la media total +
respecto a la media del grupo con respecto a la media
total

Figura 1. Descomposición de la variabilidad

Si la diversidad entre las medias (los grupos) es mayor que la diversidad entre los
sujetos dentro de los grupos, es cuando se afirma que entre las medias hay diferencias
superiores a lo que podemos encontrar por azar (que es lo que sucede dentro de los
grupos).

Se tiene un total de an observaciones y a tratamientos


 SCT tiene (an − 1) grados de libertad.
 SCTr tiene (a − 1) grados de libertad.
 SCE tiene a(n−1) grados de libertad, porque hay n réplicas dentro de cada
tratamiento, es decir, se tienen (n−1) grados de libertad para estimar el error
experimental. Al tener a tratamientos, se tiene un total de a(n − 1) grados de libertad.

La varianza del tratamiento i , se expresa como:

Si no hay diferencias entre los a tratamientos, se puede estimar la varianza


poblacional σ2 como

Se dispone, así de dos posibles estimadores de σ2 por el método de mínimos


cuadrados
Universidad Simón Bolívar
Prof. R. Rojas

Cuando no existen diferencias entre las medias de los tratamientos, las estimaciones
deben ser similares. La figura 2. Muestra gráficamente los posibles resultados de Anova.

Figura 2. Posibles resultados del análisis de varianza en una muestra con con tres
niveles.

Prueba de hipótesis

Se plantan las hipótesis

Cuyo estadístico de prueba está representado por:

donde los errores εij se distribuyen independientemente entre sí, según una N(0, σ), y se
distribuye como una F con, Fa−1,N−a

La una región crítica superior, de modo que se rechaza, a nivel α, la hipótesis nula
de igualdad de tratamientos, si

En general se tiene en la Figura 3., lo antes planteado se resumen:


Universidad Simón Bolívar
Prof. R. Rojas

Figura 3. Análisis de varianza

Intervalos de confianza

Si se asume que los errores están distribuidos según una normal, entonces cada

De este modo, cuando σ2 es desconocida un intervalo de confianza al 100(1−α)% es

Intervalo de confianza para la media i del tratamiento i-ésimo

Intervalo de confianza para la diferencia en las medias de


dos tratamientos cualesquiera i - j

Ejemplo
Un ingeniero de desarrollo de productos está interesado en maximizar la resistencia
a la tensión de una nueva fibra sintética que se empleará en la manufactura de tela para
camisas de hombre. El ingeniero sabe por experiencia que la resistencia está influida por
el porcentaje de algodón presente en la fibra. Además, sospecha que el contenido de
algodón debe estar aproximadamente entre un 10 y 40% para que la tela resultante tenga
otras características de calidad que se desean (como la capacidad de recibir un tratamiento
de planchado permanente).
El ingeniero decide probar muestras a cinco niveles de porcentaje de algodón: 15,
20, 25, 30 y 35%. Asimismo, decide ensayar cinco muestras a cada nivel de contenido de
algodón. Las 25 observaciones deben asignarse al azar. Para ilustrar la forma en que puede
Universidad Simón Bolívar
Prof. R. Rojas

aleatorizarse el orden de ejecución, supóngase que las observaciones se numeran como


sigue:

Ahora se elige al azar un número entre 1 y 25. Supongamos que es el 8, entonces


la observación 8a se ejecuta primero (es decir, a un 20% de algodón). A continuación se
elige un número al azar entre 1 y 25, quitando el 8. Supongamos que es el 4, entonces la
observación 4a se ejecuta en segundo lugar (a un 15% de algodón). Se repite el proceso
hasta completar las 25 observaciones.
Esta secuencia de prueba aleatorizada es necesaria para evitar que los resultados
se contaminen por los efectos de variables desconocidas que pueden salir de control
durante el experimento.

Se inicia el cálculo de los valores correspondientes:

En este ejemplo, a = 5, n = 5 y N = 25. Las estimaciones puntuales de los parámetros


son las siguientes:
Universidad Simón Bolívar
Prof. R. Rojas

Se plantean las hipótesis

Se calculan los análisis del modelo


Df Sum Sq Mean Sq F value Pr(>F)
porcentaje 4 475.76 118.94 14.757 9.128e06***
Residuals 20 161.20 8.06
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se establece la región de rechazo: F4,20,0.05 = 2,8661

Región de rechazo

Por lo tanto, rechazamos H0 a los niveles anteriores y concluimos que hay


diferencias entre los tratamientos.
Universidad Simón Bolívar
Prof. R. Rojas

Una vez estudiado el modelo, se procede a su diagnóstico con estudio de los


errores.
En ANOVA, los errores se definen como:

eij  yij  y ij
Y al igual que en el caso de una regresión
homocedasticidad e independencia.
 
y ij lineal, cumple
i  ylos 
  y i   y   y i 
supuestos de normalidad,

Especificación del modelo


El modelo ANOVA de un factor puede reescribirse como:

𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗
Donde

 𝜇 es una constante común a todos los niveles

 𝛼𝑖 es el efecto producido por el i–ésimo nivel. Al sumarlos todos deben


compensarse los efectos negativos con los positivos para que la media común a
todos los niveles sea realmente μ. Esto implica en particular que los efectos de los
niveles no son independientes.
 𝜀𝑖𝑗 es la parte de la variable 𝑦𝑖𝑗 no explicada por 𝜇 y 𝛼𝑖 y que se distribuye del mismo
modo (aunque independientemente) para cada observación, según la ley gaussiana:
𝜀𝑖𝑗 ~𝑁(0, 𝜎2 ). Esta es la condición de homocedasticidad, y es fundamental en el
análisis de la varianza.

Ahora como 𝑦𝑖𝑗 = 𝜇 + 𝜀𝑖𝑗 y 𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗 son modelos análogos, se puede
escribir el contraste de hipótesis de dos formas:

Manteniendo el estadístico de prueba y la región de rechazo.


Universidad Simón Bolívar
Prof. R. Rojas

Análisis de los resultados del ANOVA: Comparaciones múltiples

Una vez obtenidas diferencias significativas entre los tratamientos, conviene estudiar por
qué se rechaza la igualdad entre medias, comparando todos los pares de medias, porque
puede ser que se rechace la igualdad de medias porque haya un par de medias diferentes
entre sí. Se considera, entonces, los siguientes contrastes:

𝐻𝑜 : 𝜇𝑖 = 𝜇𝑗 𝑖≠𝑗

𝐻𝑎 : 𝜇𝑖 ≠ 𝜇𝑗 𝑖≠𝑗

Para lo cual se utilizan dos Métodos de diferenciación:

 Mínima diferencia significativa


 Bonferroni
 Turkey

Mínima diferencia significativa (LSD)

Este procedimiento desarrollado por Fisher, el cual es una extensión de la prueba t


de Student para el caso de comparación de dos medias con varianza ponderada.
Cuyo estadístico de prueba se representa por

Y donde la diferencia mínima significativa se calcula mediante

2. 𝑀𝐶𝐸
𝐿𝑆𝐷𝛼 = 𝑡𝛼,𝑁−𝑎 . √
2 𝑛
La región de rechazo se estable como:
Universidad Simón Bolívar
Prof. R. Rojas

Este método LSD tiene el problema de que cuando el número de grupos crece (y por tanto
el número de comparaciones), la probabilidad de no obtener ningún rechazo (aún en el caso
de que todos los grupos sean iguales) disminuye rápidamente. Es decir, si el número de
grupos es grande, el método de mínima diferencia significativa rechazará hipótesis de
igualdad que son ciertas, sólo por azar.

Método de Bonferroni

La corrección de Bonferroni se sustenta en la idea de que si usted somete a prueba "n"


hipótesis dependientes o independientes (pareadas) para un mismo conjunto de datos, la
forma de mantener la tasa de error constante para el estudio, es probar cada hipótesis
individual a un nivel de significancia 1/n veces más de lo que sería si sólo se sometiera a
prueba una hipótesis.
El objetivo es mantener igual el nivel de significancia (α) para toda la familia de pruebas y
por lo tanto la corrección de Bonferroni somete a prueba cada uno de los contrastes aun
nivel de significancia de α/n. Por ejemplo, si se realizan tres contrastes simultáneos y se
desea mantener el nivel de significancia en 0,05; el alfa elegido para la prueba debe ser
0,05/3= 0,0166.

En este criterio se rechaza μi = μj (i  j) si

donde p es el número de comparaciones que se pueden obtener

Método de Tukey

El método de Tukey se utiliza en ANOVA para crear intervalos de confianza para todas las
diferencias en parejas entre las medias de los niveles de los factores mientras controla la
tasa de error por grupo en un nivel especificado.
Su estadístico de prueba es

𝑀𝐶𝐸
𝑇𝐴 = 𝑞∝ (𝑎, 𝑁)√ si los tamaños de las muestras son iguales y
𝑛

1 1
𝑇𝐴 = 𝑞∝ (𝑎, 𝑁)√𝑀𝐶𝐸 (𝑛 + 𝑛 ) si los tamaños de las muestras son iguales y
𝑖 𝑗

El cual utiliza el estadístico del rango studentizado 𝑞∝ (𝑎, 𝑓), cuyos valores se obtienen de
la tabla VII al final de la guía.
Universidad Simón Bolívar
Prof. R. Rojas

La región de rechazo en esta prueba se expresa como

TA

TA

Ejemplo.
Del ejemplo anterior del algodón, tenemos que hay diferencias entre los tratamientos.

 Calculemos LSD con un nivel de significancia de 5%.


Tenemos que

2. (8.06)
𝐿𝑆𝐷𝛼 = 𝑡0.025,20 . √ = 3.75
5
Luego, establecemos las regiones de rechazo

̅̅̅𝒊. − ̅̅̅|
|𝒚 𝒚𝒋. LSD Región de Rechazo
̅𝑦̅̅1.̅ − ̅̅
𝑦̅̅2. =9.8 – 15.4 = -5.6 3.75 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅̅ 𝑦̅̅=-7.8
3. 3.75 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅̅̅=-11.8
𝑦4. 3.75 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅𝑦̅̅̅=-1
5. 3.75 <No se rechaza H0
𝑦̅̅
̅̅ 2. − ̅ 𝑦̅̅̅=-2.2
3. 3.75 <No se rechaza H0
̅𝑦̅̅̅2. − ̅̅̅=-6.2
𝑦4. 3.75 > Se rechaza H0
𝑦̅̅
̅̅ 2. − ̅̅ 𝑦̅̅=4.6
5. 3.75 > Se rechaza H0
̅𝑦̅̅̅
3. − 𝑦
̅̅̅=-4
4. 3.75 > Se rechaza H0
𝑦̅̅
̅̅ 3. − 𝑦
̅̅̅̅==6.8
5. 3.75 > Se rechaza H0
𝑦4. − ̅𝑦̅̅̅=10.8
̅̅̅ 5. 3.75 > Se rechaza H0

En general, los pares de medias son significativamente diferentes a un nivel de


significancia del 5%. Los únicos pares que no difieren significativamente son 1y 5 y 2y3. El
tratamiento 4 produce una resistencia a la tensión significativamente mayor a los otros
porcentajes de algodón.

 Calculemos Tukey con un nivel de significancia de 5%.

8.06
𝑇𝐴 = 𝑞0.05 (5,20)√ = 5,37
5

Luego, establecemos las regiones de rechazo


Universidad Simón Bolívar
Prof. R. Rojas

̅̅̅𝒊. − ̅̅̅|
|𝒚 𝒚𝒋. TA Región de Rechazo
̅̅̅1.̅ − ̅𝑦̅̅̅
𝑦 2. = -5.6 5,37 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅̅ 𝑦̅̅=-7.8
3. 5,37 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅̅̅=-11.8
𝑦4. 5,37 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅𝑦̅̅̅=-1
5. 5,37 <No se rechaza H0
𝑦̅̅
̅̅ 2. − 𝑦
̅̅̅̅=-2.2
3. 5,37 <No se rechaza H0
̅𝑦̅̅̅2. − 𝑦
̅̅̅=-6.2
4. 5,37 > Se rechaza H0
𝑦̅̅
̅̅ 2. − 𝑦
̅̅̅̅=4.6
5. 5,37 < No se rechaza H0
̅𝑦̅̅̅
3. − ̅̅̅=-4
𝑦4. 5,37 < No se rechaza H0
𝑦̅̅
̅̅ 3. − ̅̅ 𝑦̅̅==6.8
5. 5,37 > Se rechaza H0
𝑦4. − ̅𝑦̅̅̅=10.8
̅̅̅ 5. 5,37 > Se rechaza H0

En este caso se aprecian pares que son significativamente diferentes y varios que no. Este
metodo no es del todo claro, para estos datos.
Universidad Simón Bolívar
Prof. R. Rojas

Tabla para 𝑞∝ (𝑎, 𝑓)


Universidad Simón Bolívar
Prof. R. Rojas