Está en la página 1de 44

Análisis de la Varianza

Ing. Erica Raña 1


Ya se ha visto el uso de la t de Student para comparar
las medias de dos grupos o poblaciones.
Si queremos realizar la comparación entre tres o más
grupos no debemos utilizar esta prueba, ya que en
las comparaciones múltiples por pares incrementamos
nuestro “Error tipo I”, es decir que:

a mayor número de comparaciones, tenemos más


posibilidades de equivocarnos al rechazar la hipótesis
nula siendo cierta.

En otras palabras: diremos que los grupos tienen


medias distintas cuando en realidad no es así con
más frecuencia.

Análisis de la Varianza
Ing. Erica Raña 2
El , permite probar
hipótesis referidas a los parámetros de posición
(esperanza) de dos o más distribuciones.

La hipótesis que se somete a prueba


generalmente se establece con respecto a las
medias de las poblaciones en estudio o de cada
uno de los tratamientos evaluados en un
experimento

Análisis de la Varianza
Ing. Erica Raña 3
Las técnicas englobadas bajo la denominación de
análisis de la varianza o ANOVA (del inglés
ANalysis Of VAriance) han jugado un papel
crucial en la metodología estadística moderna,
desde que fueran ideadas por R. A. Fisher en
1925.

Análisis de la Varianza
Ing. Erica Raña 4
En el planteamiento más simple de análisis de la
varianza tenemos una variable numérica
cuantitativa (respuesta), y queremos determinar
en qué medida se puede atribuir la variabilidad de
ésta a otra variable cualitativa nominal que vamos
a denominar factor.

Consideremos por ahora, el análisis de la


varianza para un solo factor, que puede tener 2 o
más categorías o niveles.

Análisis de la Varianza
Ing. Erica Raña 5
Estudio observacional
Sobre un proceso existente se observan (registra
información) de una o más variables aleatorias.
Finalidad: explorar, describir, confirmar hipótesis.
Estudio experimental
“Prueba o serie de pruebas en las cuales se inducen
cambios deliberados en las variables de entrada de un
proceso o sistema de manera que sea posible observar
e identificar las causas de los cambios en la respuesta o
variable de salida” (Montgomery 1991).
“Es una reproducción restringida de la realidad con el fin
de observar los efectos de su manipulación planificada”
(Casanoves y Di Rienzo, 1999).
Finalidad : confirmar hipótesis, modelar , predecir

Análisis de la Varianza
Ing. Erica Raña 6
 Consisten en la aplicación de tratamientos a un
conjunto de unidades experimentales para valorar
y comparar las respuestas obtenidas.

Análisis de la Varianza
Ing. Erica Raña 7
En experimentos con fines comparativos,
usualmente se realiza la aplicación de varios
tratamientos a un conjunto de unidades
experimentales para valorar y comparar las
respuestas obtenidas bajo cada tratamiento.

La técnica del Análisis de Varianza (ANOVA)


permite estimar las respuestas promedio de
tratamientos y las comparaciones entre ellas

Análisis de la Varianza
Ing. Erica Raña 8
 Un productor quiere comparar el efecto de
tres fertilizantes (A, B y C) en el
crecimiento de sus plantas de tomate.
 Para medir el efecto del fertilizante eligió la
variable “altura de las plantas”.
 Seleccionó 15 plantas de tomate de una
semana y las plantó en diferentes
maceteros.
 Asignó aleatoriamente los 3 fertilizantes y se
los administró a las plantas por 45 días

Análisis de la Varianza
Ing. Erica Raña 9
 Seleccionar al azar 15 plantas de tomate sembradas el
mismo día y en idénticas condiciones y se distribuyen
aleatoriamente en 3 grupos.

 Grupo 1: Fertilizante A

 Grupo 2: Fertilizante B

 Grupo 3; Fertilizante C

Análisis de la Varianza
Ing. Erica Raña 10
 La altura (en cm) Fert A Fert B Fert C
de las 15 plantas 37 41 35
de tomate al
finalizar el 35 42 36
período de 36 43 36
estudio se
muestra en la 38 44 37
Tabla:
39 46 38

Análisis de la Varianza
Ing. Erica Raña 11
 Qué variables intervienen en el experimento?

 Cuál es el tratamiento aplicado?

 Cuál es la variable respuesta?

Análisis de la Varianza
Ing. Erica Raña 12
La técnica de análisis de la varianza presupone un
modelo para la variable respuesta.

Modelo lineal de ANOVA (a una vía de clasificación) para la


observación Yij

Yij =  i + ij Yij = + i + ij ,


con i = 1,...,a y j = 1,..,n

siendo:
Yij la j-ésima observación del i-ésimo tratamiento
 la media general de las observaciones
i el efecto del i-ésimo tratamiento
ij una variable aleatoria normal independientemente
distribuida con esperanza 0 y varianza 2 i,j.

Análisis de la Varianza
Ing. Erica Raña 13
 Mediante el ANOVA de efectos fijos se puede
contrastar la hipótesis de que los efectos de
tratamientos son nulos vs. que al menos uno no
lo es.
En términos estadísticos:

H0: 1=...=a= 0

H1: Al menos un tratamiento tiene efecto no


nulo.

Análisis de la Varianza
Ing. Erica Raña 14
 Otra forma de enunciar estas hipótesis es:

H0: Las medias de los tratamientos que se comparan


NO difieren

H1: Al menos dos medias difieren significativamente.

Siendo i = + i

Análisis de la Varianza
Ing. Erica Raña 15

4 2 3 1

2
El ANOVA permite descomponer la variación total
de las observaciones en:

 la variación entre unidades que recibieron


distintos tratamientos y

 la variación entre unidades dentro de cada


tratamiento (entre unidades experimentales que
reciben el mismo tratamiento).

Análisis de la Varianza
Ing. Erica Raña 18
2
 El ANOVA se basa en la descomposición de la
variación total de los datos con respecto a la media
global (SCTot) en dos partes (bajo el supuesto de
que H0 es cierta).

 Variación entre grupos (SCE) o Inter-grupos,


cuantifica la dispersión de las medias de las muestras
con respecto a la media global.

 Variación dentro de los grupos (SCD) o Intra-grupos,


cuantifica la dispersión de cada observación con
respecto a la media de su grupo (tratamiento).

Análisis de la Varianza
Ing. Erica Raña 20
 El criterio es:

 Si la H0 es cierta, la variabilidad observada entre


las unidades experimentales se debe al azar.

 De lo contrario, si algún tratamiento presentó un


efecto significativo, la variabilidad observada entre
los grupos, será mayor que la esperada solo por
el azar.

 La forma de decidir es comparar la variabilidad


“entre grupos” con la variabilidad “dentro de los
grupos” a través de una prueba de F
Análisis de la Varianza
Ing. Erica Raña 21
Hipótesis nula

Hipótesis alternativa

4 2 3 1

Entonces, se plantean las hipótesis siguientes:
2 2
𝐻0 : 𝜎𝑒𝑛𝑡𝑟𝑒 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 ≤ 𝜎𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠
2 2
𝐻1 : 𝜎𝑒𝑛𝑡𝑟𝑒 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 > 𝜎𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠

Nivel de significación: a

Se rechazará la 𝐻0 si 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 > 𝐹 𝛼,𝑔𝑙1;𝑔𝑙2

El estadístico se calcula así:


2
𝑠𝑒𝑛𝑡𝑟𝑒
𝐹= 2
𝑠𝑑𝑒𝑛𝑡𝑟𝑜

Análisis de la Varianza
Ing. Erica Raña 23
2 2
Cómo calcular 𝑠𝑒𝑛𝑡𝑟𝑒 y 𝑠𝑑𝑒𝑛𝑡𝑟𝑜 ?

Recordemos:

2 𝑥𝑖 −𝑥 2 𝑆𝑢𝑚𝑎 𝑑𝑒 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠
𝜎 = =
𝑛−1 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑

Hay que calcular las sumas de cuadrados


correspondientes y dividir entre los grados de
libertad

Análisis de la Varianza
Ing. Erica Raña 24
Análisis de la Varianza
Ing. Erica Raña 25
 El desvío con respecto a la media general para la
observación ij es:

Y  Y   Y  Y  Y  Y 
ij .. i. .. ij i.

 Elevando al cuadrado y ordenando, se obtienen las


expresiones para calcular las Sumas de Cuadrados:

 y   
 y ..  ni  yi.  y ..    yij  yi. 
2 2 2

ij
i j i i j

SC Total = SC Entre Trat + SC Dentro Trat

Análisis de la Varianza
Ing. Erica Raña
 La altura de las 15 plantas de tomate al finalizar los
tratamientos son:
Grupo
j i 1 2 3
1 37 41 35
2 35 42 36
3 36 43 36
4 38 44 37
5 39 46 38

Totales Yi. 185 216 182 Total gral:


Y.. = 583
Medias Yi. 37 43,2 36,4 Prom. gral:
Y .. = 38,87
Análisis de la Varianza 27
Ing. Erica Raña
Formato de una Tabla de ANOVA
Fuente de Variación Suma de Cuadrados Grados de Cuadrado F Obs.
Libertad Medio

Entre Tratamientos SCTrat gle= k-1 CMTrat


ni  yi.  y ..
i

2

CMTrat
CMError
Dentro SCError = SCResidual = gld=N-k CMError
(Error SCTot - SCTrat
Experimental)
 y  yi . 
2
ij
i j

Total SCTot glt=N- 1


  y ij  y .. 
2

Análisis de la Varianza
Ing. Erica Raña 28
Análisis de la Varianza
Ing. Erica Raña 29
2 𝑦 2 .. 5832
 𝑆𝐶𝑇𝑜𝑡 = 𝑦
𝑖,𝑗 𝑖𝑗 − = 22831 − = 171,73
𝑛. 15

𝑦𝑖.2𝑦 2 .. 1852 2162 1822 5832


 𝑆𝐶𝑇𝑟𝑎𝑡 = 𝑖 𝑛 − 𝑛. = + + − =
𝑖 5 5 5 15
141.73

 𝑆𝐶𝑅𝑒𝑠 = 𝑆𝐶𝑇𝑜𝑡 − 𝑆𝐶𝑇𝑟𝑎𝑡 = 171,73 − 141.73 = 30,0

Análisis de la Varianza
Ing. Erica Raña 30
Fuente de Suma de Grados de Cuadrado F
Variación Cuadrados Libertad Medio
Entre 141,73 glTrat = k -1 141,73 / 2 =
Tratamientos 3-1 = 2 70,87

70,87 / 2,5 =
Dentro (Error 30,00 glError =N-k 30,00 / 12 =
Experimental) 15-3 = 12 2,5
28,35

Total 171,73 glTot = N-1


15 – 1 = 14

Análisis de la Varianza
Ing. Erica Raña 31
 El estadístico F es el cociente entre
CMTrat/CMError = 28,35.

 El valor F(glTrat, glError)0,05 = F(2, 12)0,05 = 3,88

 Debido a que Fcalc= 28,35 > 3,88, la decisión es


rechazar la H0

Análisis de la Varianza
Ing. Erica Raña 32
 El valor p para ésta prueba resultó 0,0001.

p se interpreta como el peso de la evidencia de


los datos a favor de la H0

Decisión: Rechazar la H0

 Al rechazar la H0 sobre las varianzas, se está


rechazando también la H0 sobre las medias de los
tratamientos.

Conclusión: Existe evidencia suficiente de que los


tratamientos tienen distintos efectos sobre la altura
de las plantas de tomate.

Análisis de la Varianza
Ing. Erica Raña 33
En otras palabras,

Las alturas promedio de las plantas de tomate, al


menos para dos grupos, difieren estadísticamente.

Análisis de la Varianza
Ing. Erica Raña 34
H0: Las medias de los tratamientos que se
comparan no difieren

H1: Al menos dos medias difieren


significativamente.

Análisis de la Varianza
Ing. Erica Raña 35
La pregunta que el ANOVA no responde es:
¿cuál o cuáles de las medias
poblacionales en estudio son las
diferentes?

Para resolver éste problema, recurrimos a


las Pruebas de Comparaciones Múltiples
que permiten establecer cuales de las
diferencias observadas se deben al azar y
cuales se pueden atribuir a los tratamientos

Análisis de la Varianza
Ing. Erica Raña 36
Mediante un único contraste de hipótesis, se realizan
múltiples comparaciones dos a dos.
La idea central de todas ellas es la determinación de
un umbral.
Si la diferencia entre dos de las medias de los niveles
del factor está por encima de ese umbral, se
considerará significativa.
Si esa diferencia está por debajo del umbral se
considerará no significativa.
Cada una de las pruebas de comparaciones múltiples
crea un umbral distinto según un criterio diferente.

Análisis de la Varianza
Ing. Erica Raña 37
Se debe usar para contrastes planificados

La DMS para la comparación de las medias de dos


tratamientos es:

1 1
𝐷𝑀𝑆 = 𝑡 𝑎𝑙𝑓𝑎 𝐶𝑀𝐸 +
( 2 ;𝑔𝑙 𝑒𝑟𝑟𝑜𝑟) 𝑛1 𝑛2

La diferencia entre las medias de los tratamientos 1 y 2


se declara significativa si

𝑦1 − 𝑦2 > 𝐷𝑀𝑆

Análisis de la Varianza
Ing. Erica Raña 38
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo. 141,73 2 70,87 28,35 <0,0001
Fertilizante 141,73 2 70,87 28,35 <0,0001
Error 30,00 12 2,50
Total 171,73 14

Test:LSD Fisher Alfa=0,05 DMS=2,17881


Error: 2,5000 gl: 12
Fertilizante Medias n E.E.
C 36,40 5 0,71 a
A 37,00 5 0,71 a
B 43,20 5 0,71 b
Medias con una letra común no son significativamente diferentes (p > 0,05)

Análisis de la Varianza
Ing. Erica Raña 39
Se basa en el estadístico de Tukey.
Se calculan todas las diferencias de medias
muestrales entre los niveles del factor estudiado y
se comparan con el umbral D
𝐶𝑀𝐸
∆ = 𝑞(𝑡,𝑔𝑙𝐸)
𝑛
La diferencia entre las medias de dos
tratamientos se declara significativa si
𝑦1 − 𝑦2 > ∆

Análisis de la Varianza
Ing. Erica Raña 40
 Cuadro de Análisis de la Varianza (SC tipo III)
 F.V. SC gl CM F p-valor
 Modelo. 141,73 2 70,87 28,35 <0,0001
 Fertilizante 141,73 2 70,87 28,35 <0,0001
 Error 30,00 12 2,50
 Total 171,73 14

 Test:Tukey Alfa=0,05 DMS=2,66786


 Error: 2,5000 gl: 12
 Fertilizante Medias n E.E.
 C 36,40 5 0,71 a
 A 37,00 5 0,71 a
 B 43,20 5 0,71 b

 Medias con una letra común no son significativamente diferentes (p > 0,05)

Análisis de la Varianza
Ing. Erica Raña 41
Altura de plantas de Tomate

45 B

A A
36
Altura plantas

27

18

0
C A B
Fertilizante

Análisis de la Varianza
Ing. Erica Raña 42
Es parecido al test de Tukey, pero no trabaja con
un umbral fijo sino con un umbral cambiante,
que dependerá del número de medias implicadas
en el contraste.
Genera un umbral más pequeño que el de Tukey,
lo cual da una mayor capacidad de encontrar
diferencias entre las medias comparadas.
El Test de Tukey es más conservador que el de
Duncan (tiene menos potencia).

Análisis de la Varianza
Ing. Erica Raña 43
Permite comparar las (k-1)medias con el control.
Es una modificación de la prueba de t , que puede usarse en
diseños desbalanceados.

También podría gustarte