Análisis de La Varianza ANOVA

Análisis de la Varianza
(1ª parte: ANOVA simple)

PROBLEMA 1: Dada una variable cuantitativa continua Y, y una
variable cualitativa F, determínese si entre ambas hay relación, o no.
Ejemplos: Tiempo de cura / medicamento utilizado

Rendimiento de cosechas / fertilizante
Renta familiar / hábito de lectura
Número de préstamos / ubicación
PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variables

cualitativas F1, F2,…, Fn, determínese cuáles de ellas infuyen en Y, y cuáles
no (es decir, cuáles guardan relación con Y).
Ejemplos: Tiempo de cura / medicamento utilizado, grupo sanguíneo

Número de préstamos / sexo, nivel de estudios, afición al cine
PROBLEMA 1: Dada una variable cuantitativa continua Y, y una
variable cualitativa F, determínese si entre ambas hay relación, o no.
Y: variable respuesta (numérica)

ANOVA simple F: factor (cualitativa)
PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variables

cualitativas F1, F2,…, Fn, determínese cuáles de ellas infuyen en Y, y cuáles

F1, F2,…, Fn : factores (cualitativas)
ANOVA
multifactorial
1. ANOVA simple: idea
F: factor (cualitativa)
¿Son independientes Y y F? ¿Hay relación entre Y y F? ¿Hay
diferencias significativas en el valor de Y, según que F tome
uno u otro valor? ¿Influye F en el valor de Y? ¿Hay diferencias en los valores
de Y, entre los distintos grupos determinados por F?
Y Medias en
cada nivel
de factor
µ2
µ1
µ3
F
1 2 3
Niveles de factor
F: factor (cualitativa)
Si el valor de F no guarda relación con el de Y… ¿Cómo deberían ser
µ1, µ2, µ3?
Media global
µ2
µ
µ1
µ3
F
1 2 3
H0: µ1= µ2= µ3
H1: alguna µi es distinta
H0 equivalente a: Y, F son independientes; Y, F no guardan

relación; F no influye en el valor de Y; no hay diferencias
significativas en Y según distintos valores de F, etc.
Rechazar H0 equivale a encontrar

dependencia entre F e Y.
¿Cómo contrastar
H0: µ1= µ2= … = µn
H1: alguna µi es
distinta ?
Mala idea: varios contrastes Buena idea: descomposición

H0: µi=µk de la variabilidad
H1: µi≠µk
Error de tipo I se acumula,

la confianza “total” es Pizarra
demasiado baja
Yik
Residuo del
Y dato Yik:
Yik-µi
Media global
µ2
µ
µ1
µ3
F
1 2 3
Yik: el primer subíndice (i) indica el valor del nivel del factor; el
segundo (k), el orden que ocupa el dato dentro de los perte-
necientes a ese nivel del factor.
TABLA DE ANOVA:
Fuente de Suma de Grados de Varianzas ó Cociente-F

variación cuadrados libertad cuadrados
medios
Entre- 
 i  
y  y  2
I-1 se2  VE / I  1 sˆe2 / sˆR2
grupos(VE) i, j
Intra-gruposó
 y  yi   N-I
2
ij sR2  VNE / N  I
residual ó no i, j
explicada
(VNE)
 y  y  
2
Total (VT)
ij N-1
i, j
sˆe2 / sˆR2  FI 1, N 1 Raíz cuadrada de

se2: error experimental
TABLA DE ANOVA:
SCE: suma de cuadr. explicada o entre-grupos
------------------------------------------------------------------------------
Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor
------------------------------------------------------------------------------
Entre grupos 1,05061E9 3 3,50202E8 1,21 0,3104
Intra grupos 2,69068E10 93 2,8932E8
------------------------------------------------------------------------------
Total (Corr.) 2,79574E10 96
SCR: suma de cuadr. residual o intra-grupos

SCT: suma de cuadr. totales
SCE
 100  VARIABILIDAD EXPLICADA
SCT
H0: µ1= µ2= … = µn
H1: alguna µi es distinta ?
Rechazamos si p-valor < nivel de significación
Intuitivamente, aceptaremos cuando la variabilidad explicada es pequeña

(es decir, rechazamos cuando la variabilidad explicada es grande)
Statgraphics
Resumen:
Concepto Valor Estim.

Media total μ y
Media de cada nivel μi yi
(grupo)
Efecto de cada nivel αi=μi-μ yi  y
(grupo)
Residuo εij = yii-μi yij  yi
Concepto
Variabilidad total
  y  y 
I ni
2
ij
(VT ó SCT) i 1 j 1
Variab. Residual ni
  y  yi  
I
2
ij
(VR ó VNE ó SCR) i 1 j 1
ni
Variab. Explicada I
 
 i 
2
y  y
(VE ó SCE) i 1 j 1
Error experimental (σ) VNE

ˆ 
NI
Coef. Det. R2 (VE/VT) x 100
2. El modelo de ANOVA simple
Descripción del modelo: PIZARRA
Requisitos del modelo:
1.- Normalidad en cada nivel de factor.

2.- Homocedasticidad (igual varianza en cada nivel de factor)
3.- Independencia de las observaciones: residuos aleatorios.
H 0: σ1 = σ 2= … = σ n
H1: alguna σi es distinta
Requisitos del modelo:
1.- Normalidad en cada nivel de factor.

2.- Homocedasticidad (igual varianza en cada nivel de factor)
3.- Independencia de las observaciones: residuos aleatorios.
Se traducen en que los residuos son

aleatorios, y siguen una normal N(0,σ)
Error experimental
¿Qué hacer si alguna hipótesis falla?
- Si falla la homocedasticidad, siempre que no haya

grandes diferencias entre el número de observaciones
en los distintos grupos (niveles de factor), el ANOVA
sigue siendo fiable.
- El contraste de ANOVA es robusto frente a la violación

del supuesto de normalidad. El no-cumplimiento de
esta hipótesis sí puede afectar a la estimación del
error experimental.
- Transformaciones de los datos…

¿Qué hacer si alguna hipótesis falla?
- El verdadero problema es la independencia de las

observaciones. La violación de este supuesto sí pone
en duda las conclusiones del ANOVA; suele ser debido
a:
1.- errores en el muestreo (efecto aprendizaje,
descuidos, falta de aleatorización, etc.)
2.- existencia de otros factores que también

influyen en la variable respuesta, y no han
sido tomados en consideración (necesidad
de aplicar no un ANOVA con un factor, sino
un ANOVA multifactorial)
De hecho, la independencia de las observaciones
debería quedar garantizada por el modo en que
se ha diseñado el estudio:
(1) Modelo correcto: evidencia razonable de que

hay un único factor que pueda tener influencia
sobre Y.
(2) Una correcta recogida de los datos: Principio de

aleatorización. “Todos los factores no controlados
por el experimentador y que puedan influir en los
resultados, deben asignarse al azar a las obser-
vaciones” (D.Peña).
IMPORTANTE: si se rechaza la hipótesis nula, en
el contraste de ANOVA, eso significa que no todas las
medias son iguales. Sin embargo, puede que algunas
sí que sean iguales.
Para decidir qué grupos tienen medias similares,

descomponemos los niveles del factor en grupos
homogéneos.
Statgraphics
3. Contraste de Kruskal-Wallis
- Método no-paramétrico
- Util si fallan los requisitos del ANOVA (aunque inferior

a ANOVA).
- Realiza un contraste sobre las medianas
H0: M1= M2=…= Mn

H1: alguna Mi es distinta.
- Utiliza la noción de rango. La idea es ordenar de menor a

mayor todos los datos (sin atender al nivel del factor del que
provienen), asignar rangos, y comparar después los rangos
medios correspondientes a los distintos niveles del factor.
(2ª parte: ANOVA multifactorial)
4. Anova multifactorial: planteamiento general
PROBLEMA: Dada una variable cuantitativa continua Y, varias variables

cualitativas F1, F2,…, Fn, determínese cuáles de ellas influyen en Y, y cuáles

F1, F2,…, Fn : factores (cualitativas)
Ejemplo: Y tiempo de cura, F1 medicamento administrado, F2 grupo

sanguíneo; Y nº de visitas a una página web, F1 nivel de estudios,
F2 sexo.
Si Fi influye en el valor de Y (si existen diferencias significativas en Y

según los distintos valores de Fi) decimos que Fi es SIGNIFICATIVO.
Por tanto, un primer problema consiste en determinar cuáles de

los factores considerados en un cierto estudio, son significativos.
Dos modelos:
1. Sin interacción: consideramos que los efectos de los factores se suman,

sin que la combinación de factores produzca cambios cualitativos.
PROBLEMA: Determinar factores significativos.
2. Con interacción: consideramos la posibilidad de que la combinación de

factores produzca cambios cualitativos.
PROBLEMA 1: Determinar factores significativos.

PROBLEMA 2: Determinar la existencia de “interacción” entre
factores (es decir, qué combinaciones de factores
pueden tener un efecto cualitativo distinto a la
mera suma de efectos).
Un intento de visualizar qué implica que un factor sea o no significativo….

Y
1 2
F2
B
F1
Las medias en A y B parecen muy
Y
diferentes; por tanto, F1 significativo.
µB
µA
1 2
F2
B
F1
µ1
Y
µ2
1 2
F2
B
Las medias en 1 y 2 parecen muy

F1
similares; por tanto, F2 NO significativo.
5. Modelo de ANOVA multifactorial sin interacción
- Modelo: PIZARRA
- Requisitos del modelo: suponemos que F1 tiene “a” niveles,

y F2 tiene “b” niveles. Por tanto, en total hay a.b subgrupos.
1.- Cada uno de los subgrupos es normal.

2.- La varianza es la misma en todos ellos (Homocedasticidad)
3.- Independencia de las observaciones (residuos aleatorios)
1 + 2 + 3 = Residuos normales N(0,σ); σ: error experimental
Esto es lo que, en este caso, debemos

comprobar
Descomposición de la variabilidad (dos factores):
VT = VE(α) + VE(β) + VNE
Variabilidad No explicada o
total residual
Explicada por Explicada por

el primer factor el primer factor
Un factor será significativo si está “explicando” una

parte significativa de la variabilidad total…
Ejemplo (Selectividad):
Coeficiente de determinación (dos factores):
Es una medida de la “bondad” del modelo (se entiende

que realizamos el ANOVA para explicar las diferencias
encontradas en la variable respuesta; este coeficiente
mide el porcentaje de variabilidad que estamos
explicando).
VE VE ( )  VE (  )
R 
2
  R2  R2
VT VT
parciales,
asociados a
total
los distintos
factores.
Análogamente, si tenemos más de dos factores…
¿Por qué no aplicar varios ANOVAS simples?
Con un ANOVA simple, toda la variabilidad que no es explicada por un

factor queda camuflada como “azar”; por tanto, con varios ANOVAS
simples, los factores más potentes son visibles, pero otros pueden
quedar “escondidos”.
efectos
“uno a uno”
“todos juntos”
F1 F2 F3 factores
6. Modelo de ANOVA multifactorial con interacción
Decimos que existe INTERACCION si los factores no son indepen-

dientes, es decir, si el efecto de alguno de ellos depende del nivel en
que esté el otro.
Idea intuitiva de lo que supone

la existencia de interacción…
Y
1 2
1 2
F2
B
F1
Y
NO hay interacción
1 2
1 2
F2
B
F1
Y
A
B
1 2
1 2
F2
B
F1
Y
SI hay interacción
A
B
1 2
1 2
F2
B
F1
- Modelo: PIZARRA
- Requisitos del modelo: 1,2,3 como en el caso sin interacción (ojo, los
residuos no son los mismos en uno y otro caso).
1 + 2 + 3 = Residuos normales N(0,σ); σ: error experimental
Esto es lo que, en este caso, debemos

comprobar
- IMPORTANTE: para poder estudiar la interacción, necesitamos tener

al menos una observación por cada combinación de niveles entre los
factores (es decir, es un modelo más completo, pero también más
“caro”).
Descomposición de la variabilidad (dos factores):
VT = VE(α) + VE(β) + VE(αβ) + VNE
No explicada o
Variabilidad residual
total Explicada por la
interacción
Explicada por Explicada por
el primer factor el primer factor
Un factor (resp. interacción) será significativo si está

“explicando” una parte significativa de la variabilidad
total…
Statgraphics

Análisis de La Varianza ANOVA

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de La Varianza ANOVA

Cargado por

Copyright:

Formatos disponibles

Análisis de la Varianza

(1ª parte: ANOVA simple)

Ejemplos: Tiempo de cura / medicamento utilizado

PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variables

Ejemplos: Tiempo de cura / medicamento utilizado, grupo sanguíneo

Y: variable respuesta (numérica)

PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variables

Y: variable respuesta (numérica)

H0 equivalente a: Y, F son independientes; Y, F no guardan

Rechazar H0 equivale a encontrar

Mala idea: varios contrastes Buena idea: descomposición

Error de tipo I se acumula,

Fuente de Suma de Grados de Varianzas ó Cociente-F

sˆe2 / sˆR2  FI 1, N 1 Raíz cuadrada de

SCR: suma de cuadr. residual o intra-grupos

Rechazamos si p-valor < nivel de significación

Intuitivamente, aceptaremos cuando la variabilidad explicada es pequeña

Concepto Valor Estim.

Error experimental (σ) VNE

Descripción del modelo: PIZARRA

Requisitos del modelo:

1.- Normalidad en cada nivel de factor.

1.- Normalidad en cada nivel de factor.

Se traducen en que los residuos son

- Si falla la homocedasticidad, siempre que no haya

- El contraste de ANOVA es robusto frente a la violación

- Transformaciones de los datos…

- El verdadero problema es la independencia de las

2.- existencia de otros factores que también

(1) Modelo correcto: evidencia razonable de que

(2) Una correcta recogida de los datos: Principio de

Para decidir qué grupos tienen medias similares,

- Util si fallan los requisitos del ANOVA (aunque inferior

- Realiza un contraste sobre las medianas

H0: M1= M2=…= Mn

- Utiliza la noción de rango. La idea es ordenar de menor a

PROBLEMA: Dada una variable cuantitativa continua Y, varias variables

Y: variable respuesta (numérica)

Ejemplo: Y tiempo de cura, F1 medicamento administrado, F2 grupo

Si Fi influye en el valor de Y (si existen diferencias significativas en Y

Por tanto, un primer problema consiste en determinar cuáles de

1. Sin interacción: consideramos que los efectos de los factores se suman,

PROBLEMA: Determinar factores significativos.

2. Con interacción: consideramos la posibilidad de que la combinación de

PROBLEMA 1: Determinar factores significativos.

Un intento de visualizar qué implica que un factor sea o no significativo….

Las medias en 1 y 2 parecen muy

- Requisitos del modelo: suponemos que F1 tiene “a” niveles,

1.- Cada uno de los subgrupos es normal.

1 + 2 + 3 = Residuos normales N(0,σ); σ: error experimental

Esto es lo que, en este caso, debemos

VT = VE(α) + VE(β) + VNE

Explicada por Explicada por

Un factor será significativo si está “explicando” una

Es una medida de la “bondad” del modelo (se entiende

Con un ANOVA simple, toda la variabilidad que no es explicada por un

Decimos que existe INTERACCION si los factores no son indepen-

Idea intuitiva de lo que supone

1 + 2 + 3 = Residuos normales N(0,σ); σ: error experimental

Esto es lo que, en este caso, debemos

- IMPORTANTE: para poder estudiar la interacción, necesitamos tener

VT = VE(α) + VE(β) + VE(αβ) + VNE

Un factor (resp. interacción) será significativo si está