Está en la página 1de 40

Análisis de la Varianza

(1ª parte: ANOVA simple)


PROBLEMA 1: Dada una variable cuantitativa continua Y, y una
variable cualitativa F, determínese si entre ambas hay relación, o no.

Ejemplos: Tiempo de cura / medicamento utilizado


Rendimiento de cosechas / fertilizante
Renta familiar / hábito de lectura
Número de préstamos / ubicación

PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variables


cualitativas F1, F2,…, Fn, determínese cuáles de ellas infuyen en Y, y cuáles
no (es decir, cuáles guardan relación con Y).

Ejemplos: Tiempo de cura / medicamento utilizado, grupo sanguíneo


Número de préstamos / sexo, nivel de estudios, afición al cine
PROBLEMA 1: Dada una variable cuantitativa continua Y, y una
variable cualitativa F, determínese si entre ambas hay relación, o no.

Y: variable respuesta (numérica)


ANOVA simple F: factor (cualitativa)

PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variables


cualitativas F1, F2,…, Fn, determínese cuáles de ellas infuyen en Y, y cuáles
no (es decir, cuáles guardan relación con Y).

Y: variable respuesta (numérica)


F1, F2,…, Fn : factores (cualitativas)
ANOVA
multifactorial
Y: variable respuesta (numérica)
1. ANOVA simple: idea
F: factor (cualitativa)
¿Son independientes Y y F? ¿Hay relación entre Y y F? ¿Hay
diferencias significativas en el valor de Y, según que F tome
uno u otro valor? ¿Influye F en el valor de Y? ¿Hay diferencias en los valores
de Y, entre los distintos grupos determinados por F?

Y Medias en
cada nivel
de factor
µ2

µ1
µ3

F
1 2 3

Niveles de factor
Y: variable respuesta (numérica)
F: factor (cualitativa)
Si el valor de F no guarda relación con el de Y… ¿Cómo deberían ser
µ1, µ2, µ3?

Media global

µ2

µ
µ1
µ3

F
1 2 3
H0: µ1= µ2= µ3
H1: alguna µi es distinta

H0 equivalente a: Y, F son independientes; Y, F no guardan


relación; F no influye en el valor de Y; no hay diferencias
significativas en Y según distintos valores de F, etc.

Rechazar H0 equivale a encontrar


dependencia entre F e Y.
¿Cómo contrastar
H0: µ1= µ2= … = µn
H1: alguna µi es
distinta ?

Mala idea: varios contrastes Buena idea: descomposición


H0: µi=µk de la variabilidad
H1: µi≠µk

Error de tipo I se acumula,


la confianza “total” es Pizarra
demasiado baja
Yik
Residuo del
Y dato Yik:
Yik-µi
Media global

µ2
µ
µ1
µ3

F
1 2 3

Yik: el primer subíndice (i) indica el valor del nivel del factor; el
segundo (k), el orden que ocupa el dato dentro de los perte-
necientes a ese nivel del factor.
TABLA DE ANOVA:

Fuente de Suma de Grados de Varianzas ó Cociente-F


variación cuadrados libertad cuadrados
medios

Entre- 
 i  
y  y  2
I-1 se2  VE / I  1 sˆe2 / sˆR2
grupos(VE) i, j

Intra-gruposó
 y  yi   N-I
2
ij sR2  VNE / N  I
residual ó no i, j
explicada
(VNE)

 y  y  
2
Total (VT)
ij N-1
i, j

sˆe2 / sˆR2  FI 1, N 1 Raíz cuadrada de


se2: error experimental
TABLA DE ANOVA:
SCE: suma de cuadr. explicada o entre-grupos

Análisis de la Varianza
------------------------------------------------------------------------------
Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor
------------------------------------------------------------------------------
Entre grupos 1,05061E9 3 3,50202E8 1,21 0,3104
Intra grupos 2,69068E10 93 2,8932E8
------------------------------------------------------------------------------
Total (Corr.) 2,79574E10 96

SCR: suma de cuadr. residual o intra-grupos


SCT: suma de cuadr. totales
SCE
 100  VARIABILIDAD EXPLICADA
SCT
H0: µ1= µ2= … = µn
H1: alguna µi es distinta ?

Rechazamos si p-valor < nivel de significación

Intuitivamente, aceptaremos cuando la variabilidad explicada es pequeña


(es decir, rechazamos cuando la variabilidad explicada es grande)

Statgraphics
Resumen:

Concepto Valor Estim.


Media total μ y
Media de cada nivel μi yi
(grupo)
Efecto de cada nivel αi=μi-μ yi  y
(grupo)
Residuo εij = yii-μi yij  yi
Concepto

Variabilidad total
  y  y 
I ni
2
ij
(VT ó SCT) i 1 j 1

Variab. Residual ni

  y  yi  
I
2
ij
(VR ó VNE ó SCR) i 1 j 1

ni
Variab. Explicada I
 
 i 
2
y  y
(VE ó SCE) i 1 j 1

Error experimental (σ) VNE


ˆ 
NI
Coef. Det. R2 (VE/VT) x 100
2. El modelo de ANOVA simple

Descripción del modelo: PIZARRA

Requisitos del modelo:

1.- Normalidad en cada nivel de factor.


2.- Homocedasticidad (igual varianza en cada nivel de factor)
3.- Independencia de las observaciones: residuos aleatorios.

H 0: σ1 = σ 2= … = σ n
H1: alguna σi es distinta
Requisitos del modelo:

1.- Normalidad en cada nivel de factor.


2.- Homocedasticidad (igual varianza en cada nivel de factor)
3.- Independencia de las observaciones: residuos aleatorios.

Se traducen en que los residuos son


aleatorios, y siguen una normal N(0,σ)

Error experimental
¿Qué hacer si alguna hipótesis falla?

- Si falla la homocedasticidad, siempre que no haya


grandes diferencias entre el número de observaciones
en los distintos grupos (niveles de factor), el ANOVA
sigue siendo fiable.

- El contraste de ANOVA es robusto frente a la violación


del supuesto de normalidad. El no-cumplimiento de
esta hipótesis sí puede afectar a la estimación del
error experimental.

- Transformaciones de los datos…


¿Qué hacer si alguna hipótesis falla?

- El verdadero problema es la independencia de las


observaciones. La violación de este supuesto sí pone
en duda las conclusiones del ANOVA; suele ser debido
a:
1.- errores en el muestreo (efecto aprendizaje,
descuidos, falta de aleatorización, etc.)

2.- existencia de otros factores que también


influyen en la variable respuesta, y no han
sido tomados en consideración (necesidad
de aplicar no un ANOVA con un factor, sino
un ANOVA multifactorial)
De hecho, la independencia de las observaciones
debería quedar garantizada por el modo en que
se ha diseñado el estudio:

(1) Modelo correcto: evidencia razonable de que


hay un único factor que pueda tener influencia
sobre Y.

(2) Una correcta recogida de los datos: Principio de


aleatorización. “Todos los factores no controlados
por el experimentador y que puedan influir en los
resultados, deben asignarse al azar a las obser-
vaciones” (D.Peña).
IMPORTANTE: si se rechaza la hipótesis nula, en
el contraste de ANOVA, eso significa que no todas las
medias son iguales. Sin embargo, puede que algunas
sí que sean iguales.

Para decidir qué grupos tienen medias similares,


descomponemos los niveles del factor en grupos
homogéneos.

Statgraphics
3. Contraste de Kruskal-Wallis

- Método no-paramétrico

- Util si fallan los requisitos del ANOVA (aunque inferior


a ANOVA).

- Realiza un contraste sobre las medianas

H0: M1= M2=…= Mn


H1: alguna Mi es distinta.

- Utiliza la noción de rango. La idea es ordenar de menor a


mayor todos los datos (sin atender al nivel del factor del que
provienen), asignar rangos, y comparar después los rangos
medios correspondientes a los distintos niveles del factor.
Análisis de la Varianza
(2ª parte: ANOVA multifactorial)
4. Anova multifactorial: planteamiento general

PROBLEMA: Dada una variable cuantitativa continua Y, varias variables


cualitativas F1, F2,…, Fn, determínese cuáles de ellas influyen en Y, y cuáles
no (es decir, cuáles guardan relación con Y).

Y: variable respuesta (numérica)


F1, F2,…, Fn : factores (cualitativas)

Ejemplo: Y tiempo de cura, F1 medicamento administrado, F2 grupo


sanguíneo; Y nº de visitas a una página web, F1 nivel de estudios,
F2 sexo.

Si Fi influye en el valor de Y (si existen diferencias significativas en Y


según los distintos valores de Fi) decimos que Fi es SIGNIFICATIVO.

Por tanto, un primer problema consiste en determinar cuáles de


los factores considerados en un cierto estudio, son significativos.
Dos modelos:

1. Sin interacción: consideramos que los efectos de los factores se suman,


sin que la combinación de factores produzca cambios cualitativos.

PROBLEMA: Determinar factores significativos.

2. Con interacción: consideramos la posibilidad de que la combinación de


factores produzca cambios cualitativos.

PROBLEMA 1: Determinar factores significativos.


PROBLEMA 2: Determinar la existencia de “interacción” entre
factores (es decir, qué combinaciones de factores
pueden tener un efecto cualitativo distinto a la
mera suma de efectos).

Un intento de visualizar qué implica que un factor sea o no significativo….


Y

1 2
F2
B

F1
Las medias en A y B parecen muy
Y
diferentes; por tanto, F1 significativo.
µB

µA

1 2
F2
B

F1
µ1
Y

µ2

1 2
F2
B

Las medias en 1 y 2 parecen muy


F1
similares; por tanto, F2 NO significativo.
5. Modelo de ANOVA multifactorial sin interacción

- Modelo: PIZARRA

- Requisitos del modelo: suponemos que F1 tiene “a” niveles,


y F2 tiene “b” niveles. Por tanto, en total hay a.b subgrupos.

1.- Cada uno de los subgrupos es normal.


2.- La varianza es la misma en todos ellos (Homocedasticidad)
3.- Independencia de las observaciones (residuos aleatorios)

1 + 2 + 3 = Residuos normales N(0,σ); σ: error experimental

Esto es lo que, en este caso, debemos


comprobar
Descomposición de la variabilidad (dos factores):

VT = VE(α) + VE(β) + VNE

Variabilidad No explicada o
total residual

Explicada por Explicada por


el primer factor el primer factor

Un factor será significativo si está “explicando” una


parte significativa de la variabilidad total…
Ejemplo (Selectividad):
Coeficiente de determinación (dos factores):

Es una medida de la “bondad” del modelo (se entiende


que realizamos el ANOVA para explicar las diferencias
encontradas en la variable respuesta; este coeficiente
mide el porcentaje de variabilidad que estamos
explicando).

VE VE ( )  VE (  )
R 
2
  R2  R2
VT VT
parciales,
asociados a
total
los distintos
factores.
Análogamente, si tenemos más de dos factores…
¿Por qué no aplicar varios ANOVAS simples?

Con un ANOVA simple, toda la variabilidad que no es explicada por un


factor queda camuflada como “azar”; por tanto, con varios ANOVAS
simples, los factores más potentes son visibles, pero otros pueden
quedar “escondidos”.

efectos

“uno a uno”
“todos juntos”

F1 F2 F3 factores
6. Modelo de ANOVA multifactorial con interacción

Decimos que existe INTERACCION si los factores no son indepen-


dientes, es decir, si el efecto de alguno de ellos depende del nivel en
que esté el otro.

Idea intuitiva de lo que supone


la existencia de interacción…
Y

1 2

1 2
F2
B

F1
Y
NO hay interacción

1 2

1 2
F2
B

F1
Y

A
B

1 2

1 2
F2
B

F1
Y
SI hay interacción

A
B

1 2

1 2
F2
B

F1
- Modelo: PIZARRA

- Requisitos del modelo: 1,2,3 como en el caso sin interacción (ojo, los
residuos no son los mismos en uno y otro caso).

1 + 2 + 3 = Residuos normales N(0,σ); σ: error experimental

Esto es lo que, en este caso, debemos


comprobar

- IMPORTANTE: para poder estudiar la interacción, necesitamos tener


al menos una observación por cada combinación de niveles entre los
factores (es decir, es un modelo más completo, pero también más
“caro”).
Descomposición de la variabilidad (dos factores):

VT = VE(α) + VE(β) + VE(αβ) + VNE

No explicada o
Variabilidad residual
total Explicada por la
interacción
Explicada por Explicada por
el primer factor el primer factor

Un factor (resp. interacción) será significativo si está


“explicando” una parte significativa de la variabilidad
total…
Statgraphics

También podría gustarte