Está en la página 1de 23

Pruebas de Hipótesis-ANOVA

Curso de Seminario de Tesis


Profesor QF Jose Avila Parco
Año 2016
Análisis de la Varianza de un factor
(ANOVA)
• El análisis de la varianza (ANOVA) es una técnica estadística paramétrica de
contraste de hipótesis. El ANOVA de un factor sirve para comparar varios grupos en
una variable cuantitativa. Se trata, por tanto, de una generalización de la Prueba T
para dos muestras independientes al caso de diseños con más de dos muestras.

• A la variable categórica (nominal u ordinal) que define los grupos que deseamos
comparar la llamamos independiente o factor y la representamos por VI. A la variable
cuantitativa (de intervalo o razón) en la que deseamos comparar los grupos la
llamamos dependiente y la representamos por VD.

• La hipótesis nula que se pone a prueba en el ANOVA de un factor es que las medias
poblacionales (las medias de la VD en cada nivel de la VI) son iguales. Si las medias
poblacionales son iguales, eso significa que los grupos no difieren en la VD y que, en
consecuencia, la VI o factor es independiente de la VD.

18/08/2016 QF JOSE AVILA PARCO 2


ANOV
A
Condiciones:
Cada muestra debe ser independiente de las otras.

Cada muestra debe haber sido seleccionada al azar de la


población de donde proviene.

Las población de donde provienen las muestras debe tener


distribución normal.

Las varianzas de cada población deben ser iguales.

18/08/2016 QF JOSE AVILA PARCO 3


ANOV
Ejemplo A

Una Directora de un Instituto, preocupada de explicar los problemas de


comportamiento de sus estudiantes, se dispuso a hacer un estudio para
establecer si existían diferencias en ese aspecto según estado civil de los
padres, entre otras variables.

Para ese fin, solicitó a los padres de 45 estudiantes la aplicación del Child
Behavior Checklist, versión para padres. El CBCL (Achenbach, 1991) es un
instrumento conformado por 113 ítems que comprenden problemas
específicos, agrupados en síndromes que exploran dos tipos de anomalías de
conducta: externalización (agresión, delincuencia y trastornos de conducta) e
internalización (aislamiento, preocupaciones somáticas, depresión y ansiedad).
Además, (Friedrich et al., 1986) seis de sus ítems conforman la escala de
problemas sexuales, la que sólo se aplica a jóvenes de ambos sexos.

Los ítems son categorizados 0=no es cierto o nunca observado, 1=es cierto
algunas veces o de cierta manera, 2=muy cierto o a menudo cierto. El puntaje
total se obtiene a partir de la suma de los parciales.

18/08/2016 QF JOSE AVILA PARCO 4


ANOV
Paso 1: Obtiene los siguientes
datos A
CASADO SEPARADO VIUDO SOLTERO
10 23 78 22
19 62 70 70
36 90 48 48
55 30 68 28
45 73 62 45
41 30 29 30
30 40 38 55
41 28 68 45
32 43 60 50
46 54 61 42
38 49 58 66
15 19 25
30 62 60
55 28
63

5
18/08/2016 QF JOSE AVILA PARCO
ANOV
A grupo y la media global
Paso 2: Calculamos la media de cada

CASADO SEPARADO VIUDO SOLTERO


10 23 78 22

19 62 70 70
36 90 48 48
55 30 68 28
45 73 62 45
41 30 29 30
30 40 38 55
41 28 68 45
3M2 g 43 60 50
46 54 61 42
38 49 58 66
15 19 25
30 62 60
55 28
63
35,21 46,27 58,18 45,08 45,53

6
18/08/2016 QF JOSE AVILA PARCO
ANOV
A

Paso 3: Calculamos la suma de cuadrados de las desviaciones de cada observación


respecto a la media global, suma que denominaremos Suma de Cuadrados Total
(SCT) y que refleja la variabilidad total. Si se divide por el tamaño total de muestra
se obtiene la varianza total.

SCT   xi  M g
2


18/08/2016 QF JOSE AVILA PARCO 7
ANOV
CASADO SEPARADO A VIUDO SOLTERO
1262,26 507,52 1054,41 553,58
703,75 271,32 598,86 598,86

90,79 1977,73 6,11 6,11


89,71 241,13 504,98 307,24
0,28 754,69 271,32 0,28
20,51 241,13 273,18 241,13
241,13 30,56 56,68 89,71
20,51 307,24 504,98 0,28
183,01 6,39 209,43 20,00
0,22 71,77 239,37 12,45
56,68 12,05 155,54 419,09
931,98 703,75 421,41
241,13 271,32 209,43
89,71 307,24
305,26
SC    M 
2

16695,208
 16695,208
T xi g

8
18/08/2016 QF JOSE AVILA PARCO
ANOVA

Paso 4: Calculamos la suma de cuadrados de las desviaciones entre la media de


cada grupo y la media general. Esta es la suma de cuadrados explicada por el
factor considerado, a la que denominaremos Suma de cuadrados del factor (SCF)
o variabilidad explicada.

SC F   n K M K  M g 
2

• Siendo: Mg  media
nglobal
 número de sujetos en el grupo
k

M K
k  media aritmética del grupo k

En la literatura científica también se denomina a la SCF como SC Entre los


grupos (SS Between) o SC del Modelo (SS Model)

18/08/2016 QF JOSE AVILA PARCO 9


ANOV
A

CASADO SEPARADO VIUDO SOLTERO MEDIA GLOBAL

MEDIA 35,21 46,27 58,18 45,08 45,53


n 14 15 11 13
(x-X)2 106,38 0,55 160,11 0,20
n(x-X)2 1489,305 8,178 1761,226 2,649 3261,358

 Mg 
3261,358
SC F   n K M
2

K
18/08/2016 QF JOSE AVILA PARCO 10
ANOV
A
Paso 5: Calculamos la suma de cuadrados de las desviaciones entre cada dato y la
media de su grupo. Esta es la suma de cuadrados no explicada, a la que
denominaremos Suma de cuadrados residual (SCR) o variabilidad residual.

 
2
SC R    xik  M k 

 
• Siendo:  cada dato i del grupo k
xik
___
 media aritmética del grupo
xk k
En la literatura científica también se denomina a la SCR como SC Dentro de los
grupos (SS Within)

Si SCT  SCF  SCR  SCR  SCT 


SCF
18/08/2016 QF JOSE AVILA PARCO
11
ANOV
CASADO SEPARADO A VIUDO SOLTERO
635,76 541,34 392,76 532,54
262,90 247,54 139,67 621,16

0,62 1912,60 103,67 8,54


391,47 264,60 96,40 291,62
95,76 714,67 14,58 0,01
33,47 264,60 851,58 227,31
27,19 39,27 407,31 98,47
33,47 333,67 96,40 0,01
10,33 10,67 3,31 24,24
116,33 59,80 7,94 9,47
7,76 7,47 0,03 437,78
408,62 743,47 403,08
27,19 247,54 222,70
391,47 333,67
280,00
13433,850
 2
  13433,850
SC   
 
 x ik
k
R M 
12
18/08/2016 QF JOSE AVILA PARCO
ANOV
A
Paso 6: Calculamos las medias cuadráticas, para lo cual necesitamos
conocer los grados de libertad correspondiente a cada suma de
cuadrados de las desviaciones

• Cada suma de cuadrados tiene sus propios grados de libertad.


• La SCT es el número total de casos menos uno, es decir n-1;
• La SCF es el número de grupos menos uno, es decir, k-1 y
• La SCR es el número total de datos menos k, es decir,
n-k.
• En el análisis de la varianza, se define una media cuadrática como el cociente
entre la suma de cuadrados y sus correspondientes grados de libertad:

13
18/08/2016 QF JOSE AVILA PARCO
ANOV
Grados de A

libertad
Factor, Entre los grupos (between)
(k-1): (4 - 1) = 3

Residual, Dentro de los grupos


(within)
(n-k): 53-4 = 49

Total = (n – 1): 53 - 1 = 52

glSC T  glSCF  glSCR


14
18/08/2016 QF JOSE AVILA PARCO
ANOV
A
Medias
Cuadráticas
MC F  SCF MC  F 3261,358
 1087,119
k 1 3

MC R  SCR MC R  13433,850  274,160


49
n
k
MCT  SCT MCT  16695,208
n 52
1
18/08/2016 QF JOSE AVILA PARCO
15
ANOVA

Paso 7: Calculamos el estadístico F de Snedecor, que nos informará


si
tenemos “pruebas suficientes” para rechazar o aceptar la hipótesis
nula.
SCF
MC k 1  S 2 F
F  MC F  SCR
R
n S 2
R

En nuestro caso
k
1087,119
F  3,965
274,160

18/08/2016 QF JOSE AVILA PARCO 16


ANOV
A
Paso 8: Con el fin de informar los resultados, se procede a generar el
cuadro resumen del ANOVA.

FUENTE DE VARIACIÓN SUMA DE CUADRADOS (SC) GRADOS DE LIBERTAD (gl) MEDIA DE CUADRADOS (MC) F calculado

FACTOR SC ENTRE k-1 SC Entre / k-1 MC Entre/MC Dentro

RESIDUAL SC DENTRO n-k SC Dentro/ n-k

TOTAL SC TOTAL n-1

En nuestro caso

FUENTE DE VARIACIÓN SUMA DE CUADRADOS (SC) GRADOS DE LIBERTAD (gl) MEDIA DE CUADRADOS (MC) F calculado

FACTOR 3261,358 3 1087,119 3,965

RESIDUAL 13433,850 49 274,160

TOTAL 16695,208 52

17
18/08/2016 QF JOSE AVILA PARCO
ANOV
Paso 9) Se procede a establecerAla probabilidad de error tipo I o alfa
asociada a nuestro valor F.

Procedimiento:

• Encuentre el valor crítico en una distribución F, con k-1 grados de


libertad en el numerador (en las columnas) y n-k grados de libertad en
el denominador (en las filas), que deje una probabilidad de  en la cola
superior de la distribución.
• Rechace la hipótesis nula si el estadístico F calculado en el Paso
7 es mayor o igual que el valor crítico F(k-1, n-K) que
encontramos en la tabla de F.

18/08/2016 QF JOSE AVILA PARCO 18


ANOVA
REGLAS DE DECISIÓN

H 0 : 1   2  ...k
H1 : ( 1  2
 ...k )
Las reglas de decisión en este procedimiento son las siguientes:

Rechace H 0 si Fobs  F( )


No rechace H 0 si Fobs  F( )

18/08/2016 QF JOSE AVILA PARCO 19


ANOVA
Si desarrollamos el contraste en nuestro ejemplo, tenemos los siguientes
valores:

glF (k 1)  gl R (n  k)  F
3En la tabla correspondiente, ubicamos 3,965
49 los valores (k-1) en las columnas; y (n-k) en
las filas y el punto de intersección nos informa el valor F con el cual
compararemos el Fobs

18/08/2016 QF JOSE AVILA PARCO 20


ANOVA
Los valores críticos de F son:

F0.10  2,28
F0.05  2,92
F0.025  3,59
F0.01  5,24
Al realizar la comparación de Fobs con F, se observa que

F  F 3,965 
obs 0.05
2,920
Paso 10) Se concluye sobre la Hipótesis nula.

Por lo tanto, podemos rechazar la hipótesis nula, al 2,5% y aceptamos que existe
evidencia empírica suficiente para afirmar que existen diferencias significativas entre
las medias de, al menos, dos de los grupos de padres.

18/08/2016 QF JOSE AVILA PARCO 21


ANOV
A

A partir de los resultados expuestos sabemos que las cuatro


categorías de la variable independiente presentan resultados
diferentes.

Pero no sabemos exactamente entre que categoría se presentan


dichas diferencias, pues ANOVA no nos informa al respecto.
Nos dice que hay diferencias significativas, pero no entre que
pares

18/08/2016 QF JOSE AVILA PARCO 22


ANOVA
•Podemos tener varias
preguntas:
¿Los hijos de padres casados presentan menos
problemas específicos que los de padres
separados?

¿Los hijos de padres viudos presentan más


problemas específicos que los de padres
separados?

¿Existen diferencias entre los hijos de padres


solteros y los de padres separados

•El ANOVA de un factor no responde estas


preguntas
23
18/08/2016 QF JOSE AVILA PARCO

También podría gustarte