Está en la página 1de 60

UNIVERSIDAD NACIONAL DEL CALLAO

VICERRECTORADO DE INVESTIGACIÓN - VRI


OFICINA DE CAPACITACIÓN

Estadística Intermedia con R


Docente: Lic. Edward Alburqueque Salazar
Correo: edward.al.salazar@gmail.com

CLASE 5
Análisis de la varianza (ANOVA)
de uno y dos factores
Descripción General
Análisis de la Varianza (ANOVA)

ANOVA de Diseño de ANOVA de


un factor bloques aleatorios dos factores
Prueba F
Comparaciones Efectos e
múltiples de Tukey interacción
Comparaciones
múltiples de
Tukey-Kramer
Prueba de
Levene para
homogeneidad
de varianza
Marco general del ANOVA

 El investigador controla uno o más factores de interés


 Cada factor contiene dos o más niveles
 Los niveles pueden ser numéricos o categóricos
 Diferentes niveles producen diferentes grupos
 Piense en cada grupo como una muestra de una
población diferente.
 Se observan los efectos sobre la variable dependiente
 Diseño experimental: el plan utilizado para recopilar los
datos.
ANOVA de un Factor

 Evaluar la diferencia entre las medias de tres o


más grupos.
Ejemplos: la comparación del kilometraje logrado por cinco clases
diferentes de gasolina; la prueba de cuál de cuatro métodos de
capacitación produce el aprendizaje más rápido; o en la
comparación de los ingresos del primer año de los graduados de
una media docena de escuelas de administración, etc
 Supuestos
 Las poblaciones se distribuyen normalmente.
 Las poblaciones tienen varianzas iguales.
 Las muestras se extraen de forma aleatoria e
independiente.
Hipótesis del ANOVA de un factor

 H0 : μ1  μ2  μ3    μc
 Todas las medias poblacionales son iguales
 sin variación en las medias entre los grupos (no hay
efecto del factor)

 H1 : No todas las medias poblacionales son iguales


 Al menos una media poblacional es diferente
 es decir, hay un efecto del factor.
 No significa que todas las medias poblacionales
sean diferentes (algunos pares pueden ser iguales).
ANOVA de un Factor
H0 : μ1  μ2  μ3    μc
H1 : No todas μ j son iguales
La Hipótesis Nula es verdadera
Todas las medias son iguales:
(No hay efecto del factor)

μ1  μ 2  μ 3
ANOVA de un Factor
(continuación)
H0 : μ1  μ2  μ3    μc
H1 : No todas μ j son iguales
La Hipótesis Nula no es verdadera
Al menos una de las medias es diferente
(El efecto del factor esta presente)

μ1  μ2  μ3 μ1  μ2  μ3
Dividiendo la Variación

 La variación total se puede dividir en dos partes :

SST = SSA + SSW

SST = Suma Total de cuadrados


(Variación Total)
SSA = Suma de cuadrados entre Grupos
(Variación entre grupos)
SSW = Suma de cuadrados dentro de los Grupos
(Variación dentro de los grupos)
Dividiendo la Variación

SST = SSA + SSW

Variación Total= La variación combinada de todos los valores


contenidos en diferentes grupos (SST)

Variación entre grupos = Variación entre las medias de los


grupos (SSA)

Variación dentro de los grupos = Variación que existe entre


los valores dentro de un grupo en particular (SSW)
Partición de la Variación Total

Variación Total (SST) d.f. = n – 1


n= # total de valores
u observaciones

Variación debido Variación debido al


= al Factor (SSA) + muestreo aleatorio (SSW)
d.f. = c – 1 d.f. = n – c
c= # de grupos
Comúnmente referido como : Comúnmente referido como :
 Suma de cuadrados entre  Suma de cuadrados dentro
 Suma de cuadrados Explicada  Suma de cuadrados del error
 Variación entre grupos  Suma de cuadrados no Explicada
 Variación dentro de los grupos
Suma total de cuadrados
SST = SSA + SSW
c nj

SST   ( Xij  X) 2

donde: j1 i1

SST = Suma total de cuadrados


c = número de grupos a niveles
nj = Número de observaciones en el grupo j
Xij = ith observación del grupo j
X = media total(media de todas las observaciones)
Variación Total
(continuación)

2 2 2
SST  ( X 11  X )  ( X 12  X )      ( X cn  X )
c

Response, X

Group 1 Group 2 Group 3


Variación entre grupos
SST = SSA + SSW
c
SSA   n j ( X j  X)2
j1
donde:
SSA = Suma de cuadrados entre grupos
c = número de grupos
nj = tamaño de muestra del grupo j
Xj = media muestral del grupo j
X = media total(media de todas las observaciones)
Variación entre grupos
(continuación)
c
SSA   n j ( X j  X)2
j1

SSA
Variación debida a
MSA 
diferencias entre grupos
c 1
Cuadrado medio entre =
SSA/grados de libertad

i j
Variación entre grupos
(continuación)

SSA  n1 (X1  X)  n 2 (X 2  X)      n c (X c  X)
2 2 2

Response, X

X3
X
X2
X1

Group 1 Group 2 Group 3


Variación dentro de los grupos
SST = SSA + SSW
c nj

SSW    ( Xij  X j ) 2

j1 i1
donde:
SSW = Suma de cuadrados dentro de los grupos
c = número de grupos
nj = tamaño de muestra del grupo j
Xj = media muestral del grupo j
Xij = ith observación en el grupo j
Variación dentro de los grupos
(continuación)

c nj

SSW    ( Xij  X j )2
j1 i1
SSW
Sumar la variación dentro de
MSW 
cada grupo y luego sumar
sobre todos los grupos nc
Cuadrado medio dentro =
SSW/grados de libertad

μj
Variación dentro de los grupos
(continuación)

SSW  (X11  X1 )  (X12  X 2 )      (Xcnc  Xc )


2 2 2

Response, X

X3
X2
X1

Group 1 Group 2 Group 3


Obtención de los cuadrados medios
Los cuadrados medios se obtienen dividiendo las diversas
sumas de cuadrados por sus grados de libertad asociados

SSA Cuadrado medio entre


MSA  (d.f. = c-1)
c 1
SSW
MSW  Cuadrado medio dentro
nc (d.f. = n-c)

SST
MST  Cuadrado medio Total
n 1 (d.f. = n-1)
Tabla: ANOVA de un factor

Grados de Suma de Cuadrado


Fuente de medio F
variación libertad cuadrados
(Varianza)

Entre SSA FSTAT =


c-1 SSA MSA =
grupos c-1
MSA
Dentro de SSW
n-c SSW MSW = MSW
los grupos n-c

Total n–1 SST

c = número de grupos
n = suma de los tamaños de muestra de todos los grupos
df = grados de libertad
ANOVA de un factor
Estadístico de prueba F
H0: μ1= μ2 = … = μc
H1: Al menos dos medias poblacionales son diferentes

 Prueba estadística
MSA
FSTAT 
MSW
MSA (cuadrados medios entre los grupos)
MSW (cuadrados medios dentro de los grupos)
 Grados de libertad
 df1 = c – 1 (c = número de grupos)
 df2 = n – c (n = número total de elementos)
Interpretando el estadístico de
prueba F
 El estadístico F es la razón de la estimación de
la varianza entre los grupos y la estimación de
la varianza dentro de los grupos.
 La razón siempre debe ser positiva
 df1 = c -1 normalmente será pequeño
 df2 = n - c normalmente será grande

Regla de Decisión:
 Rechazar H0 si FSTAT > Fα, 
de lo contrario no rechazar
H0 0 No rechazar H0 Rechazar H0


Ejemplo del ANOVA de un factor

Se quiere investigar si tres Club 1 Club 2 Club 3


palos de golf diferentes 254 234 200
producen distancias 263 218 222
diferentes al lanzar las bolas. 241 235 197
Se selecciona al azar cinco 237 227 206
medidas de distancia para 251 216 204
cada club. Con un nivel de
significación de 0,05, ¿hay
alguna diferencia en la
distancia media?
Ejemplo del ANOVA de un factor
(diagrama)
Distancia
Club 1 Club 2 Club 3 270
254 234 200 260 •

263 218 222 250 • X1
241 235 197 240 •
237 227 206 • ••
251 216 204 230
• X
220
••
X2 •
210
x1  249.2 x 2  226.0 x 3  205.8
•• X3
200 •

x  227.0 190

1 2 3
Club
Ejemplo del ANOVA de un factor
(cálculos)
Club 1 Club 2 Club 3 X1 = 249.2 n1 = 5
254 234 200 X2 = 226.0 n2 = 5
263 218 222
X3 = 205.8 n3 = 5
241 235 197
237 227 206 n = 15
X = 227.0
251 216 204 c=3
SSA = 5 (249.2 – 227)2 + 5 (226 – 227)2 + 5 (205.8 – 227)2 = 4716.4
SSW = (254 – 249.2)2 + (263 – 249.2)2 +…+ (204 – 205.8)2 = 1119.6

MSA = 4716.4 / (3-1) = 2358.2 2358.2


FSTAT   25.275
MSW = 1119.6 / (15-3) = 93.3 93.3
Ejemplo del ANOVA de un factor
(solución)
H0: μ1 = μ2 = μ3 Prueba Estadística:
H1: μj no todos iguales
MSA 2358.2
 = 0.05 FSTAT    25.275
df1= 2 df2 = 12 MSW 93.3

Valor Decisión:
crítico:
Rechazar H0 at  = 0.05
Fα = 3.89
 = .05 Conclusión:
Hay evidencia de que
0 Do not Reject H
0
al menos una μj se
reject H0
FSTAT = 25.275 diferencia del resto
Fα = 3.89
Ejemplo del ANOVA de un factor
(salida)

Resumen
Grupos cantidad Suma Promedio Varianza
Club 1 5 1246 249.2 108.2
Club 2 5 1130 226 77.5
Club 3 5 1029 205.8 94.2
ANOVA
Fuente de
SS df MS F P-value F crit
Variación
Entre
4716.4 2 2358.2 25.275 4.99E-05 3.89
grupos
Dentro de
1119.6 12 93.3
los grupos
Total 5836.0 14
El procedimiento de Tukey-Kramer

 Indica qué medias poblacionales son


significativamente diferentes.
 e.g.: μ1 = μ2  μ3
 Realizado después del rechazo de la igualdad de
medias en el ANOVA.
 Permite comparaciones por pares
 Comparar diferencias medias absolutas con rango
crítico.

μ1= μ2 μ3 x
Rango crítico de Tukey-Kramer

MSW  1 1 
Critical Range  Q α   
2  n j n j' 
 

donde:
Qα = Valor crítico de cola superior de la distribución
de rango estudentizada con c y n - c grados de
libertad (ver tabla)
MSW = Cuadrados medios dentro
nj y nj’ = Tamaños de muestra de los grupos j y j’
Rango crítico de Tukey-Kramer
El procedimiento de Tukey-
Kramer: Ejemplo
1. Calcule las diferencias medias
Club 1 Club 2 Club 3 absolutas :
254 234 200
263 218 222 x1  x 2  249.2  226.0  23.2
241 235 197 x1  x 3  249.2  205.8  43.4
237 227 206
251 216 204 x 2  x 3  226.0  205.8  20.2

2. Encontrar el valor Qα de la tabla con


c = 3 y (n – c) = (15 – 3) = 12 grados de libertad:

Q α  3.77
El procedimiento de Tukey-
Kramer: Ejemplo
(continuación)
3. Calcular el rango crítico :
MSW  1 1  93.3  1 1 
Critical Range  Q α    3.77     16.285
2  n j n j'  2 5 5
 

4. Compare:
5. Todas las diferencias medias
x1  x 2  23.2
absolutas son mayores que el rango
crítico. Por lo tanto, hay una diferencia x1  x 3  43.4
significativa entre cada par de medias
al 5% de nivel de significación. Por lo x 2  x 3  20.2
tanto, con un 95 % de confianza, podemos
concluir que la distancia media del palo 1 es
mayor que el palo 2 y el palo 3, y que el palo
2 es mayor que el palo 3.
Supuestos del ANOVA

 Aleatoriedad e independencia
 Seleccione muestras aleatorias para los c grupos (o
asignar aleatoriamente los niveles)
 Normalidad
 Los valores de muestra para cada grupo provienen
de una población normal
 Homogeneidad de la varianza
 Todas las poblaciones muestreadas tienen la misma
varianza.
 Se puede probar con la prueba de Levene
Supuestos del ANOVA
(Prueba de Levene)

 Prueba la suposición de que las varianzas de cada


población son iguales.
 Primero, define las hipótesis nula y alternativa :
 H0: σ21 = σ22 = …=σ2c
 H1: No todas las σ2j son iguales
 Segundo, calcular el valor absoluto de la diferencia
entre cada valor y la mediana de cada grupo.
 Tercero, realizar un ANOVA de un factor sobre estas
diferencias absolutas
Homogeneidad de la varianza
(Prueba de Levene): Ejemplo

H0: σ21 = σ22 = σ23


H1: No todas las σ2j son iguales

Calcular medianas Calcular diferencias absolutas

Club 1 Club 2 Club 3 Club 1 Club 2 Club 3


237 216 197 14 11 7
241 218 200 10 9 4
251 227 204 Median 0 0 0
254 234 206 3 7 2
263 235 222 12 8 18
Homogeneidad de la varianza
(Prueba de Levene): Ejemplo
(continuación)
Anova: Un solo Factor
Resumen
Como el
Grupos Cantidad Suma Promedio Varianza
p-valor es
Club 1 5 39 7.8 36.2
mayor que
Club 2 5 35 7 17.5
0.05 no
Club 3 5 31 6.2 50.2
hay
P- pruebas
Fuente de variación SS df MS F value F crit
suficientes
Entre grupos 6.4 2 3.2 0.092 0.912 3.885
de una
Dentro de grupos 415.6 12 34.6 diferencia
en las
Total 422 14 varianzas
Diseño de bloques Aleatorizado

 Al igual que en el ANOVA de un factor, se


prueba la igualdad de las medias poblacionales
(por ejemplo para diferentes niveles del
factor)…
 ... pero queremos controlar la posible variación
a partir de un segundo factor (con dos o más
niveles)
 Los niveles del factor secundario se llaman
bloques.
Diseño de bloques Aleatorizado

Ejemplo: DISEÑO DE BLOQUES ALEATORIZADO PARA LA PRUEBA DE ESTRÉS EN


LOS CONTROLADORES DE TRÁFICO AÉREO.

donde:
c = número de grupos =3
r = número de bloques=6
Partición de la Variación

 La variación total ahora se puede dividir en tres


partes :
SST = SSA + SSBL + SSE

SST = Variación Total


SSA = Variación entre grupos
SSBL = Variación entre bloques
SSE = Variación Aleatoria
Suma de cuadrados para bloques

SST = SSA + SSBL + SSE

r
SSBL  c  ( Xi.  X) 2

i1
donde:
c = número de grupos
r = número de bloques
Xi. = media de todos los valores en el bloque i
X = media total (media de todos los valores)
Suma de cuadrados para bloques
SST = SSA + SSBL + SSE
r
SSBL  c  ( Xi.  X)2
i1
Partición de la Variación
 La variación total ahora se puede dividir en tres
partes :

SST = SSA + SSBL + SSE

SST y SSA se calculan SSE = SST – (SSA + SSBL)


de la misma forma que
en ANOVA de un factor
Partición de la Variación
Cuadrados medios

SSBL
MSBL  Mean square blocking 
r 1

SSA
MSA  Mean square among groups 
c 1

SSE
MSE  Mean square error 
(r  1)(c  1)
Tabla del ANOVA de bloques
aleatorizados
Fuente de
SS df MS F
variación
Entre MSBL
bloques SSBL r-1 MSBL
MSE
Entre SSA c-1 MSA MSA
grupos
MSE
Error SSE (r–1)(c-1) MSE

Total SST rc - 1
c = número de grupos rc = número total de observaciones
r = número de bloques df = grados de libertad
Tabla del ANOVA de bloques
aleatorizados

Como el p-valor es menor que 0.05 se concluye que las medias


poblacionales de los niveles de estrés en las tres alternativas de
puesto de trabajo (sistemas A, B y C) no son iguales.
Test para el efecto del factor
H 0 : μ .1  μ .2  μ .3      μ .c
H1 : No todas las medias poblacionales son iguales

MSA
FSTAT =
MSE  Test del factor: df1 = c – 1
df2 = (r – 1)(c – 1)

Rechazar H0 si FSTAT > Fα


Test para el efecto de los bloques
H 0 : μ1.  μ 2.  μ3.  ...  μ r.
H1 : No todas las medias de los bloques son iguales

MSBL
FSTAT =
MSE  Test de los bloques: df1 = r – 1
df2 = (r – 1)(c – 1)

Rechazar H0 si FSTAT > Fα


Diseño Factorial:
ANOVA de dos factores

 Examina el efecto de
 Dos factores de interés sobre la variable
dependiente.
 por ejemplo, porcentaje de carbonatación y velocidad
de la línea en el proceso de embotellado de
refrescos.
 Interacción entre los diferentes niveles de estos
dos factores
 por ejemplo, ¿Depende el efecto de un nivel de
carbonatación particular del nivel establecido en la
velocidad de la línea?
ANOVA de dos factores
(continuación)

 Supuestos
 Las poblaciones se distribuyen
normalmente.
 Las poblaciones tienen varianzas
iguales
 Se extraen muestras aleatorias
independientes
ANOVA de dos factores
(Fuentes de Variación)
Dos factores de interés : A y B
r = número de niveles del factor A
c = número de niveles del factor B
n’ = número de repeticiones para cada celda
n = número total de observaciones en todas
las celdas n = (r)(c)(n’)
Xijk = valor de la kth observación del nivel i del
factor A y el nivel j del factor B
ANOVA de dos factores
(Fuentes de Variación)(continuación)
SST = SSA + SSB + SSAB + SSE Grados de
libertad:
SSA r–1
Variación del factor A

SST SSB c–1


Variación del factor B
Variación Total
SSAB
Variación debido a la (r – 1)(c – 1)
interacción entre A y B
n-1
SSE rc(n’ – 1)
Variación aleatoria (Error)
Ecuaciones del ANOVA de dos
factores

Variación Total: r c n
SST   ( Xijk  X) 2

i1 j1 k 1

Variación del Factor A : r


SSA  cn  ( Xi..  X)
 2

i1

Variación del Factor B : c


SSB  rn ( X. j.  X)2
j1
Ecuaciones del ANOVA de dos
factores
(continuación)

Suma de cuadrados de la interacción :


r c
SSAB  n ( Xij.  Xi..  X.j.  X)2
i1 j1

Suma de cuadrados del error:


r c n
SSE   ( Xijk  Xij. ) 2

i1 j1 k 1
Ecuaciones del ANOVA de dos
factores
(continuación)
r c n

donde:  X
i1 j1 k 1
ijk

X  Grand Mean
c n
rcn
 X
j1 k 1
ijk

Xi..   Mean of ith level of factor A (i  1, 2, ..., r)


cn
r n

 X ijk
X. j.  i1 k 1
 Mean of jth level of factor B (j  1, 2, ..., c)
rn
n
Xijk
Xij.  
r = número de niveles del factor A
 Mean of cell ij
k 1 n
c = número de niveles del factor B
n’ = número de repeticiones en cada celda
Cálculos de los cuadrados medios

SSA
MSA  Mean square factor A 
r 1

SSB
MSB  Mean square factor B 
c 1

SSAB
MSAB  Mean square interaction 
(r  1)(c  1)

SSE
MSE  Mean square error 
rc(n'1)
ANOVA de dos factores:
El estadístico de prueba F
Prueba F para el efecto del factor A
H0: μ1..= μ2.. = μ3..= • • = µr..
MSA Rechazar H0
H1: No todas las μi.. son FSTAT  si FSTAT > Fα
iguales MSE
Prueba F para el efecto del factor B
H0: μ.1. = μ.2. = μ.3.= • • = µ.c.
MSB Rechazar H0
H1: No todas las μ.j. son FSTAT  si FSTAT > Fα
iguales MSE
Prueba F para el efecto de interacción
H0: la interacción de A y B es igual
a cero.
MSAB
H1: la interacción de A y B no es
igual a cero.
FSTAT  Rechazar H0
MSE si FSTAT > Fα
ANOVA de dos factores
(Tabla de resumen)
Fuente de Suma de Grados de Cuadrados
cuadrados
F
variación libertad medios

MSA MSA
Factor A SSA r–1
= SSA /(r – 1) MSE
MSB MSB
Factor B SSB c–1
= SSB /(c – 1) MSE

AB MSAB MSAB
SSAB (r – 1)(c – 1)
(Interacción) = SSAB / (r – 1)(c – 1) MSE

MSE =
Error SSE rc(n’ – 1)
SSE/rc(n’ – 1)
Total SST n–1
Características del ANOVA de dos
factores (prueba F)
 Se conservan los grados los grados de libertad
 n-1 = rc(n’-1) + (r-1) + (c-1) + (r-1)(c-1)
 Total = error + factor A + factor B + interacción
 Los denominadores de la Prueba F son siempre
los mismos pero los numeradores son diferentes.
 Se conserva la suma de cuadrados
 SST = SSE + SSA + SSB + SSAB
 Total = error + factor A + factor B + interacción
Ejemplos:
Interacción vs. No Interacción
 Sin interacción: los segmentos  La interacción está presente:
de línea son paralelos algunos segmentos de línea
no son paralelos

Factor B Nivel 1
Factor B Nivel 1
Factor B Nivel 3
Media

Media
Factor B Nivel 2
Factor B Nivel 2
Factor B Nivel 3

Niveles del Factor A Niveles del Factor A

H 0 : No hay interacción de los factores

También podría gustarte