Está en la página 1de 43

Tema 2: Análisis de la Varianza

OBJETIVOS DOCENTES

 Establecer las hipótesis del análisis de la varianza con un factor y con varios factores.
 Conocer e interpretar los elementos de la descomposición de la varianza con uno y
varios factores.
 Conocer los procedimientos gráficos y analíticos para validar los supuestos básicos con
el SPSS
 Realizar un ANOVA con uno y varios factores en el programa SPSS e interpretar los
resultados.
 Describir los objetivos de los contrastes post-hoc en ANOVA y realizarlos en el programa
SPSS.
 Conocer los procedimientos no paramétricos, alternativos al ANOVA.
Tema 2. ANOVA

Tema 2. Análisis de la varianza.

2.1 Introducción
2.2 Análisis de la varianza con un solo factor
2.3 Análisis de la varianza con dos o más factores
2.4 Alternativas no paramétricas al análisis de la varianza

Bibliografía:

Uriel, E y Aldás, J. (2005): Análisis Multivariante Aplicado, Thomson, Madrid. Capítulo 6

Canavos, G.C. (1997): Probabilidad y estadística: aplicaciones y métodos, MacGraw-Hill,


1997. Capítulo 15

Página web interesante


http://www.uoc.edu/in3/emath/docs/ANOVA.pdf

Applets de ANOVA http://onlinestatbook.com/stat_sim/two_way/index.html


http://onlinestatbook.com/stat_sim/one_way/index.html

2
Tema 2. ANOVA

2. 1. Introducción. Motivación

Ejemplo1: ¿hay diferencias estadísticamente significativas en el comportamiento de


la renta por niveles de estudio?

Ejemplo 2: ¿hay diferencias significativas en la calidad de un producto entre tres


turnos de trabajo en una empresa?

Ejemplo 3: ¿hay diferencias en el nivel de ventas por el tipo de publicicadad realizado?

En este curso, los términos “diferencia significativa” y “diferencia


estadísticamente significativa” son quivalentes.

3
Tema 2. ANOVA

Objetivo del Análisis de la Varianza

Analizar si existen diferencias significativas en el comportamiento medio de una variable


cuantitativa (ratio o intervalo) en más de dos grupos de observaciones determinados
por una variable categórica que se denomina factor. También se puede utilizar cuando
el factor sólo tiene dos modalidades.

Es una generalización de los contrastes de igualdad de medias para dos poblaciones


independientes.

4
Tema 2. ANOVA

Recordatorio Contraste de diferencia de medias en muestras independientes

Ejemplo 2: El departamento de control de calidad de una empresa sospecha que la calidad


media de los productos fabricados en el turno de noche es inferior a la de los productos
fabricados en el turno de día. Para contrastar esta sospecha, se eligen al azar 8 productos
fabricados en cada turno y se obtienen los siguientes índices de calidad.
Turno de día 92 85 89 89 93 90 91 95
Turno de noche 82 86 96 89 87 86 83 92

Y ,…,Y m.a.s. de una v.a. Y1 N(1,1)


independientes
Y ,…,Y m.a.s. de una v.a. Y2 N(2,2)

5
Tema 2. ANOVA

H0:1-20
H1:1-2>0
(Y 1  Y 2 )   0
Varianzas conocidas Z =
*
H

0
N(0,1)
12  22

n1 n2

(Y 1  Y 2 )   0 H0
Varianzas desconocidas iguales t = *  t
n1n2 2
(n1 1)Sc2  (n2 1)Sc2
1 1
n1  n
1 2
n1  n2  2
2

(Y 1  Y 2 )   0 H
Varianzas desconocidas distintas 
0  N (0,1)
..si n1,n2 grandes
Sc2 Sc2
1  2
n1 n2

6
Tema 2. ANOVA

2.2 Análisis ANOVA con un solo factor

Ejemplo: El departamento de control de calidad de una empresa sospecha que la calidad media
de los productos fabricados en los tres turnos de la empresa es diferente. Para contrastar esta
sospecha, se eligen al azar 8 productos fabricados en cada turno y se obtienen los siguientes
índices de calidad.
Turno de mañana 95 97 92 90 93 94 94 95
Turno de tarde 85 86 90 85 89 82 95 93
Turno de noche 82 86 96 89 87 86 83 92

7
Tema 2. ANOVA

Se plantea analizar si una variable cuantitativa, Y, variable respuesta o variable


dependiente, sometida a m tratamientos (los m niveles de un factor) presenta un
comportamiento diferente en media en cada uno de los tratamientos.

Formalización del problema


Sean (Y1 Y2, …, Ym) variables aleatorias independientes normales con la misma
varianza. Se dispone de una muestra aleatoria simple de cada una de ellas:

Y ,…,Y m.a.s. de una v.a. Y1 N(1,2)


... independientes
Y ,…,Y m.a.s. de una v.a. Ym N(m,2)

H0:1=2=…..=m
Nuestro objetivo es H1:Algún j distinto
8
Tema 2. ANOVA

Supuestos de partida:

1 Normalidad. La variable cuantitativa se distribuye como una normal en cada uno de


los m grupos.

2 Igualdad de varianzas (homoscedasticidad). La varianza de la variable en los m


grupos es la misma e igual a 2.

3 Independencia. Muestras independientes.

9
Tema 2. ANOVA

H0:1=2=…..=m
La idea intuitiva es que vamos a rechazar la
H1:Algún j distinto hipótesis nula cuando las diferencias entre
las medias muestrales de la calidad del
producto en cada turno sean muy diferentes
  mañana tarde  noche
  95 85 82
  97 86 86
  92 90 96
      90 85 89
  93 89 87
  94 82 86
  94 95 83
 
 
95 93 92

93,75 88,13 87,63


 

10
Tema 2. ANOVA




∑ ∑ ∑


⋮ ⋮


⋮ nT=n1+ n2+……+ nm

11
Tema 2. ANOVA

SCT = SCR+ SCE

Tarea: Expresa la SCR en función de las varianzas muestrales de la variable


dependidente en cada grupo.
12
Tema 2. ANOVA

H0:1=2=…..=m
H1:Algún j distinto

Estadístico de contraste:
2
∑ 1∑ 1

Rechazamos Ho cuando : , ,

: Λ
Tarea: Expresa el estadístico en función de Λ.

13
Tema 2. ANOVA

H0:1=2=…..=m
H1:Algún j distinto
Todos los anteriores desarrollos se recogen en la llamada Tabla ANOVA

Fuente de Suma de Grados de Cuadrados


F p-valor
variación cuadrados libertad medios

SCE 1
Entre-grupos (m-1) SCE/(m-1)
(explicada)

Intra-grupos SCR (residual) (nT-m) SCR/(nT-m)


Total SCT (total) (nT -1)

Es la proporción de la variabilidad observada en la variable dependiente


que queda explicada por el factor. También se llama eta al cuadrado.

14
Tema 2. ANOVA

En SPSS, el procedimiento de ANOVA de un factor se dispone siguiendo la secuencia


Analizar / Comparar medias / ANOVA de un factor.
H0:1=2=3
H1:Algún j distinto

ANOVA de un factor
Piezas defectuosas
Suma de cuadrados gl Media cuadrática F Sig.
Inter-grupos 185,083 2 92,542 6,106 ,008
Intra-grupos 318,250 21 15,155
Total 503,333 23

15
Tema 2. ANOVA

Comentarios:

 El contraste ANOVA se puede plantear con un modelo de regresión. Se


necesita generar variables ficticias.
 El ANOVA de un factor es una extensión de la comparación de medias en
poblaciones normales, en concreto, con las pruebas de la t de Student
para dos muestras independientes con varianzas iguales desconocidas.
De hecho, si se aplica el procedimiento sólo para dos poblaciones, el
resultado en cuanto a rechazar o no la hipótesis nula) es idéntico al
obtenido con la t de Student para dos muestras independientes y
varianzas iguales desconocidas.

16
Tema 2. ANOVA

¿Qué turnos son distintos entre sí? Comparaciones de poblaciones dos a dos o
comparaciones múltiples

Cuando se rechaza la hipótesis nula, es decir, cuando llegamos a la conclusión que


existen diferencias significativas, resulta interesante buscar qué grupos son distintos
entre sí. Esto es lo que se conoce como COMPARACIONES MÚLTIPLES. Por lo tanto,
el objetivo de las compasiones multiples es averiguar los grupos que son diferentes.

Hay que realizar m(m-1)/2 pares de comparaciones. En nuestro ejemplo, 3 contrastes.


H0:1=2 H0:1=3 H1: 2=3
H1: 1≠2 H1: 1=3 H1: 2≠3

17
Tema 2. ANOVA

El estadístico de contraste en las comparaciones múltiples es muy semejante al


estadístico t para comparar medias con varianzas iguales.
H0: i=j o i-j=0
H1: i≠j o i-j≠0
(Y i Y j ) H0
Estadístico de contraste de Estadística II: t
ni n j 2
(ni 1)Sc2  (n j 1)Sc2
i j 1 1
ni  n j
ni  n j  2

. .
Estadístico de contraste de comparaciones múltiples:

Cambios: El estimador de la varianzay los grados de libertad

18
Tema 2. ANOVA

En realidad, se plantea de nuevo el contraste:


H0:1=2=3
H1: Algún i distinto
pero resolviéndolo de otra forma, haciendo las siguientes comparaciones multiples

H0:1=2 H0:1=3 H1: 2=3


H1: 1≠2 H1: 1≠3 H1 : 2≠3

Se rechazaría la hipótesis original (la conjunta o global) cuando alguna de las hipótesis
de las comparaciones dos a dos se rechazara.

La ventaja de proceder de esta manera es que nos permite conocer la razón por la que
rechazamos Ho.

19
Tema 2. ANOVA

Problema de las comparaciones múltiples: El nivel de significación de la hipótesis


global no es igual al nivel de significación de cada uno de los contrastes de las
comparaciones dos a dos. Lo malo es que puede ser muy elevado. Si fijamos para
cada una de las comparaciones:

ó m m 1 /2
1 1 1

Por ejemplo, en el caso de la calidad en función del turno. Si realizamos cada una de
las comparaciones 0,05, el nivel de significación de la hipótesis global sería.
0,1416

Soluciones para controlar el nivel de significación. Entre las más utilizadas la de


Bonferroni, que consiste en realizar cada uno de los contrastes de las comparaciones
dos a dos a un .

20
Tema 2. ANOVA

Comparaciones múltiples
Variable dependiente: Piezas defectuosas
Bonferroni
(I) TURNO (J) TURNO Diferencia de medias (I-J) Error típico Sig. Intervalo de confianza al 95%
Límite inferior Límite superior
Tarde 5,62500* 1,94646 ,026 ,5616 10,6884
Mañana
Noche 6,12500* 1,94646 ,015 1,0616 11,1884
*
Mañana -5,62500 1,94646 ,026 -10,6884 -,5616
Tarde
Noche ,50000 1,94646 1,000 -4,5634 5,5634
Mañana -6,12500* 1,94646 ,015 -11,1884 -1,0616
Noche
Tarde -,50000 1,94646 1,000 -5,5634 4,5634
*. La diferencia de medias es significativa al nivel 0.05.

21
Tema 2. ANOVA

Validación de las hipótesis de partida (IMPORTANTE: el procedimiento puede


invalidarse si no se cumplen las hipótesis de partida)

 Normalidad de la variable dependiente en cada uno de los niveles del factor.


Detección:
o Descriptivos: Coeficiente de asimetría y curtosis.
o Gráficos: histograma, boxplots, pp-plots y qqplots)
o Contrastes de Kolmogorov-Smirnov y Shaphiro WilK
Consecuencias: el incumplimiento de esta suposición sólo afecta muy ligeramente al nivel de
significación real del contraste de igualdad de medias.
Solución:
o Transformación de los datos se resuelve el problema de la falta de normalidad.
o Utilización de pruebas no paramétricas.
o Eliminar atípicos.

22
Tema 2. ANOVA

 Igualdad de las varianzas (homoscedasticidad) de la variable dependiente en cada uno de


los niveles del factor.
Detección:
o Box plot.
o Contrastes para probar la igualdad de varianzas entre los m grupos (test de Bartlett,
test de Cochran,...). El programa SPSS utiliza el test de Levene, un test que se basa
en la comparación de las medias de las desviaciones absolutas respecto de la media
de cada subpoblación y que no exige la normalidad de las variables.
Consecuencias:
 Si el diseño es balanceado (todas las muestras del mismo tamaño), no es relevante.
 Si el diseño no es balanceado, la heteroscedasticidad produce niveles de significación
reales mayores o menores que el deseado: si las muestras de mayor tamaño corresponden
a los grupos más dispersos el nivel de significación real disminuye; si las muestras de
mayor tamaño corresponden a los grupos menos dispersos el nivel de significación real
aumenta.

23
Tema 2. ANOVA

Solución
o Transformación de los datos se resuelve el problema.
o Usar las pruebas robustas de igualdad medias.
o Eliminar atípicos.

 Independencia entre las variables de cada nivel e independencia entre las observaciones
correspondientes a un mismo nivel.
Detección: Contrastes (test de la rachas) que permiten diagnosticar el cumplimiento de este
supuesto.
Solución: Pruebas no paramétricas para muestras relacionadas.

Los valores atípicos pueden provocar la detección de no normalidad y de


heteroscedasticidad.

24
Tema 2. ANOVA

2.3 El modelo Análisis de la Varianza con 2 o más factores.

Objetivo: estudiar si los valores de una variable cuantitativa (variable dependiente)


dependen de los niveles de dos factores y de la interacción entre ambos.
Al primer factor le denominamos A y tiene a niveles.
Al segundo factor le denominamos B y tiene b niveles.

Ejemplo: Análisis de si la calidad del producto depende del turno y de la antigüedad.

Interacción:
Existe interacción entre dos factores, cuando el efecto de un factor sobre la variable
dependiente depende de cual sea el nivel del otro factor. Cuando la interacción de
dos factores es alta, no se puede considerar la influencia de cada factor por separado.
Las diferencias de los valores medios de la variable dependiente pueden ser debidas a
la presencia conjunta de los factores.

25
Tema 2. ANOVA

Caso 1: Sin efectos principales de los factores ni interacción


100
90
80
70
60
50 Antiguas

40 Modernas
30
20
10
0
Mañana Tarde Noche

  Antiguas  Modernas  
Mañana  µ11=95  µ12=95  µ1.=95 
Tarde  µ21=95  µ22=95  µ2.= 95 
Noche  µ31=95  µ32=95  µ3.=95 
  µ.1=95  µ.2=95   
26
Tema 2. ANOVA

Caso 2: Efectos principales sin interacción


98
96
94
92
90
88 Antiguas

86 Modernas
84
82
80
78
1 2 3

  Antiguas  Modernas  
Mañana  µ11=95  µ12=97  µ1.=96 
Tarde  µ21=90  µ22=92  µ2.=91 
Noche  µ31=85  µ32=87  µ3.=86 
  µ.1=90  µ.2=92   

27
Tema 2. ANOVA

Caso 3: Interacción sin efectos principales


96
95
94
93
92
Antiguas
91
Modernas
90
89
88
87
Mañana Tarde Noche

  Antiguas  Modernas  
Mañana  µ11=92.5    µ12=92.5 µ1.=92.5 
Tarde    µ21=95  µ22=90  µ2.=92.5 
Noche    µ31=90  µ32=95  µ3.=92.5 
  µ.1=92.5     µ.2=92.5  

28
Tema 2. ANOVA

Caso 4: Interacción con efectos principales


120

100

80

60 Antiguas
Modernas
40

20

0
1 2 3

  Antiguas  Modernas  
Mañana  µ11=90  µ12=100  µ1.=95 
Tarde  µ21=60  µ22=80  µ2.=70 
Noche  µ31=40  µ32=70  µ3.=55 
    µ.1=63.3  µ.2=83.3   

29
Tema 2. ANOVA

Ejemplo : En el departamento de
control de calidad se sospecha que la Antiguas Modernas
Turno de mañana 92 95
calidad media de los productos 90 97
fabricados depende tanto del turno de 93 95
94 94
fabricación, como de la antigüedad de Turno de tarde 85 90
las máquinas (máquinas de más de 25 86 89
82 95
años y máquinas de menos de 25 85 93
años), se eligen al azar 8 productos Turno de noche 82 96
86 89
fabricados en cada turno y se analizan 86 87
si se ha fabricado con máquinas 83 92
antiguas y máquinas modernas. Se
obtienen los siguientes índices de
calidad.

30
Tema 2. ANOVA

31
Tema 2. ANOVA

B1 B2 ... Bb
A1 Y111 Y112 : Y11b
… … …
Yn11 Y n12 Yn1b
A2 Y121 Y122 Y12b
… …. …
Yn21 Y n22 Yn2b
Y1jk
…,
Yijk
...
Ynjk 
Aa Y1a1 Y1a2 …. Y1ab
… … …
Yna1 Yna2 Ynab

32
Tema 2. ANOVA

a: niveles del factor A


b: niveles del factor B
n: número total de observaciones en cada casilla
nT=abn: número total de observaciones
Yijk: observación del individuo i, en el nivel j del factor A y en el nivel , del factor B.
.: la media muestral en el nivel j del factor A.

. : la media muestral en el nivel k del factor B.


: la media muestral en el nivel j del factor A y en el nivel k del factor B.
: la media muestral de la variable Y.

Supuestos de partida:
1 Normalidad.
2 Igualdad de varianzas (homoscedasticidad).
3 Independencia.
33
Tema 2. ANOVA

Tres tipos de hipótesis: No hay diferencias en la variable respuesta debido a

Factor A Factor B………………………Interacción


H0:1.= 2.=…= a. H0:.1=.2=…=.b H0:1k-1k’=2k-2k’=…=.k-.k’
H1: Algún j.≠ H1: Algún .k≠ H1: Algún ≠

Antiguas Modernas
Turno de mañana
92
95 . = . = . =
97
90
93
95 . = . =
94
94
= =
Turno de tarde 85 90
86 89 = =
82 95
85 93 =

Turno de noche 82 96 =
86 89
86 87
83 92

34
Tema 2. ANOVA

. . . .

SCT = SCA + SCB + SCAB + SCR. Esto solo se cumple en los


modelos balanceados

35
Tema 2. ANOVA

Fuente de Suma de Grados de Cuadrados


F p-valor
variación cuadrados libertad medios

1
Factor A SCA a-1 SCA/(a-1)
1

1
Factor B SCB b-1 SCB/(b-1)
1

1 1
Interacción SCAB (a-1) (b-1) SCAB/(a-1) (b-1)
1
Residual SCR ab(n-1) SCR/ ab(n-1)
Total SCT abn-1=nT-1

36
Tema 2. ANOVA

Analizar / Modelo lineal general / Univariante

Pruebas de los efectos inter-sujetos


Variable dependiente: Piezas defectuosas
Origen Suma de cuadrados gl Media F Sig. Eta al cuadrado
tipo III cuadrática parcial
Modelo corregido 399,333a 5 79,867 13,823 ,000 ,793
Intersección 193680,667 1 193680,667 33521,654 ,000 ,999
TURNO 185,083 2 92,542 16,017 ,000 ,640
ANTIGUEDAD 192,667 1 192,667 33,346 ,000 ,649
TURNO *
21,583 2 10,792 1,868 ,183 ,172
ANTIGUEDAD
Error 104,000 18 5,778
Total 194184,000 24
Total corregida 503,333 23
a. R cuadrado = ,793 (R cuadrado corregida = ,736)

37
Tema 2. ANOVA

Comentarios sobre el ANOVA con dos o mas factores:


 En el ANOVA balanceado (mismo número de observaciones en cada casilla), los
factores se dicen que son ortogonales, ya que la SCE en el ANOVA univariante de
un factor es la misma que efecto principal de cada uno de los factores en el ANOVA
con dos o más factores. ANOVA de un factor Turno
Piezas defectuosas
ANOVA de un factor Antigüedad Suma de cuadrados
Piezas defectuosas Inter-grupos 185,083
Suma de cuadrados Intra-grupos 318,250
Inter-grupos 192,667 Total 503,333
Intra-grupos 310,667
Total 503,333
ANOVA de dos factores (Turno y antigüedad)
Origen Suma de cuadrados tipo III
Modelo corregido 399,333a
Intersección 193680,667
TURNO 185,083
ANTIGUEDAD 192,667
TURNO * ANTIGUEDAD 21,583
Error 104,000
Total 194184,000
Total corregida 503,333
38
Tema 2. ANOVA

 Se debe comenzar contrastando la significación de efecto interacción.

a. Si el efecto interacción es significativo, no conviene eliminar los efectos


principales, aunque no sean significativos. Modelos jerárquicos.
b. Si el efecto interacción no es significativo, se plantea el modelo sin el efecto
interacción (modelo aditivo).

Pruebas de los efectos inter-sujetos


Variable dependiente: Piezas defectuosas
Origen Suma de gl Media cuadrática F Sig. Eta al cuadrado
cuadrados tipo III parcial
Modelo corregido 377,750a 3 125,917 20,053 ,000 ,750
Intersección 193680,667 1 193680,667 30844,964 ,000 ,999
TURNO 185,083 2 92,542 14,738 ,000 ,596
ANTIGUEDAD 192,667 1 192,667 30,683 ,000 ,605
Error 125,583 20 6,279
Total 194184,000 24
Total corregida 503,333 23
a. R cuadrado = ,750 (R cuadrado corregida = ,713)

39
Tema 2. ANOVA

2.4 Alternativas no paramétricas al análisis de la varianza


Contraste de Kruskal-Wallis (Analizar / Pruebas no paramétricas / k muestras
independientes)
H0:Y1, Y2,…,Ym tienen la misma distribución
H1: Alguna distribución distinta
Se construye a partir de los rangos de las observaciones. Para ello se ordenan conjuntamente las
m muestras y se asigna a cada valor su rango.
Se consideran los estadísticos Rj (j=1….m)= suma de los rangos de la muestra de Yj

Si Ho es falsa, los valores de serán muy diferentes.

Estas diferencias se valorarán con el estadístico de Kruskal-Wallis:


m R2
12
  3  nT  1  2
j H0
H  m 1 ;
nT  nT  1 j 1 n j aprox .

Rechazaremos Ho si

40
Tema 2. ANOVA

Kruskal y Wallis (1952). "Use of


ranks in one-criterion variance
analysis". Journal of the American
Statistical Association. 47 (260):
583–621.

41
Tema 2. ANOVA

Contraste de medianas (Analizar / Pruebas no paramétricas / k muestras


independientes)
H0:Me1=Me2=…..= Mem tienen la misma distribución
H1: Alguna Me j distinta
Para ello se realiza un contraste de independencia 2 entre la variable cualitativa (Factor) y una nueva
variable dicotómica que categoriza a la variable cuantitativa (Variable Respuesta) en dos niveles: “valores
mayores que la mediana de la muestra total” y “valores menores o iguales que la mediana”.

Valores menores o Valores mayores que


iguales que la mediana total la mediana total
Modalidad 1 del Factor n11 n12
Modalidad 2 del Factor n21 n22

Modalidad m del Factor nm1 nm2

42
Tema 2. ANOVA

Si se acepta la independencia, las filas de la tabla serán más o menos proporcionales; esto es,
las medianas de los grupos serán iguales entre si e iguales a la mediana total. Si se rechaza la
independencia, el sentido de las diferencias entre las frecuencias observadas y esperadas
permitirá determinar el sentido de las diferencias entre las medianas.

Contraste no paramétrico de Mann-Whitney: (Analizar / Pruebas no paramétricas


/ 2 muestras independientes)
Se usa igual que el de Krushal-Wallis pero solo sirve para comparar dos grupos

Extensiones del ANOVA: ANCOVA y MANOVA

43

También podría gustarte