Contraste Respecto de La Diferencia Entre Tres o Más Medias Poblacionales. Análisis de Varianza. ANOVA

1
UNIVERSIDAD CENTRAL DE VENEZUELA

FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
ESTADÍSTICA II SECCIÓN 21 2do. Período 2006
Parte 5. TEMA 2.
CONTRASTE RESPECTO DE LA DIFERENCIA ENTRE TRES O MÁS
MEDIAS POBLACIONALES. ANÁLISIS DE VARIANZA. ANOVA.
Trataremos ahora con la igualdad de medias de más de dos

poblaciones.
Por ejemplo, se puede estar interesado en averiguar si distintos
métodos de entrenamiento aplicados a un grupo de trabajadores en
una industria producen iguales o diferentes efectos sobre la
productividad; en este caso, la igualdad o diferencia de los efectos de
los distintos métodos de entrenamiento aplicados a una población.
Un segundo ejemplo podría ser, analizar la influencia del nivel
de educación en el ingreso, medido por los ingresos promedio
obtenidos en distintos niveles de educación.
El problema se puede generalizar de la siguiente forma:
Se tienen k poblaciones con medias µ1 , µ2 ,  , µk , y se trata de

contrastar la hipótesis nula: H 0 : µ1 = µ 2 =  = µ k = µ .
CLASIFICACIÓN SIMPLE (ANÁLISIS DE VARIANZA DE UNA

VIA) (ANÁLISIS DE VARIANZA DE UN SOLO CRITERIO DE
CLASIFICACIÓN)
PLANTEAMIENTO DEL PROBLEMA:
Se tienen k poblaciones con medias µ1 , µ2 ,  , µk , y se trata de

contrastar la hipótesis nula: H 0 : µ1 = µ 2 =  = µ k = µ de igualdad de
medias poblacionales, contra la hipótesis alternativa: H 1 : por lo
menos dos de las medias poblacionales son diferentes.
Se toma de cada población una muestra aleatoria cuyo tamaño

puede ser igual o diferente, con lo que se tienen k muestras
independientes con un determinado número de observaciones.
Sea n j , j = 1, 2,L , k el número de elementos en la j-ésima

muestra.
2
CASO DE TAMAÑOS DE MUESTRAS IGUALES
Se cumple en este caso que: n1 = n2 =  = nk = n

Sea X ij la i-ésima observación de la variable en la j-ésima
muestra, donde i=1,2,…,n ; j=1,2,…,k
Así, por ejemplo: X 53 es la quinta observación de la variable
en la tercera muestra.
La nomenclatura a ser utilizada será:
Muestra 1 Muestra 2  Muestra k

X 11 X 12  X 1k
X 21 X 22  X 2k
   
X n1 X n2  X nk
n n n
SUMAS ∑ X i1
i =1
∑ Xi2
i =1
L ∑X
i =1
ik
n n n
∑ X i1 ∑ Xi2 ∑X ik
Xj X1 = i =1
X2 = i =1
L Xk = i =1
n n n
n n
∑(X i1 − X1 )2 ∑(X ik − Xk )2
Sˆ 2j Sˆ12 = i =1
L Sˆk2 = i =1
n −1 n −1
n n
∑ ( X i1 − X1 )2 ∑(X i1 − X1 )2
Sˆ 2j S12 = i =1
L Sk2 = i =1
n n
k n k
GRAN MEDIA GLOBAL O MEDIA GLOBAL:

∑∑ X
j =1 i =1
ij ∑X
j =1
j
X = =
kn k
3
Veamos un ejemplo para ilustrar la notación:
EJEMPLO 1:
En una industria se escogen 3 grupos de 5 obreros cada uno, y

se les da entrenamiento con base a 3 diferentes métodos. Las
productividades de los obreros después del entrenamiento fueron las
siguientes:
METODO 1 METODO 2 METODO 3

20 25 16
25 26 18
23 20 15
18 29 20
19 30 21
X ij = Pr oductividad del i − ésimo obrero que

recibió el j − ésimo método de entrenamiento
i = 1, 2,3, 4,5
j = 1, 2,3
MEDIAS MUESTRALES
∑X i1
20 + 25 + 23 + 18 + 19
X1 = i =1
= = 21 Pr oductividad Pr omedio de los obreros
n 5
que recibieron el método de entrenamiento No.1
∑X i2
X2 = i =1
= 26
n
∑X i2
X3 = i =1
= 18
n
CUASIVARIANZAS MUESTRALES
4
n n
∑(X i1 − X 1 )
2
∑(X i1 − 21)2
34
Sˆ12 = i =1
= i =1
= = 8,5
n −1 4 4
n n
∑(X i2 − X 2 )2 ∑(X i2 − X 2 )2
62
Sˆ22 = i =1
= i =1
= = 15,5
n −1 n −1 4
n n
∑ ( X i3 − X 3 )2 ∑(X i3 − X 3 )2
26
Sˆ32 = i =1
= i =1
= = 6,5
n −1 n −1 4
VARIANZAS MUESTRALES
∑(X i1 − X1 )2
34
S12 = i =1
= = 6,8
n 5
∑(X i2 − X 2 )2
62
S122 = i =1
= = 12, 4
n 5
∑(X i3 − X 3 )2
26
S32 = i =1
= = 5, 2
n 5
GRAN MEDIA o MEDIA GLOBAL
k n k
∑∑ X
j =1 i =1
ij ∑X
j =1
j
21 + 26 + 18 65
X = = = = = 21, 67
kn k 3 3
Pr oductividad Pr omedio de los 15 obreros en la muestra
DESCOMPOSICIÓN DE LA SUMA DE CUADRADOS

5
Consideremos la variable, SCT= SUMA DE CUADRADOS

k n 2
TOTALES, donde SCT = ∑∑ ( X ij − X ) , Suma de los cuadrados de las

j =1 i =1
diferencias entre todos los elementos de la muestra y la gran media.

Es una medida de dispersión de todas las observaciones con respecto
a la media global.
Operando convenientemente, se puede descomponer la

Variación Total medida por la Suma de Cuadrados Totales en dos
componentes.
Esta partición de la SCT en dos partes es la relación básica en el

método de Análisis de Varianza (ANOVA).
Se demuestra que:
k n 2 k n 2 k
SCT = ∑∑ ( X ij − X ) = ∑∑ ( X ij − X j ) + n∑ ( X j − X ) 2
j =1 i =1 j =1 i =1 j =1
La variación o dispersión total de los datos se ha dividido en dos

componentes, cada una de las cuales refleja la variación debida a
diferentes causas o fuentes de variación, así tenemos que:
SCT = SCD + SCE
donde: SCD= SUMA DE CUADRADOS DENTRO DE LAS MUESTRAS

SCE= SUMA DE CUADRADOS ENTRE LAS MUESTRAS
SCD= VARIABILIDAD O DISPERSIÓN DENTRO DE CADA UNA DE LAS

MUESTRAS
En nuestro ejemplo, tenemos que:
k n 2
SCD = ∑∑ ( X ij − X j ) = 34 + 62 + 26 = 122
j =1 i =1
Por otra parte, SCE= VARIABILIDAD O DISPERSIÓN ENTRE LAS

MUESTRAS
6
En nuestro ejemplo, tenemos que:

k
SCE = n∑ ( X j − X ) 2 = 5 ( 21 − 21, 67 ) + (26 − 21, 67)2 + (18 − 21, 67)2  = 163,33
2
j =1
 
luego SCT= 122+163,33= 285,33
PROCEDIMIENTO DEL CONTRASTE
Tenemos la hipótesis nula:
H 0 : µ1 = µ 2 =  = µ k = µ contra la hipótesis alternativa
H1 : al menos dos medias son diferentes
nS 2j
Se demuestra que la variable aleatoria : χ n2−1 , luego SCD,
σ 2
que es la suma de k variables Chi-cuadrado independientes, cada una

con k-1 grados de libertad, es a su vez una variable Chi-cuadrado con
k(n-1) grados de libertad.
Además, ∑(X
i =1
ij − X j )2
es un estimador insesgado de σ 2 .
n −1
Tenemos k estimadores insesgados de σ 2 , uno por cada muestra, el
promedio de estos será:
k
 n 2
∑  ∑ ( X ij − X j ) 
j =1  i =1  SCD
=
k (n − 1) k (n − 1)
que es a su vez un estimador insesgado de σ 2 .
Tenemos así un estimador insesgado de la varianza poblacional,

basado en la dispersión de los datos dentro de las muestras, cuyo
valor no depende de la verdad o falsedad de la hipótesis de igualdad
de medias (H0).
Por otro lado, si la hipótesis nula es verdadera, y bajo los

supuestos de normalidad y varianza común, las k poblaciones
pueden considerarse como una sola población normal con media µ y
varianza σ 2 , entonces al tomar una muestra aleatoria de n elementos
sabemos que la media muestral también se distribuye normal con
media µ y varianza σ 2 /n. Las medias muestales de las k muestras
se pueden considerar como una muestra aleatoria de k elementos de
una población normal (µ, σ 2 /n).
7
La varianza muestral de esa muestra es:
∑(X
j =1
j − X )2
kS X2
S X2 = y es una var iable χ2 con k − 1 grados de libertad
n σ 2
n
k
Además, la cuasivarianza muestral

∑(X
j =1
j − X )2
es un
k −1
σ 2
estimador insesgado de la varianza en consecuencia,
n
k
n∑ ( X j − X ) 2
j =1 SCE , es un estimador insesgado de la varianza
=
k −1 k −1
poblacional.
Hemos obtenido otro estimador insesgado de la varianza

poblacional independiente del anterior basado en la dispersión de las
medias muestrales; el valor de este estimador si está influenciado por
la verdad o falsedad de la hipótesis nula.
Si obtenemos el cociente, resultará el estadístico de contraste

para H0
SCE
k (n − 1) SCE
Fc = k − 1 = : F (k −1),k (n −1) grados de libertad
SCD (k − 1) SCD
k ( n − 1)
Donde la Región Crítica o de Rechazo es:
Si Fc > F1−α ; ( k −1), k ( n −1), grados de libertad se rechaza H0

8
Toda esta información puede ser resumida en la siguiente tabla

que llamaremos Tabla ANOVA:
FUENTE DE SUMA DE GRADOS CUADRADO RAZO

VARIACIÓN CUADRADOS DE S N
LIBERTA MEDIOS F
D (Fc)
ENTRE LAS k
SCE
MUESTRAS SCE = n∑ ( X j − X ) 2 k-1
CME =
j =1 k −1
(Inter-grupos)
DENTRO DE k n 2
SCD CME
LAS SCD = ∑∑ ( X ij − X j ) k(n-1)
CMD =
j =1 i =1
k (n − 1) CMD
MUESTRAS
(Intra-grupos)
k n 2
TOTAL SCT = ∑∑ ( X ij − X ) n-1

j =1 i =1
En nuestro ejemplo:
H 0 : µ1 = µ2 = µ3 = µ
H1 : al menos dos métodos de entrenamiento registran productividades promedio diferentes
GRADOS RAZON
FUENTE DE SUMA DE DE CUADRADO F
VARIACIÓN CUADRADOS LIBERTAD S (Fc)
MEDIOS
ENTRE LAS k
MUESTRAS n ∑ ( X j − X ) 2 = 163,33 k-1=2 SCE

= 81, 667
CMD
(Inter-
j =1 = 8, 033
k −1 CME
grupos)
DENTRO k n 2
DE LAS ∑∑ ( ij j ) = 122 k(n-1)=12 SCD

X − X
j =1 i =1 = 10,167
MUESTRAS k (n − 1)
(Intra-
grupos)
k n 2
TOTAL ∑∑ ( X
j =1 i =1
ij − X ) = 285,33 kn-1=14
A continuación presentamos una salida del SPSS (versión 11.0)

9
ANOVA
PRODUCTI
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 163,333 2 81,667 8,033 ,006
Intra-grupos 122,000 12 10,167
Total 285,333 14
Si Fc > F1−α ; ( k −1), k ( n −1), grados de libertad se rechaza H0
Fc = 8, 033 α = 0, 05 F1−α ; (k −1), k (n −1) = F0,95;2 , 12 = 3,89
Fc = 8, 033 > F0,95 ;2 , 12 = 3,89
En consecuencia, se rechaza la hipótesis nula, luego, EXISTEN

EVIDENCIAS MUESTRALES A UN 5% DE SIGNIFICACIÓN PARA AFIRMAR
QUE AL MENOS DOS MÉTODOS DE ENTRENAMIENTO REGISTRAN
PRODUCTIVIDADES PROMEDIO DIFERENTES.
En otras palabras, los distintos métodos de entrenamiento

afectan en forma diferente las productividades.
CASO DE DISTINTOS TAMAÑOS DE MUESTRA
Cuando el número de elementos de cada muestra es diferente,

n j , la lógica del procedimiento anterior es la misma, solo que se
producen algunas modificaciones en las expresiones utilizadas.
MEDIAS MUESTRALES
∑X ij
Xj = i =1
j = 1, 2,L , k
nj
nj
CUASIVARIANZAS MUESTRALES
∑(X ij − X j )2
Sˆ 2j = i =1
nj −1
10
nj
VARIANZAS MUESTRALES
∑(X ij − X j )2
S 2j = i =1
nj −1
GRAN MEDIA O MEDIA GLOBAL

k nj k
∑∑ X
j =1 i =1
ij ∑n
j =1
j Xj
X = = Media Ponderada
N N
k
N = ∑ nj
j =1
TABLA ANOVA PARA CONTRASTAR H 0 : µ1 = µ 2 =  = µ k = µ

FUENTE DE SUMA DE GRADOS CUADRADO RAZO
VARIACIÓN CUADRADOS DE S N
LIBERTA MEDIOS F
D (Fc)
ENTRE LAS k
SCE
MUESTRAS SCE = ∑
j =1
n j ( X j − X )2 k-1
CME =
k −1
(Inter-
grupos)
DENTRO k nj 2
SCD CME
DE LAS SCD = ∑∑ ( X ij − X j ) N-k
CMD =
N −k CMD
MUESTRAS j =1 i =1
(Intra-
grupos)
k n 2
TOTAL SCT = ∑∑ ( X ij − X ) N-1

j =1 i =1
CME
Fc = :Fk −
N1, k−
CMD
Luego, la Región Crítica o de Rechazo es:
Si Fc > F1−α ; ( k −1), N −k grados de libertad se rechaza H0

11
EJEMPLO 2:
Se desea comparar los ingresos medios diarios de la población

de cuatro (4) parroquias de Caracas, para lo cual se toman muestras
aleatorias de tamaño 10, 6, 10 y 9 elementos respectivamente. Los
resultados fueron los siguientes:
A B C D
12 15 15 10
15 8 17 5
8 16 5 12
10 13 13 14
9 14 14 16
11 12 8 13
12 10 12
14 10 8
13 10 12
10 12
N=35 k=4 n1 = 10 n2 = 6 n3 = 10 n4 = 9
CALCULAR INGRESOS PROMEDIOS DIARIOS

POR PARROQUIA, CUASIVARIANZAS Y
VARIANZAS MUESTRALES E INGRESO
PROMEDIO DIARIO GLOBAL.
La correspondiente Tabla ANOVA del SPSS (versión 11.0)
ANOVA
INGRESOS
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 13,086 3 4,362 ,478 ,700
Intra-grupos 282,800 31 9,123
Total 295,886 34
CME
Fc = = 478
0, <F
0,95 ; 3, 31
CMD
En consecuencia, no podemos rechazar la hipótesis nula, por lo

que podemos concluir que: NO EXISTEN EVIDENCIAS MUESTRALES A
UN 5% DE SIGNIFICACIÓN PARA AFIRMAR QUE LOS INGRESOS
PROMEDIOS DIARIOS DE LA POBLACIÓN DE CUATRO PARROQUIAS DE
CARACAS SE DIFERENCIAN.

Contraste Respecto de La Diferencia Entre Tres o Más Medias Poblacionales. Análisis de Varianza. ANOVA

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Contraste Respecto de La Diferencia Entre Tres o Más Medias Poblacionales. Análisis de Varianza. ANOVA

Cargado por

Copyright:

Formatos disponibles

1

UNIVERSIDAD CENTRAL DE VENEZUELA

Trataremos ahora con la igualdad de medias de más de dos

Se tienen k poblaciones con medias µ1 , µ2 ,  , µk , y se trata de

CLASIFICACIÓN SIMPLE (ANÁLISIS DE VARIANZA DE UNA

PLANTEAMIENTO DEL PROBLEMA:

Se tienen k poblaciones con medias µ1 , µ2 ,  , µk , y se trata de

Se toma de cada población una muestra aleatoria cuyo tamaño

Sea n j , j = 1, 2,L , k el número de elementos en la j-ésima

CASO DE TAMAÑOS DE MUESTRAS IGUALES

Se cumple en este caso que: n1 = n2 =  = nk = n

Muestra 1 Muestra 2  Muestra k

GRAN MEDIA GLOBAL O MEDIA GLOBAL:

Veamos un ejemplo para ilustrar la notación:

En una industria se escogen 3 grupos de 5 obreros cada uno, y

METODO 1 METODO 2 METODO 3

X ij = Pr oductividad del i − ésimo obrero que

GRAN MEDIA o MEDIA GLOBAL

Pr oductividad Pr omedio de los 15 obreros en la muestra

DESCOMPOSICIÓN DE LA SUMA DE CUADRADOS

Consideremos la variable, SCT= SUMA DE CUADRADOS

TOTALES, donde SCT = ∑∑ ( X ij − X ) , Suma de los cuadrados de las

diferencias entre todos los elementos de la muestra y la gran media.

Operando convenientemente, se puede descomponer la

Esta partición de la SCT en dos partes es la relación básica en el

La variación o dispersión total de los datos se ha dividido en dos

SCT = SCD + SCE

donde: SCD= SUMA DE CUADRADOS DENTRO DE LAS MUESTRAS

SCD= VARIABILIDAD O DISPERSIÓN DENTRO DE CADA UNA DE LAS

En nuestro ejemplo, tenemos que:

Por otra parte, SCE= VARIABILIDAD O DISPERSIÓN ENTRE LAS

En nuestro ejemplo, tenemos que:

PROCEDIMIENTO DEL CONTRASTE

Tenemos la hipótesis nula:

H 0 : µ1 = µ 2 =  = µ k = µ contra la hipótesis alternativa

H1 : al menos dos medias son diferentes

que es la suma de k variables Chi-cuadrado independientes, cada una

que es a su vez un estimador insesgado de σ 2 .

Tenemos así un estimador insesgado de la varianza poblacional,

Por otro lado, si la hipótesis nula es verdadera, y bajo los

La varianza muestral de esa muestra es:

Además, la cuasivarianza muestral

Hemos obtenido otro estimador insesgado de la varianza

Si obtenemos el cociente, resultará el estadístico de contraste

Donde la Región Crítica o de Rechazo es:

Si Fc > F1−α ; ( k −1), k ( n −1), grados de libertad se rechaza H0

Toda esta información puede ser resumida en la siguiente tabla

FUENTE DE SUMA DE GRADOS CUADRADO RAZO

TOTAL SCT = ∑∑ ( X ij − X ) n-1

MUESTRAS n ∑ ( X j − X ) 2 = 163,33 k-1=2 SCE

DE LAS ∑∑ ( ij j ) = 122 k(n-1)=12 SCD

A continuación presentamos una salida del SPSS (versión 11.0)

Si Fc > F1−α ; ( k −1), k ( n −1), grados de libertad se rechaza H0

Fc = 8, 033 α = 0, 05 F1−α ; (k −1), k (n −1) = F0,95;2 , 12 = 3,89

Fc = 8, 033 > F0,95 ;2 , 12 = 3,89

En consecuencia, se rechaza la hipótesis nula, luego, EXISTEN

En otras palabras, los distintos métodos de entrenamiento

CASO DE DISTINTOS TAMAÑOS DE MUESTRA

Cuando el número de elementos de cada muestra es diferente,

GRAN MEDIA O MEDIA GLOBAL

TABLA ANOVA PARA CONTRASTAR H 0 : µ1 = µ 2 =  = µ k = µ

TOTAL SCT = ∑∑ ( X ij − X ) N-1

Si Fc > F1−α ; ( k −1), N −k grados de libertad se rechaza H0