Está en la página 1de 11

1

UNIVERSIDAD CENTRAL DE VENEZUELA


FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
ESTADÍSTICA II SECCIÓN 21 2do. Período 2006

Parte 5. TEMA 2.
CONTRASTE RESPECTO DE LA DIFERENCIA ENTRE TRES O MÁS
MEDIAS POBLACIONALES. ANÁLISIS DE VARIANZA. ANOVA.

Trataremos ahora con la igualdad de medias de más de dos


poblaciones.
Por ejemplo, se puede estar interesado en averiguar si distintos
métodos de entrenamiento aplicados a un grupo de trabajadores en
una industria producen iguales o diferentes efectos sobre la
productividad; en este caso, la igualdad o diferencia de los efectos de
los distintos métodos de entrenamiento aplicados a una población.
Un segundo ejemplo podría ser, analizar la influencia del nivel
de educación en el ingreso, medido por los ingresos promedio
obtenidos en distintos niveles de educación.
El problema se puede generalizar de la siguiente forma:

Se tienen k poblaciones con medias µ1 , µ2 ,  , µk , y se trata de


contrastar la hipótesis nula: H 0 : µ1 = µ 2 =  = µ k = µ .

CLASIFICACIÓN SIMPLE (ANÁLISIS DE VARIANZA DE UNA


VIA) (ANÁLISIS DE VARIANZA DE UN SOLO CRITERIO DE
CLASIFICACIÓN)

PLANTEAMIENTO DEL PROBLEMA:

Se tienen k poblaciones con medias µ1 , µ2 ,  , µk , y se trata de


contrastar la hipótesis nula: H 0 : µ1 = µ 2 =  = µ k = µ de igualdad de
medias poblacionales, contra la hipótesis alternativa: H 1 : por lo
menos dos de las medias poblacionales son diferentes.

Se toma de cada población una muestra aleatoria cuyo tamaño


puede ser igual o diferente, con lo que se tienen k muestras
independientes con un determinado número de observaciones.

Sea n j , j = 1, 2,L , k el número de elementos en la j-ésima


muestra.
2

CASO DE TAMAÑOS DE MUESTRAS IGUALES

Se cumple en este caso que: n1 = n2 =  = nk = n


Sea X ij la i-ésima observación de la variable en la j-ésima
muestra, donde i=1,2,…,n ; j=1,2,…,k
Así, por ejemplo: X 53 es la quinta observación de la variable
en la tercera muestra.
La nomenclatura a ser utilizada será:

Muestra 1 Muestra 2  Muestra k


X 11 X 12  X 1k
X 21 X 22  X 2k
   
X n1 X n2  X nk

n n n
SUMAS ∑ X i1
i =1
∑ Xi2
i =1
L ∑X
i =1
ik

n n n

∑ X i1 ∑ Xi2 ∑X ik
Xj X1 = i =1
X2 = i =1
L Xk = i =1

n n n
n n

∑(X i1 − X1 )2 ∑(X ik − Xk )2
Sˆ 2j Sˆ12 = i =1
L Sˆk2 = i =1

n −1 n −1

n n

∑ ( X i1 − X1 )2 ∑(X i1 − X1 )2
Sˆ 2j S12 = i =1
L Sk2 = i =1

n n

k n k

GRAN MEDIA GLOBAL O MEDIA GLOBAL:


∑∑ X
j =1 i =1
ij ∑X
j =1
j

X = =
kn k
3

Veamos un ejemplo para ilustrar la notación:

EJEMPLO 1:

En una industria se escogen 3 grupos de 5 obreros cada uno, y


se les da entrenamiento con base a 3 diferentes métodos. Las
productividades de los obreros después del entrenamiento fueron las
siguientes:

METODO 1 METODO 2 METODO 3


20 25 16
25 26 18
23 20 15
18 29 20
19 30 21

X ij = Pr oductividad del i − ésimo obrero que


recibió el j − ésimo método de entrenamiento
i = 1, 2,3, 4,5
j = 1, 2,3

MEDIAS MUESTRALES

∑X i1
20 + 25 + 23 + 18 + 19
X1 = i =1
= = 21 Pr oductividad Pr omedio de los obreros
n 5
que recibieron el método de entrenamiento No.1

∑X i2
X2 = i =1
= 26
n

∑X i2
X3 = i =1
= 18
n

CUASIVARIANZAS MUESTRALES
4

n n

∑(X i1 − X 1 )
2
∑(X i1 − 21)2
34
Sˆ12 = i =1
= i =1
= = 8,5
n −1 4 4

n n

∑(X i2 − X 2 )2 ∑(X i2 − X 2 )2
62
Sˆ22 = i =1
= i =1
= = 15,5
n −1 n −1 4

n n

∑ ( X i3 − X 3 )2 ∑(X i3 − X 3 )2
26
Sˆ32 = i =1
= i =1
= = 6,5
n −1 n −1 4

VARIANZAS MUESTRALES

∑(X i1 − X1 )2
34
S12 = i =1
= = 6,8
n 5

∑(X i2 − X 2 )2
62
S122 = i =1
= = 12, 4
n 5

∑(X i3 − X 3 )2
26
S32 = i =1
= = 5, 2
n 5

GRAN MEDIA o MEDIA GLOBAL

k n k

∑∑ X
j =1 i =1
ij ∑X
j =1
j
21 + 26 + 18 65
X = = = = = 21, 67
kn k 3 3

Pr oductividad Pr omedio de los 15 obreros en la muestra

DESCOMPOSICIÓN DE LA SUMA DE CUADRADOS


5

Consideremos la variable, SCT= SUMA DE CUADRADOS


k n 2

TOTALES, donde SCT = ∑∑ ( X ij − X ) , Suma de los cuadrados de las


j =1 i =1

diferencias entre todos los elementos de la muestra y la gran media.


Es una medida de dispersión de todas las observaciones con respecto
a la media global.

Operando convenientemente, se puede descomponer la


Variación Total medida por la Suma de Cuadrados Totales en dos
componentes.

Esta partición de la SCT en dos partes es la relación básica en el


método de Análisis de Varianza (ANOVA).

Se demuestra que:

k n 2 k n 2 k
SCT = ∑∑ ( X ij − X ) = ∑∑ ( X ij − X j ) + n∑ ( X j − X ) 2
j =1 i =1 j =1 i =1 j =1

La variación o dispersión total de los datos se ha dividido en dos


componentes, cada una de las cuales refleja la variación debida a
diferentes causas o fuentes de variación, así tenemos que:

SCT = SCD + SCE

donde: SCD= SUMA DE CUADRADOS DENTRO DE LAS MUESTRAS


SCE= SUMA DE CUADRADOS ENTRE LAS MUESTRAS

SCD= VARIABILIDAD O DISPERSIÓN DENTRO DE CADA UNA DE LAS


MUESTRAS

En nuestro ejemplo, tenemos que:

k n 2

SCD = ∑∑ ( X ij − X j ) = 34 + 62 + 26 = 122
j =1 i =1

Por otra parte, SCE= VARIABILIDAD O DISPERSIÓN ENTRE LAS


MUESTRAS
6

En nuestro ejemplo, tenemos que:


k
SCE = n∑ ( X j − X ) 2 = 5 ( 21 − 21, 67 ) + (26 − 21, 67)2 + (18 − 21, 67)2  = 163,33
2

j =1
 
luego SCT= 122+163,33= 285,33

PROCEDIMIENTO DEL CONTRASTE

Tenemos la hipótesis nula:

H 0 : µ1 = µ 2 =  = µ k = µ contra la hipótesis alternativa

H1 : al menos dos medias son diferentes

nS 2j
Se demuestra que la variable aleatoria : χ n2−1 , luego SCD,
σ 2

que es la suma de k variables Chi-cuadrado independientes, cada una


con k-1 grados de libertad, es a su vez una variable Chi-cuadrado con
k(n-1) grados de libertad.

Además, ∑(X
i =1
ij − X j )2
es un estimador insesgado de σ 2 .
n −1
Tenemos k estimadores insesgados de σ 2 , uno por cada muestra, el
promedio de estos será:

k
 n 2
∑  ∑ ( X ij − X j ) 
j =1  i =1  SCD
=
k (n − 1) k (n − 1)

que es a su vez un estimador insesgado de σ 2 .

Tenemos así un estimador insesgado de la varianza poblacional,


basado en la dispersión de los datos dentro de las muestras, cuyo
valor no depende de la verdad o falsedad de la hipótesis de igualdad
de medias (H0).

Por otro lado, si la hipótesis nula es verdadera, y bajo los


supuestos de normalidad y varianza común, las k poblaciones
pueden considerarse como una sola población normal con media µ y
varianza σ 2 , entonces al tomar una muestra aleatoria de n elementos
sabemos que la media muestral también se distribuye normal con
media µ y varianza σ 2 /n. Las medias muestales de las k muestras
se pueden considerar como una muestra aleatoria de k elementos de
una población normal (µ, σ 2 /n).
7

La varianza muestral de esa muestra es:

∑(X
j =1
j − X )2
kS X2
S X2 = y es una var iable χ2 con k − 1 grados de libertad
n σ 2

n
k

Además, la cuasivarianza muestral


∑(X
j =1
j − X )2
es un
k −1
σ 2
estimador insesgado de la varianza en consecuencia,
n

k
n∑ ( X j − X ) 2
j =1 SCE , es un estimador insesgado de la varianza
=
k −1 k −1
poblacional.

Hemos obtenido otro estimador insesgado de la varianza


poblacional independiente del anterior basado en la dispersión de las
medias muestrales; el valor de este estimador si está influenciado por
la verdad o falsedad de la hipótesis nula.

Si obtenemos el cociente, resultará el estadístico de contraste


para H0

SCE
k (n − 1) SCE
Fc = k − 1 = : F (k −1),k (n −1) grados de libertad
SCD (k − 1) SCD
k ( n − 1)

Donde la Región Crítica o de Rechazo es:

Si Fc > F1−α ; ( k −1), k ( n −1), grados de libertad se rechaza H0


8

Toda esta información puede ser resumida en la siguiente tabla


que llamaremos Tabla ANOVA:

FUENTE DE SUMA DE GRADOS CUADRADO RAZO


VARIACIÓN CUADRADOS DE S N
LIBERTA MEDIOS F
D (Fc)
ENTRE LAS k
SCE
MUESTRAS SCE = n∑ ( X j − X ) 2 k-1
CME =
j =1 k −1
(Inter-grupos)
DENTRO DE k n 2
SCD CME
LAS SCD = ∑∑ ( X ij − X j ) k(n-1)
CMD =
j =1 i =1
k (n − 1) CMD
MUESTRAS
(Intra-grupos)
k n 2

TOTAL SCT = ∑∑ ( X ij − X ) n-1


j =1 i =1

En nuestro ejemplo:

H 0 : µ1 = µ2 = µ3 = µ
H1 : al menos dos métodos de entrenamiento registran productividades promedio diferentes
GRADOS RAZON
FUENTE DE SUMA DE DE CUADRADO F
VARIACIÓN CUADRADOS LIBERTAD S (Fc)
MEDIOS
ENTRE LAS k

MUESTRAS n ∑ ( X j − X ) 2 = 163,33 k-1=2 SCE


= 81, 667
CMD
(Inter-
j =1 = 8, 033
k −1 CME
grupos)
DENTRO k n 2

DE LAS ∑∑ ( ij j ) = 122 k(n-1)=12 SCD


X − X
j =1 i =1 = 10,167
MUESTRAS k (n − 1)
(Intra-
grupos)
k n 2

TOTAL ∑∑ ( X
j =1 i =1
ij − X ) = 285,33 kn-1=14

A continuación presentamos una salida del SPSS (versión 11.0)


9

ANOVA

PRODUCTI
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 163,333 2 81,667 8,033 ,006
Intra-grupos 122,000 12 10,167
Total 285,333 14

Si Fc > F1−α ; ( k −1), k ( n −1), grados de libertad se rechaza H0

Fc = 8, 033 α = 0, 05 F1−α ; (k −1), k (n −1) = F0,95;2 , 12 = 3,89

Fc = 8, 033 > F0,95 ;2 , 12 = 3,89

En consecuencia, se rechaza la hipótesis nula, luego, EXISTEN


EVIDENCIAS MUESTRALES A UN 5% DE SIGNIFICACIÓN PARA AFIRMAR
QUE AL MENOS DOS MÉTODOS DE ENTRENAMIENTO REGISTRAN
PRODUCTIVIDADES PROMEDIO DIFERENTES.

En otras palabras, los distintos métodos de entrenamiento


afectan en forma diferente las productividades.

CASO DE DISTINTOS TAMAÑOS DE MUESTRA

Cuando el número de elementos de cada muestra es diferente,


n j , la lógica del procedimiento anterior es la misma, solo que se
producen algunas modificaciones en las expresiones utilizadas.

MEDIAS MUESTRALES
∑X ij
Xj = i =1
j = 1, 2,L , k
nj

nj

CUASIVARIANZAS MUESTRALES
∑(X ij − X j )2
Sˆ 2j = i =1

nj −1
10

nj

VARIANZAS MUESTRALES
∑(X ij − X j )2
S 2j = i =1

nj −1

GRAN MEDIA O MEDIA GLOBAL


k nj k

∑∑ X
j =1 i =1
ij ∑n
j =1
j Xj
X = = Media Ponderada
N N

k
N = ∑ nj
j =1

TABLA ANOVA PARA CONTRASTAR H 0 : µ1 = µ 2 =  = µ k = µ


FUENTE DE SUMA DE GRADOS CUADRADO RAZO
VARIACIÓN CUADRADOS DE S N
LIBERTA MEDIOS F
D (Fc)
ENTRE LAS k
SCE
MUESTRAS SCE = ∑
j =1
n j ( X j − X )2 k-1
CME =
k −1
(Inter-
grupos)
DENTRO k nj 2
SCD CME
DE LAS SCD = ∑∑ ( X ij − X j ) N-k
CMD =
N −k CMD
MUESTRAS j =1 i =1

(Intra-
grupos)
k n 2

TOTAL SCT = ∑∑ ( X ij − X ) N-1


j =1 i =1

CME
Fc = :Fk −
N1, k−
CMD
Luego, la Región Crítica o de Rechazo es:

Si Fc > F1−α ; ( k −1), N −k grados de libertad se rechaza H0


11

EJEMPLO 2:

Se desea comparar los ingresos medios diarios de la población


de cuatro (4) parroquias de Caracas, para lo cual se toman muestras
aleatorias de tamaño 10, 6, 10 y 9 elementos respectivamente. Los
resultados fueron los siguientes:

A B C D
12 15 15 10
15 8 17 5
8 16 5 12
10 13 13 14
9 14 14 16
11 12 8 13
12 10 12
14 10 8
13 10 12
10 12

N=35 k=4 n1 = 10 n2 = 6 n3 = 10 n4 = 9

CALCULAR INGRESOS PROMEDIOS DIARIOS


POR PARROQUIA, CUASIVARIANZAS Y
VARIANZAS MUESTRALES E INGRESO
PROMEDIO DIARIO GLOBAL.
La correspondiente Tabla ANOVA del SPSS (versión 11.0)
ANOVA

INGRESOS
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 13,086 3 4,362 ,478 ,700
Intra-grupos 282,800 31 9,123
Total 295,886 34

CME
Fc = = 478
0, <F
0,95 ; 3, 31
CMD

En consecuencia, no podemos rechazar la hipótesis nula, por lo


que podemos concluir que: NO EXISTEN EVIDENCIAS MUESTRALES A
UN 5% DE SIGNIFICACIÓN PARA AFIRMAR QUE LOS INGRESOS
PROMEDIOS DIARIOS DE LA POBLACIÓN DE CUATRO PARROQUIAS DE
CARACAS SE DIFERENCIAN.

También podría gustarte