Está en la página 1de 11

1

PRUEBAS PARA K MUESTRAS


INDEPENDIENTES
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
Prueba de
2
para K Muestras Independientes
Es una extensin de la prueba
2
para dos muestras
independientes.
Cuando las observaciones de una investigacin corresponden a
muestras independientes y estn formados por frecuencias en
categoras discretas, la prueba de
2
puede determinar la
significancia de las diferencias entre las k muestras.
Para la aplicacin de esta prueba se debe considerar que ninguna
ldill d b t f i d 0 l l 20% d l
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
celdilla debe tener frecuencia esperada 0, y slo el 20% de las
celdillas deben tener una frecuencia esperada inferior a 5. Si no se
dan estas condiciones hay que agrupar los datos. En caso contrario
la prueba no es vlida.
2
Para aplicar la prueba
2
, se disponen las frecuencias en una tabla de
contingencia de r x k.
Hiptesis a contrastar:
H
0
:- Los K grupos (frecuencias o proporciones) no difieren entre s. H
0
: Los K grupos (frecuencias o proporciones) no difieren entre s.
- Las K muestras proceden de la misma poblacin o de
poblaciones idnticas. F(x
1
)==F(X
k
)
-Los K grupos se distribuyen similarmente entre r clases
H
1
: - Al menos uno de los K grupos (frecuencias o proporciones) difiere
de los dems.
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
- Alguna de las K muestras proviene de una poblacin diferente.
F(x
i
)F(X
j
)
- Al menos uno de los K grupos se distribuyen de forma diferente.
Estadstico de Prueba:
El estadstico de prueba
2
c
se aproxima a la distribucin chi-cuadrada
con g.l.=(k-1)x(r-1), donde r= el nmero de filas y k= es el nmero de
columnas.
El valor del estadstico de prueba es calculado por la formula: El valor del estadstico de prueba es calculado por la formula:
2
) 1 )*( 1 ( ,
2
2
) (

=
k r
r
i
k
j ij
ij ij
c
e
e O


Donde:
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
O
ij
= Nmero observado de casos clasificados en la fila i de la columna j.
e
ij
= Nmero de casos esperados conforme a H
0
para ser clasificados en la
fila i de la columna j.
3
Procedimiento para el calculo del valor del estadstico:
1) Arreglar las observaciones en una tabla de contingencias.
2) Determinar el valor terico de las frecuencias para cada casilla. 2) Determinar el valor terico de las frecuencias para cada casilla.
3) Calcular las diferencias entre los valores observados con respecto a
los tericos de cada casilla.
4) Elevar al cuadrado las diferencias y dividirlas entre el valor terico de
la casilla correspondiente.
5) Obtener la sumatoria de los valores anteriores que es el
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
5) Obtener la sumatoria de los valores anteriores, que es el
estadstico X
2
c
.
6) Calcular los grados de libertad (g.l): gl = (r filas -1)x(k columnas -1).
Donde la probabilidades estimadas esta dada
por:
existe independencia entre las K muestras,
C.
F.
C
1
..
.
C
j
C
k
Total
F
1
e
11
O
11
e
1j
O
1j
e
1k
O
1k
n
1.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n
n
C P
j
j
.
) ( =
n
n
F P
i
i
.
) ( =
p ,
entonces la probabilidad de las observaciones
por celda es:
) ( ) ( ) (
j i j i
C P F P C F P =
F
i
e
i1
O
i1
e
ij
O
ij
e
2k
O
2k
n
i.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
F
r
e
r1
O
r1
e
rj
O
rj
e
rk
O
rk
n
3.
Total
n
.1
n
.j
n
.k
n
Entonces calculamos la frecuencia esperada para
la casilla correspondiente a eij:
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
n
n n
e
n
n n
n
n
n
n
n
n C P F P n C F P e
j i
ij
j i j
i
j i j i ij
. .
. . .
.
)] ( ) ( [ ) )( (
=
=

= = =
4
Regla de Decisin:
Para un nivel de significancia , y si,
>

2
1 1
2
) ( * ) ( , k r c

Rechazamos H
0
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
Aplicativo:
Una empresa que vende cuatro productos desea determinar si las
ventas se han distribuido similarmente entre cuatro clase generales de
clientes. Una muestra al azar de 1000 registros de ventas proporciona
la siguiente informacin: g
Producto
Grupo de Clientes 1 2 3 4
Profesionales 85 23 56 36
Hombres de negocios 153 44 128 75
Obreros Industriales 128 26 101 45
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
Granjeros 34 7 15 44
Qu conclusin puede obtener usted de los resultados de la prueba?.
Utilizar =0.05
5
Hiptesis a contrastar:
H
0
: Las ventas de los 4 productos se distribuyen similarmente entre las 4 clases
H
1
: Al menos una de las ventas de los 4 productos se distribuyen de forma
diferente entre las 4 clases.
0 05
L l l l d di t
=0.05 ,
Luego calculamos los esperados correspondientes :
Producto
TOTAL Grupo de Clientes 1 2 3 4
Profesionales
80 20 60 40
200
85 23 56 36
Hombres de negocios
160 40 120 80
400
153 44 128 75
n
n n
e
ij
1 . . 1
=
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
153 44 128 75
Obreros Industriales
120 30 90 60
300
128 26 101 45
Granjeros
40 10 30 20
100
34 7 15 44
TOTAL 400 100 300 200 1000
El estadstico de prueba ser entonces:
2
) 1 )*( 1 ( ,
2
2
) (

=
k r
r
i
k
j ij
ij ij
c
e
e O


24 47
) 20 44 ( ) 30 15 ( ) 40 36 ( ) 60 56 ( ) 20 23 ( ) 80 85 (
2 2 2 2 2 2
2

+

+ +

24 . 47
20
) (
30
) (
...
40
) (
60
) (
20
) (
80
) (
2
= + + + + + + =
c

= > =
= =
=
9 . 16 24 . 47
9 . 16
2
.) 9 ; 05 . 0 (
2
2
9 ) 3 )*( 3 ( , 05 . 0
2
) 1 )*( 1 ( ,
gl c
k r

Rechazamos H
0
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
) ; ( g
Entonces con un 5% de significancia, concluimos que existe suficiente
evidencia estadstica para afirmar que las ventas no se encuentran
distribuidos similarmente entre las cuatro clases de clientes.
6
Prueba de Kruskal-Wallis para K Muestras Independientes
La prueba de rango de Kruskal-Wallis es una generalizacin de la Prueba de
Mann-Whitney para dos muestras independientes.
La Prueba de Kruskal-Wallis compara el rango medio alcanzado en cada La Prueba de Kruskal Wallis compara el rango medio alcanzado en cada
subgrupo con los dems y determina si estas diferencias son suficientemente
significativa como para rechazar la hiptesis nula.
Frecuentemente hace falta decir si varias muestras independientes deben
considerarse como procedente de una misma poblacin, esto debido a que los
valores de las muestras casi siempre difieren en cierto grado y el problema es
determinar si tras las diferencias muestrales observadas hay diferencias entre
poblaciones o si son solo variaciones al azar que se esperara entre muestras
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
aleatorias de la misma poblacin.
Muestra 1 x
11
x
12
Muestra 2 x
21
x
22


1
n 1
x
2
n 2
x
x
Las k muestras en estudio son representadas en una tabla como la siguiente :
La hiptesis a contrastar es:
H
0
:Las K medianas de los grupos son todas iguales
(las muestras provienen de la misma poblacin, o poblaciones con
Muestra k x
k1
x
k2
k
kn
x
donde : N=n
1
+n
2
++n
k
, N: nmero total de observaciones
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
medianas iguales, o existe igualdad en los efectos de los tratamientos ).
H
1
: Al menos una de las medianas de los grupos es diferente
(alguna de las k muestras proviene de una poblacin diferente, o de
poblaciones con mediana diferente a las dems, o que los tratamientos
no tienen el mismo efecto).
7
) (
) (
1 N 3
n
R
1 N N
12
H
k
1 j j
2
j
+
+
=

=
Estadstico de Prueba:
Procedimiento para el calculo del valor del estadstico:
- Se ordenan las observaciones de menor a mayor como si fueran una
sola muestra, asignando a cada una de ellas su rango (1 para la menor,
2 para la siguiente, ... hasta asignar un rango al mayor de las
observaciones).
Para cada una de las muestras se calcula R j 1 2 k como la suma
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
- Para cada una de las muestras, se calcula R
j
, j=1,2..,k , como la suma
de los rangos de las observaciones que les corresponden a cada
muestra.
- Se reemplazan los datos en la formula arriba indicada y obtenemos el
valor del estadstico de prueba H.
REGLA DE DECISION:
bajo un nivel de significancia
- Si el nmero de muestras es k=3 y el nmero de observaciones en cada
d ll d 5 ili l l d bl 9 una de ellas no pasa de 5, utilizaremos los valores de tabla 9:
Se rechaza H
0
si: el valor de H supera el valor terico que encontramos en
la tabla de Kruskall-Wallis (H>H
tabla,
).
-Para cualquier otro caso diferente al anterior, se compara el valor de H
con el de la tabla de la
2
con (k-1) g.l.
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
Se rechaza H
0
si el valor del estadstico supera el valor terico de tabla
H >
2
tabla((k-1) g.l; )
.
8
Observaciones Ligadas:
-Si existen un alto numero de observaciones ligadas (empates) que
represente un porcentaje significativo de la muestra, es necesario corregir el
efecto determinando cuantos grupos ligados ocurrieron y cuantos puntajes
estaban ligados en cada grupo (tamao del grupo ligado).
Se define: Se define:
ti: Nmero de observaciones ligadas en un grupo i (tamao del grupo ligado)
T
i
= t
3
i
- t
i
Factor de correccin para el estadstico H:
) ( T
t
i H
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
) (
) (
1
3
1
N N
T
Factor
i
i

=

=
]
) (
) (
[
N N
T
1
H
H
3
t
1 i
i
corregido

=
T
i
: Indica sumar en todos los grupos de liga
N=n
1
+n
2
++n
k
, N: nmero total de observaciones
Aplicativo:
Se desea probar la hiptesis que los administradores, profesores orientado a
la enseanza y profesores orientados a la administracin muestran grados de
autoritarismo diferentes. Para eso el investigador divide sus 14 sujetos de
muestra en tres grupos: Profesores orientados a la enseanza (profesores que
desean permanecer en la enseanza), profesores orientados a la
administracin (profesores que aspiran a ser administradores) y
administradores. Se aplica un test a cada grupo para obtener los puntajes de
autoritarismo.
Profesores
orientados a la
enseanza
Profesores
orientados a la
administracin
Administradores
Puntajes de autoritarismo de tres grupos de educadores
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
96 83 115
128 128 149
83 132 166
83 115 147
101 109
9
Solucin:
Planteamos las hiptesis:
H
0
: No hay diferencia entre las medianas de puntajes de autoritarismo de
los profesores orientados a la enseanza, los profesores orientados a p p
la administracin y los administradores.
H
1
: Al menos uno de los grupos de educadores tiene mediana distinta a los
otros.
Calculo del estadstico de prueba:
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
1) Ordenar de menor a mayor todas las observaciones de los tres grupos
en una sola serie y asignamos rangos :
Grupos Puntajes Rango
(R
i
)
A 83 2
B 83 2
A 83 2
A 96 4
A: Profesores orientados a la
enseanza
B: Profesores orientados a la
administracin
A 96 4
A 101 5
B 109 6
C 115 7.5
B 115 7.5
B 128 9.5
A 128 9.5
B 132 11
C: Administradores
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
C 147 12
C 149 13
C 166 14
2) Reagrupamos los rangos :
10
Profesores
orientados a la
enseanza
Profesores
orientados a la
administracin
Administrador
es
4 2 7.5
9.5 9.5 13
2 11 14
Rangos
2 11 14
2 7.5 12
5 6
R
1
=22.5 R
2
=36 R
3
=46.5
3) Calculamos el valor del estadstico de prueba:
) ( 1 N 3
R
12
H
k
2
j
+ =

LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
) (
) (
1 N 3
n 1 N N
H
1 j j
+
+
=

=
49 . 6 ) 1 14 ( 3
4
) 5 . 46 (
5
) 36 (
5
) 5 . 22 (
) 1 14 ( 14
12
2 2 2
= +

+ +
+
= H
49 . 6 = H
Como se presentan ligas entre dos o ms puntajes,
corregimos el valor de H de los efectos de ligas con el
factor de correccin:
) (
) (
N N
T
1
3
t
1 i
i


=
Se empieza a determinar cuntos grupos ligados han ocurrido y cuntos
puntajes estaban ligados en cada grupo. La primera liga ocurri entre 3
puntajes a quienes se les asign el rango de 2, entonces , t el nmero de
puntajes ligados =3 entonces:
T
1
= t
3
t = (3)
3
3 = 24
La siguiente liga ocurri entre 2 puntajes a los que se les asign el rango
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
La siguiente liga ocurri entre 2 puntajes a los que se les asign el rango
promedio de 7.5, entonces t = 2
T
2
= t
3
t = (2)
3
-2 = 6
11
Y la ltima liga ocurri entre 2 puntajes a los que se les asign el rango
promedio de 9.5, entonces t = 2
T
3
= t
3
t = (2)
3
-2 = 6
Resumiendo:
t 3 2 2 Ti
T 24 6 6 36
Entonces calculamos el factor de correccin:
) (
) (
N N
T
1
3
t
1 i
i


=
987 . 0
) 14 ) 14 ((
) 36 (
1
3
=


LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
Entonces aplicando la correccin de H:
]
) (
) (
[
N N
T
1
H
H
3
t
1 i
i
corregido

=
58 . 6
987 . 0
49 . 6
= =
corregido
H
58 . 6 =
corregido
H
Como el nmero de muestras es k=3 y el nmero de observaciones en cada
una de ellas no pasa de 5, usaremos la tabla de Kruskal-Wallis (tabla 9).
Luego el valor de tablas de H bajo un nivel de significancia de 0.05 es:
6429 5 H
05 0 4 5 5 tabla
.
. ) , , (
=
=
Comparando el valor calculado con el de tabla rechazamos H
0
bajo un nivel de
significancia de 0.05.
LIC. RITA GUZMAN LOPEZ INFERENCIA ESTADISTICA NO PARAMETRICA
Bajo un nivel de significancia del 5% concluimos que los tres grupos de
educadores especificados difieren en grado de autoritarismo, entonces
podemos asegurar que las diferencias que se presentan entre los grupos de
observaciones no pueden ser atribuidos a la aleatoriedad incorporada en la
muestra.