Está en la página 1de 11

Profesora : Lic.

Rita Guzmn

PRUEBAS PARA K MUESTRAS


INDEPENDIENTES

Profesora : Lic. Rita Guzmn

Prueba de para K Muestras


Independientes
Es una extensin de la prueba 2 para dos muestras
independientes.
Cuando las observaciones de una investigacin
corresponden a muestras independientes y estn
formados por frecuencias en categoras discretas, la
prueba de 2 puede determinar la significancia de las
diferencias entre las k muestras.
Para la aplicacin de este prueba se debe considerar que
ninguna celdilla debe tener frecuencia esperada 0, y slo el
20% de las celdillas deben tener una frecuencia esperada
inferior a 5. Si no se dan estas condiciones hay que agrupar
los datos. En caso contrario la prueba no es vlida.

Profesora : Lic. Rita Guzmn

Para aplicar la prueba 2, se disponen las frecuencias en una tabla


de contingencia de r x k.
Hiptesis a contrastar:
H0:: Las K muestras de frecuencias o proporciones no difieren
entre s.
-Las K muestras proceden de la misma poblacin o de
poblaciones idnticas. F(x1)==F(Xk)
-Las K muestras se distribuyen similarmente entre r clases
H1: - Al menos dos de las K muestras de frecuencias o
proporciones difieren entre s.
- Alguna de las K muestras proviene de una poblacin
diferente. F(xi)F(Xj)
- Al menos dos de las K muestras se distribuyen de forma
diferente.

Profesora : Lic. Rita Guzmn

Estadstico de Prueba:
El estadstico de prueba 2c se aproxima a la distribucin
chi-cuadrada con g.l.=(k-1)(r-1), donde k= es el nmero
de columnas y r= el nmero de filas.
El valor del estadstico de prueba es calculado por la
formula:

c2 =

( O ij e ij ) 2

e ij

2 , ( k 1 )*( r 1 )

Donde:
Oij = Nmero observado de casos clasificados en la fila i de la
columna j.
eij = Nmero de casos esperados conforme a H0 para ser
clasificados en la fila i de la columna j.

Profesora : Lic. Rita Guzmn

Procedimiento para el calculo del valor del estadstico:


1) Arreglar las observaciones en una tabla de contingencias.
2) Determinar el valor terico de las frecuencias para cada casilla.
casilla
3) Calcular las diferencias entre los valores observados con
respecto a los tericos de cada casilla.
4) Elevar al cuadrado las diferencias y dividirlas entre el valor
terico de la casilla correspondiente.
5) Obtener la sumatoria de los valores anteriores, que es el
estadstico X2c.
6) Calcular los grados de libertad (g.l):
gl = (k columnas -1) (rfilas -1).

Profesora : Lic. Rita Guzmn

C.
F.
F1

C1
e11
O11
.
.
.

.
.
.

Fi

ei1

Total

Cj
O1j
.
.
.

eij

Oi1

er1

e1j
.
.
.

.
.
.

.
.
.

Fr

..
.

.
.
.

Oij
.
.
.

.
.
.

.
.
.

erj

Ck

Total

e1k
O1k

n1.

.
.
.

.
.
.

e2k
O2k

ni.

.
.
.

.
.
.

n3.

Or1

Orj

erk
Ork

n.1

n.j

n.k

Donde la probabilidades estimadas esta


dada por:
P ( Fi ) =

n1.
n

P (C j ) =

n.1
n

existe independencia entre las K


muestras, entonces la probabilidad de
las observaciones por celda es:

P ( Fi C j ) = P ( Fi ) P (C j )
Entonces calculamos la frecuencia
esperada
para
la
casilla
correspondiente a eij:

n n
n n
eij = P ( Fi C j )( n ) = [ P ( Fi ) P (C j )] n = 1 . .1 n = 1 . .1
n
n
n

n n
eij = 1 . .1
n

Profesora : Lic. Rita Guzmn

Regla de Decisin:
Para un nivel de significancia , y si,

c2 > 2 , ( r 1 ) * ( k 1 )

Rechazamos H0

Profesora : Lic. Rita Guzmn

Aplicativo:
Una empresa que vende cuatro productos desea determinar si las
ventas se han distribuido similarmente entre cuatro clase generales
de clientes. Una muestra al azar de 1000 registros de ventas
proporciona la siguiente informacin:
Producto
Grupo de Clientes

Profesionales

85

23

56

36

Hombres de negocios

153

44

128

75

Obreros Industriales

128

26

101

45

Granjeros

34

15

44

Qu conclusin puede obtener usted de los resultados de la


prueba?. Utilizar =0.05

Profesora : Lic. Rita Guzmn

Hiptesis a contrastar:
H0: Las 4 muestras se distribuyen similarmente entre las 4 clases
H1: Dos de las 4 muestras se distribuyen de forma diferente entre
las 4 clases.
=0.05 , Luego calculamos los esperados correspondientes :
eij =

Producto
Grupo de Clientes

80

Profesionales

85

Hombres de negocios

160

23

153

40

Granjeros

120

30

TOTAL

10

60

30

100

75

101

400

80

90

34

36

128

26

TOTAL

40
56

44

128

60

40

120

Obreros Industriales

20

45
20

15

300

44

200

n1.n.1
n

200
400
300
100
1000

Profesora : Lic. Rita Guzmn

El estadstico de prueba ser entonces:

=
2
c

c2 =

( O ij e ij ) 2

eij

2 , ( k 1 )*( r 1 )

(85 80) 2 (23 20) 2 (56 60) 2 (36 40) 2


(15 30) 2 (44 20) 2
+
+
+
+ ... +
+
= 47.24
80
20
60
40
30
20

2 ,( k 1)*( r 1) = 02.05,(3)*(3) =9 = 16.9


c2 = 47.24 > (20.05;9 gl .) = 16.9 Rechazamos
R h
H0
Entonces con un 5% de significancia, concluimos que existe
suficiente evidencia estadstica para afirmar que las ventas se
encuentran distribuidos similarmente entre las cuatro clases de
clientes.

Profesora : Lic. Rita Guzmn

Prueba de Kruskal-Wallis para K Muestras


Independientes
La prueba de rango de Kruskal-Wallis es una generalizacin de la
Prueba de Mann-Whitney para dos muestras independientes.
Se aplica cuando la variable en estudio ha sido medida en una escala
ordinal.
La Prueba de Kruskal-Wallis compara el rango medio alcanzado en
cada subgrupo con los dems y determina si estas diferencias son
suficientemente significativa como para rechazar la hiptesis nula.
Frecuentemente hace falta decir si varias muestras independientes
deben considerarse como procedente de una misma poblacin, esto
debido a que los valores de las muestras casi siempre difieren en cierto
grado y el problema es determinar si tras las diferencias muestrales
observadas hay diferencias entre poblaciones o si son solo variaciones
al azar que se esperara entre muestras aleatorias de la misma
poblacin.

Profesora : Lic. Rita Guzmn

supongamos que tenemos k muestras representadas en una tabla como sigue :


Muestra 1

x11

x12

Muestra 2

x21

x22

Muestra k

x 2 n2

x 1 n1

xk1

donde : N=n1+n2++nk

xk2

xknk

, N: nmero total de observaciones

La hiptesis a contrastar es:


H0 :Las K medianas son todas iguales
(las muestras provienen de Poblaciones con medianas iguales, o de
la misma poblacin, o igualdad en los efectos de los tratamientos ).

H1 : Al menos una de las medianas es diferente


(alguna de las k muestras proviene de una poblacin con
mediana diferente a las dems).

Profesora : Lic. Rita Guzmn

Estadstico de Prueba:
k R2
12
j
H=
3( N + 1)

N ( N + 1) j =1 n j

Procedimiento para el calculo del valor del estadstico:


- Se ordenan las observaciones de menor a mayor, asignando a cada
una de ellas su rango (1 para la menor, 2 para la siguiente, ... hasta
asignar un rango al mayor de las observaciones).
- Para cada una de las muestras, se calcula Rj, jj=1,2..,k
1,2..,k , como la suma
de los rangos de las observaciones que les corresponden a cada
muestra.
- Se reemplazan los datos en la formula arriba indicada y obtenemos el
valor del estadstico de prueba H.

Profesora : Lic. Rita Guzmn

REGLA DE DECISION:
bajo un nivel de significancia
- Si el nmero de muestras es k=3 y el nmero de
observaciones en cada una de ellas no pasa de 5:
Se rechaza H0 si: el valor de H supera el valor terico que
encontramos en la tabla de Kruskall-Wallis (H>Htabla, ).
-Para cualquier otro caso diferente al anterior, se compara el
valor de H con el de la tabla de la 2 con (k-1)
(k 1)*(r
(r-1)
1) g.l.
gl
Se rechaza H0 si el valor del estadstico supera el valor
terico de tabla H>2tabla(k-1)*(r-1) g.l; ).

Profesora : Lic. Rita Guzmn

Observaciones Ligadas:
-Si ms del 25% de las observaciones estn ligadas
(empates), es necesario corregir el efecto determinando
cuantos grupos ligados ocurrieron y cuantos puntajes
estaban ligados en cada grupo.
grupo
Se define:
ti: Nmero de observaciones ligadas en un grupo i
Ti = t3i - ti
Factor de correccin para el estadstico H:
t

( Ti )
i=1
3

corregido

(N N )

[1

( Ti )
(N

i=1
3

N)

Ti: Indica sumar en todos los grupos de liga


, N: nmero total de observaciones
N=n1+n2++nk

Profesora : Lic. Rita Guzmn

Aplicativo:
Se desea probar la hiptesis que los administradores escolares son
caractersticamente ms autoritarios que los profesores de clase.
Para eso el investigador decide dividir sus 14 sujetos en tres
grupos: Profesores orientados a la enseanza (profesores que
desean permanecer en la enseanza), profesores orientados a la
administracin (profesores que aspiran a ser administradores) y
administradores. Se aplica un test a cada grupo para obtener los
puntajes de autoritarismo.
Puntajes de autoritarismo de tres grupos de educadores
Profesores
orientados a la
enseanza

Profesores
orientados a la
administracin

Administradores

96

83

115

128

128

149

83

132

166

83

115

147

101

109

Profesora : Lic. Rita Guzmn

Solucin:
Planteamos las hiptesis:
H0 : No hay diferencia entre las medianas de puntajes de
autoritarismo de los profesores orientados a la enseanza
enseanza,
los profesores orientados a la administracin y los
administradores.
H1 : Al menos uno de los grupos de educadores tiene mediana
distinta a los otros.
Calculo del estadstico de prueba:
1) Ordenar de menor a mayor todas las observaciones de los
tres grupos en una sola serie y asignamos rangos :

Profesora : Lic. Rita Guzmn

Grupos

Puntajes

Rango
(Ri)

83

83

83

96

101

109

115

115

128

8.5

128

8.5

132

10

147

12

149

13

166

14

A: Profesores orientados a la
enseanza
B: Profesores orientados a la
administracin
C: Administradores

2) Reagrupamos los rangos :

Profesora : Lic. Rita Guzmn

Rangos
Profesores
orientados a la
enseanza

Profesores
orientados a la
administracin

Administrador
es

7.5

9.5

9.5

13

11

14

7.5

12

R1=22.5

R2=36

R3=46.5

3) Calculamos el valor del estadstico de prueba:

H=

H=

k R2
12
j
3( N + 1)

N ( N + 1) j =1 n j

12 (21.5)2 (35.5)2 (48)2


+
+
3(14+1) = 6.49
14(14+1) 5
5
4

Profesora : Lic. Rita Guzmn

H = 6.49
Como se presentan ligas entre dos o ms
puntajes, corregimos el valor de H de los efectos
de ligas con el factor de correccin:

( Ti )
(N

i=1
3

N)

S empieza
Se
i
a determinar
d t
i
cuntos
t
grupos ligados
li d
h
han
ocurrido
id y
cuntos puntajes estaban ligados en cada grupo. La primera liga
ocurri entre 3 puntajes en los profesores orientados a la
enseanza y los orientados a la administracin (83 puntos) a
quienes se les asign el rango de 2, entonces , t el nmero de
puntajes ligados =3 entonces:
T1 = t3 t = (3)3 3 = 24
La siguiente liga ocurri entre 2 puntajes a los que se les asign el
rango promedio de 7.5, entonces t = 2
T2= t3 t = (2)3-2 = 6

10

Profesora : Lic. Rita Guzmn

Y la ltima liga ocurri entre 2 puntajes a los que se les asign el


rango promedio de 9.5, entonces t = 2
T3= t3 t = (2)3-2 = 6

Resumiendo:
t

Ti

24

36

Entonces calculamos el factor de correccin:


t

( Ti )

( 36 )
= 0 . 987
(( 14 ) 3 14 )
Entonces aplicando la correccin de H:
1

(N

corregido

i=1
3

N)

[1

( Ti )
(N

i=1
3

N)

corregido

6 . 49
= 6 . 58
0 . 987

Profesora : Lic. Rita Guzmn

Hcorregido = 6.58
Como el nmero de muestras es k=3 y el nmero de observaciones en
cada una de ellas no pasa de 5, usaremos la tabla de Kruskal-Wallis.
L
Luego
ell valor
l d
de ttablas
bl d
de H b
bajo
j un nivel
i ld
de significancia
i ifi
i d
de 0
0.05
05 es:

H tabla( 5,5,4 ) =0.05 = 5.6429


Donde: rechazaremos H0 si : Hcorregido > Htabla
Comparando el valor calculado con el de tabla rechazamos H0 bajo
un nivel de significancia de 0.05.
Bajo un nivel de significancia del 5% concluimos que los tres grupos
de educadores especificados difieren en grado de autoritarismo,
entonces podemos asegurar que las diferencias que se presentan
entre los grupos de observaciones no pueden ser atribuidos a la
aleatoriedad incorporada en la muestra.

11