Está en la página 1de 50

Ctedra I Estadstica II

Autor I Marn Saino



175









Objetivos

Una vez estudiado este Captulo, el estudiante estar en condiciones de:

Reconocer cuando es necesario aplicar procedimientos no paramtricos
para prueba para hiptesis.
Utilizar este tipo de metodologa para probar hiptesis de independencia,
de bondad de ajuste y de homogeneidad.
Reconocer casos en que deban aplicarse otras pruebas no paramtricas.




Contenidos

1. Introduccin.
2. Las pruebas Chi-cuadrado.
2.1. Prueba de la bondad de ajuste.
2.2. Prueba de independencia: Tablas de contingencia.
2.3. Prueba de homogeneidad.
2.3.1. Comparacin de dos proporciones, muestras independientes.
Similitudes de la prueba Z y
2
.
2.3.2. Comparaciones mltiples de proporciones.
3. Prueba de Kolmogorov-Smirnov.
4. Otras pruebas no paramtricas.
4.1. Contraste de la mediana para muestras independientes.
4.2. Prueba de rangos con signo de Wilcoxon.
4.2.1. Para una muestra.
4.2.2. Para muestras dependientes.
4.2.3. Para muestras independientes.
4.3. Prueba U de Mann-Whitney: muestras independientes.







Ctedra I Estadstica II
Autor I Marn Saino

176





























































Ctedra I Estadstica II
Autor I Marn Saino

177
1. Introduccin

Todos los mtodos de inferencia que hasta aqu vimos se han circunscripto a
parmetros poblacionales (intervalos de confianza o pruebas de hiptesis). En general,
estos mtodos estn vinculados a una serie de supuestos bastante restrictivos acerca
de caractersticas de la poblacin (v.gr.: distribucin normal de la poblacin, igualdad
de varianzas para diversos grupos, etc.).

En este Captulo, encaramos el estudio de los denominados Mtodos No Paramtricos
o de Distribucin Libre
1/
. Estos mtodos tienen la particularidad de realizar inferencias
estadsticas no slo referidas a parmetros poblacionales, sino tambin a otras
situaciones como por ejemplo probar si dos variables cualitativas estn asociadas o no
(pruebas de independencia), o si la distribucin de cierta caracterstica es similar en
varias poblaciones (pruebas de homogeneidad); o si la forma de la distribucin
poblacional de cierta variable es normal, o Poisson, o si responde a cierta forma
especfica (pruebas de la bondad de ajuste). A veces tambin se refieren a parmetros
poblacionales como la mediana, la media o la varianza.

Debe tenerse en cuenta que an cuando puedan aplicarse de manera efectiva los
mtodos no paramtricos, hay que proceder con prudencia ya que estas pruebas, para
un nmero dado de observaciones, tienen menor potencia (es decir, menor aptitud
para rechazar la hiptesis nula) que los tests paramtricos.

Si bien existe una gran cantidad de pruebas estadsticas no paramtricas, aplicables a
distintas situaciones concretas, especialmente nos ocuparemos de las llamadas
pruebas Chi-cuadrado y de la prueba de Kolmogorov. No obstante ello, tambin
daremos una breve idea de otros procedimientos, tales como el Contraste de la
Mediana, las pruebas de Wilcoxon y la prueba de Mann-Withney.


2. Las pruebas Chi- cuadrado

Las pruebas Chi-cuadrado se utilizan para probar hiptesis referidas a los patrones de
comportamiento de frecuencias relacionadas con variables ya sean cuantitativas o
cualitativas. En este sentido, entre las pruebas ms comunes se encuentran la de
Bondad del Ajuste, la de Independencia y la de Homogeneidad.

En general, tal como hemos visto en los Captulos anteriores, el procedimiento de
prueba comienza con la formulacin de las hiptesis; en particular, la hiptesis nula.
En sta se plantea el modelo terico que determinara el comportamiento de las
frecuencias. Luego, se comparan con los datos efectivamente obtenidos y se
cuantifican las diferencias numricas efectivamente halladas. Ahora bien, para juzgar
la significatividad de las diferencias halladas, Karl Pearson (1900) propuso el
estadstico de prueba Ji-Cuadrado
2/
, una prueba cuyos detalles de implementacin se
presentan en el apartado siguiente. En esencia, la prueba consiste en determinar si
esas diferencias se deben a variaciones al azar y por lo tanto no son significativas o si
por el contrario son significativas. En el primer caso no se rechaza la hiptesis nula
planteada, mientras que en el segundo se rechaza.


1/
Estos trminos aunque se usen como sinnimos, estrictamente no lo son. Por ejemplo para en-
tender la diferencia entre ellos, la desigualdad de Tchebycheff aunque no es estrictamente no
paramtrica dado que involucra a y , es una distribucin libre puesto que es vlida cuando
la distribucin es desconocida.
2/
Ji- Cuadrado es sinnimos de Chi-Cuadrado, en ambos casos nos referimos a la letra griega
elevada al cuadrado, y la razn por la que estas pruebas se designan con este nombre, es
que los estadsticos de prueba que se utilizan siguen la distribucin
2
.

Ctedra I Estadstica II
Autor I Marn Saino

178
Independientemente de los pasos (convencionales) a seguir para realizar una prueba
de hiptesis, seguidamente planteamos algunas cuestiones particulares acerca de
temas tales como el estadstico de prueba, las hiptesis, y algunas restricciones
referidas al tamao necesario de las muestras.


El estadstico de prueba

Como se seal ms arriba, el mtodo bsicamente consiste en comparar las
frecuencias observadas (o
i
) con las frecuencias esperadas (e
i
) segn el modelo que se
plantea en la hiptesis nula.
3
Se disea entonces, como medida de la diferencia, la
suma de los cuadrados de dichas diferencias en proporcin a las frecuencias
esperadas
4/
, es decir:

2
2
1
( )
k
i i
k m
i
i
o e
e
c
-
=
-
:
5
/


donde los grados de libertad se corresponden con el nmero de valores (categoras o
clases) comparados (k), menos el nmero de restricciones lineales independientes
impuestas a la comparacin (m)
6/
.

Si la hiptesis nula es verdadera, el valor del estadstico debera estar cercano a cero,
ya que la diferencia del numerador sera muy pequea. Por contraposicin, si la
hiptesis nula es falsa el numerador ser grande debido a que las diferencias estn
elevadas al cuadrado.


La prueba de hiptesis: unilateral o bilateral?

Este problema puede resolverse fcilmente de manera lgica. La prueba es lateral
derecha y se utilizan los valores de la cola superior de
2
para ubicar la zona de
rechazo, debido a que desviaciones grandes de los valores observados con los valores
esperados, tienden a contradecir la hiptesis nula respecto a las probabilidades
asociadas p
i
a las categoras (valores o clases). Por lo tanto la hiptesis nula se
rechazar cuando el estadstico de la prueba
2
(valor observado bajo el supuesto de
hiptesis nula cierta) asuma un valor grande.

Figura 1:


3/
oi y ei representan el valor observado y esperado de ni, respectivamente.
4/
Lo que constituye una gran diferencia es relativo, ya que si la diferencia proviene de una cate-
gora con pocas observaciones, esa diferencia va a contribuir ms al valor del estadstico que si
esa misma diferencia proviene de una categora con muchas observaciones. Es por ello que se
realiza un ajuste al tamao de la celda, esto es considerando la frecuencia esperada en el
denominador.
5/
En el Apndice IV.A, se puede revisar una justificacin intuitiva que permite aceptar su uso.
6/
El nmero de grados de libertad es distinto para cada aplicacin, esto quedar ms claro cuan-
do se estudien cada una de ellas y a travs de los ejemplos prcticos. En cuanto a las restric-
ciones lineales independientes, una que siempre est presente es porque la suma de los
conteos de las categoras siempre debe ser igual a n, es decir: o1 + o2 +...+ ok = n. Entonces
m = p +1, donde p es la cantidad de parmetros que estiman por mxima verosimilitud.
2
;1 k m



2
( )
k m
f


2
i


2
i


Ctedra I Estadstica II
Autor I Marn Saino

179
Restriccin al nmero de frecuencias en cada categora

Como regla emprica, la experiencia ha demostrado que la frecuencia esperada
asociada a cada categora debe ser por lo menos 5. Esta restriccin se impone para
evitar valores sobreestimados de Chi-cuadrado al efectuar el cociente entre las
diferencias al cuadrado y frecuencias esperadas muy pequeas. En aquellos casos en
que se presente una o ms categoras con frecuencias menores a 5, se las puede
agrupar en una sola categora antes de calcular las diferencias (entre las frecuencias
observadas y esperadas). Esto fijar el nmero de grados de libertad a utilizar dado
que en el clculo del mismo intervendr la cantidad de clases (k) luego del
reagrupamiento.

En los apartados siguientes se desarrollarn las aplicaciones de las pruebas Chi-
cuadrado


2.1. Prueba de la bondad de ajuste

Esta es una prueba para decidir, a partir de una muestra particular, si se rechaza o no
la hiptesis de que una variable aleatoria
7/
se ajusta a una distribucin probabilstica
especfica. Por ejemplo, en los Captulos anteriores los mtodos aplicados se basaban
en el supuesto de poblacin normal o tamaos de muestra lo suficientemente
grandes como para que proceda la aplicacin del TCL.

Un procedimiento adecuado para contrastar ese supuesto es la prueba de la bondad
del ajuste, debiendo aclararse que no es en el nico caso en que se puede aplicar esta
prueba ya que, sta es susceptible de utilizarse cualquiera sea la distribucin
especificada: uniforme, Poisson, exponencial, normal, entre otras.

El procedimiento comienza con el planteo de la hiptesis nula de que la variable
aleatoria bajo estudio tiene una distribucin especfica. Luego se toma una
muestra aleatoria de la poblacin, la cual provee las frecuencias observadas. Segui-
damente se compara con la distribucin terica. Los valores de las probabilidades
tericos cuando se los multiplica por el tamao de la muestra, se transforman en las
frecuencias esperadas.

Algunos ejemplos pueden describir mejor el procedimiento de prueba.


Supongamos el siguiente caso:

Una financiera registr el nmero de das de atraso por semana en el pago de los
prstamos acordados para los ltimos 80 clientes. Los resultados se muestran en
la Tabla 1. Con el objeto de estimar intereses y saldos disponibles para prximos
prstamos, desea probar la hiptesis de que la variables aleatoria das de atraso
se ajusta a una distribucin Poisson.

Tabla 1:

Das de atraso Cantidad de clientes
0 19
1 25
2 22
3 8
4 3
5 2
6 1
Total 80



7/
La variable aleatoria se genera a partir de un experimento multinomial (Ver Apndice IV.A).

Ctedra I Estadstica II
Autor I Marn Saino

180

1.- Hiptesis:

H
o
: El nmero de das de atraso se distribuye Poisson, P (x, =?)
H
1
: El nmero de das de atraso no se distribuye Poisson

En primer lugar como se desconoce , se deber encontrar su estimador de
mxima verosimilitud:
_
x

= . Para los datos presentados en la Tabla 1, 1, 51

=
(sugerimos que usted lo calcule y verifique este resultado).

2.- Nivel de significacin:

Se elige un nivel de significacin, para el ejemplo tomaremos = 0,05 (asignado
arbitrariamente). Por lo tanto, 0,05 es la probabilidad de rechazar una hiptesis
nula verdadera.

3.- Clculo del valor observado del estadstico:

El estadstico de prueba, segn se especific antes se calcula mediante la siguiente
expresin:
2
2
1
( )
k
i i
obs
i
i
o e
e
c
=
-
= (bajo el supuesto de hiptesis nula cierta).

Los pasos necesarios para calcularlo se encuentran en la Tabla 2 y a continuacin
se referencia cada columna de la misma.

Columna (1) y (2): corresponden a los valores observados en la muestra y sus
frecuencias asociadas (tambin observadas).
Columna (3): clculo de las probabilidades tericas de Poisson: P(x
i
, 1, 51

= ), a
partir de las tablas estadsticas.
Columna (4): cmputo de las frecuencias esperadas o tericas. Surgen de multipli-
car el tamao de muestra por la probabilidad terica asociada a cada
valor de la variable. Luego, Las tres ltimas clases se agrupan dado
que las frecuencias tericas son menores que 5, entonces k = 5 (5
categoras despus del reagrupamiento).
Columna (5): clculo del cociente entre el cuadrado de las diferencias y la frecuen-
cia esperada para cada lnea. La suma es el valor de Chi-cuadrado

Tabla 2:

(1)
Das de atraso
Cantidad de
clientes (o
i
)
(3)
P (x
i
; 1,51)
(4)
e
i
= 80.[P(x
i
)]
(5)
(o
i
e
i
)
2
/ e
i
0 19 0,2209 18 0,06
1 25 0,3336 27 0,15
2 22 0,2518 20 0,20
3 8 0,1268 10 0,40
4 3 0,0479 4
5 2 0,0145 1
6 1 0,0036 0
0,20
Total 80 1,0000* 80* 1,01
* Estos valores no son exactamente 1 y 80, respectivamente, debido a errores de redondeo.


4.- Regla de decisin:

Recurdese que se necesita encontrar un valor (valor crtico) que separe la zona
de no rechazo de la zona de rechazo, tal como se muestra en la Figura 1.
6 5
4 o ms

Ctedra I Estadstica II
Autor I Marn Saino

181

En cuanto a los grados de libertad
8/
, se obtienen de la siguiente manera:
g. l. = k m = 5 2 = 3. Esto es debido a que k = 5, y se tienen m = 2
restricciones lineales ya que hay una restriccin lineal porque la suma total de los
conteos tiene que ser igual a n, ms una restriccin de estimar un parmetro
desconocido que se requiere para calcular las frecuencias esperadas.

El valor crtico para 3 grados de libertad y al nivel de significacin 0,05 (a la
derecha), se encuentra en las tablas estadsticas y es igual a 7,81. Es decir:

*
2 2
(3;0,95)
7, 81 = = , porque
2
(3)
7, 81 0, 05 ( )
i
P > =

y podemos expresar la regla de decisin de la siguiente forma:

{ }
2 2
7, 81 / ZNR = , la zona de no rechazo est conformada por los valores
Chi-cuadrado tales que sean menores o iguales a 7,81.
El complemento:
{ }
2 2
7, 81 / ZR = > , la zona de rechazo est conformada por
todos los valores Chi-cuadrado tales que sean mayores a 7,81.

5.- Decisin o inferencia final:

El valor observado de
2
(1,01) es menor que 7,81. Por lo tanto no se rechaza la
hiptesis nula y podemos inferir, a un nivel de significacin del 5%, que la
distribucin del nmero de das de atraso se distribuye Poisson.

Para los siguientes datos comprobaremos si los mismos provienen de una
distribucin normal:

Tabla 3:

N de
observacin
Valor de la
variable
N de
observacin
Valor de la
variable
1 82,00 16 73,93
2 90,00 17 76,28
3 87,52 18 100,00
4 87,00 19 96,62
5 74,00 20 95,26
6 74,10 21 91,00
7 87,14 22 82,08
8 104,70 23 102,00
9 89,00 24 87,60
10 87,00 25 89,87
11 87,15 26 102,27
12 79,56 27 88,07
13 100,00 28 87,13
14 83,00 29 97,00
15 85,97 30 81,17

La prueba Chi-cuadrado de la bondad de ajuste para probar la normalidad sigue el
procedimiento desarrollado. Su aplicacin ms frecuente se da cuando los datos
estn disponibles tal como fueron recopilados y los parmetros y
2
se estiman a
partir de dichos datos, por lo tanto su distribucin tendr (k-3) grados de libertad.

Clculos necesarios para realizar la prueba.

8/
Recuerde que la distribucin Chi-cuadrado es una familia de distribuciones, donde cada distri-
bucin depende de los grados de libertad.

Ctedra I Estadstica II
Autor I Marn Saino

182
En este ejemplo ocurre lo mismo que en el anterior, se desconocen los parmetros
poblacionales entonces debemos estimarlos por el mtodo de mxima
verosimilitud. Utilizamos a
_
x y s
2
como estimadores de los correspondientes
parmetros de la poblacin, que para el ejemplo que presentamos arrojan los
siguientes resultados:

30
_
1
88, 2810
i
i
x
x
n
=

= = y
_
30
2
2 1
73, 685
( )
1
i
i
x x
s
n
=

= =

8, 584 s =

Recordemos que, la frecuencia esperada asociada a cada intervalo no debera ser
menor que 5; en consecuencia, armaremos las clases teniendo en cuenta dicha
restriccin y si bien no existe una forma preestablecida de cmo seleccionar la
cantidad de clases, existe una regla bastante difundida que es tomar intervalos
equiprobables (de igual probabilidad). Por ejemplo, si se decide armar 8 clases, la
probabilidad asociada a cada intervalo ser igual a (1/8) entonces la frecuencia
esperada ser e
i
= n. f
i
= 30 (0,125) = 3,75 que no cumple con la restriccin
establecida; en cambio si para el caso planteado se decide armar 5 intervalos, la
probabilidad asociada ser 0,20, e
i
= 6 y estamos en condiciones de aplicar el
procedimiento de Chi-cuadrado. La particin de la distribucin en 5 intervalos, se
puede observar en el siguiente grfico:

Figura 2:



















En primer lugar debemos calcular los lmites de los intervalos de clase en trminos
de la variable estandarizada, por ejemplo el primer intervalo es:

Lmite inferior (LI): como la distribucin normal es asinttica al eje de las abscisas,
el lmite inferior es -.

Lmite superior (LS): F(z
1
) = 0,20, entonces z
1
= z
0,20
= -z
0,80
= -0,84.
El segundo intervalo, es:

LI : -0,84
LS: F(z
2
) = 0,40, entonces z
2
= z
0,40
= -z
0,60
= -0,26 ... el procedimiento se repite
hasta construir los 5 intervalos de clase.

Luego se debern calcular los intervalos en trmino de los valores reales para la
variable analizada. Por ejemplo, el lmite superior del primer intervalo es:
_
1 1
88, 281 0, 84 8, 584 81, 06 . .( )
x
x x z s = + = =
z1 z2 z3 z4
z
i
F(z1) = 0,20
F(z2) = 0,40
F(z3) = 0,60
F(z4) = 0,80

Ctedra I Estadstica II
Autor I Marn Saino

183

de la misma manera se calcularn los siguientes intervalos, quedando conforma-
dos tal como se muestran en la columna 1 de la Tabla 4.

Seguidamente se cuentan las observaciones que caen dentro de cada uno de los
intervalos construidos (o
i
). Las mismas se disponen en la columna 2 de la Tabla.

Tabla 4:

Intervalos de clase o
i
e
i
= n/ k (o
i
e
i
)
2
/ e
i

- ; 81,06 5 6 0,17
81,06 ; 86,04 5 6 0,17
86,04 ; 90,51 10 6 2,67
90,51 ; 95,49 3 6 1,50
95,49 ; 7 6 0,17
Total 30 30 4,47






Hasta aqu se ha trabajado para obtener el valor del estadstico, en lo que sigue
realizaremos la prueba propiamente dicha:

1.- H
o
: La variable se ajusta aproximadamente a una distribucin normal
H
1
: La variable no se ajusta a una distribucin normal

2.- Nivel de significacin: = 0,01

3.- Chi-cuadrado observado bajo el supuesto de hiptesis nula verdadera:
2
4, 47
obs
=

4.- Regla de decisin:

Los grados de libertad son: k m = 2, donde k = 5 y m = p + 1 = 3; enton-
ces:
*
2 2
(2;0,99)
9, 21 = = , debido a que
2
(2)
9, 21 0, 01 ( )
i
P > = ; en conse-
cuencia podemos expresar la zona de no rechazo y la zona de rechazo como
sigue:
{ }
2 2
9, 21 / ZNR =
{ }
2 2
9, 21 / ZR = >

5.- Decisin o inferencia final: El valor observado de
2
(4,47) es menor al valor
crtico (9,21), por lo tanto no se rechaza la hiptesis nula y podemos inferir,
con un nivel de significacin del 1%, que la distribucin de la variable presen-
tada se ajusta aproximadamente a la distribucin normal.

El ejemplo que presentamos a continuacin puede ser tratado de manera semejante al
anterior pero introduciremos dos variantes. La primera es que los intervalos vienen
dados, es decir tenemos una distribucin de frecuencias presentada por intervalos de
las cuales no se poseen los datos originales. La segunda variante est referida a que la
distribucin hipottica est especificada completamente, es decir se quiere inferir que
una determinada variable aleatoria se ajusta a un modelo terico con parmetro/s
especificado/s.

Valor del
estadstico

Ctedra I Estadstica II
Autor I Marn Saino

184

Analicemos el ejemplo:

Se afirma que el promedio de las comisiones por ventas de automviles nuevos es
de $ 2500 por mes, con una desviacin estndar de $ 360. Una muestra de 50
casos en la Ciudad de Crdoba revel la siguiente distribucin de las comisiones
(Tabla 5). Al nivel de significacin de 5%, se puede inferir que la poblacin se
distribuye aproximadamente normal con la media y desviacin estndar indicadas?
Tabla 5:

Comisiones
(en miles de $)
Cantidad de
ventas
1,45 ; 1,75 3
1,75 ; 2,05 12
2,05 ; 2,35 14
2,35 ; 2,65 9
2,65 ; 2,95 7
2,95 ; 3,25 5

Clculos necesarios para realizar la prueba, referidos al estadstico

En el caso anterior las frecuencias esperadas surgieron directamente de particionar
la distribucin terica de probabilidad en intervalos equiprobables y luego se
calcularon los valores de z
i
para obtener seguidamente los valores de la variable
real correspondientes a los lmites de clase. En este caso el proceso es inverso, los
lmites de clase de la variable real ya estn dados y necesitamos de los valores de
z
i
para calcular las probabilidades tericas asociadas a cada clase. El lmite inferior
terico del primer intervalo ser - y el lmite superior de ese intervalo, se obtiene
de la siguiente manera
9/
:

1
1
1, 75 2, 5
2, 08
0, 36
x
z


= = =

El lmite superior del segundo intervalo es:

2
2
2, 05 2, 5
1, 25
0, 36
x
z


= = =


de la misma forma se obtienen los lmites siguientes.

Una vez determinados los lmites de clase que se muestran en la columna 2 de la
Tabla 6, debemos proceder a calcular las probabilidades tericas asociadas. Para
ejemplificar, a continuacin se calculan para los dos primeros intervalos (utilizando
la tabla estadstica de la distribucin normal).

Probabilidad asociada al primer intervalo:

2, 08 1 0, 9812 0, 0188 ( )
i
P z < = =

Probabilidad asociada al segundo intervalo:

2, 08 1, 25 2, 08 1, 25 0, 0868 ( ) ( ) ( )
i
P z F F < = =

igual procedimiento se aplica para encontrar las sucesivas probabilidades. Los
resultados se muestran en la columna 4 de la Tabla 6.


9/
Ntese que en este caso se tienen los valores de los parmetros, por lo tanto se utilizan los
valores de los mismos en la frmula de estandarizacin.

Ctedra I Estadstica II
Autor I Marn Saino

185

Por ltimo obtendremos las frecuencias esperadas para cada clase aplicando la
siguiente expresin: e
i
= n.(f
i
). Por ejemplo el rea entre las comisiones de 1,75 y
2,05 (miles de pesos) es 0,0868, es decir se espera que 0,0868 x 50 = 4,34
operaciones de venta tengan una comisin entre 1750 y 2050 pesos. Los
resultados para todas las clases se muestran en la columna 5. En ella tambin
podemos observar que hay frecuencias esperadas menores que 5, en consecuencia
deberemos reagrupar dichas clases.

Tabla 6:

Comisiones
(en miles de $)
Valores z de
los lmites
Cantidad de
ventas (oi)
f(z) ei=n.fi (oi ei)
2
/ ei
1,45 ; 1,75 - ; -2,08 3 0,0188 0,94
1,75 ; 2,05 -2,08 ; -1,25 12 0,0868 4,34
17,89
2,05 ; 2,35 -1,25 ; -0,42 14 0,2316 11,58 0,51
2,35 ; 2,65 -0,42 ; 0,42 9 0,3256 16,28 3,26
2,65 ; 2,95 0,42 ; 1,25 7 0,2316 11,58
2,95 ; 3,25 1,25 ; 5 0,1056 5,28
1,81
0,01
Totales 50 50 23,48

Prueba de hiptesis:

1.- H
0
: La variable comisiones por ventas se distribuye aproximadamente normal
con media = 2500 $ y varianza
2
= 360 $
2
.

H
1
: La variable comisiones por ventas no se distribuye aproximadamente
normal con media = 2500 $ y varianza
2
= 360 $
2
.

2.- Nivel de significacin: =0,05

3.- Chi-cuadrado observado, bajo supuesto de hiptesis nula verdadera:
2
23, 48
obs
=

4.- Regla de decisin:

Los grados de libertad son K m = 4. No se estiman parmetros
poblacionales, por lo tanto m = 1, la nica restriccin lineal es porque el
conteo de las clases debe ser igual a n.
El valor crtico es
*
2 2
(4;0,95)
9, 49 = = , debido a que
2
(4)
9, 49 0, 05 ( )
i
P > = ; en
consecuencia, podemos expresar la zona de no rechazo y la zona de rechazo
de la siguiente manera:

{ }
2 2
9, 49 / ZNR =
{ }
2 2
9, 49 / ZR = >

5.- Decisin o inferencia final: El valor observado de
2
(23,48) es mayor al valor
crtico (9,49), en consecuencia se rechaza la hiptesis nula y entonces pode-
mos inferir, a un nivel de significacin del 5%, que la distribucin de la varia-
ble presentada no se ajusta a la distribucin normal de parmetros = 2500 $
y
2
= 360 $
2
.

Alguien puede preguntarse el porqu de estos dos mtodos diferentes para efectuar la
misma prueba. Sucede que, por las caractersticas de la distribucin normal (altas
probabilidades en el centro, bajas probabilidades en las colas), en muchos casos
cuando los intervalos son de igual amplitud, como en este ltimo ejemplo, hay varios
intervalos con frecuencias esperadas muy bajas, que deben agruparse y disminuyen
rpidamente los grados de libertad. Trabajando de la otra manera (como en el
5,28 15

Ctedra I Estadstica II
Autor I Marn Saino

186
segundo ejemplo), construyendo intervalos de igual probabilidad (pero no de igual
amplitud), nos aseguramos que cada intervalo tenga una frecuencia esperada no
inferior a 5 (esto se logra simplemente haciendo que n dividido la cantidad de
intervalos no sea menor que 5).

Hasta aqu estudiamos la prueba de bondad de ajuste para probar si los datos se
ajustan a un modelo probabilstico terico, no obstante el procedimiento de la bondad
de ajuste se puede aplicar para determinar qu tan bien se ajusta un conjunto
observado de datos a una hiptesis que implica una determinada distribucin de
frecuencias esperadas que pueden no corresponder a alguna distribucin terica
conocida. Las actividades 1 y 2 que se presentan a continuacin son de este tipo.


Actividad 1:
El jefe de personal de una empresa quiere probar si el nivel de ausentismo por
parte de sus empleados es homogneo durante los 5 das laborables, su
sospecha surge a partir de los registros de la cantidad de ausencias del ltimo
mes ya que observa una mayor cantidad de ausencias los das lunes y viernes.
Si esa diferencia es probada entonces invertir parte del presupuesto para
investigar las ausencias (por ejemplo visitas domiciliarias) el mes prximo. Los
registros del ltimo mes se muestran en la Tabla siguiente:

Das
laborales
Cantidad de
ausencias
Lunes 15
Martes 10
Mircoles 8
Jueves 9
Viernes 13
Total 55

Probar si el ausentismo es similar durante todos los das laborales a un nivel
de significacin del 5%.

Ayuda: las frecuencias esperadas deben calcularse suponiendo que las
ausencias se distribuyen igual durante los 5 das (11 cada da).

Actividad 2:
Con el objeto de investigar determinados hbitos de comportamiento de los
estudiantes de 5 Facultades, la Secretara de Asuntos Estudiantiles de la UNC
seleccion una muestra de ellos. La Tabla siguiente muestra el porcentaje de
alumnos inscriptos (respecto a la cantidad total de inscriptos en esas 5
Facultades = 79265) y la cantidad de entrevistas logradas, segn las
Facultades.

Facultad
Porcentaje de
inscriptos
Nmero de
entrevistas
Medicina y Enfermera 29 240
Derecho 22 200
Ciencias Econmicas 22 200
Arquitectura 16 100
Filosofa y Humanidades 11 60
Total 100% 800

Probar si el nmero de entrevistas logradas en la muestra se distribuye con
idntica proporcin que los estudiantes inscriptos en esas 5 Facultades.
Trabaje con un nivel de significacin del 1%.




Ctedra I Estadstica II
Autor I Marn Saino

187
Actividad 3:
Se tienen los siguientes datos histricos que corresponden al nmero de
llamadas a la central de una empresa de emergencia mdica. El objeto es
encontrar un modelo que explique el comportamiento de las llamadas a fin de
establecer la cantidad de unidades mviles, mdicos y asistentes necesarios
para atender la demanda. Se obtiene una muestra aleatoria de 100 intervalos
de 15 minutos y se registran las frecuencias de llamadas solicitando el
servicio, tal como se muestran en la siguiente Tabla:

Nmero de
llamadas
Cantidad de
intervalos de 15
0 20
1 52
2 15
3 10
4 3
Total 100

Con un nivel de significacin del 5% probar si la distribucin Poisson es
apropiada para describir el nmero de llamadas a la central.

Actividad 4:
Con el fin de ajustar el perodo de garanta que ofrece, una empresa que
vende un modelo de PC, registr el nmero de requerimientos tcnicos
solicitados durante el perodo de garanta de 3 aos. Los resultados se
muestran en la Tabla siguiente:

Tiempo
(meses)
Cantidad de
requerimientos
Hasta 6 60
6 ; 12 150
12 ; 18 250
18 ; 24 130
24 ; 30 70
30 ; 36 40
Total 700

A un nivel de significacin del 5%, puede probar que el tiempo que transcurre
hasta que se efecta el requerimiento tcnico se distribuye normal?

Actividad 5:
Comprobar, a un nivel de significacin del 5%, si los siguientes datos pro-
vienen de una distribucin normal:

N de observacin variable N de observacin variable
1 47,00 16 48,09
2 57,00 17 54,96
3 41,69 18 50,40
4 48,32 19 50,36
5 45,32 20 51,85
6 48,11 21 42,84
7 43,17 22 33,56
8 56,88 23 54,77
9 58,13 24 58,43
10 42,67 25 55,00
11 49,80 26 52,46
12 52,40 27 43,00
13 50,16 28 47,30
14 52,44 29 64,38
15 50,76 30 44,00


Ctedra I Estadstica II
Autor I Marn Saino

188
2.2. Prueba de independencia: Tablas de contingencia

En este caso, se trata de una situacin en la que interesa poner a prueba si existe o no
independencia entre dos variables cualitativas (atributos) de una poblacin. Para ello
se toma una muestra, se construye una tabla de contingencia con las dos variables
cualitativas de inters, y en base a la distribucin de frecuencias conjunta observada
en esa tabla de contingencia y la frecuencia esperada, que se calcula de acuerdo a la
hiptesis nula planteada, se construye el estadstico Chi-cuadrado para evaluar las
diferencias entre ambas. Si la diferencia no es significativa, concluimos que las
variables son independientes. Caso contrario, decimos que esas dos variables de
clasificacin estn relacionadas o son dependientes.

Recurriremos nuevamente a un ejemplo para desarrollar la prueba.


En una encuesta de opinin pblica se le solicito a 1000 habitantes de la ciudad su
calificacin respecto del desempeo del intendente, siendo las respuestas posibles:
Bueno, Regular o Malo. La distribucin de dichas respuestas, clasificadas segn el
nivel educacional de los encuestados, es:

Tabla 7:

Nivel educacional

Respuestas
Primario

(I)
Secundario

(II)
Universitario

(III)
Totales
Bueno (A) 82 427 191 700
Regular (B) 10 110 60 180
Malo (C) 8 63 49 120
Totales 100 600 300 1000

Si el objetivo es contrastar la hiptesis nula de que la calificacin respecto del
desempeo del intendente es independiente del nivel educacional de los
encuestados, la hiptesis nula establecer que la clasificacin por filas (f) es
independiente de la clasificacin por columnas (c), frente a la alternativa que las
dos clasificaciones son dependientes o estn relacionadas.

Llamaremos p
A
a la probabilidad marginal (no condicionada) de que la opinin sea
Bueno (A), como as tambin se definen p
B
y p
C
como las probabilidades que se
presenten las respuestas Regular (B) o Malo (C), respectivamente. De la misma
manera, p
I
, p
II
y p
III
son las probabilidades que un individuo haya alcanzado el
nivel primario (I), secundario (II) o terciario (III), mutuamente. Se sabe adems
que, la suma de las probabilidades filas y la suma de las probabilidades columnas
deben ser igual a la unidad, es decir:

p
A
+ p
B
+ p
C
= 1 (suma de las probabilidades filas)

p
I
+ p
II
+ p
III
= 1 (suma de las probabilidades columnas)

Entonces, de acuerdo a la ley multiplicativa de probabilidad, si las dos variables
son independientes entre s, la probabilidad de una celda (probabilidad conjunta)
ser igual al producto de sus correspondientes probabilidades fila y columna
(probabilidades marginales):
p
ij
= p
i
. p
j
,

Para el ejemplo p
AI
= p
A
. p
I


Teniendo las probabilidades estimadas para cada celda en caso de independencia, se
podrn obtener la frecuencias esperadas de cada celda multiplicando por el tamao de
la muestra, las que se utilizarn en la construccin del estadstico Chi-cuadrado.

Luego, se puede obtener el estimador de mxima verosimilitud para cualquier proba-
bilidad fila y columna como sigue:

Ctedra I Estadstica II
Autor I Marn Saino

189
ij
ij
n
p
n

= , (i=1,...,f ; j=1,...,c)

donde:

n
ij
: frecuencia observada de la celda ij
p
ij
: probabilidad que una observacin caiga en la celda ij, que es simplemente la
frecuencia relativa observada para esa celda

Asimismo las probabilidades marginales, probabilidades fila y columna respectivamen-
te, estn dadas por:

i
i
f
p
n

= y
j
j
c
p
n

=

(donde: f
i
y c
j
son las frecuencias absolutas de la fila i y las frecuencias absolutas de la
columna j, respectivamente) y constituyen los estimadores de mxima verosimilitud
de p
i
y p
j
.

Segn lo planteado en la hiptesis nula el estimador de mxima verosimilitud de n
ij
es:

.
( ) . .
j i j
i
ij ij i j
c f c
f
e E n n p p n
n n n



= = = =






Entonces para la primera celda de nuestro ejemplo se obtiene como se muestra a
continuacin:

11
700.(100)
70
1000
e = = ; de la misma manera se pueden calcular las siguientes
frecuencias esperadas que se muestran en la Tabla 8:

Tabla 8:

Nivel educacional

Respuestas
Primario

(I)
Secundario

(II)
Universitario

(III)
Totales
Bueno (A) 70 420 210 700
Regular (B) 18 108 54 180
Malo (C) 12 72 36 120
Totales 100 600 300 1000

Es decir, se puede observar que la frecuencia esperada para una celda particular
es igual al cociente del producto de sus respectivas frecuencias marginales y la
frecuencia total.

Ahora podemos calcular el valor del estadstico de prueba utilizando las frecuencias
observadas de la Tabla 7 y las frecuencias esperadas de la Tabla 8:

2
2 2 2
2
1 1
(82 70) (10 18) (49 36)
15, 30
70 18 36
( )
...
f c
ij ij
obs
i j
ij
o e
e

= =

= = + + + =

Finalmente nos resta obtener los grados de libertad asociados al estadstico de la
prueba, recordando que dichos grados de libertad se obtienen de la cantidad de celdas
luego de reagrupar (en este caso k = f.c) menos un grado de libertad por cada
restriccin lineal independiente impuesta sobre las frecuencias observadas de las
celdas. Entonces, los grados de libertad se obtienen de la siguiente manera:

Ctedra I Estadstica II
Autor I Marn Saino

190
Nmero total de celdas k = f . c
Al valor anterior le restamos un grado de libertad porque la
suma de los conteos de las celdas debe ser igual a n.
1
Adems utilizamos las frecuencias de las celdas para estimar
(c-1) probabilidades de la variable puesta en columna. Para el
ejemplo, 2 de las 3 probabilidades columna (ya que la tercera
queda determinada por las dos primeras). Entonces, perdemos
(c-1) g. l. de estimar las probabilidades columna.


(c-1)
De la misma manera, utilizamos las frecuencias de las celdas
para estimar (f-1) probabilidades fila
(f-1)
Entonces el nmero de grados de libertad asociados a una
tabla de contingencia es:
(f-1) . (c-1)

Es decir:

g.l. = (f.c) 1 (c-1) (f-1)
g.l. = f.c 1 c +1 f +1
g.l. = f.c c f + 1
g.l. = c (f-1)- (f-1)
g.l. = (f-1). (c-1)


Para el ejemplo los grados de libertad son: (3-1) . (3-1) = 4.

Planteamos ahora la prueba de independencia siguiendo todos los pasos:

1.- H
0
: la calificacin del desempeo del intendente es independiente del nivel
educacional de los encuestados
H
1
: la calificacin del desempeo del intendente depende del nivel educacional
de los encuestados

2.- Nivel de significacin: =0,05

3.- Chi-cuadrado observado, bajo supuesto de hiptesis nula verdadera:

2
15, 30
obs
=

4.- Regla de decisin:

El nmero de grados de libertad, segn los clculos anteriores, es 4. El valor
crtico es
*
2 2
(4;0,95)
9, 49 = = , debido a que
2
(4)
9, 49 0, 05 ( )
i
P > = ; en
consecuencia, podemos expresar la zona de no rechazo y la zona de rechazo
de la siguiente forma:

{ }
2 2
9, 49 / ZNR =
{ }
2 2
9, 49 / ZR = >

5.- Decisin o inferencia final: El valor observado de
2
(15,30) es mayor al valor
crtico (9,49), en consecuencia se rechaza la hiptesis nula y podemos inferir,
a un nivel de significacin del 5%, que la calificacin del desempeo del
intendente depende del nivel educacional de los encuestados.

Cabe aclarar que, cuando el tamao de muestra es pequeo (menor que 30) y se tiene
una tabla de 2 x 2, es posible aplicar una prueba muy til como es la Prueba Exacta de
Fisher, la cual nos permite conseguir las probabilidades de obtener exactamente la
distribucin de frecuencias conforme a la hiptesis nula.



Ctedra I Estadstica II
Autor I Marn Saino

191
A continuacin proponemos realizar las siguientes actividades:


Actividad 6:
Una fbrica de automviles quiere averiguar si el sexo de sus clientes tiene
relacin con la preferencia del modelo. Se toma una muestra aleatoria de 2000
clientes que se clasifican as:

Modelo
Sexo
I II III
Varn

Mujer
350 270 380

340 400 260

A un nivel de significacin de 0,01 existe evidencia de que el sexo tiene relacin
con la preferencia del modelo de auto?

Actividad 7:
Se cree que las familias de altos ingresos generalmente envan a sus hijos a
escuelas privadas y que las familias de bajos ingresos suelen enviar a sus hijos a
escuelas pblicas. Se escogen 1600 familias al azar a fin de evaluar esta opinin,
y se obtienen los siguientes resultados:

Escuela
Ingresos
Privada Pblica Total
Bajos

Altos
506 494

438 162
1000

600
Total 944 656 1600

Trabaje con = 0,01.


2.3. Prueba de homogeneidad

La prueba Chi-cuadrado se puede aplicar para determinar si dos o ms muestras
aleatorias independientes se extraen de la misma poblacin. Para ello se clasifica a la
poblacin en trminos de una variable cualitativa en k grupos (categoras de la
variable) o niveles de un factor, con el objeto de evaluar si las proporciones
poblacionales son homogneas. Por ejemplo, podramos querer probar si las opiniones
(de acuerdo, en desacuerdo), respecto a la poltica del gobernador de la provincia de
Crdoba, son homogneas en tres poblaciones como pueden ser Ciudad de Crdoba,
Ro Cuarto y Villa Mara, de las cuales se obtuvieron tres muestras independientes.
Tambin este tipo de prueba se puede aplicar para realizar un anlisis confirmatorio de
los datos que se poseen de una encuesta ya efectivizada. En este ltimo caso,
entonces, de acuerdo a las dos variables categricas podremos armar una tabla de
contingencia con las frecuencias asociadas a lo que definiremos como xito y fracaso
para cada grupo.


En la Tabla siguiente se presentan los resultados de las tres muestras
considerando la opinin de los encuestados: de acuerdo (xito), en desacuerdo
(fracaso).

Tabla 9:

Localidad
Opinin
Crdoba Villa Mara Ro IV Totales
De acuerdo 115 53 40 208
En desacuerdo 35 22 35 92
Totales 150 75 75 300


Ctedra I Estadstica II
Autor I Marn Saino

192

El procedimiento a aplicar es semejante al de prueba de independencia; no
obstante ello, su justificacin es algo diferente.

Se puede observar que se tienen tres experimentos binomiales independientes,
con sus respectivas probabilidades asociadas al xito p
1
, p
2
y p
3
de que un
encuestado est de acuerdo con las polticas del gobierno. Por lo tanto, si lo que se
desea es contrastar la hiptesis de que las proporciones son homogneas en las
tres poblaciones, la hiptesis nula es:

H
o
: p
1
= p
2
= p
3


Los estimadores mximo verosmiles de las frecuencias esperadas de las celdas son los
mismos que se presentaron en la prueba de independencia y estn dados por:

.
( )
i j
ij ij
f c
e E n
n

= =

y si la hiptesis nula es verdadera y p
j
es igual para cada poblacin, una combinacin
de las estimaciones de esas proporciones
10/
nos estara proporcionando una estimacin
del parmetro poblacional p, que representa la proporcin global de los individuos que
estn de acuerdo con las polticas del gobierno (proporcin de xitos), es decir:

_
1 2 3
1 2 3
X X X X
p
n n n n
+ +
= =
+ +


y el complemento:
_ _
1 q p = representa una estimacin de la proporcin global de los
individuos que estn en desacuerdo con las polticas del gobierno (proporcin de
fracasos).


Para el ejemplo dichas estimaciones son:

_
115 53 40 208
0, 69
150 75 75 300
p
+ +
= = =
+ +
;
_
84
0, 31
300
q = =


Luego, para obtener las frecuencias esperadas de cada celda, multiplicaremos el
tamao de muestra de cada una de las poblaciones por la estimacin de las
proporciones p y q, segn si pertenecen a la primera o a la segunda fila
respectivamente. Para la primera celda, es:




_
11 11 1 1
208
150 104
300
.
( ) . . .
i j
f c
X
e E n n p n
n n

= = = = = =





Procediendo de la misma forma para las restantes celdas obtenemos las frecuen-
cias esperadas correspondientes. Todas las frecuencias esperadas se presentan en
la Tabla 10.

10/
Cada una de las proporciones, sera una estimacin del parmetro poblacional (bajo hiptesis
nula cierta).
Frecuencia marginal
(total columna)
Frecuencia marginal
(total fila)
Tamao de muestra
(total de observaciones)

Ctedra I Estadstica II
Autor I Marn Saino

193

Tabla 10:

Localidad
Opinin
Crdoba Villa Mara Ro IV Totales
De acuerdo 104 52 52 208
En desacuerdo 46 23 23 92
Totales 150 75 75 300

Se puede demostrar adems que, la variable resultante tendr distribucin Chi-
cuadrado con (f-1).(c-1) grados de libertad
11/
y utilizando un nivel de significacin
, la hiptesis nula se rechazar si el estadstico de prueba Chi-cuadrado:
2
2 2 2
2
1 1
(115 104) (35 46) (35 23)
12, 89
104 46 23
( )
...
f c
ij ij
obs
i j
ij
o e
e

= =

= = + + + =

es mayor al valor crtico de la cola superior de una distribucin Chi-cuadrado con
(c-1).(f-1) grados de libertad.

La prueba de homogeneidad para el ejemplo, es:

1.- H
0
: p
1
= p
2
= p
3

H
1
: Existe por lo menos una p
j
distintas a las dems (j = 1, 2, 3)

2.- Nivel de significacin: =0,05 (asignado arbitrariamente)

3.- Chi-cuadrado observado, bajo supuesto de hiptesis nula verdadera:
2
12, 89
obs
=

4.- Regla de decisin:

El nmero de grados de libertad, segn lo expresado anteriormente, es
(c-1)=2.
El valor crtico es
*
2 2
(2;0,95)
5, 99 = = , debido a que
2
(2)
5, 99 0, 05 ( )
i
P > = ;
en consecuencia, podemos expresar la zona de no rechazo y la zona de
rechazo de la siguiente forma:

{ }
2 2
5, 99 / ZNR =
{ }
2 2
5, 99 / ZR = >
5.- Decisin o inferencia final: El valor observado de
2
(12,89) es mayor al valor
crtico (5,99), en consecuencia se rechaza la hiptesis nula y podemos inferir,
a un nivel de significacin del 5%, que existe por lo menos una p
j
distinta a las
dems. Es decir, las opiniones respecto a las polticas del gobierno de la
provincia no son homogneas en las tres ciudades relevadas.


Actividad 8:
Se pretende analizar la intencin de voto para las prximas elecciones a
gobernador de una provincia. A tal fin se realiza una encuesta a 115
profesionales, a 110 hombres de negocios y a 125 empleados, a quienes se les
pregunta sobre su preferencia respecto del candidato A o del candidato B,
ambos postulados para ser gobernador de la provincia. Los resultados
obtenidos son:

11/
Ntese que una de las variables de la tabla de contingencia siempre es una variable dicot-
mica (o reagrupamos categoras para transformarla), por lo tanto si se tiene una tabla de 2 x c
los grados de libertad asociados son (c - 1) y si se tiene una tabla de f x 2 los grados de
libertad sern (f - 1).

Ctedra I Estadstica II
Autor I Marn Saino

194
Candidato
Categora
A B Total
Profesionales

H. de negocios

Empleados
80 35

72 38

69 56
115

110

125
Total 221 129 350

Existe diferencia de opiniones entre los tres grupos de personas? ( = 0,10)

Actividad 9:
El director de comercializacin de una empresa de televisin por cable est
interesado en determinar si existe alguna diferencia en la proporcin de familias
que contratan un servicio de televisin por cable, basndose en el tipo de
residencia. Tres muestras de familias de tres tipos de residencia revelaron lo
siguiente:

Tipo de residencia

Contrata TV por cable
Una sola
familia
De 2 a 4
familias
Edificio de
Departamentos

Totales
S 94 39 77 210
No 56 36 98 190
Totales 150 75 175 400

A un nivel de significacin del 5%, existe evidencia de una diferencia entre
los tipos de residencia respecto a la proporcin de familias que contratan el
servicio de televisin por cable?


2.3.1. Comparacin de dos proporciones, muestras independientes. Similitu-
des de la prueba Z y
2


En el caso que se extraigan muestras independientes de dos poblaciones podremos
aplicar indistintamente la prueba
2
(desarrollada en el punto anterior) o la prueba Z
para comparar proporciones (desarrollada en el Captulo III), sin correr el riesgo de
obtener conclusiones contradictorias. Esto es as debido a la relacin que existe entre
la distribucin normal estndar y la distribucin Chi-cuadrado con un grado de libertad.
Recuerde que una variable
2
se define como la suma de variables normales
estandarizadas elevadas al cuadrado. Para verificar esto, sugerimos realizar el ejemplo
desarrollado en el Captulo III (pg. 133) mediante la prueba
2
y podr observar
que el estadstico de prueba Z es 1,05 (si trabajamos con mayor cantidad de
decimales el valor de Z es 1,3176) y el que corresponde a
2
es 1,73. Es decir, salvo
por error de redondeo, el valor de
2
es el cuadrado del valor Z. Lo mismo sucede
con los valores crticos, en la prueba Z el valor crtico es 1,96 y en la prueba
2
es
3,84 (para un nivel de significacin de 0,05).

La ventaja de la prueba Z respecto a la
2
, se presenta cuando se quiere probar la
diferencia en una direccin, por ejemplo p
1
> p
2
(recuerde que si esto es posible
aumenta la potencia de la prueba). En la prueba
2
esto no es posible slo se podr
contrastar la homogeneidad con la hiptesis alternativa p
1
p
2
. Mientras que la
ventaja de la prueba
2
radica en que permite extender la comparacin cuando se
tienen ms de dos poblaciones (o niveles del factor).


Ctedra I Estadstica II
Autor I Marn Saino

195

Actividad 10:
Un ingeniero encargado del control de calidad de una fbrica, desea examinar
la eficiencia de dos operadores de una mquina ensambladora y que trabajan
en turnos diferentes. Se registraron datos de una semana de trabajo y se
obtuvo lo siguiente:

Operador A Operador B Total
Cantidad defectuosos
Cantidad no defectuosos
16 17
551 416
33
967
Total 567 433 1000

a) De acuerdo a estos datos, se puede inferir que las muestras provienen de
dos poblaciones diferentes? Trabaje con = 0,05.
b) Resolverlo tambin por un procedimiento paramtrico y compare con lo
obtenido en a).


2.3.2. Comparaciones mltiples de proporciones

En el caso que estemos investigando diferencias entre dos poblaciones, como se
discuti anteriormente, podemos determinar mediante la prueba Z el sentido de tal
diferencia. Sin embargo, cuando se tienen ms de dos poblaciones, no podemos
comparar de a pares las proporciones de cada poblacin mediante la prueba Z. Esto es
as debido a que la aplicacin reiterada de tales tcnicas (al igual que en ANOVA) para
todas las comparaciones entre proporciones si son independientes, llevara a aumentar
considerablemente la probabilidad de cometer el error tipo I (). Por ejemplo, si se
tienen cuatro poblaciones independientes, se tendrn c (c-1)/2 = 6 comparaciones
12/

posibles, es decir: 1-2; 1-3; 1-4; 2-3; 2-4; 3-4.

El nivel de confianza para la comparacin entre dos medias es 1 - , pero ese nivel de
confianza para todas las comparaciones es (1 - )
6
. Si 1 - = 0,95 para cada com-
paracin, este nivel se reduce a 0,74 para todas las comparaciones simultneamente.
Para salvar este problema existen procedimientos, que independientemente del
nmero de hiptesis que se prueben, garantizan una probabilidad constante de
rechazar la hiptesis nula cuando es verdadera. Estos procedimientos se conocen
como test de comparaciones mltiples. Para la comparacin de proporciones
presentaremos aqu el procedimiento de Marascuilo.


El procedimiento de Marascuilo

Este procedimiento, entonces, nos permite probar simultneamente las diferencias de
todos los pares posibles de proporciones cuando hay varias poblaciones bajo estudio y
determinar cul o cules proporciones son distintas.
Si
1 2
; ; ...;
c
p p p son las verdaderas proporciones de las c poblaciones, sus estima-
dores son
1 2
; ; ...; ,
c
p p p

pero lo que se somete a prueba es que las proporciones
son iguales p
j
= p
j
(para todo j j) u otra forma de expresarlo es p
j
- p
j
= 0.
Entonces, el parmetro poblacional es

p p
j j j
= y el estimador puntual de
j
es

p p j
j j


= . Adems es posible demostrar que el valor crtico con el cul j

debe ser
comparado es:
2
1 /( 1)

.(1 ) .(1 )
.
j j j j
jj c
j j
p p p p
m
n n




= +
13/


12/
Si las poblaciones o niveles de factor estuvieran dispuestas en filas, las comparaciones seran
f . (f - 1)/2.
13/
Observar que se debe obtener un valor crtico para cada par de proporciones a comparar.

Ctedra I Estadstica II
Autor I Marn Saino

196
Entonces si
j jj
m

> se concluye que hay diferencias entre las proporciones


poblacionales que se comparan, al nivel de significacin especificado.


Resumiendo
El primer paso del procedimiento consiste en calcular las diferencias
j j
p p

(para
todo j j) entre todos los pares c . (c - 1)/2 de proporciones. El valor absoluto de
dicha diferencia es el estadstico de prueba para cada comparacin.

El segundo paso es elegir el nivel de significacin y calcular los valores crticos
correspondiente a cada diferencia.

El tercer y ltimo paso radica en comparar cada uno de los valores de los estadsticos
de prueba con su correspondiente valor crtico. Aquellos pares que arrojan un valor del
estadstico de prueba mayor al valor crtico presentan diferencias significativas al nivel
establecido.


Para aplicar el procedimiento, utilizamos los datos del ejemplo anterior. Dado que
hay 3 grupos o niveles del factor, existen 3.(3-1)/2=3 posibles comparaciones, de
pares de proporciones, que se deben realizar. Las proporciones estimadas de cada
uno de los tres grupos son:

1
1
1
115
0, 77
150
X
p
n

= = = ;
2
2
2
53
0, 71
75
X
p
n

= = = ;
3
3
3
40
0, 53
75
X
p
n

= = =
y la estimacin global
_
0, 69 p = . Grficamente, en la Figura 3 se representan
estos valores.

Figura 3:
















Si realizamos la comparacin entre 1 y 2, el estadstico de prueba es:
1
1 2
0, 77 0, 71 0, 06 p p

= = =

El valor crtico para esta comparacin est dado por:

12
0, 77 (0, 23) 0, 71 (0, 29)
5, 99 0,1534
150 75
. .
. m = + =










Niveles del factor

0,8

0,6

0,4

0,2
1 2 3
_
p

Ctedra I Estadstica II
Autor I Marn Saino

197

en consecuencia, no hay diferencias significativas entre la proporcin de respues-
tas favorables de la ciudad de Crdoba y las respuestas de la Ciudad de Villa
Mara. Los clculos para todos los pares posibles se presentan en la Tabla 11.

Tabla 11:


Comparaciones

j j
p p

.(1 ) .(1 )
2.45
j j j j
jj
j j
p p p p
m
n n


= +

Conclusin
1 2 0,06 0,1534 No significativa
1 - 3 0,24 0,1642 Significativa
2 - 3 0,18 0,1906 No significativa

A partir de este cuadro resumen de comparaciones se puede llegar concluir,
utilizando un nivel de significacin del 5%, que hay diferencias significativas en la
proporcin de opiniones favorables entre las ciudades de Crdoba y Ro IV
14/
.


Actividad 11:
Concluya para la Actividad 8 Qu categora es la que opina diferente?

Actividad 12:
Retomando la Actividad 9, puede concluir Qu tipo de residencia es la que
ms influye en esta conclusin?



La prueba de K-S es una prueba de la bondad del ajuste de los datos de una muestra
a un modelo terico continuo especfico de la poblacin
15/
.

El mtodo K-S se basa en la comparacin entre las frecuencias acumuladas de la
distribucin de los datos ordenados de la muestra y la distribucin terica
propuesta en la hiptesis nula. De calcular previamente la distancia entre ambas
funciones de distribucin, se observa cul es la distancia mxima, es decir, el punto
que presenta mayor diferencia al que se denominar D
obs
, entonces:

/
mx
obs t o n
D F F D
a
= - :

donde:

D
obs
: estadstico de prueba
F
t
: funcin de distribucin terica
F
o
: funcin de distribucin de la muestra (proporcin del nmero de valores en la
muestra que son menores o iguales a x
o
).

La distribucin del estadstico es independiente del modelo planteado en la hiptesis
nula, ste depende nicamente de los grados de libertad y est tabulado cuando F
t
es
cierta.

14/
Se puede observar que la comparacin 2-3, aunque no es significativa est cercana a serlo,
conducindonos a la sospecha que una mayor cantidad de observaciones podran demostrar
que la poblacin 3 es la que tiene una proporcin de opiniones favorables distinta a las dems.
La experiencia nos dice que esta prueba puede en algunos casos no dar ninguna diferencia
significativa pero de todas maneras nos dar indicios del sentido de las diferencias.
15/
En el Apndice del Captulo III, se ha realizado otra presentacin de esta prueba, as como de
otra equivalente, la de Shapiro-Wilk.

Ctedra I Estadstica II
Autor I Marn Saino

198
Si la distancia calculada (D
obs
) es mayor que la que figura en tablas para un nivel de
significacin determinado, se rechazar el modelo F
t
. Esto significa que una
diferencia tan grande como la observada no puede deberse a azar y por tanto los
datos de la muestra no provienen de la distribucin especificada. Si por el contrario,
D
obs
es menor al valor de la tabla, entonces no se rechazar la hiptesis nula y las
observaciones muestrales se cien al modelo propuesto en la hiptesis nula.

Cuando los parmetros se estiman a partir de la muestra la prueba es muy
conservadora, es decir tiende a que no se rechace la hiptesis nula. En este caso se
utilizar el K-S, en la versin modificada por Lilliesfors (1967), quien simul por el
mtodo de Montecarlo alrededor de 1000 muestras del mismo tamao y calcul los
estimadores media, varianza y los estadsticos D. El carcter conservador se refleja
cuando se compara la probabilidad acumulada segn la distribucin terica y la
probabilidad estimada a partir de la simulacin.


Por ejemplo:

Para n = 20 y el mismo nivel de significacin = 0,05

Tabla K-S D* = 0,294
Tabla K-S Lilliefors D* = 0,19

Dnde D* es el valor crtico

Para n = 20 y el mismo valor crtico D* = 0,231

Tabla K-S = 0,20
Tabla K-S Lilliefors = 0,01


Clculo

Dado que las frecuencias acumuladas observadas se comportan a saltos, la distancia
mxima entre F
t
y F
o
puede presentarse por debajo o por encima de la curva de F
t
,
para un valor particular cualquiera (Figura 4). Por lo tanto, al aplicar la prueba se
deben calcular ambas distancias para cada punto x
h
y luego tomar la mxima entre
estas dos.

Figura 4:


Representacin grfica.

En lo que sigue se presenta en forma de ecuacin este concepto:

1 2
1
( ) mx{ ( ) ( ) ; ( ) ( ) }
i i
i h t h o h t h o h
d d
D x F x F x F x F x
-
= - -
144444442 44444443 144444442 44444443




Ctedra I Estadstica II
Autor I Marn Saino

199
(Obsrvese la Tabla 13 en el ejemplo que sigue, columnas 6, 7 y 8).


Trabajemos con el siguiente ejemplo:

Comprobar si los datos de la muestra siguiente (Tabla 12) se ajustan a una
distribucin normal. Trabajar con un nivel de significacin del 5%.

Tabla 12:

Observac Vble: x
i
1 8,14
2 8,23
3 9,00
4 9,09
5 9,72
6 9,81
7 9,96
8 10,00
9 12,00

Como en este ejemplo se desconocen los valores de los parmetros poblacionales
se debern estimar, en primer lugar, la media y la desviacin estndar.
_
9, 5519 x = 1,1565 s =

Para resolver el ejercicio planteado se construye la Tabla siguiente:

Tabla 13:

Observaciones
(1)
Vble: xi
(2)
F0
(3)
zi
(4)
Ft
(5)
1i
d
(6)
2i
d
(7)
( )
i h
D x
(8)
1 8,14 0,11 -1,22 0,1112 0,1112 0,0012 0,1112
2 8,23 0,22 -1,14 0,1271 0,0171 0,0929 0,0929
3 9,00 0,33 -0,48 0,3156 0,0956 0,0144 0,0956
4 9,09 0,44 -0,40 0,3446 0,0146 0,0954 0,0954
5 9,72 0,56 0,15 0,5596 0,1196 0,0004 0,1196
6 9,81 0,67 0,22 0,5871 0,0271 0,0829 0,0829
7 9,96 0,78 0,35 0,6368 0,0332 0,1432 0,1432
8 10,00 0,89 0,39 0,6517 0,1283 0,2383 0,2383
9 12,00 1 2,12 0,9830 0,0930 0,0170 0,0930

Columna 1: nmero de observacin

Columna 2: valores de la variable de la muestra ordenados

Columna 3: frecuencias observadas relativas acumuladas. Cada valor de la varia-
ble se presenta una vez, por lo tanto la frecuencia relativa asociada a
cada valor de la variable es 1/9.

Columna 4: valores estandarizados de la variable
_
i
i
x x
z
s
-
= por ejemplo:
1
8,14 9, 5519
1, 22
1,1565
z

= =

Columna 5: frecuencias tericas relativas acumuladas, las cuales han sido extra-
das de la tabla de la normal estandarizada.

] [ ) (
i
z Z P z F = por ejemplo: 1, 22 0,1112 [ ] P z =

Columna 6: diferencia entre la frecuencia terica asociada al valor de la variable y
la frecuencia observada hasta el valor anterior.

Ctedra I Estadstica II
Autor I Marn Saino

200

1 1
( ) ( )
i t h o h
d F x F x

=

Columna 7: diferencia entre la frecuencia terica asociada al valor de la variable y
la frecuencia observada hasta ese valor.

2
( ) ( )
i t h o h
d F x F x =

Columna 8: distancias mximas entre la distribucin terica y la distribucin ob-
servada (de las columnas 6 y 7) para cada valor de la variable. Se
resalta la distancia mxima entre las mximas.

Si realizamos la prueba:

1.- Ho: Los valores de la variable se ajustan a una distribucin normal
H
1
: Los valores de la variable no se ajustan a una distribucin normal

2.- Nivel de significacin: = 0,05

3.- Valor del estadstico observado: D
obs
= 0,2383

4.- Regla de decisin:

0,05;9
0, 271 *
D D
D =
:


Zona de no rechazo ZNR: {D/D 0,271}
Zona de rechazo ZR: {D/D > 0,271}

5.- Decisin o inferencia final: No se rechaza la hiptesis nula. Se puede inferir
que, con un nivel de significacin del 5%, los valores de la muestra se ajustan
a una poblacin normal.


Actividad 13:
Comprobar si los siguientes datos siguen una distribucin normal mediante la
prueba de Kolmogorov-Smirnov. Determine con que nivel de significacin
desea trabajar.

26,39; 23,04; 24,99; 27,12; 22,23; 24,44; 23,44; 24,37; 22,72; 27,29

Actividad 14:
Se desea comprobar la efectividad de un tratamiento sobre el Indice Cardaco,
variable que debe distribuirse en forma normal a fin de realizar la prueba
estadstica respectiva. Analice los siguientes resultados e informe al respecto.

Prueba de Kolmogorov para bondad de ajuste.

Variable Ajuste media varianza n Estadistico D p-valor
Indice cardaco Normal(2,73 ; 1,41) 2,73 1,41 65 0,10 0,5855

Actividad 15:
Se supone que la duracin de vida de una determinada marca de pilas debe
distribuirse en forma exponencial. Analizada una muestra de pilas se realiz el
contraste correspondiente obteniendo los siguientes resultados. Qu podra
concluir al 5%?


Ctedra I Estadstica II
Autor I Marn Saino

201

One-Sample Kolmogorov-Smirnov Test
10
11,5000
,307
,124
-,307
,969
,304
N
Mean Exponential parameter.
a,b
Absolute
Positive
Negative
Most Extreme
Differences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
DURACIN
Test Distribution is Exponential.
a.
Calculated from data.
b.

Actividades complementarias

Actividad 16:
Comprobar si los siguientes datos siguen una distribucin exponencial
mediante la prueba de Kolmogorov-Smirnov. Determine con que nivel de
significacin desea trabajar.

0,81; 0,61; 0,02; 0,25; 0,13; 0,65; 1,07; 0,10; 0,16; 0,59

Actividad 17:
Las personas que mueren por accidente de trnsito en cierta ciudad, en un ao
dado (52 semanas), siguen un modelo Poisson. Dicha informacin se muestra en
la siguiente tabla:

Nmero de personas muertas 0 1 2 3 4 5 Total
Frecuencia 6 10 20 10 6 0 52

Al nivel del 5%, existe evidencia que avale el modelo planteado para las
frecuencias observadas?

Actividad 18:
Alguien afirma que los clientes varones de una tienda de pantalones vaqueros
son el doble de los clientes mujeres. Se toma una muestra aleatoria de 40
clientes y 25 resultan ser hombres y 15 mujeres. Son los datos muestrales
consistentes con la hiptesis planteada, a un nivel del 5%?

CLIENTES
25 26,8 -1,8
15 13,2 1,8
40
varones
mujeres
Total
Observed N Expected N Residual

Test Statistics
,366
1
,545
Chi-Square
a
df
Asymp. Sig.
CLIENTES
0 cells (,0%) have expected frequencies less than
5. The minimum expected cell frequency is 13,2.
a.


Ctedra I Estadstica II
Autor I Marn Saino

202
Actividad 19:
A efectos de disear su prxima campaa publicitaria, un fabricante de vinos
desea saber si la proporcin de hombres que prefieren sus productos es igual
a la de mujeres, a un nivel del 5%. Una muestra al azar de 30 hombres y 35
mujeres arroj como resultado que 20 hombres y 19 mujeres preferan sus
vinos.

Qu prueba estadstica utilizara a fin de asesorar al fabricante de vino?
Utilice un mtodo paramtrico y uno no paramtrico. Se llega a la misma
conclusin?

Actividad 20:
Una consultora que realiza trabajos de Investigacin de Mercado desea estudiar
el Ingreso Familiar de un determinada zona de la ciudad. Para ello quiere
asegurarse de que dicha variable cumple el requisito de distribucin normal a fin
de poder aplicar distintas tcnicas de inferencia estadstica. Qu se puede
concluir a un nivel del 1%?
One-Sample Kolmogorov-Smirnov Test
85
561,4040
135,8388
,093
,093
-,087
,859
,452
N
Mean
Std. Deviation
Normal Parameters
a,b
Absolute
Positive
Negative
Most Extreme
Differences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
INGRESO
Test distribution is Normal.
a.
Calculated from data.
b.


Actividad 21:
Un fabricante de bateras de autos desea determinar si existe alguna diferencia
en tres medios de comunicacin (revista, tv y radio) en trminos de recuerdo de
un anuncio publicitario por parte del pblico. Los resultados de un estudio sobre
publicidad se presentan a continuacin, acompaados de los resultados de un
procesamiento estadstico.

Tablas de contingencia

Frecuencias absolutas

En columnas: Medio de publicidad ms visto
Habilidad radio revista tv Total
no recuerda 108 73 93 274
recuerda 7 25 10 42
Total 115 98 103 316 .


Frecuencias relativas al total

En columnas: Medio de publicidad ms visto
Habilidad radio revista tv Total
no recuerda 0,34 0,23 0,29 0,87
recuerda 0,02 0,08 0,03 0,13
Total 0,36 0,31 0,33 1,00


Ctedra I Estadstica II
Autor I Marn Saino

203
Estadstico Valor gl p .
Chi Cuadrado Pearson 19,02 2 0,0001
Chi Cuadrado MV-G2 17,98 2 0,0001

a) Interprete los elementos de las tablas de frecuencias presentadas.
b) El hecho de recordar o no un anuncio publicitario se comporta diferente
segn cul sea el medio de comunicacin ms utilizado? En caso
afirmativo indique cmo se comportan las frecuencias en cada caso.
c) Qu procedimiento estadstico se utiliz?




4.1. Contraste de la mediana para muestras independientes

Es un procedimiento para probar si dos grupos independientes difieren en sus
tendencias centrales, ms precisamente consiste en probar que dos grupos se han
tomado de poblaciones que poseen la misma mediana. Entonces, la hiptesis nula es
H
0
: Me(X
1
) = Me(X
2
). Evidentemente que esta prueba puede aplicarse cuando la
variable bajo anlisis se encuentre, por lo menos, en una escala ordinal.

El primer paso consiste en determinar la mediana para el grupo combinado. Es decir,
como si todas las observaciones provinieran de la misma poblacin.

Luego clasificaremos, en una tabla de 2x2, la cantidad de observaciones por encima y
por debajo de la mediana para cada uno de los grupos en cuestin. En aquellos casos
que tengamos muchas observaciones iguales a la mediana combinada, se suele tomar
como criterio clasificar de acuerdo a si exceden o no exceden la mediana.

Ahora bien, si los dos grupos provienen de poblaciones con la misma mediana,
esperamos que las frecuencias por encima y por debajo de la mediana sean
aproximadamente iguales. Puede demostrarse adems que si o
11
y o
12
son el nmero
de observaciones por encima de la mediana en el grupo 1 y en el grupo 2,
respectivamente, la distribucin de o
11
+o
12
(bajo el supuesto de hiptesis nula cierta)
es la distribucin hipergeomtrica y por consiguiente si el nmero total de casos es
suficientemente grande, podemos utilizar la prueba
2
con un grado de libertad para
probar la hiptesis nula. Si el nmero total de observaciones es pequeo podemos
utilizar otra prueba como es la de Fisher.

El contraste se puede extender para determinar si k grupos independientes provienen
de la misma poblacin o poblaciones con medianas iguales. De tal manera que cada
uno de los grupos se divide por la mediana combinada y se colocan los resultados en
una tabla cx2. Con los datos de esta tabla se calcula el valor del estadstico de prueba
2
y el procedimiento pasa a ser en esencia una prueba
2
para k muestras. Luego,
si el estadstico de la prueba es mayor que el valor crtico se rechaza la hiptesis nula,
al nivel de significacin especificado, y concluimos que las muestras no provienen de
una poblacin o varias poblaciones de medianas iguales.


Veamos el siguiente ejemplo:

Se ha tomado un examen idntico a dos grupos de estudiantes de 5 ao, pero
pertenecientes a establecimientos distintos. Las puntuaciones obtenidas por cada
grupo estn representadas en la Tabla 14.


Ctedra I Estadstica II
Autor I Marn Saino

204

Tabla 14:

Grupo 1 Grupo 2
54 51
65 53
66 54
71 61
73 64
78 66
78 67
80 69
82 71
87 74
92 76
93 80
95 81
85
89
90
94

A un = 0,05, contraste la hiptesis de que los dos grupos de estudiantes provienen
de poblaciones con idnticas medianas.

H
0
: Las dos muestras se extraen de poblaciones con medianas iguales
Me(X
1
) = Me(X
2
).
H
1
: Las dos muestras se extraen de poblaciones con medianas diferentes
Me(X
1
) M(X
2
).

El primer paso consiste en obtener el valor de la mediana combinada de n
1
+ n
2
.
Para el ejemplo Me(X) = 75.

En segundo lugar dividiremos la observaciones correspondientes a cada grupo en la
mediana, (Tabla 15).

Tabla 15:

Grupo I Grupo II Total
Por encima de
Me(X) 5 10 15
Por debajo de Me(X) 8 7 15
Total 13 17 30

Dado que ninguna de las frecuencias esperadas es menor que 5 y como n
1
+ n
2
>
20, podemos usar la prueba
2
. El estadstico de la prueba es 1,22 y el valor
crtico de tabla es
*
2
1/ 0.95
3, 84 = , por lo tanto podemos concluir que las muestras
provienen de dos poblaciones de medianas iguales.

Ctedra I Estadstica II
Autor I Marn Saino

205

Actividad 22:
Se desea determinar si los sueldos mensuales de plomeros, carpinteros y elec-
tricistas de cierta comunidad difieren significativamente entre s. Se toman 3
muestras independientes y se obtiene la siguiente informacin:

Plomeros Carpinteros Electricistas
317 320 320
322 328 315
316 317 311
319 322 323
316 315 320
316 320 313
321 320 316
320 327 321
320 324 316
316 328 323
318 313 324
314 328 323
322 322 318
317 317
318 316
316

Trabaje con un nivel de significacin del 1%.

Actividad 23:
En un departamento de Control de Calidad desean comparar el tiempo que se
requiere para diagnosticar fallas de equipo, utilizando 3 sistemas alternativos. Se
asignan al azar 42 fallas de equipos para diagnosticarlas mediante los 3 sistemas.
La siguiente tabla muestra el tiempo total, en minutos, que cada sistema requiri
para diagnosticar cada una de las fallas:

Sistema I Sistema II Sistema III
25
29
42
16
31
14
33
45
26
34
30
43
28
19
18
37
40
56
49
28
20
34
39
47
31
65
38
32
24
49
21
36
34
19
46
25
38
31
20
26
30
18

Utilizando un nivel de significacin del 10%, pruebe la hiptesis de que las
muestras provienen de poblaciones que tienen igual mediana.






Ctedra I Estadstica II
Autor I Marn Saino

206
4.2. Prueba de rangos con signo de Wilcoxon

4.2.1. Para una muestra

Esta prueba puede utilizarse para probar la hiptesis nula referida a un valor de la
mediana poblacional. Para ello se considerar la magnitud de la diferencia entre cada
valor observado y el valor terico de la mediana (Me(X)). Por lo tanto, bajo el
supuesto de hiptesis nula cierta, estas diferencias se distribuiran simtricamente en
torno al cero. Se puede observar adems que, estamos considerando las magnitudes
de las diferencias, es por ello que los datos deben estar en una escala numrica.

El primer paso consiste en calcular las diferencias entre valores observados y la
mediana, a dicha diferencia la denominaremos d
i
, de tal manera que d
i
= x
i
Me(X).
Si alguna de estas diferencias es igual a cero, se excluye y el tamao de muestra se
reduce a la cantidad de diferencias distintas de cero (n). Luego, los valores absolutos
de las diferencias se ordenan de menor a mayor asignndoles un rango, comenzando
por 1 para la mnima diferencia. Aquellos valores que son iguales en valores absolutos
se les asigna el promedio de los rangos que le corresponderan (por ejemplo: si
tenemos dos diferencias que arrojen el mismo resultado y estas estn ubicadas en la
posicin 6 y 7 de la serie ordenada, a esas dos diferencias se les asignar el valor de
rango 6,5, no obstante al valor siguiente a estas dos diferencias se le asignar 8 como
rango).

Por ltimo se suman los rangos de las diferencias positivas (n), cuyo resultado es el
valor del estadstico de prueba T de Wilcoxon para una prueba bilateral. Si la hiptesis
nula es verdadera, el estadstico tomar un valor cercano a la mediana, en cambio si
es falsa el valor del estadstico estar prximo a los extremos de la distribucin.

Cuando el nmero de diferencias distintas de cero es igual o menor a 20 (n 20)
utilizamos la tabla de valores crticos inferiores y superiores de T de la prueba de
rangos con signo de Wilcoxon presentada al final del Captulo, para comparar el valor
observado. En una prueba bilateral, si el valor observado de T es inferior al valor
crtico inferior o es mayor al valor crtico superior, para un nivel de significacin
determinado, entonces existe evidencia para rechazar la hiptesis nula. Para una
prueba lateral derecha si el valor de T es mayor al valor crtico superior la hiptesis
nula puede ser rechazada; mientras que, para una prueba lateral izquierda se tomar
la decisin de rechazar la hiptesis nula si el valor del estadstico de prueba es menor
al valor crtico inferior, siempre a un nivel de significacin determinado.

Cuando n > 20 y la hiptesis nula es cierta, el estadstico T tiene una distribucin
aproximadamente normal de parmetros
T
y
T
, donde:

.( 1)
4
T
n n

+
= ;
.( 1).(2 1)
24
T
n n n

+ +
=

Por lo tanto en una muestra relativamente grande utilizaremos la distribucin normal,
calculando el estadstico de prueba de la siguiente forma:

(0,1)
T
T
T
N




Consideremos un ejemplo para cuando n 20. La Tabla 16 muestra las ventas de
una nueva herramienta en 12 ferreteras durante el mes anterior. Pruebe la hiptesis
de que la mediana de las ventas mensuales en la poblacin es menor o igual a 10
unidades por ferretera contra la alternativa que es mayor a 10 unidades, a un nivel
del 5%.

Ctedra I Estadstica II
Autor I Marn Saino

207

Tabla 16:

Ferretera
Herramientas
vendidas
Ferretera
Herramientas
vendidas
1 8 7 16
2 18 8 7
3 9 9 14
4 12 10 11
5 10 11 10
6 14 12 20

H
o
: Me(X) 10
H
1
: Me(X)> 10


El procedimiento detallado precedentemente lo resumimos en la Tabla 17.

Tabla 17:

Ferretera
Herramientas
vendidas
d
i
R
i
Signo de d
i
R
i
(+)
1 8
-2 3,5 (-)
2 18
8 9 (+) 9
3 9
-1 1,5 (-)
4 12
2 3,5 (+) 3,5
5 10
0 elimine
6 14
4 6,5 (+) 6,5
7 16
6 8 (+) 8
8 7
-3 5 (-)
9 14
4 6,5 (+) 6,5
10 11
1 1,5 (+) 1,5
11 10
0 elimine
12 20
10 10 (+) 10
Totales 45








A continuacin presentamos un resumen de la tabla a utilizar para encontrar el
valor crtico, (Tabla 18).










Valor del
estadstico T
observado

Ctedra I Estadstica II
Autor I Marn Saino

208

Tabla 18:

Valores crticos inferiores, T*, para la prueba de rangos
con signo de Wilcoxon para una muestra

Una cola =0,05 =0,05 =0,05 =0,05 =0,025 =0,025 =0,025 =0,025 =0,01 =0,01 =0,01 =0,01 =0,005 =0,005 =0,005 =0,005
Dos colas
=0,10 =0,10 =0,10 =0,10
=0,05 =0,05 =0,05 =0,05 =0,02 =0,02 =0,02 =0,02 =0,01 =0,01 =0,01 =0,01
n Lmites (Inferior; Superior)
5 0 ; 15 ...;... ...;... ...;...
6 2 ; 19 0 ; 21 ...;... ...;...
7 3 ; 25 2 ; 26 0 ; 28 ...;...
8 5 ; 31 3 ; 33 1 ; 35 0 ; 36
9
8 ; 37
5 ; 40 3 ; 42 1 ; 44
10

10 ; 45 8 ; 47 5 ; 50 3 ; 52
11 13 ; 53 10 ; 56 7 ; 59 5 ; 61
. . . . .
. . . . .
. . . . .
20 60 ; 150 52 ; 158 43 ; 167 37 ; 173

El T* (valor crtico) que surge de tabla, para la muestra recortada de tamao 10 y
un nivel de significacin del 5% es 45; por lo tanto al nivel de significacin del
5%, con un criterio conservador no se rechaza H
o
. Se pude observar que el valor
crtico coincide con el valor observado, por lo que -en la medida que se pueda- se
debera ampliar el tamao de muestra para decidir con mayor precisin si existe
evidencia o tal evidencia no existe para rechazar la H
o
.


Actividad 24:
Se afirma que las unidades ensambladas por un nuevo sistema ser mayor
que con el sistema antiguo, cuya mediana poblacional era de 80 unidades por
turno. Plantee la dcima que corresponda y trabaje con un nivel del 5%. Los
datos muestreados son los siguientes:

Turno
muestreado
Unidades
ensambladas
Turno
muestreado
Unidades
ensambladas
1
2
3
4
5
6
75
85
92
80
94
90
7
8
9
10
11
12
91
76
88
82
96
83


4.2.2. Para muestras dependientes

Un razonamiento similar se puede emplear cuando tenemos n observaciones
apareadas, por ejemplo: antes y despus del tratamiento, que podemos denominar
(x
1i
; x
2i
), donde d
i
= x
1i
- x
2i
y estamos interesados en probar que las X
1
y las X
2

provienen de la misma distribucin frente a la alternativa que las distribuciones son
diferentes en cuanto a su posicin respecto al eje de las abscisas. Bajo el supuesto de
hiptesis nula cierta, se esperara que la mitad de las diferencias entre pares sean
negativas y la otra mitad sean positivas, a su vez con iguales valores absolutos,
respectivamente.

Una vez calculadas las diferencias, se ordenan en valores absolutos y se asigna el
rango correspondiente a cada diferencia excluyndose, como antes, las diferencias

Ctedra I Estadstica II
Autor I Marn Saino

209
iguales a cero y asignando el rango promedio para diferencias con iguales resultados.
Luego, se calculan las sumas de los rangos para diferencias positivas y para las
diferencias negativas. Para una prueba bilateral tomaremos la menor de esas sumas
como el valor del estadstico de prueba (T). Por lo tanto rechazaremos la hiptesis nula
en tanto T (valor observado) sea menor a un valor T* (T crtico). Si la prueba es
lateral izquierda, usamos como estadstico de la prueba (T) la suma de los rangos
negativos y si la prueba es lateral derecha utilizamos como estadstico de la prueba (T)
la suma de rangos positivos.

Cuando n 20 recurriremos a la tabla de valores crticos de T de la prueba de rangos
con signo de Wilcoxon para muestras dependientes presentada al final del Captulo,
para comparar el valor observado.

Cuando n > 20, el estadstico T tiene una distribucin aproximadamente normal de
parmetros
T
y
T
, tal como se especific anteriormente y utilizaremos la distribucin
normal para calcular tanto el estadstico de la prueba como los valores crticos que
definen la zona de rechazo y la zona de no rechazo.


Ejemplifiquemos:

A un grupo de consumidores que consta de 14 personas se le pide que califique dos
marcas de t, de acuerdo a un sistema de valuacin por puntos que se basa en
diversos criterios. En la Tabla 19 se muestran los puntos asignados a cada marca de
t:

Tabla 19:

Miembro
del grupo
Marca 1 Marca 2
1 20 16
2 24 26
3 28 18
4 24 17
5 20 20
6 29 21
7 19 23
8 27 22
9 20 23
10 30 20
11 18 18
12 28 21
13 26 17
14 24 26

Pruebe la hiptesis de que no existe diferencia en el nivel de calificaciones para las
dos marcas de t, a un nivel de significacin del 5%.

H
0
: No existe diferencia en el nivel de calificaciones para las dos marcas de t.
H
1
: Existen diferencias significativas en el nivel de calificaciones para las dos marcas
de t.

Los clculos para determinar el valor del estadstico de prueba se resumen en la
Tabla 20:



Ctedra I Estadstica II
Autor I Marn Saino

210

Tabla 20:

Miembro
del grupo
Marca 1 Marca 2 di Ri Ri (+) Ri (-)
1 20 16
4
4,5 4,5
2 24 26
-2
1,5 1,5
3 28 18
10
11,5 11,5
4 24 17
7
7,5 7,5
5 20 20
0 elimine
-.- -.-
6 29 21
8
9 9
7 19 23
-4
4,5 4,5
8 27 22
5
6 6
9 20 23
-3
3 3
10 30 20
10
11,5 11,5
11 18 18
0 elimine
-.- -.-
12 28 21
7
7,5 7,5
13 26 17
9
10 10
14 24 26
-2
1,5 1,5
Total 78
67,5 10,5






De la Tabla 21obtenemos el valor de T* que separa la zona de rechazo, de la zona
de no rechazo.

Tabla 21:

Valores crticos, T*, para la prueba de rangos con signo
de Wilcoxon para muestras dependientes

Una cola =0,05 =0,05 =0,05 =0,05 =0,025 =0,025 =0,025 =0,025 . . . =0,005 =0,005 =0,005 =0,005
Dos colas =0,10 =0,10 =0,10 =0,10
=0,05 =0,05 =0,05 =0,05
. . . =0,01 =0,01 =0,01 =0,01
N T*
5 0 ...;... . . . ...;...
6 2 0 . . . ...;...
7 3 2 . . . ...;...
. . . . .
. . . . .
. . . . .
13 21
17
. . . 9
14
25 21 . . . 12
. . . . .
. . . . .
. . . . .
100 2045 1955 . . . 1779


Cada una de la suma de los rangos debera ser aproximadamente 39 (78/2) y se
puede observar que hay un gran desequilibrio (67,5 y 10,5), por lo que el valor de
T observado de 10,5 es menor al valor crtico (21), entonces se rechaza la
hiptesis nula al nivel de significacin del 5%. Ahora bien, si el valor del estads-
Valor del
estadstico T

Ctedra I Estadstica II
Autor I Marn Saino

211

de prueba T hubiese tomado un valor entre 21 y 39 (inclusive), indicara que la
suma de los rangos positivos y la suma de los rangos negativos se compensaran y
no habra diferencias significativas.


Actividad 25:
Se desea determinar la eficacia de cierta dieta para adelgazar. Se sometieron a la
dieta 17 personas, y sus pesos antes y despus de la misma fueron:

Persona Antes Despus
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
70
66
68
58
78
59
84
77
63
65
51
60
81
65
66
56
72
69
65
65
58
76
57
81
74
71
60
50
58
78
68
64
56
70

Pruebe la hiptesis de que la dieta disminuye significativamente el peso de las
personas utilizando un = 0,01.


4.2.3. Para muestras independientes

Si tenemos dos conjuntos de datos de una variable a partir de dos muestras
independientes podemos utilizar la prueba de rangos con signos para probar las
diferencias entre las medianas de las dos poblaciones de las cuales se extrajeron
dichos conjuntos de datos. Esos datos deben ser por lo menos de nivel ordinal.

El procedimiento consiste en combinar dos muestras aleatorias independientes, con
n
1
y n
2
observaciones, y ordenarlas de menor a mayor asignndoles el rango 1 a la
menor hasta el rango n, es decir (n
1
+ n
2
), a la mayor. A aquellas observaciones que
son iguales se les asignar el promedio de los rangos tal como se especific para las
dos pruebas anteriores. Entonces, si las observaciones fueron generadas a partir de
muestras independientes de la misma poblacin, las sumas de los rangos
correspondientes a cada muestra deberan ser ms o menos proporcionales a los
tamaos de muestras respectivos.

Luego el estadstico de la prueba T es la suma de los rangos asignados a la muestra
ms chica (supongamos que es n
1
). No obstante, si las muestras son de igual tamao
cualquiera de las dos puede elegirse para calcular T.

Cuando los tamaos de ambas muestras son iguales o menores que 10, utilizamos la
tabla de valores crticos de T de la prueba de rangos con signo de Wilcoxon para
muestras independientes, presentada al final del Captulo, para comparar el valor
observado.

Cuando el tamao de muestra es suficientemente grande, digamos n
1
> 10, el
estadstico de prueba T se distribuye aproximadamente normal de parmetros
T
y
T
,
tal como se especific en la seccin 4.2.1. No obstante, los parmetros se calculan
mediante las expresiones que se presentan seguidamente:
1
2
.( 1)
T
n n

+
= ;
1 2
12
. .( 1)
T
n n n

+
=

Ctedra I Estadstica II
Autor I Marn Saino

212

Trabajemos con el siguiente ejemplo:

Se desea determinar si el volumen anual de ventas logrado por vendedores que
tienen grado acadmico (Grupo 1) difiere del volumen logrado por vendedores que
no lo tienen (Grupo 2). Tomadas en forma independientes muestras de ambos
grupos de vendedores se obtuvo la siguiente informacin:

Tabla 22:

Ventas anuales (en miles)
Grupo 1 Grupo 2
82
75
70
65
60
58
50
50
46
42
76
92 73
90 72
90 71
89 68
86 67
85 66
83 64
81 63
81 52
78 40


A un nivel del 1%, se puede concluir que las muestras provienen de poblaciones con
distintas medianas?

H
0
: Me(X
1
) = Me(X
2
)
H
1
: Me(X
1
) Me(X
2
)

En la Tabla 23 se asignaron los rangos segn lo especificado anteriormente:

Tabla 23:

Grupo
1 R
i1

Grupo
2

R
i2

82 24 92 31
75 19 90 29,5
70 15 90 29,5
65 11 89 28
60 8 86 27
58 7 85 26
50 4,5 83 25
50 4,5 81 22,5
46 3 81 22,5
42 2 78 24
76 20 73 18
72 17
71 16
68 14
67 13
66 12
64 10
63 9
52 6
40 1
Total 118
Para tamaos de muestras grandes se dijo
que se utilizaba la distribucin normal como
aproximacin, de tal manera que:

118
obs
T =
11.(31 1)
176
2
T

+
= = ;
(11).(20).(32)
24, 22
12
T
= =
entonces
118 176
2, 395
24, 22
z

= =
y el valor crtico es z*= 2,575, por lo tanto
la zona de no rechazo es:
{ }
/ 2, 575 ZNR z z = <

En consecuencia, a un nivel de significacin
del 1%, no se rechaza la hiptesis nula. Es
decir, las muestras provienen de poblaciones
con medianas idnticas.

Ctedra I Estadstica II
Autor I Marn Saino

213

Actividad 26:
Se desea comparar los sueldos mensuales de vendedores y administrativos del
gremio comercial, en cierta zona de la ciudad. Los datos muestrales obtenidos de
15 empleados de cada rea son:

Vendedores Administrativos
350
351
351
355
361
365
366
369
370
375
375
382
387
390
392
352
360
367
370
371
375
377
378
380
381
385
389
393
394
395

A un nivel del 5% determine si la mediana de los sueldos mensuales de ambos
tipos de empleados es la misma.


4.3. Prueba U de Mann-Whitney: muestras aleatorias independientes

En 1947, dos aos despus que Wilcoxon propusiera la prueba estadstica para
comparar dos poblaciones basadas en muestra aleatorias independientes, Mann y
Whitney propusieron la prueba U que tambin utiliza la suma de los rangos de las
muestras. Se puede demostrar que ambas pruebas son equivalentes.

El objeto de esta prueba es determinar si las dos muestras independientes provienen
de la misma poblacin y es especialmente til cuando los datos son al menos de nivel
ordinal.

Sea n
1
la muestra ms pequea de los dos grupos de datos, para aplicar la prueba U
en primer lugar se deben combinar las observaciones para ordenarlos de menor a
mayor para luego asignarles un rango de 1 al ms bajo y n al ms alto y teniendo en
cuenta que a aquellas observaciones que empaten se les asignar el rango promedio,
tal como se especific en las pruebas anteriores. Seguidamente se calculan dos valores
de estadsticos por medio de las siguientes expresiones:

1
1 1
1 1 2 1
1
1
2
.( )
.
n
i
i
n n
U n n R
=
+
= + ;

1
2 2
2 1 2 2
1
1
2
.( )
.
n
i
i
n n
U n n R
=
+
= + ; o bien:
2 1 2
. U n n U =

donde R
i1
y R
i2
es el rango que corresponde a la observacin i-sima de la muestra n
1

(la ms pequea) y n
2
(la muestra ms grande), respectivamente.

Obviamente las frmulas anteriores arrojan distintos valores. Es el menor de ellos el
que nos interesa y lo denominaremos genricamente como U
obs
. Si ese valor de U es
menor al valor crtico que surge de tabla, rechazaremos la hiptesis nula al nivel de
significacin especificado.

Ahora bien cuando la muestra ms grande es mayor que 20 (n
2
>20), la distribucin


Ctedra I Estadstica II
Autor I Marn Saino

214
muestral de U se aproxima rpidamente a la distribucin normal de parmetros
U
y

U
, donde:

1 2
2
.
U
n n
= ; y
1 2 1 2
1
12
. .( )
U
n n n n

+ +
=

Por lo tanto, cuando n
1
y n
2
aumentan de tamao utilizaremos la distribucin normal,
calculando el estadstico de prueba
16/
de la siguiente forma:

0,1 ( )
U
U
T
N



Si el valor de Z observado es menor al valor crtico de la cola izquierda de la
distribucin o es mayor al valor crtico de la cola derecha de la distribucin normal, se
rechazar la hiptesis nula.


Retomemos el ejemplo presentado en la seccin 4.1. para aplicar la prueba de
Mann-Whitney

H
0
: Me(X
1
) = Me(X
2
)
H
1
: Me(X
1
) Me(X
2
)

En la Tabla siguiente se muestra la asignacin de rangos para las muestras
combinadas (n
1
+ n
2
):

Tabla 24:

Grupo 1 R
i1
Grupo 2 R
i2

54 3,5 51 1
65 7 53 2
66 8,5 54 3,5
71 12,5 61 5
73 14 64 6
78 17,5 66 8,5
78 17,5 67 10
80 19,5 69 11
82 22 71 12,5
87 24 74 15
92 27 76 16
93 28 80 19,5
95 30 81 21
85 23
89 25
90 26
94 29
Total 231

234

El valor crtico es 63 y el valor observado es 81, por lo tanto no se rechaza la
hiptesis nula, al nivel de significacin del 5%.

16/
Cuando la distribucin muestral de U se aproxima a la normal, no tiene importancia si se utili-
za U1 U2 como valor de U porque el valor absoluto de Z ser el mismo, lo que si depende de
U es el signo de Z.
Procederemos al clculo de U como
sigue:

13.(14)
(13).(17) 231 81
2
U = + =
2
(13) (17) 81 140 . U = =

De la tabla de valores crticos de
U de la prueba de Mann-Whitney,
para una cola = 0,025 y dos colas
= 0,05, que se dispone (al final
del Captulo y aqu se muestra un
resumen de la misma) extraemos el
valor crtico en la intercepcin de
los tamaos de muestras de cada
grupo.

Ctedra I Estadstica II
Autor I Marn Saino

215

Tabla 25:

Valores crticos, U*, para la prueba de Mann-Whitney
para muestras independientes

Una cola =0,025 =0,025 =0,025 =0,025
Dos colas =0,05 =0,05 =0,05 =0,05
n
1
n
2
2 3 13 14 15 16 17 20
2 ...;... ...;... . . . 1 1 1 1
2
. . . 2
3 ...;... ...;... . . . 4 5 5 6 6 . . . 8
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . .
.
. .
13

1 4 . . . 45 50 54 59 63 . . . 76
14 1 5 . . . 50 55 59 64 67 . . . 83
15 1 5 . . . 54 59 64 70 75 . . . 90
16 1 6 . . . 59 64 70 75 81 . . . 98
17 2 6 . . . 63 67 75 81 87 . . . 105
18 2 7 . . . 67 74 80 86 93 . . . 112
19 2 7 . . . 72 78 85 92 99 . . . 119
20 2 8 . . . 76 83 90 98 105 . . . 127



Actividad 27:
Se desea comparar las calificaciones obtenidas por estudiantes varones y
mujeres de un mismo curso, en un determinado examen estndar. Dos muestras
tomadas al azar de 20 estudiantes cada una dieron los siguientes resultados (en
puntos):

Varones Mujeres
51
90
68
83
65
75
71
85
79
84
87
72
76
92
69
91
63
71
78
59
45
55
95
80
70
50
99
88
74
60
67
82
86
98
62
97
93
61
73
94

Pruebe si las calificaciones medias de estudiantes varones y mujeres son las
mismas, a un = 0,05.




Ctedra I Estadstica II
Autor I Marn Saino

216





























































Ctedra I Estadstica II
Autor I Marn Saino

217


Un experimento binomial consta de n pruebas independientes con dos resultados
posibles (xito o fracaso), los cuales tienen probabilidades asociadas (p y q). No
obstante el experimento definido, es slo un caso particular de un modelo denominado
multinomial, que trata de pruebas independientes con ms de dos resultados (k), don-
de las dos probabilidades (p y q) se reemplazan por las k probabilidades p
1
, p
2
, ... p
k
;
son ejemplos de este tipo de experimentos los siguientes: la clasificacin de individuos
segn sus ingresos en 3 clases (hasta 500 $; entre 501 y 1000 $; ms de $ 1000),
segn el nivel mximo de educacin alcanzado en 7 categoras (primario incompleto,
primario completo, secundario incompleto, ..., postgrado), la clasificacin de individuos
segn su opinin respecto a un producto (muy bueno, bueno, malo, muy malo).

Cualquiera sea la variable aleatoria que genere el experimento, todas tienen las
siguientes caractersticas que definen un experimento multinomial:

1.- El experimento consta de n pruebas idnticas.
2.- El resultado de cada prueba corresponde a una de las k categoras.
3.- La probabilidad que el resultado caiga en una categora particular es:
p
i
(i = 1, 2, ..., k) y permanece constante de una prueba a otra.
4.- Las n pruebas son independientes.
5.- Nuestro inters est centrado bsicamente en o
1
, o
2
, ..., o
k
, donde o
i
(i=1, 2,..., k)
es igual al nmero de pruebas cuyo resultado se asocia a la i-sima categora, de
manera tal que: o
1
+ o
2
+...+o
k
= n.

Tomemos como ejemplo que se lanzan 100 tiros con jabalinas en un terreno que est
dividido en tres secciones. La primera seccin es la que est ms cerca del tirador y se
sabe que la probabilidad que una jabalina caiga en est seccin es 0,30, mientras que
la probabilidad que caiga en la segunda seccin es de 0,60 y la probabilidad que caiga
ms all del lmite de la segunda seccin (los mejores tiros!) es 0,10. Entonces nos
podramos preguntar cuntas jabalinas se espera que caigan en la tercera seccin?

Se sabe que:

E (n
3
) = e
3
= n p
3
= (100) . (0,10) = 10

de la misma manera se podra calcular el valor esperado de jabalinas que caen en las
restantes secciones.

Segn se dijo, si la hiptesis nula planteada es verdadera entonces los conteos de las
secciones no deberan desviarse demasiado de sus valores esperados, es decir:

o
i
n p
i
, (i=1, 2,..., k)

para realizar la comparacin definiremos la variable aleatoria
2
propuesta por
Pearson que incluye las k diferencias y se puede demostrar que, para n
suficientemente grande, tendr distribucin de probabilidad Chi-cuadrado.

2
2
1
( )
k
i i
obs
i
i
o e
e
c
=
-
=

Consideremos el caso especial de k = 2 (binomial), para luego generalizar. Entonces:

2 2 2
2
2 1 1 2 2
1
1 2
( ) ( ) ( )
i i
obs
i
i
o e o np o np
e np np
c
=
- - -
= = +


Ctedra I Estadstica II
Autor I Marn Saino

218
dado que o
1
+ o
2
= n, entonces o
2
= n - o
1
, y que p
1
+ p
2
= 1, se puede escribir :

2 2
2 1 1 1 1
1 2
( ) [( ) (1 )]
obs
o np n o n p
np np
c
- - - -
= +

trabajando algebraicamente el segundo trmino del segundo miembro, resulta:

2 2
2 1 1 1 1
1 2
( ) ( )
obs
o np n o n np
np np
c
- - - +
= +

luego

2 2
2 1 1 1 1 1 1
1 1
(1 )( ) ( )
( )(1 )
obs
p o np p o np
np p
c
- - + - +
=
-


finalmente, se obtiene:

2
2 1 1
1 1
( )
(1 )
obs
o np
np p
c
-
=
-


Como

1 1
1
n
j
j
o x
=
=

donde
1
1 si el evento ocurre en la j-esima prueba
0 en cualquier otro caso
j
x



Entonces o
1
puede expresarse como la suma de n variables aleatorias independientes
y no es otra cosa que el nmero de observaciones (o
1
) y tendr distribucin binomial,
con E(o
1
) = n p
1
y V(o
1
) = n p
1
(1- p
1
), si p
1
es el verdadero valor de p. Adems,
cuando n es grande al ser p
17/
chica, podemos tomar a la distribucin Poisson como
lmite de la binomial con = np
1
. Ahora bien, si > 5 la distribucin Poisson se
aproximar a la distribucin normal, entonces la variable aleatoria:

1 1
1
(0,1)
.
o np
N
n p






luego para un n grande, la variable aleatoria

2
2 1 1
1
1
.
o np
n p





18
/


Para un k mayor que 2 se puede demostrar que
2
puede expresarse como la suma
de cuadrados de k-1 variables independientes, cada una de ellas con distribucin
N(0,1) si n es suficientemente grande.


17/
Cuando hay varias celdas la frecuencia en cada una de ellas es relativamente pequea (p)
comparndola contra todas las dems (1-p).
18/
Recuerde que, si Z1; Z2;...;Zn son variables aleatorias independientes, cada una con distribu-
cin N(0,1), entonces: Z1
2
+ Z2
2
+ ... + Zn
2
tiene distribucin
2
n
.

Ctedra I Estadstica II
Autor I Marn Saino

219
TABLAS ANEXAS






Valores crticos de
o t i
F F D = . Prueba de Kolmorogov-Smirnov



Tamao
muestral
Nivel de
significacin
n 0.2 0.15 0.1 0.05 0.01
1 0.9 0.925 0.95 0.975 0.995
2 0.684 0.726 0.776 0.842 0.929
3 0.565 0.597 0.642 0.708 0.828
4 0.494 0.525 0.564 0.624 0.733
5 0.446 0.474 0.51 0.565 0.669

6 0.41 0.436 0.47 0.521 0.618
7 0.381 0.405 0.438 0.486 0.577
8 0.358 0.381 0.411 0.457 0.543
9 0.339 0.36 0.388 0.432 0.514
10 0.322 0.342 0.368 0.41 0.49

11 0.307 0.326 0.352 0.391 0.468
12 0.295 0.313 0..8 0.375 0.45
13 0.284 0.302 0.325 0.361 0.433
14 0.274 0.292 0.314 0.349 0.418
15 0.266 0.283 0.304 0.338 0.404

16 0.258 0.274 0.295 0.328 0.392
17 0.25 0.266 0.286 0.318 0.381
18 0.244 0.259 0.278 0.309 0.371
19 0.237 0.252 0.272 0.301 0.363
20 0.231 0.246 0.264 0.294 0.356

25 0.21 0.22 0.24 0.27 0.32
30 0.19 0.2 0.22 0.24 0.29
35 0.18 0.19 0.21 0.23 0.27
> >> > 35 1.07 1.14 1.22 1.36 1.63
n n n n n

Referencia
n: tamao de muestra






Ctedra I Estadstica II
Autor I Marn Saino

220







Valores crticos de
o t i
F F D = . Prueba de Kolmorogov Smirnov (Lilliefors)



Tamao
Muestral
Nivel de
significacin
N 0.2 0.15 0.1 0.05 0.01
4 0.3 0.319 0.352 0.381 0.417
5 0.285 0.299 0.315 0.337 0.405

6 0.265 0.277 0.294 0.319 0.364
7 0.247 0.258 0.276 0.3 0.348
8 0.233 0.244 0.261 0.285 0.331
9 0.223 0.233 0.249 0.271 0.311
10 0.215 0.224 0.239 0.258 0.294

11 0.206 0.217 0.23 0.249 0.284
12 0.199 0.212 0.223 0.242 0.275
13 0.19 0.202 0.214 0.234 0.268
14 0.183 0.194 0.207 0.227 0.261
15 0.177 0.187 0.201 0.22 0.257

16 0.173 0.182 0.185 0.213 0.25
17 0.169 0.177 0.189 0.206 0.245
18 0.166 0.173 0.184 0.2 0.239
19 0.163 0.169 0.179 0.195 0.235
20 0.16 0.166 0.174 0.19 0.231

25 0.149 0.153 0.165 0.18 0.203
30 0.131 0.136 0.144 0.161 0.187
> >> > 30 0.736 0.768 0.805 0.886 1.031
n n n n n











Ctedra I Estadstica II
Autor I Marn Saino

221







Valores crticos inferiores, T*, para la prueba de rangos
con signo de Wilcoxon para una muestra



Una cola =0,05 =0,05 =0,05 =0,05 =0,025 =0,025 =0,025 =0,025 =0,01 =0,01 =0,01 =0,01 =0,005 =0,005 =0,005 =0,005
Dos colas =0,10 =0,10 =0,10 =0,10 =0,05 =0,05 =0,05 =0,05 =0,02 =0,02 =0,02 =0,02 =0,01 =0,01 =0,01 =0,01
N
Lmites
(Inferior ; Superior)
5 0 ; 15 ...;... ...;... ...;...
6 2 ; 19 0 ; 21 ...;... ...;...
7 3 ; 25 2 ; 26 0 ; 28 ...;...
8 5 ; 31 3 ; 33 1 ; 35 0 ; 36
9 8 ; 37 5 ; 40 3 ; 42 1 ; 44
10 10 ; 45 8 ; 47 5 ; 50 3 ; 52
11 13 ; 53 10 ; 56 7 ; 59 5 ; 61
12 17 ; 61 13 ; 65 10 ; 68 7 ; 71
13 21 ; 70 17 ; 74 12 ; 79 10 ; 81
14 25 ; 80 21 ; 84 16 ; 89 13 ; 92
15 30 ; 90 25 ; 95 19 ; 101 16 ; 104
16 35 ; 101 29 ; 107 23 ; 113 19 ; 117
17 41 ; 112 34 ; 119 27 ; 126 23 ; 130
18 47 ; 124 40 ; 131 32 ; 139 27 ; 144
19 53 ; 137 46 ; 144 37 ; 153 32 ; 158
20 60 ; 150 52 ; 158 43 ; 167 37 ; 173



















Ctedra I Estadstica II
Autor I Marn Saino

222




Valores crticos, T*, para la pueba de rangos
con signo de Wilcoxon para muestras dependientes


Una cola =0,05 =0,05 =0,05 =0,05 =0,025 =0,025 =0,025 =0,025 =0,01 =0,01 =0,01 =0,01 =0,005 =0,005 =0,005 =0,005
Dos colas =0,10 =0,10 =0,10 =0,10 =0,05 =0,05 =0,05 =0,05 =0,02 =0,02 =0,02 =0,02 =0,01 =0,01 =0,01 =0,01
n T*
5 0 ...;... ...;... ...;...
6 2 0 ...;... ...;...
7 3 2 0 ...;...
8 5 3 1 0
9 8 5 3 1
10 10 8 5 3
11 13 10 7 5
12 17 13 9 7
13 21 17 12 9
14 25 21 15 12
15 30 25 19 15
16 35 29 23 19
17 41 34 27 23
18 47 40 32 27
19 53 46 37 32
20 60 52 43 37
21 67 58 49 42
22 75 65 55 48
23 83 73 62 54
24 91 81 69 61
25 100 89 76 68
26 110 98 84 75
27 119 107 92 83
28 130 116 101 91
29 140 126 110 100
30 151 137 120 109
31 163 147 130 118
32 175 159 140 128
33 187 170 151 138
34 200 182 162 148
35 213 195 173 159
40 286 264 238 220
50 466 434 397 373
60 690 648 600 567
70 960 907 846 805
80 1276 1211 1136 1086
90 1638 1560 1471 1410
100 2045 1955 1850 1779



Ctedra I Estadstica II
Autor I Marn Saino

223







Valores crticos, T*, para la pueba de rangos con signo
de Wilcoxon para dos muestras independientes



n
1

n
2

Una
cola
Dos
colas 4 5 6 7 8 9 10
0,05 0,1 11 ; 25
4 0,025 0,05 10 ; 26
0,01 0,02 ...;...
0,005 0,01 ...;...
0,05 0,1 12 ; 28 19 ; 36
5 0,025 0,05 11 ; 29 17 ; 38
0,01 0,02 10 ; 30 16 ; 39
0,005 0,01 ...;... 15 ; 40
0,05 0,1 13 ; 31 20 ; 40 28 ; 50
6 0,025 0,05 12 ; 32 18 ; 42 26 ; 52
0,01 0,02 11 ; 33 17 ; 43 24 ; 54
0,005 0,01 10 ; 34 16 ; 44 23 ; 55
0,05 0,1 14 ; 34 21 ; 44 29 ; 55 39 ; 66
7 0,025 0,05 13 ; 35 20 ; 45 27 ; 57 36 ; 69
0,01 0,02 11 ; 37 18 ; 47 25 ; 59 34 ; 71
0,005 0,01 10 ; 38 16 ; 49 24 ; 60 32 ; 73
0,05 0,1 15 ; 37 23 ; 47 31 ; 59 41 ; 71 51 ; 85
8 0,025 0,05 14 ; 38 21 ; 49 29 ; 61 38 ; 74 49 ; 87
0,01 0,02 12 ; 40 19 ; 51 27 ; 63 35 ; 77 45 ; 91
0,005 0,01 11 ; 41 17 ; 53 25 ; 65 34 ; 78 43 ; 93
0,05 0,1 16 ; 40 24 ; 51 33 ; 63 43 ; 76 54 ; 90 66 ; 105
9 0,025 0,05 14 ; 42 22 ; 53 31 ; 65 40 ; 79 51 ; 93 62 ; 109
0,01 0,02 13 ; 43 20 ; 55 28 ; 68 37 ; 82 47 ; 97 59 ; 112
0,005 0,01 11 ; 45 18 ; 57 26 ; 70 35 ; 84 45 ; 99 56 ; 115
0,05 0,1 17 ; 43 26 ; 54 35 ; 67 45 ; 81 56 ; 96 69 ; 111 82 ; 128
10 0,025 0,05 15 ; 45 23 ; 57 32 ; 70 42 ; 84 53 ; 99 65 ; 115 78 ; 132
0,01 0,02 13 ; 47 21 ; 59 29 ; 73 39 ; 87 49 ; 103 61 ; 119 74 ; 136
0,005 0,01 12 ; 48 19 ; 61 27 ; 75 37 ; 89 47 ; 105 58 ; 122 71 ; 139







Ctedra I Estadstica II
Autor I Marn Saino

224