Prueba de Bondad de Ajuste

Ctedra I Estadstica II
Autor I Marn Saino
Objetivos
Una vez estudiado este Captulo, el estudiante estar en condiciones de:
Reconocer cuando es necesario aplicar procedimientos no paramtricos

para prueba para hiptesis.
Utilizar este tipo de metodologa para probar hiptesis de independencia,
de bondad de ajuste y de homogeneidad.
Reconocer casos en que deban aplicarse otras pruebas no paramtricas.
Contenidos
1. Introduccin.
2. Las pruebas Chi-cuadrado.
2.1. Prueba de la bondad de ajuste.
2.2. Prueba de independencia: Tablas de contingencia.
2.3. Prueba de homogeneidad.
2.3.1. Comparacin de dos proporciones, muestras independientes.
Similitudes de la prueba Z y
2 .
2.3.2. Comparaciones mltiples de proporciones.

3. Prueba de Kolmogorov-Smirnov.
4. Otras pruebas no paramtricas.
4.1. Contraste de la mediana para muestras independientes.
4.2. Prueba de rangos con signo de Wilcoxon.
4.2.1. Para una muestra.
4.2.2. Para muestras dependientes.
4.2.3. Para muestras independientes.
4.3. Prueba U de Mann-Whitney: muestras independientes.
175
Autor I Marn Saino
176
Autor I Marn Saino
1. Introduccin
Todos los mtodos de inferencia que hasta aqu vimos se han circunscripto a
parmetros poblacionales (intervalos de confianza o pruebas de hiptesis). En general,
estos mtodos estn vinculados a una serie de supuestos bastante restrictivos acerca
de caractersticas de la poblacin (v.gr.: distribucin normal de la poblacin, igualdad
de varianzas para diversos grupos, etc.).
En este Captulo, encaramos el estudio de los denominados Mtodos No Paramtricos
o de Distribucin Libre1/. Estos mtodos tienen la particularidad de realizar inferencias
estadsticas no slo referidas a parmetros poblacionales, sino tambin a otras
situaciones como por ejemplo probar si dos variables cualitativas estn asociadas o no
(pruebas de independencia), o si la distribucin de cierta caracterstica es similar en
varias poblaciones (pruebas de homogeneidad); o si la forma de la distribucin
poblacional de cierta variable es normal, o Poisson, o si responde a cierta forma
especfica (pruebas de la bondad de ajuste). A veces tambin se refieren a parmetros
poblacionales como la mediana, la media o la varianza.
Debe tenerse en cuenta que an cuando puedan aplicarse de manera efectiva los
mtodos no paramtricos, hay que proceder con prudencia ya que estas pruebas, para
un nmero dado de observaciones, tienen menor potencia (es decir, menor aptitud
para rechazar la hiptesis nula) que los tests paramtricos.
Si bien existe una gran cantidad de pruebas estadsticas no paramtricas, aplicables a
distintas situaciones concretas, especialmente nos ocuparemos de
las llamadas
pruebas Chi-cuadrado y de la prueba de Kolmogorov. No obstante ello, tambin
daremos una breve idea de otros procedimientos, tales como el Contraste de la
Mediana, las pruebas de Wilcoxon y la prueba de Mann-Withney.
2. Las pruebas Chi- cuadrado

Las pruebas Chi-cuadrado se utilizan para probar hiptesis referidas a los patrones de
comportamiento de frecuencias relacionadas con variables ya sean cuantitativas o
cualitativas. En este sentido, entre las pruebas ms comunes se encuentran la de
Bondad del Ajuste, la de Independencia y la de Homogeneidad.
En general, tal como hemos visto en los Captulos anteriores, el procedimiento de
prueba comienza con la formulacin de las hiptesis; en particular, la hiptesis nula.
En sta se plantea el modelo terico que determinara el comportamiento de las
frecuencias. Luego, se comparan con los datos efectivamente obtenidos y se
cuantifican las diferencias numricas efectivamente halladas. Ahora bien, para juzgar
la significatividad de las diferencias halladas, Karl Pearson (1900) propuso el
estadstico de prueba Ji-Cuadrado2/, una prueba cuyos detalles de implementacin se
presentan en el apartado siguiente. En esencia, la prueba consiste en determinar si
esas diferencias se deben a variaciones al azar y por lo tanto no son significativas o si
por el contrario son significativas. En el primer caso no se rechaza la hiptesis nula
planteada, mientras que en el segundo se rechaza.
1/
2/
Estos trminos aunque se usen como sinnimos, estrictamente no lo son. Por ejemplo para entender la diferencia entre ellos, la desigualdad de Tchebycheff aunque no es estrictamente no
paramtrica dado que involucra a y , es una distribucin libre puesto que es vlida cuando
la distribucin es desconocida.
Ji- Cuadrado es sinnimos de Chi-Cuadrado, en ambos casos nos referimos a la letra griega
elevada al cuadrado, y la razn por la que estas pruebas se designan con este nombre, es
que los estadsticos de prueba que se utilizan siguen la distribucin
177
2 .
Autor I Marn Saino
Independientemente de los pasos (convencionales) a seguir para realizar una prueba

de hiptesis, seguidamente planteamos algunas cuestiones particulares acerca de
temas tales como el estadstico de prueba, las hiptesis, y algunas restricciones
referidas al tamao necesario de las muestras.
El estadstico de prueba
Como se seal ms arriba, el mtodo bsicamente consiste en comparar las
frecuencias observadas (oi) con las frecuencias esperadas (ei) segn el modelo que se
plantea en la hiptesis nula.3 Se disea entonces, como medida de la diferencia, la
suma de los cuadrados de dichas diferencias en proporcin a las frecuencias
esperadas4/, es decir:
(oi - ei ) 2
: c k2- m 5/
i= 1
ei
k
donde los grados de libertad se corresponden con el nmero de valores (categoras o

clases) comparados (k), menos el nmero de restricciones lineales independientes
impuestas a la comparacin (m)6/.
Si la hiptesis nula es verdadera, el valor del estadstico debera estar cercano a cero,
ya que la diferencia del numerador sera muy pequea. Por contraposicin, si la
hiptesis nula es falsa el numerador ser grande debido a que las diferencias estn
elevadas al cuadrado.
La prueba de hiptesis: unilateral o bilateral?
Este problema puede resolverse fcilmente de manera lgica. La prueba es lateral
derecha y se utilizan los valores de la cola superior de
para ubicar la zona de
rechazo, debido a que desviaciones grandes de los valores observados con los valores
esperados, tienden a contradecir la hiptesis nula respecto a las probabilidades
asociadas pi a las categoras (valores o clases). Por lo tanto la hiptesis nula se
rechazar cuando el estadstico de la prueba
(valor observado bajo el supuesto de
hiptesis nula cierta) asuma un valor grande.

Figura 1:
f ( k2 m )
k2 m;1
3/
4/
5/
6/
2
i2i
oi y ei representan el valor observado y esperado de ni, respectivamente.

Lo que constituye una gran diferencia es relativo, ya que si la diferencia proviene de una categora con pocas observaciones, esa diferencia va a contribuir ms al valor del estadstico que si
esa misma diferencia proviene de una categora con muchas observaciones. Es por ello que se
realiza un ajuste al tamao de la celda, esto es considerando la frecuencia esperada en el
denominador.
En el Apndice IV.A, se puede revisar una justificacin intuitiva que permite aceptar su uso.
El nmero de grados de libertad es distinto para cada aplicacin, esto quedar ms claro cuando se estudien cada una de ellas y a travs de los ejemplos prcticos. En cuanto a las restricciones lineales independientes, una que siempre est presente es porque la suma de los
conteos de las categoras siempre debe ser igual a n, es decir: o1 + o2 +...+ ok = n. Entonces
m = p +1, donde p es la cantidad de parmetros que estiman por mxima verosimilitud.
178
Autor I Marn Saino
Restriccin al nmero de frecuencias en cada categora

Como regla emprica, la experiencia ha demostrado que la frecuencia esperada
asociada a cada categora debe ser por lo menos 5. Esta restriccin se impone para
evitar valores sobreestimados de Chi-cuadrado al efectuar el cociente entre las
diferencias al cuadrado y frecuencias esperadas muy pequeas. En aquellos casos en
que se presente una o ms categoras con frecuencias menores a 5, se las puede
agrupar en una sola categora antes de calcular las diferencias (entre las frecuencias
observadas y esperadas). Esto fijar el nmero de grados de libertad a utilizar dado
que en el clculo del mismo intervendr la cantidad de clases (k) luego del
reagrupamiento.
En los apartados siguientes se desarrollarn las aplicaciones de las pruebas Chicuadrado
2.1. Prueba de la bondad de ajuste
Esta es una prueba para decidir, a partir de una muestra particular, si se rechaza o no
la hiptesis de que una variable aleatoria7/ se ajusta a una distribucin probabilstica
especfica. Por ejemplo, en los Captulos anteriores los mtodos aplicados se basaban
en el supuesto de poblacin normal o tamaos de muestra lo suficientemente
grandes como para que proceda la aplicacin del TCL.
Un procedimiento adecuado para contrastar ese supuesto es la prueba de la bondad
del ajuste, debiendo aclararse que no es en el nico caso en que se puede aplicar esta
prueba ya que, sta es susceptible de utilizarse cualquiera sea la distribucin
especificada: uniforme, Poisson, exponencial, normal, entre otras.
El procedimiento comienza con el planteo de la hiptesis nula de que la variable
aleatoria bajo estudio tiene una distribucin especfica. Luego se toma una
muestra aleatoria de la poblacin, la cual provee las frecuencias observadas. Seguidamente se compara con la distribucin terica. Los valores de las probabilidades
tericos cuando se los multiplica por el tamao de la muestra, se transforman en las
frecuencias esperadas.
Algunos ejemplos pueden describir mejor el procedimiento de prueba.
Supongamos el siguiente caso:
Una financiera registr el nmero de das de atraso por semana en el pago de los
prstamos acordados para los ltimos 80 clientes. Los resultados se muestran en
la Tabla 1. Con el objeto de estimar intereses y saldos disponibles para prximos
prstamos, desea probar la hiptesis de que la variables aleatoria das de atraso
se ajusta a una distribucin Poisson.
Tabla 1:
Das de atraso
0
1
2
3
4
5
6
Total
7/
Cantidad de clientes
19
25
22
8
3
2
1
80
La variable aleatoria se genera a partir de un experimento multinomial (Ver Apndice IV.A).
179
Autor I Marn Saino
1.- Hiptesis:
Ho : El nmero de das de atraso se distribuye Poisson, P (x, =?)
H1 : El nmero de das de atraso no se distribuye Poisson
En primer lugar como se desconoce , se deber encontrar su estimador de
mxima verosimilitud: = x . Para los datos presentados en la Tabla 1,

(sugerimos que usted lo calcule y verifique este resultado).
= 1, 51
2.- Nivel de significacin:

Se elige un nivel de significacin, para el ejemplo tomaremos = 0,05 (asignado
arbitrariamente). Por lo tanto, 0,05 es la probabilidad de rechazar una hiptesis
nula verdadera.
3.- Clculo del valor observado del estadstico:
El estadstico de prueba, segn se especific antes se calcula mediante la siguiente
(oi - ei ) 2
i= 1
ei
k
expresin:
2
c obs
=
(bajo el supuesto de hiptesis nula cierta).
Los pasos necesarios para calcularlo se encuentran en la Tabla 2 y a continuacin

se referencia cada columna de la misma.
Columna (1) y (2): corresponden a los valores observados en la muestra y sus
frecuencias asociadas (tambin observadas).
Columna (3): clculo de las probabilidades tericas de Poisson: P(xi, = 1, 51 ), a

partir de las tablas estadsticas.
Columna (4): cmputo de las frecuencias esperadas o tericas. Surgen de multiplicar el tamao de muestra por la probabilidad terica asociada a cada
valor de la variable. Luego, Las tres ltimas clases se agrupan dado
que las frecuencias tericas son menores que 5, entonces k = 5 (5
categoras despus del reagrupamiento).
Columna (5): clculo del cociente entre el cuadrado de las diferencias y la frecuencia esperada para cada lnea. La suma es el valor de Chi-cuadrado
Tabla 2:
(1)
Das de atraso
0
1
2
3
4
5
4 o ms
6
Total
Cantidad de
clientes (oi)
19
25
22
8
3
6
2
1
80
(3)
P (xi; 1,51)
0,2209
0,3336
0,2518
0,1268
0,0479
0,0145
0,0036
1,0000*
(4)
ei = 80.[P(xi)]
18
27
20
10
4
5
1
0
80*
(5)
(oi ei)2 / ei
0,06
0,15
0,20
0,40
0,20
1,01
* Estos valores no son exactamente 1 y 80, respectivamente, debido a errores de redondeo.
4.- Regla de decisin:

Recurdese que se necesita encontrar un valor (valor crtico) que separe la zona
de no rechazo de la zona de rechazo, tal como se muestra en la Figura 1.
180
Autor I Marn Saino
En cuanto a los grados de libertad8/, se obtienen de la siguiente manera:

g. l. = k m = 5 2 = 3. Esto es debido a que k = 5, y se tienen m = 2
restricciones lineales ya que hay una restriccin lineal porque la suma total de los
conteos tiene que ser igual a n, ms una restriccin de estimar un parmetro
desconocido que se requiere para calcular las frecuencias esperadas.
El valor crtico para 3 grados de libertad y al nivel de significacin 0,05 (a la
derecha), se encuentra en las tablas estadsticas y es igual a 7,81. Es decir:
2
2 = (3;0,95)
= 7, 81 ,
*
porque
P( i2(3) > 7, 81) = 0, 05
y podemos expresar la regla de decisin de la siguiente forma:
ZNR = { 2 / 2 7, 81} ,
la zona de no rechazo est conformada por los valores
Chi-cuadrado tales que sean menores o iguales a 7,81.

El complemento:
ZR = { 2 / 2 > 7, 81} ,
la zona de rechazo est conformada por
todos los valores Chi-cuadrado tales que sean mayores a 7,81.

5.- Decisin o inferencia final:
El valor observado de
(1,01) es menor que 7,81. Por lo tanto no se rechaza la
hiptesis nula y podemos inferir, a un nivel de significacin del 5%, que la

distribucin del nmero de das de atraso se distribuye Poisson.
Para los siguientes datos comprobaremos si los mismos provienen de una
distribucin normal:
Tabla 3:
N de
observacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Valor de la
variable
82,00
90,00
87,52
87,00
74,00
74,10
87,14
104,70
89,00
87,00
87,15
79,56
100,00
83,00
85,97
N de
observacin
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Valor de la
variable
73,93
76,28
100,00
96,62
95,26
91,00
82,08
102,00
87,60
89,87
102,27
88,07
87,13
97,00
81,17
La prueba Chi-cuadrado de la bondad de ajuste para probar la normalidad sigue el

procedimiento desarrollado. Su aplicacin ms frecuente se da cuando los datos
estn disponibles tal como fueron recopilados y los parmetros y 2 se estiman a
partir de dichos datos, por lo tanto su distribucin tendr (k-3) grados de libertad.
Clculos necesarios para realizar la prueba.
8/
Recuerde que la distribucin Chi-cuadrado es una familia de distribuciones, donde cada distribucin depende de los grados de libertad.
181
Autor I Marn Saino
En este ejemplo ocurre lo mismo que en el anterior, se desconocen los parmetros

poblacionales entonces debemos estimarlos por el mtodo de mxima
_
verosimilitud. Utilizamos a x y s2 como estimadores de los correspondientes

parmetros de la poblacin, que para el ejemplo que presentamos arrojan los
siguientes resultados:
x=
i =1
30
30
xi
= 88, 2810
s =
2
( xi x)
i =1
n 1
= 73, 685 s = 8, 584
Recordemos que, la frecuencia esperada asociada a cada intervalo no debera ser

menor que 5; en consecuencia, armaremos las clases teniendo en cuenta dicha
restriccin y si bien no existe una forma preestablecida de cmo seleccionar la
cantidad de clases, existe una regla bastante difundida que es tomar intervalos
equiprobables (de igual probabilidad). Por ejemplo, si se decide armar 8 clases, la
probabilidad asociada a cada intervalo ser igual a (1/8) entonces la frecuencia
esperada ser ei = n. fi = 30 (0,125) = 3,75 que no cumple con la restriccin
establecida; en cambio si para el caso planteado se decide armar 5 intervalos, la
probabilidad asociada ser 0,20, ei = 6 y estamos en condiciones de aplicar el
procedimiento de Chi-cuadrado. La particin de la distribucin en 5 intervalos, se
puede observar en el siguiente grfico:
Figura 2:
z1
z2
z3
z4
zi
F(z1) = 0,20
F(z2) = 0,40
F(z3) = 0,60
F(z4) = 0,80
En primer lugar debemos calcular los lmites de los intervalos de clase en trminos
de la variable estandarizada, por ejemplo el primer intervalo es:
Lmite inferior (LI): como la distribucin normal es asinttica al eje de las abscisas,
el lmite inferior es -.
Lmite superior (LS): F(z1) = 0,20, entonces z1 = z0,20 = -z0,80 = -0,84.
El segundo intervalo, es:
LI : -0,84
LS: F(z2) = 0,40, entonces z2 = z0,40 = -z0,60 = -0,26 ... el procedimiento se repite
hasta construir los 5 intervalos de clase.
Luego se debern calcular los intervalos en trmino de los valores reales para la
variable analizada. Por ejemplo, el lmite superior del primer intervalo es:
_
x1 = x + z1.sx = 88, 281 0, 84.(8, 584) = 81, 06

182
Autor I Marn Saino
de la misma manera se calcularn los siguientes intervalos, quedando conformados tal como se muestran en la columna 1 de la Tabla 4.
Seguidamente se cuentan las observaciones que caen dentro de cada uno de los
intervalos construidos (oi). Las mismas se disponen en la columna 2 de la Tabla.
Tabla 4:
Intervalos de clase
- ; 81,06
81,06 ; 86,04
86,04 ; 90,51
90,51 ; 95,49
95,49 ;
Total
oi
5
5
10
3
7
30
ei = n/ k
6
6
6
6
6
30
(oi ei)2 / ei
0,17
0,17
2,67
1,50
0,17
4,47
Valor del
estadstico
Hasta aqu se ha trabajado para obtener el valor del estadstico, en lo que sigue
realizaremos la prueba propiamente dicha:
1.- Ho: La variable se ajusta aproximadamente a una distribucin normal
H1: La variable no se ajusta a una distribucin normal
= 0,01
3.- Chi-cuadrado observado bajo el supuesto de hiptesis nula verdadera:

2
obs
= 4, 47

Los grados de libertad son: k m = 2, donde k = 5 y m = p + 1 = 3; entonces:
2*
2
= (2;0,99)
= 9, 21 ,
debido a que
P( i2(2) > 9, 21) = 0, 01 ;
en conse-
cuencia podemos expresar la zona de no rechazo y la zona de rechazo como

sigue:
ZNR = { 2 / 2 9, 21}
ZR = { 2 / 2 > 9, 21}
5.- Decisin o inferencia final: El valor observado de
(4,47) es menor al valor
crtico (9,21), por lo tanto no se rechaza la hiptesis nula y podemos inferir,

con un nivel de significacin del 1%, que la distribucin de la variable presentada se ajusta aproximadamente a la distribucin normal.
El ejemplo que presentamos a continuacin puede ser tratado de manera semejante al

anterior pero introduciremos dos variantes. La primera es que los intervalos vienen
dados, es decir tenemos una distribucin de frecuencias presentada por intervalos de
las cuales no se poseen los datos originales. La segunda variante est referida a que la
distribucin hipottica est especificada completamente, es decir se quiere inferir que
una determinada variable aleatoria se ajusta a un modelo terico con parmetro/s
especificado/s.
183
Autor I Marn Saino
Analicemos el ejemplo:
Se afirma que el promedio de las comisiones por ventas de automviles nuevos es
de $ 2500 por mes, con una desviacin estndar de $ 360. Una muestra de 50
casos en la Ciudad de Crdoba revel la siguiente distribucin de las comisiones
(Tabla 5). Al nivel de significacin de 5%, se puede inferir que la poblacin se
distribuye aproximadamente normal con la media y desviacin estndar indicadas?
Tabla 5:
Comisiones
(en miles de $)
1,45 ; 1,75
1,75 ; 2,05
2,05 ; 2,35
2,35 ; 2,65
2,65 ; 2,95
2,95 ; 3,25
Cantidad de
ventas
3
12
14
9
7
5
Clculos necesarios para realizar la prueba, referidos al estadstico

En el caso anterior las frecuencias esperadas surgieron directamente de particionar
la distribucin terica de probabilidad en intervalos equiprobables y luego se
calcularon los valores de zi para obtener seguidamente los valores de la variable
real correspondientes a los lmites de clase. En este caso el proceso es inverso, los
lmites de clase de la variable real ya estn dados y necesitamos de los valores de
zi para calcular las probabilidades tericas asociadas a cada clase. El lmite inferior
terico del primer intervalo ser - y el lmite superior de ese intervalo, se obtiene
de la siguiente manera9/:
z1 =
x1
1, 75 2, 5
0, 36
= 2, 08
El lmite superior del segundo intervalo es:
z2 =
x2
2, 05 2, 5
0, 36
= 1, 25
de la misma forma se obtienen los lmites siguientes.

Una vez determinados los lmites de clase que se muestran en la columna 2 de la
Tabla 6, debemos proceder a calcular las probabilidades tericas asociadas. Para
ejemplificar, a continuacin se calculan para los dos primeros intervalos (utilizando
la tabla estadstica de la distribucin normal).
Probabilidad asociada al primer intervalo:
P( zi < 2, 08) = 1 0, 9812 = 0, 0188

Probabilidad asociada al segundo intervalo:
P(2, 08 zi < 1, 25) = F ( 2, 08) F (1, 25) = 0, 0868

igual procedimiento se aplica para encontrar las sucesivas probabilidades. Los
resultados se muestran en la columna 4 de la Tabla 6.
9/
Ntese que en este caso se tienen los valores de los parmetros, por lo tanto se utilizan los
valores de los mismos en la frmula de estandarizacin.
184
Autor I Marn Saino
Por ltimo obtendremos las frecuencias esperadas para cada clase aplicando la
siguiente expresin: ei = n.(fi). Por ejemplo el rea entre las comisiones de 1,75 y
2,05 (miles de pesos) es 0,0868, es decir se espera que 0,0868 x 50 = 4,34
operaciones de venta tengan una comisin entre 1750 y 2050 pesos. Los
resultados para todas las clases se muestran en la columna 5. En ella tambin
podemos observar que hay frecuencias esperadas menores que 5, en consecuencia
deberemos reagrupar dichas clases.
Tabla 6:
Comisiones
Valores z de Cantidad de
(en miles de $) los lmites
ventas (oi)
- ; -2,08
1,45 ; 1,75
3
15
1,75 ; 2,05
-2,08 ; -1,25 12
2,05 ; 2,35
-1,25 ; -0,42 14
2,35 ; 2,65
-0,42 ; 0,42
9
2,65 ; 2,95
0,42 ; 1,25
7
1,25 ;
2,95 ; 3,25
5
Totales
50
f(z)
ei=n.fi
0,0188
0,0868
0,2316
0,3256
0,2316
0,1056
0,94
4,34
11,58
16,28
11,58
5,28
50
(oi ei)2 / ei
5,28
17,89
0,51
3,26
1,81
0,01
23,48
Prueba de hiptesis:
1.- H0: La variable comisiones por ventas se distribuye aproximadamente normal
con media = 2500 $ y varianza 2 = 360 $2.
H1: La variable comisiones por ventas no se distribuye aproximadamente
normal con media = 2500 $ y varianza 2 = 360 $2.
=0,05
3.- Chi-cuadrado observado, bajo supuesto de hiptesis nula verdadera:

2
obs
= 23, 48

Los grados de libertad son K m = 4. No se estiman parmetros
poblacionales, por lo tanto m = 1, la nica restriccin lineal es porque el
conteo de las clases debe ser igual a n.
El valor crtico es
2*
2
= (4;0,95)
= 9, 49 , debido
a que P ( i (4)
2
> 9, 49) = 0, 05 ; en
consecuencia, podemos expresar la zona de no rechazo y la zona de rechazo

de la siguiente manera:
ZNR = { 2 / 2 9, 49}
ZR = { 2 / 2 > 9, 49}
(23,48) es mayor al valor
crtico (9,49), en consecuencia se rechaza la hiptesis nula y entonces podemos inferir, a un nivel de significacin del 5%, que la distribucin de la variable presentada no se ajusta a la distribucin normal de parmetros = 2500 $
y 2 = 360 $2.
Alguien puede preguntarse el porqu de estos dos mtodos diferentes para efectuar la
misma prueba. Sucede que, por las caractersticas de la distribucin normal (altas
probabilidades en el centro, bajas probabilidades en las colas), en muchos casos
cuando los intervalos son de igual amplitud, como en este ltimo ejemplo, hay varios
intervalos con frecuencias esperadas muy bajas, que deben agruparse y disminuyen
rpidamente los grados de libertad. Trabajando de la otra manera (como en el
185
Autor I Marn Saino
segundo ejemplo), construyendo intervalos de igual probabilidad (pero no de igual

amplitud), nos aseguramos que cada intervalo tenga una frecuencia esperada no
inferior a 5 (esto se logra simplemente haciendo que n dividido la cantidad de
intervalos no sea menor que 5).
Hasta aqu estudiamos la prueba de bondad de ajuste para probar si los datos se
ajustan a un modelo probabilstico terico, no obstante el procedimiento de la bondad
de ajuste se puede aplicar para determinar qu tan bien se ajusta un conjunto
observado de datos a una hiptesis que implica una determinada distribucin de
frecuencias esperadas que pueden no corresponder a alguna distribucin terica
conocida. Las actividades 1 y 2 que se presentan a continuacin son de este tipo.
Actividad 1:
El jefe de personal de una empresa quiere probar si el nivel de ausentismo por
parte de sus empleados es homogneo durante los 5 das laborables, su
sospecha surge a partir de los registros de la cantidad de ausencias del ltimo
mes ya que observa una mayor cantidad de ausencias los das lunes y viernes.
Si esa diferencia es probada entonces invertir parte del presupuesto para
investigar las ausencias (por ejemplo visitas domiciliarias) el mes prximo. Los
registros del ltimo mes se muestran en la Tabla siguiente:
Das
laborales
Lunes
Martes
Mircoles
Jueves
Viernes
Total
Cantidad de
ausencias
15
10
8
9
13
55
Probar si el ausentismo es similar durante todos los das laborales a un nivel

de significacin del 5%.
Ayuda: las frecuencias esperadas deben calcularse suponiendo que las
ausencias se distribuyen igual durante los 5 das (11 cada da).
Actividad 2:
Con el objeto de investigar determinados hbitos de comportamiento de los
estudiantes de 5 Facultades, la Secretara de Asuntos Estudiantiles de la UNC
seleccion una muestra de ellos. La Tabla siguiente muestra el porcentaje de
alumnos inscriptos (respecto a la cantidad total de inscriptos en esas 5
Facultades = 79265) y la cantidad de entrevistas logradas, segn las
Facultades.
Porcentaje de
inscriptos
29
22
22
16
11
100%
Facultad
Medicina y Enfermera
Derecho
Ciencias Econmicas
Arquitectura
Filosofa y Humanidades
Total
Nmero de
entrevistas
240
200
200
100
60
800
Probar si el nmero de entrevistas logradas en la muestra se distribuye con

idntica proporcin que los estudiantes inscriptos en esas 5 Facultades.
Trabaje con un nivel de significacin del 1%.
186
Autor I Marn Saino
Actividad 3:
Se tienen los siguientes datos histricos que corresponden al nmero de
llamadas a la central de una empresa de emergencia mdica. El objeto es
encontrar un modelo que explique el comportamiento de las llamadas a fin de
establecer la cantidad de unidades mviles, mdicos y asistentes necesarios
para atender la demanda. Se obtiene una muestra aleatoria de 100 intervalos
de 15 minutos y se registran las frecuencias de llamadas solicitando el
servicio, tal como se muestran en la siguiente Tabla:
Nmero de
llamadas
0
1
2
3
4
Total
Cantidad de
intervalos de 15
20
52
15
10
3
100
Con un nivel de significacin del 5% probar si la distribucin Poisson es

apropiada para describir el nmero de llamadas a la central.
Actividad 4:
Con el fin de ajustar el perodo de garanta que ofrece, una empresa que
vende un modelo de PC, registr el nmero de requerimientos tcnicos
solicitados durante el perodo de garanta de 3 aos. Los resultados se
muestran en la Tabla siguiente:
Tiempo
(meses)
Hasta 6
6 ; 12
12 ; 18
18 ; 24
24 ; 30
30 ; 36
Total
Cantidad de
requerimientos
60
150
250
130
70
40
700
A un nivel de significacin del 5%, puede probar que el tiempo que transcurre
hasta que se efecta el requerimiento tcnico se distribuye normal?
Actividad 5:
Comprobar, a un nivel de significacin del 5%, si los siguientes datos provienen de una distribucin normal:
N de observacin variable
1
47,00
2
57,00
3
41,69
4
48,32
5
45,32
6
48,11
7
43,17
8
56,88
9
58,13
10
42,67
11
49,80
12
52,40
13
50,16
14
52,44
15
50,76
187
N de observacin
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
variable
48,09
54,96
50,40
50,36
51,85
42,84
33,56
54,77
58,43
55,00
52,46
43,00
47,30
64,38
44,00
Autor I Marn Saino
2.2. Prueba de independencia: Tablas de contingencia

En este caso, se trata de una situacin en la que interesa poner a prueba si existe o no
independencia entre dos variables cualitativas (atributos) de una poblacin. Para ello
se toma una muestra, se construye una tabla de contingencia con las dos variables
cualitativas de inters, y en base a la distribucin de frecuencias conjunta observada
en esa tabla de contingencia y la frecuencia esperada, que se calcula de acuerdo a la
hiptesis nula planteada, se construye el estadstico Chi-cuadrado para evaluar las
diferencias entre ambas. Si la diferencia no es significativa, concluimos que las
variables son independientes. Caso contrario, decimos que esas dos variables de
clasificacin estn relacionadas o son dependientes.
Recurriremos nuevamente a un ejemplo para desarrollar la prueba.
En una encuesta de opinin pblica se le solicito a 1000 habitantes de la ciudad su
calificacin respecto del desempeo del intendente, siendo las respuestas posibles:
Bueno, Regular o Malo. La distribucin de dichas respuestas, clasificadas segn el
nivel educacional de los encuestados, es:
Tabla 7:
Nivel educacional Primario
Secundario
Universitario
(II)
427
110
63
600
(III)
191
60
49
300
Totales
Respuestas
Bueno
Regular
Malo
Totales
(A)
(B)
(C)
(I)
82
10
8
100
700
180
120
1000
Si el objetivo es contrastar la hiptesis nula de que la calificacin respecto del

desempeo del intendente es independiente del nivel educacional de los
encuestados, la hiptesis nula establecer que la clasificacin por filas (f) es
independiente de la clasificacin por columnas (c), frente a la alternativa que las
dos clasificaciones son dependientes o estn relacionadas.
Llamaremos pA a la probabilidad marginal (no condicionada) de que la opinin sea
Bueno (A), como as tambin se definen pB y pC como las probabilidades que se
presenten las respuestas Regular (B) o Malo (C), respectivamente. De la misma
manera, pI, pII y pIII son las probabilidades que un individuo haya alcanzado el
nivel primario (I), secundario (II) o terciario (III), mutuamente. Se sabe adems
que, la suma de las probabilidades filas y la suma de las probabilidades columnas
deben ser igual a la unidad, es decir:
pA + pB + pC = 1 (suma de las probabilidades filas)
pI + pII + pIII = 1 (suma de las probabilidades columnas)
Entonces, de acuerdo a la ley multiplicativa de probabilidad, si las dos variables
son independientes entre s, la probabilidad de una celda (probabilidad conjunta)
ser igual al producto de sus correspondientes probabilidades fila y columna
(probabilidades marginales):
pij = pi. pj,
Para el ejemplo
pAI = pA . pI
Teniendo las probabilidades estimadas para cada celda en caso de independencia, se

podrn obtener la frecuencias esperadas de cada celda multiplicando por el tamao de
la muestra, las que se utilizarn en la construccin del estadstico Chi-cuadrado.
Luego, se puede obtener el estimador de mxima verosimilitud para cualquier probabilidad fila y columna como sigue:
188
Autor I Marn Saino
p ij =
nij
(i=1,...,f ; j=1,...,c)
donde:
nij: frecuencia observada de la celda ij
pij: probabilidad que una observacin caiga en la celda ij, que es simplemente la
frecuencia relativa observada para esa celda
Asimismo las probabilidades marginales, probabilidades fila y columna respectivamente, estn dadas por:
pi =
fi
n
pj =
cj
n
(donde: fi y cj son las frecuencias absolutas de la fila i y las frecuencias absolutas de la

columna j, respectivamente) y constituyen los estimadores de mxima verosimilitud
de pi y pj.
Segn lo planteado en la hiptesis nula el estimador de mxima verosimilitud de nij es:
f c f .c

eij = E (nij ) = n p i . p j = n i . j = i j
n
n n
Entonces para la primera celda de nuestro ejemplo se obtiene como se muestra a

continuacin:
e11 =
700.(100)
= 70 ;
1000
de la misma manera se pueden calcular las siguientes
frecuencias esperadas que se muestran en la Tabla 8:

Tabla 8:
Nivel educacional Primario
Secundario
Universitario
(II)
420
108
72
600
(III)
210
54
36
300
Totales
Respuestas
Bueno
Regular
Malo
Totales
(I)
70
18
12
100
(A)
(B)
(C)
700
180
120
1000
Es decir, se puede observar que la frecuencia esperada para una celda particular
es igual al cociente del producto de sus respectivas frecuencias marginales y la
frecuencia total.
Ahora podemos calcular el valor del estadstico de prueba utilizando las frecuencias
observadas de la Tabla 7 y las frecuencias esperadas de la Tabla 8:
f
2
obs
=
i =1 j =1
(oij eij ) 2
eij
(82 70)
70
(10 18)
18
+ ... +
(49 36)
36
= 15, 30
Finalmente nos resta obtener los grados de libertad asociados al estadstico de la

prueba, recordando que dichos grados de libertad se obtienen de la cantidad de celdas
luego de reagrupar (en este caso k = f.c) menos un grado de libertad por cada
restriccin lineal independiente impuesta sobre las frecuencias observadas de las
celdas. Entonces, los grados de libertad se obtienen de la siguiente manera:
189
Autor I Marn Saino
Nmero total de celdas

Al valor anterior le restamos un grado de libertad porque la
suma de los conteos de las celdas debe ser igual a n.
Adems utilizamos las frecuencias de las celdas para estimar
(c-1) probabilidades de la variable puesta en columna. Para el
ejemplo, 2 de las 3 probabilidades columna (ya que la tercera
queda determinada por las dos primeras). Entonces, perdemos
(c-1) g. l. de estimar las probabilidades columna.
De la misma manera, utilizamos las frecuencias de las celdas
para estimar (f-1) probabilidades fila
Entonces el nmero de grados de libertad asociados a una
tabla de contingencia es:
k=f.c
1
(c-1)
(f-1)
(f-1) . (c-1)
Es decir:
g.l.
g.l.
g.l.
g.l.
g.l.
=
=
=
=
=
(f.c) 1 (c-1) (f-1)

f.c 1 c +1 f +1
f.c c f + 1
c (f-1)- (f-1)
(f-1). (c-1)
Para el ejemplo los grados de libertad son: (3-1) . (3-1) = 4.

Planteamos ahora la prueba de independencia siguiendo todos los pasos:
1.- H0: la calificacin del desempeo del intendente es independiente del nivel
educacional de los encuestados
H1: la calificacin del desempeo del intendente depende del nivel educacional
de los encuestados
=0,05

2
obs
= 15, 30

El nmero de grados de libertad, segn los clculos anteriores, es 4. El valor
2
2 = (4;0,95)
= 9, 49 ,
*
crtico es
debido a que
P( i2(4) > 9, 49) = 0, 05 ;
en
consecuencia, podemos expresar la zona de no rechazo y la zona de rechazo

de la siguiente forma:
ZNR = { 2 / 2 9, 49}
ZR = { 2 / 2 > 9, 49}
crtico (9,49), en consecuencia se rechaza la hiptesis nula y podemos inferir,

a un nivel de significacin del 5%, que la calificacin del desempeo del
intendente depende del nivel educacional de los encuestados.
Cabe aclarar que, cuando el tamao de muestra es pequeo (menor que 30) y se tiene
una tabla de 2 x 2, es posible aplicar una prueba muy til como es la Prueba Exacta de
Fisher, la cual nos permite conseguir las probabilidades de obtener exactamente la
distribucin de frecuencias conforme a la hiptesis nula.
190
Autor I Marn Saino
A continuacin proponemos realizar las siguientes actividades:

Actividad 6:
Una fbrica de automviles quiere averiguar si el sexo de sus clientes tiene
relacin con la preferencia del modelo. Se toma una muestra aleatoria de 2000
clientes que se clasifican as:
Modelo
Sexo
Varn
II
III
350
270
380
Mujer
340
400
260
A un nivel de significacin de 0,01 existe evidencia de que el sexo tiene relacin

con la preferencia del modelo de auto?
Actividad 7:
Se cree que las familias de altos ingresos generalmente envan a sus hijos a
escuelas privadas y que las familias de bajos ingresos suelen enviar a sus hijos a
escuelas pblicas. Se escogen 1600 familias al azar a fin de evaluar esta opinin,
y se obtienen los siguientes resultados:
Escuela
Ingresos
Bajos
Privada
Altos
Total
Pblica
Total
506
494
1000
438
944
162
656
600
1600
Trabaje con = 0,01.
2.3. Prueba de homogeneidad

La prueba Chi-cuadrado se puede aplicar para determinar si dos o ms muestras
aleatorias independientes se extraen de la misma poblacin. Para ello se clasifica a la
poblacin en trminos de una variable cualitativa en k grupos (categoras de la
variable) o niveles de un factor, con el objeto de evaluar si las proporciones
poblacionales son homogneas. Por ejemplo, podramos querer probar si las opiniones
(de acuerdo, en desacuerdo), respecto a la poltica del gobernador de la provincia de
Crdoba, son homogneas en tres poblaciones como pueden ser Ciudad de Crdoba,
Ro Cuarto y Villa Mara, de las cuales se obtuvieron tres muestras independientes.
Tambin este tipo de prueba se puede aplicar para realizar un anlisis confirmatorio de
los datos que se poseen de una encuesta ya efectivizada. En este ltimo caso,
entonces, de acuerdo a las dos variables categricas podremos armar una tabla de
contingencia con las frecuencias asociadas a lo que definiremos como xito y fracaso
para cada grupo.
En la Tabla siguiente se presentan los resultados de las tres muestras
considerando la opinin de los encuestados: de acuerdo (xito), en desacuerdo
(fracaso).
Tabla 9:
Localidad
Crdoba
Opinin
De acuerdo
115
En desacuerdo
35
Totales
150
191
Villa Mara
Ro IV
Totales
53
22
75
40
35
75
208
92
300
Autor I Marn Saino
El procedimiento a aplicar es semejante al de prueba de independencia; no

obstante ello, su justificacin es algo diferente.
Se puede observar que se tienen tres experimentos binomiales independientes,
con sus respectivas probabilidades asociadas al xito p1, p2 y p3 de que un
encuestado est de acuerdo con las polticas del gobierno. Por lo tanto, si lo que se
desea es contrastar la hiptesis de que las proporciones son homogneas en las
tres poblaciones, la hiptesis nula es:
Ho: p1 = p2 = p3
Los estimadores mximo verosmiles de las frecuencias esperadas de las celdas son los
mismos que se presentaron en la prueba de independencia y estn dados por:
eij = E (nij ) =
f i .c j
n
y si la hiptesis nula es verdadera y pj es igual para cada poblacin, una combinacin

de las estimaciones de esas proporciones10/ nos estara proporcionando una estimacin
del parmetro poblacional p, que representa la proporcin global de los individuos que
estn de acuerdo con las polticas del gobierno (proporcin de xitos), es decir:
_
p=
_
y el complemento:
X1 + X 2 + X 3 X
=
n1 + n2 + n3
n
q = 1 p
representa una estimacin de la proporcin global de los
individuos que estn en desacuerdo con las polticas del gobierno (proporcin de
fracasos).
Para el ejemplo dichas estimaciones son:
_
p=
115 + 53 + 40
150 + 75 + 75
208
300
= 0, 69
q=
84
300
= 0, 31
Luego, para obtener las frecuencias esperadas de cada celda, multiplicaremos el

tamao de muestra de cada una de las poblaciones por la estimacin de las
proporciones p y q, segn si pertenecen a la primera o a la segunda fila
respectivamente. Para la primera celda, es:
Frecuencia marginal
(total columna)
e11 = E (n11 ) = n1. p = n1.
Frecuencia marginal
(total fila)
f i .c j
X
208
=
= 150.
= 104
n
n
300
Tamao de muestra
(total de observaciones)
Procediendo de la misma forma para las restantes celdas obtenemos las frecuencias esperadas correspondientes. Todas las frecuencias esperadas se presentan en
la Tabla 10.
10/
Cada una de las proporciones, sera una estimacin del parmetro poblacional (bajo hiptesis
nula cierta).
192
Autor I Marn Saino
Tabla 10:
Localidad
Opinin
De acuerdo
En desacuerdo
Totales
Crdoba
Villa Mara
Ro IV
Totales
104
46
150
52
23
75
52
23
75
208
92
300
Se puede demostrar adems que, la variable resultante tendr distribucin Chicuadrado con (f-1).(c-1) grados de libertad11/ y utilizando un nivel de significacin
, la hiptesis nula se rechazar si el estadstico de prueba Chi-cuadrado:
f
2
obs
=
i =1 j =1
(oij eij ) 2
eij
(115 104)
104
(35 46)
46
+ ... +
(35 23)
23
= 12, 89
es mayor al valor crtico de la cola superior de una distribucin Chi-cuadrado con

(c-1).(f-1) grados de libertad.
La prueba de homogeneidad para el ejemplo, es:
1.- H0: p1 = p2 = p3
H1: Existe por lo menos una pj distintas a las dems (j = 1, 2, 3)
=0,05 (asignado arbitrariamente)

2
obs
= 12, 89

El nmero de grados de libertad, segn lo expresado anteriormente, es
(c-1)=2.
2
2 = (2;0,95)
= 5, 99 ,
*
El valor crtico es
debido a que
P( i2(2) > 5, 99) = 0, 05 ;
en consecuencia, podemos expresar la zona de no rechazo y la zona de

rechazo de la siguiente forma:
ZNR = { 2 / 2 5, 99}
ZR = { 2 / 2 > 5, 99}
crtico (5,99), en consecuencia se rechaza la hiptesis nula y podemos inferir,

a un nivel de significacin del 5%, que existe por lo menos una pj distinta a las
dems. Es decir, las opiniones respecto a las polticas del gobierno de la
provincia no son homogneas en las tres ciudades relevadas.
Actividad 8:
Se pretende analizar la intencin de voto para las prximas elecciones a
gobernador de una provincia. A tal fin se realiza una encuesta a 115
profesionales, a 110 hombres de negocios y a 125 empleados, a quienes se les
pregunta sobre su preferencia respecto del candidato A o del candidato B,
ambos postulados para ser gobernador de la provincia. Los resultados
obtenidos son:
11/
Ntese que una de las variables de la tabla de contingencia siempre es una variable dicotmica (o reagrupamos categoras para transformarla), por lo tanto si se tiene una tabla de 2 x c
los grados de libertad asociados son (c - 1) y si se tiene una tabla de f x 2 los grados de
libertad sern (f - 1).
193
Autor I Marn Saino
Candidato
Total
80
35
115
H. de negocios
72
38
110
Empleados
Total
69
221
56
129
125
350
Categora
Profesionales
Existe diferencia de opiniones entre los tres grupos de personas? ( = 0,10)

Actividad 9:
El director de comercializacin de una empresa de televisin por cable est
interesado en determinar si existe alguna diferencia en la proporcin de familias
que contratan un servicio de televisin por cable, basndose en el tipo de
residencia. Tres muestras de familias de tres tipos de residencia revelaron lo
siguiente:
Tipo de residencia Una sola
familia
Contrata TV por cable
S
94
No
Totales
De 2 a 4
familias
Edificio de
Departamentos
39
Totales
77
210
56
36
98
190
150
75
175
400
A un nivel de significacin del 5%, existe evidencia de una diferencia entre

los tipos de residencia respecto a la proporcin de familias que contratan el
servicio de televisin por cable?
2.3.1. Comparacin de dos proporciones, muestras independientes. Similitudes de la prueba Z y
En el caso que se extraigan muestras independientes de dos poblaciones podremos

aplicar indistintamente la prueba
(desarrollada en el punto anterior) o la prueba Z
para comparar proporciones (desarrollada en el Captulo III), sin correr el riesgo de

obtener conclusiones contradictorias. Esto es as debido a la relacin que existe entre
la distribucin normal estndar y la distribucin Chi-cuadrado con un grado de libertad.
Recuerde que una variable
se define como la suma de variables normales
estandarizadas elevadas al cuadrado. Para verificar esto, sugerimos realizar el ejemplo

desarrollado en el Captulo III (pg. 133) mediante la prueba
y podr observar
que el estadstico de prueba Z es 1,05 (si trabajamos con mayor cantidad de

decimales el valor de Z es 1,3176) y el que corresponde a
por error de redondeo, el valor de
es 1,73. Es decir, salvo
es el cuadrado del valor Z. Lo mismo sucede
con los valores crticos, en la prueba Z el valor crtico es 1,96 y en la prueba
es
3,84 (para un nivel de significacin de 0,05).

La ventaja de la prueba Z respecto a la
2 ,
se presenta cuando se quiere probar la
diferencia en una direccin, por ejemplo p1 > p2 (recuerde que si esto es posible
aumenta la potencia de la prueba). En la prueba
esto no es posible slo se podr
contrastar la homogeneidad con la hiptesis alternativa

ventaja de la prueba
p1 p2. Mientras que la
radica en que permite extender la comparacin cuando se
tienen ms de dos poblaciones (o niveles del factor).
194
Autor I Marn Saino
Actividad 10:
Un ingeniero encargado del control de calidad de una fbrica, desea examinar
la eficiencia de dos operadores de una mquina ensambladora y que trabajan
en turnos diferentes. Se registraron datos de una semana de trabajo y se
obtuvo lo siguiente:
Operador A
16
551
567
Cantidad defectuosos
Cantidad no defectuosos
Total
Operador B
17
416
433
Total
33
967
1000
a) De acuerdo a estos datos, se puede inferir que las muestras provienen de

dos poblaciones diferentes? Trabaje con = 0,05.
b) Resolverlo tambin por un procedimiento paramtrico y compare con lo
obtenido en a).
2.3.2. Comparaciones mltiples de proporciones
En el caso que estemos investigando diferencias entre dos poblaciones, como se
discuti anteriormente, podemos determinar mediante la prueba Z el sentido de tal
diferencia. Sin embargo, cuando se tienen ms de dos poblaciones, no podemos
comparar de a pares las proporciones de cada poblacin mediante la prueba Z. Esto es
as debido a que la aplicacin reiterada de tales tcnicas (al igual que en ANOVA) para
todas las comparaciones entre proporciones si son independientes, llevara a aumentar
considerablemente la probabilidad de cometer el error tipo I (). Por ejemplo, si se
tienen cuatro poblaciones independientes, se tendrn c (c-1)/2 = 6 comparaciones12/
posibles, es decir: 1-2; 1-3; 1-4; 2-3; 2-4; 3-4.
El nivel de confianza para la comparacin entre dos medias es 1 - , pero ese nivel de
confianza para todas las comparaciones es (1 - )6. Si 1 - = 0,95 para cada comparacin, este nivel se reduce a 0,74 para todas las comparaciones simultneamente.
Para salvar este problema existen procedimientos, que independientemente del
nmero de hiptesis que se prueben, garantizan una probabilidad constante de
rechazar la hiptesis nula cuando es verdadera. Estos procedimientos se conocen
como test de comparaciones mltiples. Para la comparacin de proporciones
presentaremos aqu el procedimiento de Marascuilo.
El procedimiento de Marascuilo
Este procedimiento, entonces, nos permite probar simultneamente las diferencias de
todos los pares posibles de proporciones cuando hay varias poblaciones bajo estudio y
determinar cul o cules proporciones son distintas.
Si
p 1 ; p 2 ; ...; p c son las verdaderas proporciones de las c poblaciones, sus estima
dores son
p1 ; p 2 ; ...; p c ,
pero lo que se somete a prueba es que las proporciones

todo j j) u otra forma de expresarlo es pj - pj = 0.
son iguales pj = pj (para
Entonces, el parmetro poblacional es
= p j p j y el estimador puntual de

= p j p j . Adems es posible demostrar que el valor crtico con el cul
j es
j debe ser
comparado es:
m jj =
2
1 /( c 1)
p j .(1 p j )
nj
12/
p j .(1 p j )
13/
n j
Si las poblaciones o niveles de factor estuvieran dispuestas en filas, las comparaciones seran
f . (f - 1)/2.
13/
Observar que se debe obtener un valor crtico para cada par de proporciones a comparar.
195
Autor I Marn Saino
Entonces si
j > m jj
se concluye que hay diferencias entre las proporciones
poblacionales que se comparan, al nivel de significacin especificado.

Resumiendo
El primer paso del procedimiento consiste en calcular las diferencias
p j p j
(para
todo j j) entre todos los pares c . (c - 1)/2 de proporciones. El valor absoluto de

dicha diferencia es el estadstico de prueba para cada comparacin.
El segundo paso es elegir el nivel de significacin y calcular los valores crticos
correspondiente a cada diferencia.
El tercer y ltimo paso radica en comparar cada uno de los valores de los estadsticos
de prueba con su correspondiente valor crtico. Aquellos pares que arrojan un valor del
estadstico de prueba mayor al valor crtico presentan diferencias significativas al nivel
establecido.
Para aplicar el procedimiento, utilizamos los datos del ejemplo anterior. Dado que
hay 3 grupos o niveles del factor, existen 3.(3-1)/2=3 posibles comparaciones, de
pares de proporciones, que se deben realizar. Las proporciones estimadas de cada
uno de los tres grupos son:
p1 =
X 1 115
=
= 0, 77 ;
n1 150
p2 =
X 2 53
=
= 0, 71 ;
n2 75
p3 =
X 3 40
=
= 0,53
n3 75
y la estimacin global
p = 0, 69 .
Grficamente, en la Figura 3 se representan
estos valores.
Figura 3:
0,8
0,6
0,4
0,2
2
3
Niveles del factor
Si realizamos la comparacin entre 1 y 2, el estadstico de prueba es:
1 = p1 p 2 = 0, 77 0, 71 = 0, 06
El valor crtico para esta comparacin est dado por:
m12 = 5,99.
0, 77.(0, 23) 0, 71.(0, 29)

+
= 0,1534
150
75
196
Autor I Marn Saino
en consecuencia, no hay diferencias significativas entre la proporcin de respuestas favorables de la ciudad de Crdoba y las respuestas de la Ciudad de Villa
Mara. Los clculos para todos los pares posibles se presentan en la Tabla 11.
Tabla 11:
Comparaciones
12
1-3
2-3
p j p j m = 2.45 p j .(1 p j ) + p j .(1 p j )

jj
nj
n j
0,06
0,24
0,18
0,1534
0,1642
0,1906
Conclusin
No significativa
Significativa
No significativa
A partir de este cuadro resumen de comparaciones se puede llegar concluir,

utilizando un nivel de significacin del 5%, que hay diferencias significativas en la
proporcin de opiniones favorables entre las ciudades de Crdoba y Ro IV14/.
Actividad 11:
Concluya para la Actividad 8 Qu categora es la que opina diferente?
Actividad 12:
Retomando la Actividad 9, puede concluir Qu tipo de residencia es la que
ms influye en esta conclusin?
La prueba de K-S es una prueba de la bondad del ajuste de los datos de una muestra
a un modelo terico continuo especfico de la poblacin15/.
El mtodo K-S se basa en la comparacin entre las frecuencias acumuladas de la
distribucin de los datos ordenados de la muestra y la distribucin terica
propuesta en la hiptesis nula. De calcular previamente la distancia entre ambas
funciones de distribucin, se observa cul es la distancia mxima, es decir, el punto
que presenta mayor diferencia al que se denominar Dobs, entonces:
Dobs = mx Ft - Fo : Da / n
donde:
Dobs: estadstico de prueba
Ft : funcin de distribucin terica
Fo : funcin de distribucin de la muestra (proporcin del nmero de valores en la
muestra que son menores o iguales a xo).
La distribucin del estadstico es independiente del modelo planteado en la hiptesis
nula, ste depende nicamente de los grados de libertad y est tabulado cuando Ft es
cierta.
14/
Se puede observar que la comparacin 2-3, aunque no es significativa est cercana a serlo,
conducindonos a la sospecha que una mayor cantidad de observaciones podran demostrar
que la poblacin 3 es la que tiene una proporcin de opiniones favorables distinta a las dems.
La experiencia nos dice que esta prueba puede en algunos casos no dar ninguna diferencia
significativa pero de todas maneras nos dar indicios del sentido de las diferencias.
15/
En el Apndice del Captulo III, se ha realizado otra presentacin de esta prueba, as como de
otra equivalente, la de Shapiro-Wilk.
197
Autor I Marn Saino
Si la distancia calculada (Dobs) es mayor que la que figura en tablas para un nivel de
significacin determinado, se rechazar el modelo Ft. Esto significa que una
diferencia tan grande como la observada no puede deberse a azar y por tanto los
datos de la muestra no provienen de la distribucin especificada. Si por el contrario,
Dobs es menor al valor de la tabla, entonces no se rechazar la hiptesis nula y las
observaciones muestrales se cien al modelo propuesto en la hiptesis nula.
Cuando los parmetros se estiman a partir de la muestra la prueba es muy
conservadora, es decir tiende a que no se rechace la hiptesis nula. En este caso se
utilizar el K-S, en la versin modificada por Lilliesfors (1967), quien simul por el
mtodo de Montecarlo alrededor de 1000 muestras del mismo tamao y calcul los
estimadores media, varianza y los estadsticos D. El carcter conservador se refleja
cuando se compara la probabilidad acumulada segn la distribucin terica y la
probabilidad estimada a partir de la simulacin.
Por ejemplo:
Para n = 20 y el mismo nivel de significacin = 0,05
Tabla K-S
Tabla K-S Lilliefors
D* = 0,294
D* = 0,19
Dnde D* es el valor crtico

Para n = 20 y el mismo valor crtico
D* = 0,231
= 0,20
= 0,01
Tabla K-S
Tabla K-S Lilliefors
Clculo
Dado que las frecuencias acumuladas observadas se comportan a saltos, la distancia
mxima entre Ft y Fo puede presentarse por debajo o por encima de la curva de Ft ,
para un valor particular cualquiera (Figura 4). Por lo tanto, al aplicar la prueba se
deben calcular ambas distancias para cada punto xh y luego tomar la mxima entre
estas dos.
Figura 4:
Representacin grfica.
En lo que sigue se presenta en forma de ecuacin este concepto:
Di ( xh ) = mx{ Ft ( xh ) - Fo ( xh- 1 ) ; Ft ( xh ) - Fo ( xh ) }
144444442 44444443 144444442 44444443
d1i
198
d2i
Autor I Marn Saino
(Obsrvese la Tabla 13 en el ejemplo que sigue, columnas 6, 7 y 8).

Trabajemos con el siguiente ejemplo:
Comprobar si los datos de la muestra siguiente (Tabla 12) se ajustan a una
distribucin normal. Trabajar con un nivel de significacin del 5%.
Tabla 12:
Observac
1
2
3
4
5
6
7
8
9
Vble: xi
8,14
8,23
9,00
9,09
9,72
9,81
9,96
10,00
12,00
Como en este ejemplo se desconocen los valores de los parmetros poblacionales

se debern estimar, en primer lugar, la media y la desviacin estndar.
_
x = 9, 5519
s = 1,1565
Para resolver el ejercicio planteado se construye la Tabla siguiente:

Tabla 13:
Observaciones Vble: xi
(1)
1
2
3
4
5
6
7
8
9
(2)
8,14
8,23
9,00
9,09
9,72
9,81
9,96
10,00
12,00
F0
(3)
0,11
0,22
0,33
0,44
0,56
0,67
0,78
0,89
1
zi
(4)
-1,22
-1,14
-0,48
-0,40
0,15
0,22
0,35
0,39
2,12
Ft
d1i
d 2i
Di ( xh )
(5)
0,1112
0,1271
0,3156
0,3446
0,5596
0,5871
0,6368
0,6517
0,9830
(6)
0,1112
0,0171
0,0956
0,0146
0,1196
0,0271
0,0332
0,1283
0,0930
(7)
0,0012
0,0929
0,0144
0,0954
0,0004
0,0829
0,1432
0,2383
0,0170
(8)
0,1112
0,0929
0,0956
0,0954
0,1196
0,0829
0,1432
0,2383
0,0930
Columna 1: nmero de observacin

Columna 2: valores de la variable de la muestra ordenados
Columna 3: frecuencias observadas relativas acumuladas. Cada valor de la variable se presenta una vez, por lo tanto la frecuencia relativa asociada a
cada valor de la variable es 1/9.
Columna 4: valores estandarizados de la variable
_
x - x
zi = i
s
por ejemplo:
z1 =
8,14 9, 5519
1,1565
= 1, 22
Columna 5: frecuencias tericas relativas acumuladas, las cuales han sido extradas de la tabla de la normal estandarizada.
F ( z ) = P[ Z z i ]
por ejemplo:
P[ z 1, 22] = 0,1112
Columna 6: diferencia entre la frecuencia terica asociada al valor de la variable y

la frecuencia observada hasta el valor anterior.
199
Autor I Marn Saino
d1i = Ft ( xh ) Fo ( xh 1 )
Columna 7: diferencia entre la frecuencia terica asociada al valor de la variable y
la frecuencia observada hasta ese valor.
d 2i = Ft ( xh ) Fo ( xh )
Columna 8: distancias mximas entre la distribucin terica y la distribucin observada (de las columnas 6 y 7) para cada valor de la variable. Se
resalta la distancia mxima entre las mximas.
Si realizamos la prueba:
1.- Ho: Los valores de la variable se ajustan a una distribucin normal
H1 : Los valores de la variable no se ajustan a una distribucin normal
2.- Nivel de significacin: = 0,05
3.- Valor del estadstico observado: Dobs = 0,2383
D : D0,05;9
D* = 0, 271
Zona de no rechazo ZNR: {D/D 0,271}
Zona de rechazo ZR: {D/D > 0,271}
5.- Decisin o inferencia final: No se rechaza la hiptesis nula. Se puede inferir
que, con un nivel de significacin del 5%, los valores de la muestra se ajustan
a una poblacin normal.
Actividad 13:
Comprobar si los siguientes datos siguen una distribucin normal mediante la
prueba de Kolmogorov-Smirnov. Determine con que nivel de significacin
desea trabajar.
26,39; 23,04; 24,99; 27,12; 22,23; 24,44; 23,44; 24,37; 22,72; 27,29
Actividad 14:
Se desea comprobar la efectividad de un tratamiento sobre el Indice Cardaco,
variable que debe distribuirse en forma normal a fin de realizar la prueba
estadstica respectiva. Analice los siguientes resultados e informe al respecto.
Prueba de Kolmogorov para bondad de ajuste.
Variable
Indice cardaco
Ajuste
Normal(2,73 ; 1,41)
media
2,73
varianza
1,41
n
65
Estadistico D
0,10
p-valor
0,5855
Actividad 15:
Se supone que la duracin de vida de una determinada marca de pilas debe
distribuirse en forma exponencial. Analizada una muestra de pilas se realiz el
contraste correspondiente obteniendo los siguientes resultados. Qu podra
concluir al 5%?
200
Autor I Marn Saino
One-Sample Kolmogorov-Smirnov Test

DURACIN
10
11,5000
,307
,124
N
Exponential parameter.a,b Mean
Most Extreme
Absolute
Differences
Positive
Negative
-,307
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
,969
,304
a. Test Distribution is Exponential.

b. Calculated from data.
Actividades complementarias
Actividad 16:
Comprobar si los siguientes datos siguen una distribucin exponencial
mediante la prueba de Kolmogorov-Smirnov. Determine con que nivel de
significacin desea trabajar.
0,81;
0,61;
0,02;
0,25;
0,13;
0,65;
1,07;
0,10;
0,16;
0,59
Actividad 17:
Las personas que mueren por accidente de trnsito en cierta ciudad, en un ao
dado (52 semanas), siguen un modelo Poisson. Dicha informacin se muestra en
la siguiente tabla:
0
6
Nmero de personas muertas

Frecuencia
1
10
2
20
3
10
4
6
5
0
Total
52
Al nivel del 5%, existe evidencia que avale el modelo planteado para las
frecuencias observadas?
Actividad 18:
Alguien afirma que los clientes varones de una tienda de pantalones vaqueros
son el doble de los clientes mujeres. Se toma una muestra aleatoria de 40
clientes y 25 resultan ser hombres y 15 mujeres. Son los datos muestrales
consistentes con la hiptesis planteada, a un nivel del 5%?
CLIENTES
varones
mujeres
Total
Observed N
25
15
40
Expected N
26,8
13,2
Residual
-1,8
1,8
Test Statistics
Chi-Squarea
df
Asymp. Sig.
CLIENTES
,366
1
,545
a. 0 cells (,0%) have expected frequencies less than

5. The minimum expected cell frequency is 13,2.
201
Autor I Marn Saino
Actividad 19:
A efectos de disear su prxima campaa publicitaria, un fabricante de vinos
desea saber si la proporcin de hombres que prefieren sus productos es igual
a la de mujeres, a un nivel del 5%. Una muestra al azar de 30 hombres y 35
mujeres arroj como resultado que 20 hombres y 19 mujeres preferan sus
vinos.
Qu prueba estadstica utilizara a fin de asesorar al fabricante de vino?
Utilice un mtodo paramtrico y uno no paramtrico. Se llega a la misma
conclusin?
Actividad 20:
Una consultora que realiza trabajos de Investigacin de Mercado desea estudiar
el Ingreso Familiar de un determinada zona de la ciudad. Para ello quiere
asegurarse de que dicha variable cumple el requisito de distribucin normal a fin
de poder aplicar distintas tcnicas de inferencia estadstica. Qu se puede
concluir a un nivel del 1%?
One-Sample Kolmogorov-Smirnov Test
N
Normal Parameters a,b
Most Extreme
Differences
Mean
Std. Deviation
Absolute
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
INGRESO
85
561,4040
135,8388
,093
,093
-,087
,859
,452
a. Test distribution is Normal.

b. Calculated from data.
Actividad 21:
Un fabricante de bateras de autos desea determinar si existe alguna diferencia
en tres medios de comunicacin (revista, tv y radio) en trminos de recuerdo de
un anuncio publicitario por parte del pblico. Los resultados de un estudio sobre
publicidad se presentan a continuacin, acompaados de los resultados de un
procesamiento estadstico.
Tablas de contingencia
Frecuencias absolutas
En columnas: Medio de publicidad ms visto
Habilidad
radio
revista
no recuerda
108
73
recuerda
7
25
Total
115
98
tv
93
10
103
Total
274
42
316 .
Frecuencias relativas al total

En columnas: Medio de publicidad ms visto
Habilidad
radio
revista
tv
no recuerda
0,34
0,23
0,29
recuerda
0,02
0,08
0,03
Total
0,36
0,31
0,33
202
Total
0,87
0,13
1,00
Autor I Marn Saino
Estadstico
Chi Cuadrado Pearson
Chi Cuadrado MV-G2
Valor
19,02
17,98
gl
2
2
p
.
0,0001
0,0001
a) Interprete los elementos de las tablas de frecuencias presentadas.

b) El hecho de recordar o no un anuncio publicitario se comporta diferente
segn cul sea el medio de comunicacin ms utilizado? En caso
afirmativo indique cmo se comportan las frecuencias en cada caso.
c) Qu procedimiento estadstico se utiliz?
4.1. Contraste de la mediana para muestras independientes

Es un procedimiento para probar si dos grupos independientes difieren en sus
tendencias centrales, ms precisamente consiste en probar que dos grupos se han
tomado de poblaciones que poseen la misma mediana. Entonces, la hiptesis nula es
H0: Me(X1) = Me(X2). Evidentemente que esta prueba puede aplicarse cuando la
variable bajo anlisis se encuentre, por lo menos, en una escala ordinal.
El primer paso consiste en determinar la mediana para el grupo combinado. Es decir,
como si todas las observaciones provinieran de la misma poblacin.
Luego clasificaremos, en una tabla de 2x2, la cantidad de observaciones por encima y
por debajo de la mediana para cada uno de los grupos en cuestin. En aquellos casos
que tengamos muchas observaciones iguales a la mediana combinada, se suele tomar
como criterio clasificar de acuerdo a si exceden o no exceden la mediana.
Ahora bien, si los dos grupos provienen de poblaciones con la misma mediana,
esperamos que las frecuencias por encima y por debajo de la mediana sean
aproximadamente iguales. Puede demostrarse adems que si o11 y o12 son el nmero
de observaciones por encima de la mediana en el grupo 1 y en el grupo 2,
respectivamente, la distribucin de o11+o12 (bajo el supuesto de hiptesis nula cierta)
es la distribucin hipergeomtrica y por consiguiente si el nmero total de casos es
suficientemente grande, podemos utilizar la prueba
con un grado de libertad para
probar la hiptesis nula. Si el nmero total de observaciones es pequeo podemos

utilizar otra prueba como es la de Fisher.
El contraste se puede extender para determinar si k grupos independientes provienen
de la misma poblacin o poblaciones con medianas iguales. De tal manera que cada
uno de los grupos se divide por la mediana combinada y se colocan los resultados en
una tabla cx2. Con los datos de esta tabla se calcula el valor del estadstico de prueba
y el procedimiento pasa a ser en esencia una prueba
para k muestras. Luego,
si el estadstico de la prueba es mayor que el valor crtico se rechaza la hiptesis nula,

al nivel de significacin especificado, y concluimos que las muestras no provienen de
una poblacin o varias poblaciones de medianas iguales.
Veamos el siguiente ejemplo:
Se ha tomado un examen idntico a dos grupos de estudiantes de 5 ao, pero
pertenecientes a establecimientos distintos. Las puntuaciones obtenidas por cada
grupo estn representadas en la Tabla 14.
203
Autor I Marn Saino
Tabla 14:
Grupo 1
Grupo 2
54
65
51
53
66
71
54
61
73
78
64
66
78
80
67
69
82
87
71
74
92
93
76
80
95
81
85
89
90
94
A un = 0,05, contraste la hiptesis de que los dos grupos de estudiantes provienen

de poblaciones con idnticas medianas.
H0: Las dos muestras se extraen
Me(X1) = Me(X2).
H1: Las dos muestras se extraen de
Me(X1) M(X2).
de
poblaciones con medianas iguales
poblaciones con
medianas
diferentes
El primer paso consiste en obtener el valor de la mediana combinada de n1 + n2.

Para el ejemplo Me(X) = 75.
En segundo lugar dividiremos la observaciones correspondientes a cada grupo en la
mediana, (Tabla 15).
Tabla 15:
Grupo I
Grupo II
Total
Por encima de
Me(X)
10
15
Por debajo de Me(X)
15
13
17
30
Total
Dado que ninguna de las frecuencias esperadas es menor que 5 y como n1 + n2 >
20, podemos usar la prueba
2 .
1/2 0.95 = 3, 84 ,
El estadstico de la prueba es 1,22 y el valor
crtico de tabla es
por lo tanto podemos concluir que las muestras
provienen de dos poblaciones de medianas iguales.
204
Autor I Marn Saino
Actividad 22:
Se desea determinar si los sueldos mensuales de plomeros, carpinteros y electricistas de cierta comunidad difieren significativamente entre s. Se toman 3
muestras independientes y se obtiene la siguiente informacin:
Plomeros
Carpinteros
Electricistas
317
322
316
319
316
316
321
320
320
316
318
314
322
317
318
316
320
328
317
322
315
320
320
327
324
328
313
328
322
317
316
320
315
311
323
320
313
316
321
316
323
324
323
318
Trabaje con un nivel de significacin del 1%.

Actividad 23:
En un departamento de Control de Calidad desean comparar el tiempo que se
requiere para diagnosticar fallas de equipo, utilizando 3 sistemas alternativos. Se
asignan al azar 42 fallas de equipos para diagnosticarlas mediante los 3 sistemas.
La siguiente tabla muestra el tiempo total, en minutos, que cada sistema requiri
para diagnosticar cada una de las fallas:
Sistema I
Sistema II
Sistema III
25
29
42
16
31
14
33
45
26
34
30
43
28
19
18
37
40
56
49
28
20
34
39
47
31
65
38
32
24
49
21
36
34
19
46
25
38
31
20
26
30
18
Utilizando un nivel de significacin del 10%, pruebe la hiptesis de que las

muestras provienen de poblaciones que tienen igual mediana.
205
Autor I Marn Saino
4.2. Prueba de rangos con signo de Wilcoxon

4.2.1. Para una muestra
Esta prueba puede utilizarse para probar la hiptesis nula referida a un valor de la
mediana poblacional. Para ello se considerar la magnitud de la diferencia entre cada
valor observado y el valor terico de la mediana (Me(X)). Por lo tanto, bajo el
supuesto de hiptesis nula cierta, estas diferencias se distribuiran simtricamente en
torno al cero. Se puede observar adems que, estamos considerando las magnitudes
de las diferencias, es por ello que los datos deben estar en una escala numrica.
El primer paso consiste en calcular las diferencias entre valores observados y la
mediana, a dicha diferencia la denominaremos di, de tal manera que di = xi Me(X).
Si alguna de estas diferencias es igual a cero, se excluye y el tamao de muestra se
reduce a la cantidad de diferencias distintas de cero (n). Luego, los valores absolutos
de las diferencias se ordenan de menor a mayor asignndoles un rango, comenzando
por 1 para la mnima diferencia. Aquellos valores que son iguales en valores absolutos
se les asigna el promedio de los rangos que le corresponderan (por ejemplo: si
tenemos dos diferencias que arrojen el mismo resultado y estas estn ubicadas en la
posicin 6 y 7 de la serie ordenada, a esas dos diferencias se les asignar el valor de
rango 6,5, no obstante al valor siguiente a estas dos diferencias se le asignar 8 como
rango).
Por ltimo se suman los rangos de las diferencias positivas (n), cuyo resultado es el
valor del estadstico de prueba T de Wilcoxon para una prueba bilateral. Si la hiptesis
nula es verdadera, el estadstico tomar un valor cercano a la mediana, en cambio si
es falsa el valor del estadstico estar prximo a los extremos de la distribucin.
Cuando el nmero de diferencias distintas de cero es igual o menor a 20 (n 20)
utilizamos la tabla de valores crticos inferiores y superiores de T de la prueba de
rangos con signo de Wilcoxon presentada al final del Captulo, para comparar el valor
observado. En una prueba bilateral, si el valor observado de T es inferior al valor
crtico inferior o es mayor al valor crtico superior, para un nivel de significacin
determinado, entonces existe evidencia para rechazar la hiptesis nula. Para una
prueba lateral derecha si el valor de T es mayor al valor crtico superior la hiptesis
nula puede ser rechazada; mientras que, para una prueba lateral izquierda se tomar
la decisin de rechazar la hiptesis nula si el valor del estadstico de prueba es menor
al valor crtico inferior, siempre a un nivel de significacin determinado.
Cuando n > 20 y la hiptesis nula es cierta, el estadstico T tiene una distribucin
aproximadamente normal de parmetros T y T, donde:
T =
n.(n+1)
;
4
T =
n.(n+1).(2n + 1)
24
Por lo tanto en una muestra relativamente grande utilizaremos la distribucin normal,

calculando el estadstico de prueba de la siguiente forma:
T T
N (0,1)
Consideremos un ejemplo para cuando n 20. La Tabla 16 muestra las ventas de

una nueva herramienta en 12 ferreteras durante el mes anterior. Pruebe la hiptesis
de que la mediana de las ventas mensuales en la poblacin es menor o igual a 10
unidades por ferretera contra la alternativa que es mayor a 10 unidades, a un nivel
del 5%.
206
Autor I Marn Saino
Tabla 16:
Herramientas
vendidas
8
Herramientas
vendidas
16
2
3
18
9
8
9
7
14
4
5
12
10
10
11
11
10
14
12
20
Ferretera
Ferretera
Ho: Me(X) 10
H1: Me(X)> 10
El procedimiento detallado precedentemente lo resumimos en la Tabla 17.

Tabla 17:
Herramientas
vendidas
8
-2
3,5
(-)
2
3
18
9
8
-1
9
1,5
(-)
4
5
12
10
2
0
6
7
14
16
8
9
Ferretera
di
Ri
Signo de di
Ri (+)
(+)
3,5
elimine
(+)
3,5
4
6
6,5
8
(+)
(+)
6,5
8
7
14
-3
4
5
6,5
(+)
6,5
10
11
11
10
1
0
1,5
elimine
(+)
1,5
12
20
10
10
(+)
10
45
Totales
(-)
Valor del
estadstico T
observado
A continuacin presentamos un resumen de la tabla a utilizar para encontrar el

valor crtico, (Tabla 18).
207
Autor I Marn Saino
Tabla 18:
Valores crticos inferiores, T*, para la prueba de rangos
con signo de Wilcoxon para una muestra
Una cola
Dos colas
n
=0,05
=0,10
=0,025
=0,01
=0,005
=0,05
=0,02
=0,01
Lmites
(Inferior; Superior)
0 ; 15
...;...
...;...
...;...
2 ; 19
0 ; 21
...;...
...;...
3 ; 25
2 ; 26
0 ; 28
...;...
5 ; 31
8 ; 37
3 ; 33
1 ; 35
0 ; 36
5 ; 40
3 ; 42
1 ; 44
10
10 ; 45
8 ; 47
5 ; 50
3 ; 52
11
13 ; 53
10 ; 56
7 ; 59
5 ; 61
20
60 ; 150
52 ; 158
43 ; 167
37 ; 173
El T* (valor crtico) que surge de tabla, para la muestra recortada de tamao 10 y

un nivel de significacin del 5% es 45; por lo tanto al nivel de significacin del
5%, con un criterio conservador no se rechaza Ho. Se pude observar que el valor
crtico coincide con el valor observado, por lo que -en la medida que se pueda- se
debera ampliar el tamao de muestra para decidir con mayor precisin si existe
evidencia o tal evidencia no existe para rechazar la Ho.
Actividad 24:
Se afirma que las unidades ensambladas por un nuevo sistema ser mayor
que con el sistema antiguo, cuya mediana poblacional era de 80 unidades por
turno. Plantee la dcima que corresponda y trabaje con un nivel del 5%. Los
datos muestreados son los siguientes:
Turno
muestreado
1
2
3
4
5
6
Unidades
ensambladas
75
85
92
80
94
90
Turno
muestreado
7
8
9
10
11
12
Unidades
ensambladas
91
76
88
82
96
83
4.2.2. Para muestras dependientes

Un razonamiento similar se puede emplear cuando tenemos n observaciones
apareadas, por ejemplo: antes y despus del tratamiento, que podemos denominar
(x1i; x2i), donde di = x1i - x2i y estamos interesados en probar que las X1 y las X2
provienen de la misma distribucin frente a la alternativa que las distribuciones son
diferentes en cuanto a su posicin respecto al eje de las abscisas. Bajo el supuesto de
hiptesis nula cierta, se esperara que la mitad de las diferencias entre pares sean
negativas y la otra mitad sean positivas, a su vez con iguales valores absolutos,
respectivamente.
Una vez calculadas las diferencias, se ordenan en valores absolutos y se asigna el
rango correspondiente a cada diferencia excluyndose, como antes, las diferencias
208
Autor I Marn Saino
iguales a cero y asignando el rango promedio para diferencias con iguales resultados.
Luego, se calculan las sumas de los rangos para diferencias positivas y para las
diferencias negativas. Para una prueba bilateral tomaremos la menor de esas sumas
como el valor del estadstico de prueba (T). Por lo tanto rechazaremos la hiptesis nula
en tanto T (valor observado) sea menor a un valor T* (T crtico). Si la prueba es
lateral izquierda, usamos como estadstico de la prueba (T) la suma de los rangos
negativos y si la prueba es lateral derecha utilizamos como estadstico de la prueba (T)
la suma de rangos positivos.
Cuando n 20 recurriremos a la tabla de valores crticos de T de la prueba de rangos
con signo de Wilcoxon para muestras dependientes presentada al final del Captulo,
para comparar el valor observado.
Cuando n > 20, el estadstico T tiene una distribucin aproximadamente normal de
parmetros T y T, tal como se especific anteriormente y utilizaremos la distribucin
normal para calcular tanto el estadstico de la prueba como los valores crticos que
definen la zona de rechazo y la zona de no rechazo.
Ejemplifiquemos:
A un grupo de consumidores que consta de 14 personas se le pide que califique dos
marcas de t, de acuerdo a un sistema de valuacin por puntos que se basa en
diversos criterios. En la Tabla 19 se muestran los puntos asignados a cada marca de
t:
Tabla 19:
Miembro
del grupo
1
Marca 1
Marca 2
20
16
2
3
24
28
26
18
4
5
24
20
17
20
6
7
29
19
21
23
8
9
27
20
22
23
10
11
30
18
20
18
12
13
28
26
21
17
14
24
26
Pruebe la hiptesis de que no existe diferencia en el nivel de calificaciones para las

dos marcas de t, a un nivel de significacin del 5%.
H0: No existe diferencia en el nivel de calificaciones para las dos marcas de t.
H1: Existen diferencias significativas en el nivel de calificaciones para las dos marcas
de t.
Los clculos para determinar el valor del estadstico de prueba se resumen en la
Tabla 20:
209
Autor I Marn Saino
Tabla 20:
Miembro
del grupo
1
Marca 1
Marca 2
di
Ri
Ri (+) Ri (-)
20
16
4,5
4,5
2
3
24
28
26
18
-2
10
1,5
11,5
11,5
4
5
24
20
17
20
7
0
7,5
6
7
29
19
21
23
8
-4
elimine
9
4,5
8
9
27
20
22
23
5
-3
6
3
10
11
30
18
20
18
10
0
11,5
12
13
28
26
21
17
7
9
elimine
7,5
10
11,5
-.-
14
24
26
-2
1,5
Total
78
1,5
7,5
-.-
-.-
9
4,5
3
-.-
7,5
10
1,5
67,5
10,5
Valor del
estadstico T
De la Tabla 21obtenemos el valor de T* que separa la zona de rechazo, de la zona

de no rechazo.
Tabla 21:
Valores crticos, T*, para la prueba de rangos con signo
de Wilcoxon para muestras dependientes
Una cola
=0,05
Dos colas =0,10
=0,025
=0,05
=0,005
=0,01
T*
5
6
0
2
...;...
0
.
.
.
.
.
.
...;...
...;...
7
.
3
.
2
.
.
.
...;...
.
.
.
.
.
13
14
21
25
.
.
17
.
.
.
.
21
.
.
.
.
.
.
100
2045
1955
.
.
.
.
.
.
.
.
.
.
.
.
9
12
.
.
1779
Cada una de la suma de los rangos debera ser aproximadamente 39 (78/2) y se

puede observar que hay un gran desequilibrio (67,5 y 10,5), por lo que el valor de
T observado de 10,5 es menor al valor crtico (21), entonces se rechaza la
hiptesis nula al nivel de significacin del 5%. Ahora bien, si el valor del estads-
210
Autor I Marn Saino
de prueba T hubiese tomado un valor entre 21 y 39 (inclusive), indicara que la

suma de los rangos positivos y la suma de los rangos negativos se compensaran y
no habra diferencias significativas.
Actividad 25:
Se desea determinar la eficacia de cierta dieta para adelgazar. Se sometieron a la
dieta 17 personas, y sus pesos antes y despus de la misma fueron:
Persona
Antes
Despus
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
70
66
68
58
78
59
84
77
63
65
51
60
81
65
66
56
72
69
65
65
58
76
57
81
74
71
60
50
58
78
68
64
56
70
Pruebe la hiptesis de que la dieta disminuye significativamente el peso de las

personas utilizando un = 0,01.
4.2.3. Para muestras independientes
Si tenemos dos conjuntos de datos de una variable a partir de dos muestras
independientes podemos utilizar la prueba de rangos con signos para probar las
diferencias entre las medianas de las dos poblaciones de las cuales se extrajeron
dichos conjuntos de datos. Esos datos deben ser por lo menos de nivel ordinal.
El procedimiento consiste en combinar dos muestras aleatorias independientes, con
n1 y n2 observaciones, y ordenarlas de menor a mayor asignndoles el rango 1 a la
menor hasta el rango n, es decir (n1 + n2), a la mayor. A aquellas observaciones que
son iguales se les asignar el promedio de los rangos tal como se especific para las
dos pruebas anteriores. Entonces, si las observaciones fueron generadas a partir de
muestras independientes de la misma poblacin, las sumas de los rangos
correspondientes a cada muestra deberan ser ms o menos proporcionales a los
tamaos de muestras respectivos.
Luego el estadstico de la prueba T es la suma de los rangos asignados a la muestra
ms chica (supongamos que es n1). No obstante, si las muestras son de igual tamao
cualquiera de las dos puede elegirse para calcular T.
Cuando los tamaos de ambas muestras son iguales o menores que 10, utilizamos la
tabla de valores crticos de T de la prueba de rangos con signo de Wilcoxon para
muestras independientes, presentada al final del Captulo, para comparar el valor
observado.
Cuando el tamao de muestra es suficientemente grande, digamos n1 > 10, el
estadstico de prueba T se distribuye aproximadamente normal de parmetros T y T,
tal como se especific en la seccin 4.2.1. No obstante, los parmetros se calculan
mediante las expresiones que se presentan seguidamente:
T =
n1.(n + 1)
2
T =
211
n1.n2 .(n + 1)
12
Autor I Marn Saino
Trabajemos con el siguiente ejemplo:

Se desea determinar si el volumen anual de ventas logrado por vendedores que
tienen grado acadmico (Grupo 1) difiere del volumen logrado por vendedores que
no lo tienen (Grupo 2). Tomadas en forma independientes muestras de ambos
grupos de vendedores se obtuvo la siguiente informacin:
Tabla 22:
Ventas anuales (en miles)
Grupo 1
Grupo 2
82
92
73
75
90
72
70
90
71
65
89
68
60
86
67
58
85
66
50
83
64
50
81
63
46
81
52
42
78
40
76
A un nivel del 1%, se puede concluir que las muestras provienen de poblaciones con
distintas medianas?
H0: Me(X1) = Me(X2)
H1: Me(X1) Me(X2)
En la Tabla 23 se asignaron los rangos segn lo especificado anteriormente:
Tabla 23:
Grupo
1
Ri1
Grupo
2
Ri2
82
75
24
19
92
90
31
29,5
70
65
15
11
90
89
29,5
28
60
58
8
7
86
85
27
26
50
50
4,5
4,5
83
81
25
22,5
46
42
3
2
81
78
22,5
24
76
20
73
72
18
17
71
68
16
14
67
66
13
12
64
63
10
9
52
40
6
1
Total
Para tamaos de muestras grandes se dijo

que se utilizaba la distribucin normal como
aproximacin, de tal manera que:
Tobs = 118
11.(31 + 1)
T =
= 176 ;
2
(11).(20).(32)
T =
= 24, 22
12
118 176
entonces z =
= 2,395
24, 22
y el valor crtico es z*= 2,575, por lo tanto
la zona de no rechazo es:
ZNR = z / z < 2,575
En consecuencia, a un nivel de significacin

del 1%, no se rechaza la hiptesis nula. Es
decir, las muestras provienen de poblaciones
con medianas idnticas.
118
212
Autor I Marn Saino
Actividad 26:
Se desea comparar los sueldos mensuales de vendedores y administrativos del
gremio comercial, en cierta zona de la ciudad. Los datos muestrales obtenidos de
15 empleados de cada rea son:
Vendedores
350
351
351
355
361
365
366
369
370
375
375
382
387
390
392
Administrativos
352
360
367
370
371
375
377
378
380
381
385
389
393
394
395
A un nivel del 5% determine si la mediana de los sueldos mensuales de ambos

tipos de empleados es la misma.
4.3. Prueba U de Mann-Whitney: muestras aleatorias independientes

En 1947, dos aos despus que Wilcoxon propusiera la prueba estadstica para
comparar dos poblaciones basadas en muestra aleatorias independientes, Mann y
Whitney propusieron la prueba U que tambin utiliza la suma de los rangos de las
muestras. Se puede demostrar que ambas pruebas son equivalentes.
El objeto de esta prueba es determinar si las dos muestras independientes provienen
de la misma poblacin y es especialmente til cuando los datos son al menos de nivel
ordinal.
Sea n1 la muestra ms pequea de los dos grupos de datos, para aplicar la prueba U
en primer lugar se deben combinar las observaciones para ordenarlos de menor a
mayor para luego asignarles un rango de 1 al ms bajo y n al ms alto y teniendo en
cuenta que a aquellas observaciones que empaten se les asignar el rango promedio,
tal como se especific en las pruebas anteriores. Seguidamente se calculan dos valores
de estadsticos por medio de las siguientes expresiones:
U1 = n1.n2 +
U 2 = n1.n2 +
n2 .(n2 + 1)
2
n1.(n1 + 1)
2
n1
Ri1 ;
i =1
n1
Ri 2 ;
i =1
o bien:
U 2 = n1.n2 U
donde Ri1 y Ri2 es el rango que corresponde a la observacin i-sima de la muestra n1

(la ms pequea) y n2 (la muestra ms grande), respectivamente.
Obviamente las frmulas anteriores arrojan distintos valores. Es el menor de ellos el
que nos interesa y lo denominaremos genricamente como Uobs. Si ese valor de U es
menor al valor crtico que surge de tabla, rechazaremos la hiptesis nula al nivel de
significacin especificado.
Ahora bien cuando la muestra ms grande es mayor que 20 (n2 >20), la distribucin
213
Autor I Marn Saino
muestral de U se aproxima rpidamente a la distribucin normal de parmetros U y

U, donde:
U =
n1.n2
U =
n1.n2 .(n1 + n2 + 1)
12
Por lo tanto, cuando n1 y n2 aumentan de tamao utilizaremos la distribucin normal,

calculando el estadstico de prueba16/ de la siguiente forma:
T U
N (0,1)
Si el valor de Z observado es menor al valor crtico de la cola izquierda de la

distribucin o es mayor al valor crtico de la cola derecha de la distribucin normal, se
rechazar la hiptesis nula.
Retomemos el ejemplo presentado en la seccin 4.1. para aplicar la prueba de
Mann-Whitney
H0: Me(X1) = Me(X2)
H1: Me(X1) Me(X2)
En la Tabla siguiente se muestra la asignacin de rangos para las muestras
combinadas
(n1 + n2):
Tabla 24:
Grupo 1
54
Ri1
3,5
Grupo 2
51
Ri2
1
65
66
7
8,5
53
54
2
3,5
71
73
12,5
14
61
64
5
6
78
78
17,5
17,5
66
67
8,5
10
80
82
19,5
22
69
71
11
12,5
87
92
24
27
74
76
15
16
93
95
28
30
80
81
19,5
21
85
89
23
25
90
94
26
29
Total
231
Procederemos al clculo de U como

sigue:
U = (13).(17) +
13.(14)
2
231 = 81
U 2 = (13).(17) 81 = 140
De la tabla de valores crticos de
U de la prueba de Mann-Whitney,
para una cola = 0,025 y dos colas
= 0,05, que se dispone (al final
del Captulo y aqu se muestra un
resumen de la misma) extraemos el
valor crtico en la intercepcin de
los tamaos de muestras de cada
grupo.
234
El valor crtico es 63 y el valor observado es 81, por lo tanto no se rechaza la

hiptesis nula, al nivel de significacin del 5%.
16/
Cuando la distribucin muestral de U se aproxima a la normal, no tiene importancia si se utiliza U1 U2 como valor de U porque el valor absoluto de Z ser el mismo, lo que si depende de
U es el signo de Z.
214
Autor I Marn Saino
Tabla 25:
Valores crticos, U*, para la prueba de Mann-Whitney
para muestras independientes
n1
2
3
.
.
.
13
14
15
16
17
18
19
20
Una cola
=0,025
Dos colas
=0,05
n2
2
...;...
...;...
.
.
.
1
1
1
1
2
2
2
2
3
13
...;... . . . 1
...;... . . . 4
. .
.
.
.
.
.
. .
. . . 45
4
. . . 50
5
. . . 54
5
. . . 59
6
. . . 63
6
. . . 67
7
. . . 72
7
. . . 76
8
14
1
5
.
.
.
50
55
59
64
67
74
78
83
15
1
5
.
.
.
54
59
64
70
75
80
85
90
16
1
6
.
.
.
59
64
70
75
81
86
92
98
17
2 . . .
6 . . .
. .
.
.
.
.
63 . . .
67 . . .
75 . . .
81 . . .
87 . . .
93 . . .
99 . . .
105 . . .
20
2
8
.
.
.
76
83
90
98
105
112
119
127
Actividad 27:
Se desea comparar las calificaciones obtenidas por estudiantes varones y
mujeres de un mismo curso, en un determinado examen estndar. Dos muestras
tomadas al azar de 20 estudiantes cada una dieron los siguientes resultados (en
puntos):
Varones
51
90
68
83
65
75
71
85
79
84
87
72
76
92
69
91
63
71
78
59
Mujeres
45
55
95
80
70
50
99
88
74
60
67
82
86
98
62
97
93
61
73
94
Pruebe si las calificaciones medias de estudiantes varones y mujeres son las

mismas, a un = 0,05.
215
Autor I Marn Saino
216
Autor I Marn Saino
Un experimento binomial consta de n pruebas independientes con dos resultados

posibles (xito o fracaso), los cuales tienen probabilidades asociadas (p y q). No
obstante el experimento definido, es slo un caso particular de un modelo denominado
multinomial, que trata de pruebas independientes con ms de dos resultados (k), donde las dos probabilidades (p y q) se reemplazan por las k probabilidades p1, p2, ... pk;
son ejemplos de este tipo de experimentos los siguientes: la clasificacin de individuos
segn sus ingresos en 3 clases (hasta 500 $; entre 501 y 1000 $; ms de $ 1000),
segn el nivel mximo de educacin alcanzado en 7 categoras (primario incompleto,
primario completo, secundario incompleto, ..., postgrado), la clasificacin de individuos
segn su opinin respecto a un producto (muy bueno, bueno, malo, muy malo).
Cualquiera sea la variable aleatoria que genere el experimento, todas tienen las
siguientes caractersticas que definen un experimento multinomial:
1.- El experimento consta de n pruebas idnticas.
2.- El resultado de cada prueba corresponde a una de las k categoras.
3.- La probabilidad que el resultado caiga en una categora particular es:
pi (i = 1, 2, ..., k) y permanece constante de una prueba a otra.
4.- Las n pruebas son independientes.
5.- Nuestro inters est centrado bsicamente en o1, o2, ..., ok, donde oi (i=1, 2,..., k)
es igual al nmero de pruebas cuyo resultado se asocia a la i-sima categora, de
manera tal que: o1 + o2 +...+ok = n.
Tomemos como ejemplo que se lanzan 100 tiros con jabalinas en un terreno que est
dividido en tres secciones. La primera seccin es la que est ms cerca del tirador y se
sabe que la probabilidad que una jabalina caiga en est seccin es 0,30, mientras que
la probabilidad que caiga en la segunda seccin es de 0,60 y la probabilidad que caiga
ms all del lmite de la segunda seccin (los mejores tiros!) es 0,10. Entonces nos
podramos preguntar cuntas jabalinas se espera que caigan en la tercera seccin?
Se sabe que:
E (n3) = e3 = n p3 = (100) . (0,10) = 10
de la misma manera se podra calcular el valor esperado de jabalinas que caen en las
restantes secciones.
Segn se dijo, si la hiptesis nula planteada es verdadera entonces los conteos de las
secciones no deberan desviarse demasiado de sus valores esperados, es decir:
o i n pi ,
(i=1, 2,..., k)
para realizar la comparacin definiremos la variable aleatoria
propuesta por
Pearson que incluye las k diferencias y se puede demostrar que,

suficientemente grande, tendr distribucin de probabilidad Chi-cuadrado.
2
obs
para
(oi - ei ) 2
=
i= 1
ei
k
Consideremos el caso especial de k = 2 (binomial), para luego generalizar. Entonces:
(oi - ei )2 (o1 - np1 ) 2 (o2 - np2 ) 2

=
+
i= 1
ei
np1
np2
2
2
c obs
=
217
Autor I Marn Saino
dado que o1 + o2 = n, entonces o2 = n - o1 , y que p1 + p2 = 1, se puede escribir :
2
obs
(o1 - np1 )2 [(n - o1 ) - n(1- p1 )]2

=
+
np1
np2
trabajando algebraicamente el segundo trmino del segundo miembro, resulta:

2
c obs
=
(o1 - np1 ) 2 (n - o1 - n + np1 ) 2

+
np1
np2
luego
2
c obs
=
(1- p1 )(o1 - np1 )2 + p1 (- o1 + np1 ) 2

(np1 )(1- p1 )
finalmente, se obtiene:
2
obs
(o1 - np1 )2
=
np1 (1- p1 )
Como
n
o1 = x1 j
j= 1
0 en cualquier otro caso
1 si el evento ocurre en la j-esima prueba

donde x =
1j
Entonces o1 puede expresarse como la suma de n variables aleatorias independientes
y no es otra cosa que el nmero de observaciones (o1) y tendr distribucin binomial,
con E(o1) = n p1 y V(o1) = n p1 (1- p1), si p1 es el verdadero valor de p. Adems,
cuando n es grande al ser p17/ chica, podemos tomar a la distribucin Poisson como
lmite de la binomial con = np1. Ahora bien, si > 5 la distribucin Poisson se
aproximar a la distribucin normal, entonces la variable aleatoria:
o1 np1
N (0,1)
n
.
p
1
luego para un n grande, la variable aleatoria
o1 np1
n. p1
12 18/
Para un k mayor que 2 se puede demostrar que
puede expresarse como la suma
de cuadrados de k-1 variables independientes, cada una de ellas con distribucin

N(0,1) si n es suficientemente grande.
17/
Cuando hay varias celdas la frecuencia en cada una de ellas es relativamente pequea (p)
comparndola contra todas las dems (1-p).
18/
Recuerde que, si Z1; Z2;...;Zn son variables aleatorias independientes, cada una con distribucin N(0,1), entonces: Z12 + Z22 + ... + Zn2 tiene distribucin
218
n2 .
Autor I Marn Saino
TABLAS ANEXAS
Valores crticos de
Tamao
muestral
n
1
2
3
4
5
0.2
0.9
0.684
0.565
0.494
0.446
6
7
8
9
10
Di = Ft Fo
. Prueba de Kolmorogov-Smirnov
0.15
0.925
0.726
0.597
0.525
0.474
Nivel de
significacin
0.1
0.95
0.776
0.642
0.564
0.51
0.05
0.975
0.842
0.708
0.624
0.565
0.01
0.995
0.929
0.828
0.733
0.669
0.41
0.381
0.358
0.339
0.322
0.436
0.405
0.381
0.36
0.342
0.47
0.438
0.411
0.388
0.368
0.521
0.486
0.457
0.432
0.41
0.618
0.577
0.543
0.514
0.49
11
12
13
14
15
0.307
0.295
0.284
0.274
0.266
0.326
0.313
0.302
0.292
0.283
0.352
0..8
0.325
0.314
0.304
0.391
0.375
0.361
0.349
0.338
0.468
0.45
0.433
0.418
0.404
16
17
18
19
20
0.258
0.25
0.244
0.237
0.231
0.274
0.266
0.259
0.252
0.246
0.295
0.286
0.278
0.272
0.264
0.328
0.318
0.309
0.301
0.294
0.392
0.381
0.371
0.363
0.356
25
30
35
0.21
0.19
0.18
0.22
0.2
0.19
0.24
0.22
0.21
0.27
0.24
0.23
0.32
0.29
0.27
1.07
1.14
1.22
1.36
1.63
> 35
Referencia
n: tamao de muestra
219
Autor I Marn Saino
Valores crticos de
Di = Ft Fo
. Prueba de Kolmorogov Smirnov (Lilliefors)
Tamao
Muestral
N
4
5
0.2
0.3
0.285
0.15
0.319
0.299
6
7
8
9
10
0.265
0.247
0.233
0.223
0.215
0.277
0.258
0.244
0.233
0.224
0.294
0.276
0.261
0.249
0.239
0.319
0.3
0.285
0.271
0.258
0.364
0.348
0.331
0.311
0.294
11
12
13
14
15
0.206
0.199
0.19
0.183
0.177
0.217
0.212
0.202
0.194
0.187
0.23
0.223
0.214
0.207
0.201
0.249
0.242
0.234
0.227
0.22
0.284
0.275
0.268
0.261
0.257
16
17
18
19
20
0.173
0.169
0.166
0.163
0.16
0.182
0.177
0.173
0.169
0.166
0.185
0.189
0.184
0.179
0.174
0.213
0.206
0.2
0.195
0.19
0.25
0.245
0.239
0.235
0.231
25
30
0.149
0.131
0.153
0.136
0.165
0.144
0.18
0.161
0.203
0.187
0.736
0.768
0.805
0.886
1.031
> 30
Nivel de
significacin
0.1
0.05
0.352
0.381
0.315
0.337
220
0.01
0.417
0.405
Autor I Marn Saino
Valores crticos inferiores, T*, para la prueba de rangos

con signo de Wilcoxon para una muestra
Una cola
=0,05
Dos colas
=0,10
N
5
6
7
8
9
10
11
12
13
14
15
0
2
3
5
8
10
13
17
21
25
30
;
;
;
;
;
;
;
;
;
;
;
15
19
25
31
37
45
53
61
70
80
90
16
17
18
19
20
35
41
47
53
60
;
;
;
;
;
101
112
124
137
150
=0,025
=0,01
=0,05
=0,02
Lmites
(Inferior ; Superior)
=0,005
=0,01
...;...
0 ; 21
2 ; 26
3 ; 33
5 ; 40
8 ; 47
10 ; 56
13 ; 65
17 ; 74
21 ; 84
25 ; 95
...;...
...;...
0 ; 28
1 ; 35
3 ; 42
5 ; 50
7 ; 59
10 ; 68
12 ; 79
16 ; 89
19 ; 101
...;...
...;...
...;...
0 ; 36
1 ; 44
3 ; 52
5 ; 61
7 ; 71
10 ; 81
13 ; 92
16 ; 104
29
34
40
46
52
23
27
32
37
43
19
23
27
32
37
221
;
;
;
;
;
107
119
131
144
158
;
;
;
;
;
113
126
139
153
167
;
;
;
;
;
117
130
144
158
173
Autor I Marn Saino
Valores crticos, T*, para la pueba de rangos

con signo de Wilcoxon para muestras dependientes
Una cola
=0,05
=0,025
Dos colas
=0,10
=0,05
n
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
40
50
60
70
80
90
100
=0,01
=0,005
=0,02
=0,01
...;...
...;...
0
1
3
5
7
9
12
15
19
23
27
32
37
43
49
55
62
69
76
84
92
101
110
120
130
140
151
162
173
238
397
600
846
1136
1471
1850
...;...
...;...
...;...
0
1
3
5
7
9
12
15
19
23
27
32
37
42
48
54
61
68
75
83
91
100
109
118
128
138
148
159
220
373
567
805
1086
1410
1779
T*
0
2
3
5
8
10
13
17
21
25
30
35
41
47
53
60
67
75
83
91
100
110
119
130
140
151
163
175
187
200
213
286
466
690
960
1276
1638
2045
...;...
0
2
3
5
8
10
13
17
21
25
29
34
40
46
52
58
65
73
81
89
98
107
116
126
137
147
159
170
182
195
264
434
648
907
1211
1560
1955
222
Autor I Marn Saino
Valores crticos, T*, para la pueba de rangos con signo

de Wilcoxon para dos muestras independientes
n1
n2
Una
cola
0,05
0,1
0,025 0,05
...;...
...;...
12 ; 28
19 ; 36
0,025 0,05
11 ; 29
17 ; 38
0,01
10 ; 30
16 ; 39
...;...
15 ; 40
0,1
0,02
0,005 0,01
10
13 ; 31
20 ; 40
28 ; 50
0,025 0,05
12 ; 32
18 ; 42
26 ; 52
0,01
0,05
0,1
0,02
11 ; 33
17 ; 43
24 ; 54
0,005 0,01
10 ; 34
16 ; 44
23 ; 55
0,05
14 ; 34
21 ; 44
29 ; 55
39 ; 66
0,025 0,05
13 ; 35
20 ; 45
27 ; 57
36 ; 69
0,01
0,1
0,02
11 ; 37
18 ; 47
25 ; 59
34 ; 71
0,005 0,01
10 ; 38
16 ; 49
24 ; 60
32 ; 73
0,05
15 ; 37
23 ; 47
31 ; 59
41 ; 71
51 ;
85
0,025 0,05
14 ; 38
21 ; 49
29 ; 61
38 ; 74
49 ;
87
0,01
0,1
0,02
12 ; 40
19 ; 51
27 ; 63
35 ; 77
45 ;
91
0,005 0,01
11 ; 41
17 ; 53
25 ; 65
34 ; 78
43 ;
93
0,05
16 ; 40
24 ; 51
33 ; 63
43 ; 76
54 ;
90 66 ; 105
0,025 0,05
14 ; 42
22 ; 53
31 ; 65
40 ; 79
51 ;
93
62 ; 109
0,01
0,1
10
10 ; 26
0,005 0,01
0,05
4
11 ; 25
0,02
0,01
Dos
colas
0,02
13 ; 43
20 ; 55
28 ; 68
37 ; 82
47 ;
97
59 ; 112
0,005 0,01
11 ; 45
18 ; 57
26 ; 70
35 ; 84
45 ;
99
56 ; 115
0,05
17 ; 43
26 ; 54
35 ; 67
45 ; 81
56 ;
96
69 ; 111 82 ; 128
0,025 0,05
15 ; 45
23 ; 57
32 ; 70
42 ; 84
53 ;
99
65 ; 115 78 ; 132
0,01
0,02
13 ; 47
21 ; 59
29 ; 73
39 ; 87
49 ; 103
61 ; 119 74 ; 136
0,005 0,01
12 ; 48
19 ; 61
27 ; 75
37 ; 89
47 ; 105
58 ; 122 71 ; 139
0,1
223
Autor I Marn Saino
224

Prueba de Bondad de Ajuste

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Prueba de Bondad de Ajuste

Cargado por

Copyright:

Formatos disponibles

Ctedra I Estadstica II

Autor I Marn Saino

Reconocer cuando es necesario aplicar procedimientos no paramtricos

2.3.2. Comparaciones mltiples de proporciones.

2. Las pruebas Chi- cuadrado

Independientemente de los pasos (convencionales) a seguir para realizar una prueba

donde los grados de libertad se corresponden con el nmero de valores (categoras o

para ubicar la zona de

rechazar cuando el estadstico de la prueba

(valor observado bajo el supuesto de

hiptesis nula cierta) asuma un valor grande.

oi y ei representan el valor observado y esperado de ni, respectivamente.

Restriccin al nmero de frecuencias en cada categora

La variable aleatoria se genera a partir de un experimento multinomial (Ver Apndice IV.A).

mxima verosimilitud: = x . Para los datos presentados en la Tabla 1,

2.- Nivel de significacin:

(bajo el supuesto de hiptesis nula cierta).

Los pasos necesarios para calcularlo se encuentran en la Tabla 2 y a continuacin

Columna (3): clculo de las probabilidades tericas de Poisson: P(xi, = 1, 51 ), a

* Estos valores no son exactamente 1 y 80, respectivamente, debido a errores de redondeo.

4.- Regla de decisin:

En cuanto a los grados de libertad8/, se obtienen de la siguiente manera:

P( i2(3) > 7, 81) = 0, 05

y podemos expresar la regla de decisin de la siguiente forma:

la zona de no rechazo est conformada por los valores

Chi-cuadrado tales que sean menores o iguales a 7,81.

la zona de rechazo est conformada por

todos los valores Chi-cuadrado tales que sean mayores a 7,81.

(1,01) es menor que 7,81. Por lo tanto no se rechaza la

hiptesis nula y podemos inferir, a un nivel de significacin del 5%, que la

La prueba Chi-cuadrado de la bondad de ajuste para probar la normalidad sigue el

En este ejemplo ocurre lo mismo que en el anterior, se desconocen los parmetros

verosimilitud. Utilizamos a x y s2 como estimadores de los correspondientes

= 73, 685 s = 8, 584

Recordemos que, la frecuencia esperada asociada a cada intervalo no debera ser

x1 = x + z1.sx = 88, 281 0, 84.(8, 584) = 81, 06

3.- Chi-cuadrado observado bajo el supuesto de hiptesis nula verdadera:

4.- Regla de decisin:

P( i2(2) > 9, 21) = 0, 01 ;

cuencia podemos expresar la zona de no rechazo y la zona de rechazo como

5.- Decisin o inferencia final: El valor observado de

(4,47) es menor al valor

crtico (9,21), por lo tanto no se rechaza la hiptesis nula y podemos inferir,

El ejemplo que presentamos a continuacin puede ser tratado de manera semejante al

Clculos necesarios para realizar la prueba, referidos al estadstico

El lmite superior del segundo intervalo es:

de la misma forma se obtienen los lmites siguientes.

P( zi < 2, 08) = 1 0, 9812 = 0, 0188

P(2, 08 zi < 1, 25) = F ( 2, 08) F (1, 25) = 0, 0868

3.- Chi-cuadrado observado, bajo supuesto de hiptesis nula verdadera:

4.- Regla de decisin:

consecuencia, podemos expresar la zona de no rechazo y la zona de rechazo

5.- Decisin o inferencia final: El valor observado de

(23,48) es mayor al valor

segundo ejemplo), construyendo intervalos de igual probabilidad (pero no de igual

Probar si el ausentismo es similar durante todos los das laborales a un nivel

Probar si el nmero de entrevistas logradas en la muestra se distribuye con

Con un nivel de significacin del 5% probar si la distribucin Poisson es

2.2. Prueba de independencia: Tablas de contingencia

Si el objetivo es contrastar la hiptesis nula de que la calificacin respecto del

Teniendo las probabilidades estimadas para cada celda en caso de independencia, se

(donde: fi y cj son las frecuencias absolutas de la fila i y las frecuencias absolutas de la

Entonces para la primera celda de nuestro ejemplo se obtiene como se muestra a

de la misma manera se pueden calcular las siguientes