Estad Stica No Param Trica 20211 May2021

Estadı́stica no Paramétrica.
Omar Rodrı́guez Torres

Jaime Vázquez Alamilla
31 de agosto de 2021
Índice general
Prefacio 1
1. Introducción a pruebas no paramétricas 1
1.1. Pruebas para proporciones . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Prueba de corridas o rachas . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Pruebas de bondad de ajuste 19
2.1. Prueba Ji-Cuadrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1. La distribución de la estadı́stica de prueba . . . . . . . . . . . . 21
2.2. Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3. La prueba de Lilliefors . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.1. Lilliefors para normalidad . . . . . . . . . . . . . . . . . . . . . 42
2.3.2. Lilliefors para la distribución exponencial . . . . . . . . . . . . . 46
2.4. Anderson Darling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3. Tablas de contingencia 53
4. Medidas de correlación de rango 65
4.1. ρ (ro) de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.1.1. Prueba de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2. τ (tau) de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3
4 ÍNDICE GENERAL
4.2.1. Prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . 73
5. Pruebas basadas en rangos 75

5.1. Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 75
5.2. Prueba de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6. Otras pruebas no paramétricas 93

6.1. Prueba de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.2. Prueba de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
7. Ejercicios y problemas estadı́stica no paramétrica 101
A. Relación de distribuciones de probabilidad. 109
B. Tablas 113
B.1. Valores Crı́ticos de la prueba de Kolmogorov-Smirnov . . . . . . . . . . 113
B.2. Valores Crı́ticos de la prueba de Lilliefors . . . . . . . . . . . . . . . . . 116
B.3. Valores Crı́ticos de la prueba de Anderson Darling . . . . . . . . . . . . 117
B.4. Cuantiles de la estadı́stica Wald-Wolfowitz . . . . . . . . . . . . . . . . 118
B.5. Cuantiles de la estadı́stica ρ de Spearman . . . . . . . . . . . . . . . . 120
B.6. Cuantiles de la estadı́stica τ de Kendall . . . . . . . . . . . . . . . . . 122
B.7. Cuantiles de la estadı́stica de Wilcoxon . . . . . . . . . . . . . . . . . 124
C. Formulario 127
C.1. Estadı́stica no paramétrica . . . . . . . . . . . . . . . . . . . . . . . . 127
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Prefacio
En un primer curso de inferencia estadı́stica se estudian una serie de métodos

de estimación puntual (método de momentos, estimadores de máxima verosimilitud,
métodos bayesianos, o el método de los percentiles), además se aprende a evaluar dichos
estimadores para encontrar ası́ los mejores. Sin embargo, en este enfoque paramétrico
se tiene la desventaja de que siempre se trabaja con muestras aleatorias basadas en
el supuesto de que siguen una cierta distribución conocida, que en ejercicios prácticos
muy difı́cilmente se conocerán estos supuestos.
Por ejemplo, si se intentara estimarPla esperanza de vida de una pila, ¿seria válido
nX
suponer normalidad y asumir que µ̂ = i=1 n
i
? donde Xi es el tiempo de vida de una
pila en dı́as a partir de las compras y n es el tamaño de la muestra.
En el enfoque no paramétrico, se elimina el supuesto de que la forma del modelo
es conocida y las inferencias se realizan sobre la distribución completa. Es decir, se
pueden dar estimaciones de muestras aleatorias la cuales siguen una cierta distribución
F desconocida. Sin embargo, en este tipo de estimaciones se pierde nivel de significacia
o son menos precisas que la versión paramétrica, pero nos dan una buena aproximación
al valor deseado. Para poder aplicar estas pruebas debe considerarse que las observa-
ciones se comportan de manera aleatoria y con independencia, ası́ mismo, el tamaño
de la muestra debe ser considerable, por lo que pruebas para muestras menores a 20
observaciones no son muy recomendadas.
De acuerdo con (Gomez Gomez, Danglot Banck, y Vega Franc, 2003) las ventajas
y desventajas de las pruebas no paramétricas puede resumirse en el siguiente cuadro:
1
2 Prefacio
Ventajas Desventajas
Determinación sencilla, generalmente Al realizar la prueba se pierde informa-
mediante el cálculo de una estadı́stica ción de la muestra ya que en muchos
dado casos se requiere formar estratificacio-
nes arbitrarias
A mayor tamaño de muestra mejores No recomendable para pruebas meno-
estimaciones res de 20 observaciones
Pocos supuestos para realizar la esti- Muchos de los procesos son iterativos,
mación por lo que en ocasiones sin software es-
pecializado puede ser un poco tedioso.
El objetivo de este texto es ofrecer al lector un panorama de las principales pruebas

no paramétricas como un documento de consulta rápida, con un esquema que incluye
la descripción de la prueba, los principales supuestos para su uso, la descripción de la
estadı́stica de prueba y su implementación en el software estadı́stico R.
Capı́tulo 1
Introducción a pruebas no
paramétricas
La primera prueba no paramétrica a abordar será la prueba binomial. Las pruebas

basadas en la distribución binomial son denominadas de esta forma ya que la distribu-
ción de la estadı́stica de prueba tiene una distribución Binomial.
1.1. Pruebas para proporciones
La distribución binomial modela el número de éxitos en n ensayos independientes,

de esta forma al realizar los n experimentos o ensayos mencionados anteriormente cada
uno de los resultados se pueden clasificar de la siguiente manera: los éxitos o resultados
favorables respecto a la variable en la que se enfoca el experimento, en eventos del tipo
“clase 1” el cual se denotará como C1 , y en eventos del tipo “clase 2” denotado como
C2 a las observaciones que corresponden a fallas o casos no favorables. Por lo tanto,
el número de observaciones en la que se observó un éxito [o de manera equivalente:
el número de elementos que pertenecen al conjunto referente a la clase 1] es denotado
como O1 y al número de observaciones de la clase 2 como O2 de tal manera que puede
observarse que n = O1 + O2 , ya que la clase 1 y clase 2 son mutuamente excluyentes
una del otra.
De esta manera se tiene que X1 , X2 , . . . , Xn es una muestra aleatoria en la cual
para cada Xi , i = 1, . . . n hay dos posibilidades: que la observación Xi corresponda a
un evento de la clase 1 o de la clase 2, es decir, Xi ∈ C1 con probabilidad p o Xi ∈ C2
con probabilidad 1 − p, la clave de esta prueba es que la probabilidad p puede ser vista
como la proporción de veces que se observará Xi ∈ C1 .
1
2 Introducción a pruebas no paramétricas
La prueba para proporciones es de gran utilidad ya que es una auxiliar para de-
mostrar las afirmaciones sobre la proporción o la probabilidad “p” esperada de que
ocurra un cierto suceso en una muestra aleatoria. De esta forma se plantea la siguiente
hipótesis:
H0 : p = p∗ vs. H1 : p 6= p∗ ,
donde p∗ es la proporción o probabilidad que se desea poner a prueba, es decir, mediante
esta prueba de hipótesis se busca conocer si la proporción que se plantea se apega
a los datos con un nivel de significancia α, por consiguiente, la zona de rechazo es
determinada por α.
Una vez definido lo anterior, se enfocará la atención en la probabilidad de caer en el
evento clase 1; es por ello que se define a la estadı́stica de prueba como T = ni=1 1xi ∈C1 ,
P
en palabras, T es el número de veces que se tiene éxito, es decir, las observaciones de

la clase 1. Es por ello que T puede ser vista como:
T = O1 .
Los datos que más interesan en esta prueba son los valores que se encuentran
alejados tanto a la derecha como a la izquierda respecto de la media, ya que serı́an
datos que caerı́an en la zona de rechazo, en caso de que esto ocurra se tendrı́a evidencia
suficiente para rechazar la hipótesis nula. Debido a que se busca la igualdad en la
hipótesis nula se genera dos colas, es por ello que es conveniente definir a α = α1 + α2 .
Por lo anterior se buscan los puntos crı́ticos t1 y t2 tal que cumplan con:
P [Y ≤ t1 ] = α1 ,
y análogamente con valores
P [Y ≤ t2 ] = 1 − α2 ,
donde Y ∼ Bin(n, p∗ ).
De esta forma se rechaza H0 si T ≤ t1 o si T > t2 , ya que una T mayor o menor a
estas bandas significarı́a que se observan valores muy alejados de la media por lo que
se tendrı́a evidencia para rechazar la hipótesis nula. En cualquier otro caso, se no se
rechaza la hipótesis nula, es decir H0 : p = p∗ .
El p − value de acuerdo a la metodologı́a usada en (Conover, 1998), equivale a:
p − value = 2 ∗ min {P [Y ≤ T ] , P [Y ≥ T ]} ,
1.1 Pruebas para proporciones 3
por lo que si p − value ≤ α se rechaza la hipótesis nula con un nivel de significancia

α.
Para ejemplificar las suposiciones anteriores, observe la figura 1.1, en ella se puede
apreciar la simulación de 100 experimentos de una distribución binomial con paráme-
tros n, p. La gráfica superior se complementa con algún experimento cualquiera, en el
que se observó 10 éxitos por lo tanto T = 10 marcado con la lı́nea puntada azul, de
igual manera, se calculó los cuantiles t1 y t2 en el que se acumula P [Y ≤ t1 ] = α1 , y
P [Y ≤ t2 ] = 1−α2 , entonces puede observarse que T se encuentra contenido estas ban-
das delimitadas por t1 y t2 , dibujadas con lı́nea roja, lo que implica que la probabilidad
del experimento es cercana a la probabilidad teórica que se desea probar, por lo que
existe evidencia para no rechazar la prueba con al menos un un nivel de significancia α.
Caso contrario, en la gráfica inferior se observa que hay 17 éxitos, T = 17 se aprecia que
T es mayor que el punto crı́tico t2 por lo que el valor observado se distancia del valor
esperado medio por lo que se tiene evidencia de rechazar la prueba. Pero no sólo eso,
se puede apreciar que el p − value < α por consiguiente tenemos la misma conclusión.
t1 T t2
0.18
0.15
P(Y ≤ t1) =α1 P(Y ≤ t2) = 1 −α2
0.1
f(x)
0.05
5 10 15 19
Éxitos
t1 t2 T
0.18
0.15 p−value
0.1
f(x)
α2
0.05
5 10 15 19
Éxitos
Figura 1.1: Distribución binomial con los puntos crı́ticos y una distribución T teórica.
Prueba de una cola (izquierda)
Una consecuencia del análisis anterior es poner a prueba la proporción dada en

forma de intervalo, este caso p ∈ [0, p∗ ], usualmente se menciona como “la proporción
es a lo más p∗ ”, por ello la prueba de hipótesis puede ser denotada como:
H0 : p ≤ p∗ vs. H1 : p > p∗ .
Para valores grandes de T o alejados por la derecha respecto a la media indican que
H0 es falso, por lo tanto la región de rechazo serı́a cuando:
P [Y ≤ t] = 1 − α
Una manera equivalente de definir t serı́a:
P [Y > t] = α,
debido a que la distribución asociada a Y es discreta, se puede reescribir la anterior
ecuación como:
P [Y ≥ t + 1] = α,
Por lo tanto, se rechaza H0 , al nivel de significancia α, cuando T > t ya que

implicarı́a que son valores de T son alejados respecto a la media , en otro caso no se
rechaza H0 .
El p − value, equivale a:
p − value = P [Y ≥ T ],
por lo que si p − value ≤ α se rechaza la hipótesis nula con un nivel de significancia α.
Prueba de una cola (derecha)
Un caso análogo al anterior es poner a prueba a la proporción dado un intervalo

complementario del caso de una cola izquierda, es decir p ∈ [p∗ , 1], usualmente se
menciona como “la proporción es mayor o igual a p∗ ”, es por ello que la prueba de
hipótesis puede ser denotada como:
H0 : p ≥ p∗ vs. H1 : p < p∗ .
Para valores pequeños de T o alejados por la izquierda respecto a la media indican

que H0 es falso, por lo tanto la región de rechazo caerı́a cuando al evaluar la siguiente
probabilidad:
P [Y ≤ t] = α,
se observa que si T ≤ t implicarı́a que son valores alejados por la izquierda, al menos
con un nivel de significancia α de T , por lo que se tiene evidencia suficiente para
rechazar la hipótesis nula, en otro caso, no se rechaza H0 .
El p − value, equivale a:
p − value = P [Y ≤ T ],
por lo que si p − value ≤ α se rechaza la hipótesis nula con un nivel de significancia

α.
Ejemplo 1. En un volado, una moneda tiene dos posibilidades, salir cara o cruz.
Se lanzan 10 monedas de manera consecutivas obteniendo como resultado 7 caras
y 3 veces cruz, ¿Es válido suponer que la moneda sea justa, es decir que p = 0.5?.
Considerando α = 0.05
La prueba de hipótesis que se debe de plantear de acuerdo a la caracterı́stica del

problema es:
H0 : p = 0.5 vs. H1 : p 6= 0.5
Los éxitos serán considerados cada vez que salga en la moneda una cara, de esta
manera se observa 7 éxitos, es decir, T = 7, se evalúan las regiones de rechazo con un
nivel de significancia α = 0.05, es decir, con un nivel de confianza 1 − α = 0.95 para
validar que p = 0.5. La distribución binomial es simétrica, por lo tanto es válido suponer
que α construida de la forma α = α1 + α2 puede particionarse como: α1 = α2 = 0.025.
Por lo tanto, se debe encontrar el valor de t1 de la siguiente igualdad:
P [Y ≤ t1 ] = 0.025,
donde Y ∼ Bin ∼ (10, 0.5), debido a que la distribución binomial es discreta en la
mayorı́a de las ocasiones no será posible encontrar el valor t1 , t2 que proporcione el valor
exacto en relación al nivel α buscando. En el caso particular de este ejercicio existen
dos posibles valores para el cuantil t1 que se encuentran cercanos al nivel α1 = 0.025.
P (Y ≤ t1 = 1) = 0.010.
P (Y ≤ t1 = 2) = 0.054.
Por conveniencia se elige al cuantil que proporciona una probabilidad menor a α1

con la finalidad de reducir el nivel de significancia para que ası́ la prueba tenga asociada
una mayor confiabilidad en la elección de la hipótesis, de lo contrario se aumentarı́a el
nivel de confianza saliendo ası́ de los parámetros que inicialmente se deseaban, debido
a ello se elige ası́ t1 = 1.
Para encontrar a t2 se evalúa su región de rechazo.
P [Y ≤ t2 ] = 1 − 0.025
Esto se cumple con
P (Y ≤ t2 = 7) = 0.9453
P (Y ≤ t2 = 8) = 0.9892
Por el mismo comentario anterior, se elige a t2 = 8, con la finalidad de reducir el

nivel de significancia. Recuerde que esta última región esta evaluada en la probabilidad
1 − α2 , ası́ si t2 = 8 entonces α = 1 − 0.9892 = 0.0108, en el caso contrario, si t2 = 7,
α2 = 1 − 0.9453 = 0.547, si se seleccionara este último, el nivel de significancia serı́a
mucho mayor a lo que deseábamos inicialmente α = 0.5.
Finalmente, la regla de rechazo de H0 ocurre cuando T ≤ t1 o si T > t2 , en otro
caso, no se rechaza la prueba. En el caso de particular de este ejemplo, T = 7 por lo
que no se rechaza la hipótesis nula pues T = 7 > 1 = t1 y T = 7 < 8 = t2 , por lo que
no hay evidencia suficiente para rechazar la hipótesis nula con un nivel de significancia
del 5 % Es decir, es válido suponer que la proporción que se observará tanto caras como
cruces es 0.5 de las veces, asumiendo ası́ que la moneda es justa.
Realizando la prueba mediante el p-value se tiene:
p − value = 2 ∗ min (P [Y ≤ T ] , P [Y ≥ T ])
= 2 ∗ min (P [Y ≤ 8] , P [Y ≥ 8])
= 2 ∗ min (P [Y ≤ 8] , P [Y ≥ 8])
= 2 ∗ min (0.98 , 0.05469)
= 2 ∗ (0.05469)
p − value = 0.1093.
Como p − value > α con un nivel de significancia α = 0.05 no se rechaza la prueba.

En R este resultado puede ser visto a continuación:
# primer parametro observaciones
# Segundo tama~ n o de la muestra

# Two . sided prueba de dos colas
prop . test (8 , 10 , p = 0.5 , alternative = c ( " two . sided " ) , conf . level =
0.95)
1-sample proportions test with continuity correction
data: 8 out of 10, null probability 0.5

X-squared = 2.5, df = 1, p-value = 0.1138
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.4421814 0.9645731
sample estimates:
p
0.8
Se observa que el p − value = 0.1138 es muy parecido al obtenido, y en ambos casos

se acepta la hipótesis de la proporción esperada, es decir, P es igual a 0.5.
Ejemplo 2. La Asociación Mexicana de Instituciones de Seguros (AMIS) mencio-

na que a lo más el 25 % de los automóviles compactos sufren algún accidente, una
aseguradora observa que de su cartera de 1, 500 automóviles compactos 900, sufrie-
ron un accidente ¿La aseguradora tendrı́a evidencias para rechazar la hipótesis de
AMIS?. Considere α = 0.05
Debido a las caracterı́sticas del problema, se plantea la siguiente prueba de hipótesis:
H0 : p ≤ 0.25 vs. H1 : p > 0.25
El éxito es representado como que el automóvil sufra algún accidente, ası́ se observan
900 éxitos, es decir, T = 900, se evalúan las regiones de rechazo con α = 0.05 .
Por lo tanto, se necesita buscar a t tal que cumpla con:
P [Y ≤ t] = 1 − 0.5
P [Y ≤ t] = 0.95
Donde Y ∼ Bin ∼ (1500, 0.25) de aquı́ se tiene dos posibles resultados:

P (Y ≤ t = 402) = 0.948
P (Y ≤ t = 403) = 0.954
Por conveniencia se elige al cuantil menor a α con la finalidad de que al reducir el

nivel de significancia la prueba tenga asociada una mayor confiabilidad en la elección
de la hipótesis, ası́ t = 403.
Como se mencionó anteriormente, la regla de rechazo es si T > t, en otro caso,
no se rechaza la hipótesis nula. Como T = 900, la estadı́stica esta contenida en la
región de rechazo ya que T > t, por lo que se rechaza la hipótesis nula con un nivel de
significancia del 5 %.
Al realizar la prueba con el p-value se confirma la suposición de rechazar la prueba
de hipótesis.
p − value = P [Y ≥ T ]
= P [Y ≥ 900]
p − value = 0.00000000001
Como p − value < α con un nivel de significancia α = 0.05 se rechaza la hipótesis

nula. Es decir, se tiene evidencias para suponer que la proposición de AMIS1 es errónea
en la cartera de la aseguradora. En R este resultado puede ser visto con el siguiente
código:
# primer parametro observaciones
# Segundo tama~ n o de la muestra
# greater ya que hipotesis alternativa es mayor o igual
prop . test (900 , 1500 , p = 0.25 , alternative = c ( " greater " ) , conf . level =
0.95)
1-sample proportions test with continuity correction
data: 900 out of 1500, null probability 0.25

X-squared = 978.13, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is greater than 0.25
0.5786964 1.0000000
1
Datos usados a manera de ejemplo, no implica datos reales.
1.2 Prueba de corridas o rachas 9
sample estimates:
p
0.6
Se nota que el p − value = 2.2e − 16 es demasiado pequeño, y en ambos casos se

acepta la hipótesis de la proporción esperada de P es 0.5 con un nivel de significancia
α = 0.05.
1.2. Prueba de corridas o rachas
La prueba de rachas también conocida como prueba de Wald-Wolfwitz, en honor a

sus desarrolladores, mide si el orden de ocurrencia en la observación de los atributos de
una variable dicotómica, variable que puede tomar un valor de dos posibles resultados,
ha sido de manera aleatoria.
Esta prueba no paramétrica es de gran importancia ya que prueba con un cierto
nivel de significancia que una muestra aleatoria dicotómica sigue un comportamiento
aleatorio, como por ejemplo comprobar la aleatoriedad en el lanzamiento de una mo-
neda, las victorias o derrotas de un equipo deportivo, el sexo de personas que sufren
una cierta enfermedad, etcétera.
Para emplear la prueba es necesario suponer n observaciones de una muestra alea-
toria X1 , X2 , . . . , Xn donde Xi , i = 1, . . . , n sólo puede tomar un valor de dos posibi-
lidades, en caso de que Xi pueda tomar más valores, éstos deben de poder clasificarse
en dos categorı́as mutuamente excluyentes la una de la otra, la forma en que se definan
las dos categorı́as va a depender del problema especı́fico que se tenga y de la hipótesis
a probar.
El procedimiento se basa en ejecutar el experimento n veces y registrar ordenada-
mente cada una de las observaciones, una vez registrada la secuencia se hallan rachas
o cadenas en la que la información se repite de manera consecutiva con la finalidad de
clasificar elementos del mismo tipo ubicados adyacentemente, por ejemplo, considere el
lanzamiento de 10 monedas, lo cual generó la siguiente secuencia en la que 1 representa
que la moneda cae en águila y 0 que cae en sol.
1 0 0 0 1 1 0 0 1 0
En la anterior secuencia, hay 6 rachas, de los cuales 3 corresponden a “águila” y 3

a que la moneda de como resultado “sol”.
De esta manera, se contabilizan los elementos que conforman dicha categorı́a, sea
n1 las observaciones de un tipo, y n2 las observaciones de la otra categorı́a. Además
suponga que existe r1 corridas de elementos del tipo 1 y r2 corridas del segundo tipo,
entonces el número de rachas totales se define como R donde R = r1 + r2 . Debido a
que el número de corridas es el que ayudará a decir si la muestra es aleatoria o no,
la prueba se basa en la distribución del número R de corridas que se presenta en la
secuencia de observaciones, de esta manera se construye una prueba de hipótesis en la
que la hipótesis nula representa que la muestra se comporta de manera aleatoria.
H0 : La muestra es aleatoria vs. Ha : La muestra no es aleatoria
La hipótesis nula de aleatoriedad se rechaza cuando el número total de rachas de

una categorı́a es demasiado grande o pequeña a comparación de la otra, es por ello que
inicialmente se pide que haya por lo menos un elemento en cada categorı́a ya que si no
existiese este supuesto se tendrı́a una clara sospecha de falta de aleatoriedad.
Una consideración importante, es que el máximo y mı́nimo de rachas sin modificar
el número de elementos totales de cada categorı́a, son los siguientes
Rmin = 2,
en el ejemplo de la moneda que se examinó anteriormente, Rmin podrı́a ser: observar

todos los elementos de una categorı́a en una sóla racha por conseguiente en otra racha
registrar todos los elementos de la otra categorı́a, es decir:
1111 000000
Rmax = 2min {n1 , n2 } + 1,
el número máximo de rachas queda delimitado por el mı́nimo de elementos de cada

categorı́a. En el ejemplo de la moneda, exiten 10 elementos, n1 = 4, n2 = 6. Entonces en
ese caso, el número de rachas máximas sin modificar n1 y n2 , serı́a 9 (2∗min {4, 6}+1 =
9). El cual podrı́a ser la siguiente secuencia:
0 1 0 1 0 1 0 1 00
De esta manera igual puede observar que el valor esperado de rachas dados n1 y n2
queda delimitado por:
n1 n2
E[R] = n1 +n2 +1
2
2n1 n2
E[R] = +1
n1 + n2
2n1 n2
∴ E[R] = +1
n
De manera análoga, para la varianza de R dados n1 y n2 , es:
2n1 n2 (2n1 n2 − n1 − n2 )
V ar[R] =
(n1 + n2 )2 (n1 + n2 − 1)
2n1 n2 (2n1 n2 − n)
V ar[R] =
n2 (n − 1)
2n1 n2 2n1 n2 − n
V ar[R] = ,
n n(n − 1)
sumando un 0

2n1 n2 2n1 n2 − n
V ar[R] = +1−1 ,
n n(n − 1)
2n1 n2
sustituyendo por E[R] = n
+1

2n1 n2 − n
V ar[R] = (E[R] − 1)
n(n − 1)

E[R] − 1 2n1 n2 − n
V ar[R] =
n−1 n

E[R] − 1 2n1 n2
V ar[R] = −1 ,
n−1 n
sumando un 0

E[R] − 1 2n1 n2
V ar[R] = −1+2−2 ,
n−1 n
2n1 n2
sustituyendo por E[R] = n
+1
E[R] − 1
V ar[R] = (E[R] − 2)
n−1
(E[R] − 1) (E[R] − 2)
∴ V ar[R] =
n−1
Distribución exacta
Para calcular la distribución exacta de una serie dicotómica se debe calcular las
probabilidades de obtener determinados números de rachas condicionales en n1 y n2 .
Si la muestra es aleatoria, la probabilidad de que el número total de rachas sea un
número par es

n1 − 1 n2 − 1
2 v v
2
−1 −1
P (T = v|H0 es cierta) = 2 , si v es par
n
n1
La probabilidad de que el número total de rachas sea un número impar es:

n1 − 1 n2 − 1 n1 − 1 n2 − 1
v−1 v−1 + v−1 v−1
2
−1 2
−1
P (T = v|H0 es cierta) = 2 2
, si v es impar,
n
n1
donde v es el número de rachas y es tal que v = 2, 3, . . . , n.

Generalizando se tiene la siguiente función de densidad:

n1 − 1 n2 − 1
2 v


 v

 2
−1 2
−1
, si v es par


n







 n1
f (v) = P [T = v] =

n1 − 1 n2 − 1 n1 − 1 n2 − 1




 v−1 v−1 + v−1 v−1


2
−1 2 2 2
−1
, si v es impar





 n

n1

Como se observa, la función de densidad es discreta, por lo que la función de dis-

tribución y la de supervivencia quedan especificadas como:
v
X
F (v) = P [T ≤ v] = P (T = i),
i=Rmin
donde recuérdese que Rmin = 2.

R
X max
S(v) = P [T ≥ v] = P (T = i),
i=v
La regla de decisión es la de rechazar H0 con un nivel de significancia α si:
R < Wα/2 ó R > W1−α/2 . (1.1)
donde los cuantiles Wα/2 y W1−α/2 son tales que P (R ≤ Wα/2 ) = α2 , P (R ≤ W1−α/2 ) =
1− α2 evaluadas en sus correspondientes distribuciones asociadas en la estadı́stica R, que
se mencionó anteriormente, una evaluación en determinados puntos se puede encontrar
en el apéndice B.4.
Distribución asintótica
La distribución analizada anteriormente, es la distribución exacta de las rachas,

sin embargo, puede resultar un poco engorroso realizar todos los cálculos necesarios
para encontrar el cuantil que satisfaga las condiciones deseadas, es por ello que se
usa una aproximación a una distribución Normal estándar, ya que tiene un nivel de
convergencia alto, es decir, para tamaños de muestra grandes, usualmente se piden más
de 20 datos por muestra. En caso de no reunir el tamaño mı́nimo para una convergencia
a la normal, lo más recomendable es utilizar la distribución real de los datos. Sea R el
número de rachas totales, entonces:
R ∼ N ormal(E[R], V ar[R]),
estandarizando se tiene:
R − E[R]
Z=p ∼ N (0, 1),
V ar[R]
donde E[R] y V ar[R] es la esperanza y varianza obtenidas anteriormente.
2n1 n2 (E[R] − 1) (E[R] − 2)

E[R] = +1 V ar[R] =
n n−1
Esta distribución aunque es adecuada suele ser, a nivel teórico, menos precisa que
la distribución exacta, pero su cálculo es más sencillo y cuando el tamaño de muestra
es lo suficientemente grande las conclusiones son parecidas.
Uno de los principales problemas de la aproximación normal es que se intenta
ajustar una distribución discreta por medio de una distribución continua, como es
el caso de la distribución Normal, es por ello que algunos autores mencionan realizar
un ajuste de continuidad. Este ajuste suele proporcionar mejores estimaciones que
la aproximación normal, siendo esta una mejora en la estimación, sin embargo, no
sustituye a la distribución real. El ajuste de continuidad que se propone es:
 R−E[R]−0.5
 √ si R ≥ E[R]
V ar[R]
Zcc = R−E[R]+0.5
 √ si R < E[R]
V ar[R]
Con cualquiera de las anteriores aproximaciones se tiene la siguiente regla de deci-

sión:
Rechazar H0 si Z ≤ Wα/2 o si Z ≥ W1−α/2 , de lo contrario no se rechaza la prueba,
donde los cuantiles Wα/2 , W1−α/2 se obtiene de P [X < Wα/2 ] = α/2, P [X < W1−α/2 ] =
1−α/2, donde X sigue una aproximación normal estándar y Z es la estadı́stica obtenida
anteriormente, la cual puede ser resultado de la estandarización sobre el número de
rachas o del ajuste de continuidad.
Si el lector le interesa generar una tabla cómo la que se muestra en la tabla B.4,
pero con una aproximación normal puede ejecutar el siguiente código:
n1 = n2 = W005 = W01 = W025 = W05 = W1 = W9 = W95 = W975 = W99 = W995 = c ()
for ( n1 _ aux in 1:20) {
for ( n2 _ aux in 1:20) {
n = n1 _ aux + n2 _ aux
media = (2 * n1 _ aux * n2 _ aux ) / n +1
desviacion = sqrt (( media -1) * ( media -2) / (n -1) )
n1 [ length ( n1 ) +1]= n1 _ aux

n2 [ length ( n2 ) +1]= n2 _ aux
for ( cuantil in c ( " 005 " ," 01 " ," 025 " ," 05 " ," 1 " , " 9 " ," 95 " , " 975 " ," 99 " ,"
995 " ) ) {
eval ( parse ( text = paste (
" W " , cuantil , " [ length ( W " , cuantil , " ) +1]= round ( qnorm (0. " ,
cuantil , " , media , desviacion ) ,0) " , sep = " "
)))
}
}
}
Tabla _ WaldWolf = data . frame ( n1 , n2 , W005 , W01 , W025 , W05 , W1 , W9 , W95 , W975 , W99 ,
W995 )
tail ( Tabla _ WaldWolf )
n1 n2 W005 W01 W025 W05 W1 W9 W95 W975 W99 W995

395 20 15 11 12 13 13 14 22 23 24 25 25
396 20 16 11 12 13 14 15 23 24 24 26 26
397 20 17 12 12 14 14 16 23 24 25 26 27
398 20 18 12 13 14 15 16 24 25 26 27 28
399 20 19 13 13 14 15 17 24 26 27 28 28
400 20 20 13 14 15 16 17 25 26 27 28 29
Si se ejecuta, observará que para tamaño de muestras pequeñas la aproximación no

es muy buena, pero para 20 datos o más los resultados entre la distribución real y la
Normal son muy parecidos entre si.
Para ilustrar de mejor forma la prueba de Rachas se ejemplificará a través del
siguiente ejercicio.
Ejemplo 3. Suponga que compra el boleto para una rifa, el boleto le da la opor-
tunidad de ganar alguno de los 20 premios disponibles. El organizador asegura que
el procedimiento es completamente aleatorio. Para el dı́a de la rifa se han vendido
100 boletos. Después de realizar la rifa, los boletos ganadores fueron:
27 57 15 10 74 51 31 86 56 6
13 77 3 43 44 65 4 5 48 98
Usted duda y quiere comprobar la hipótesis del organizador, que la resultados fueron
aleatorios, con un nivel de significancia del 5 %.
Dado que se tiene múltiples datos y la prueba de corridas es dicotómica, se procede
a categorizar los resultados para formar dos subclases ambas excluyentes la una de la
otra. Para ello se ordena la información y se escoge como medida la mediana, (algunos
autores recomiendan elegir la media X̄), se propone a la mediana con la finalidad de
tener en ambos subgrupos el mismo número de elementos (con diferencia de +1 en caso
de que el tamaño de muestra sea impar) en este caso la mediana de la muestra es 43.5.
Una vez categorizada la información, los valores que son menores a la mediana se
les asignará la letra p, y los que son mayores a la mediana se les asignará la letra q, de
esta manera con la nueva asignación se genera una muestra aleatoria dicotómica.
p q p p q q p q q p
p q p p q q p p q q
Con los nuevos valores se contabilizan las rachas que tiene el modelo. De manera en
particular para el ejercicio se tiene: 12 rachas (R = 12), las cuales 6 corridas correspon-
den a números menores de 43.5,(r1 = 6), el resto corresponde a observaciones mayores
a 43.5, (r2 = 6), a continuación se muestran las cadenas de rachas que se tienen en el
experimento de la feria.
p q pp qq p qq pp q pp qq pp qq
Con un nivel de significancia α = 0.05, y con las subrachas r1 = 6 y r2 = 6 y con

el número de elementos n1 = 10 y n2 = 10, se procede a buscar la estadı́stica W 0.025
y W 0.975 , los cuales se obtienen de la tabla B.4, en este caso en particular la tabla
no proporciona valores para n1 = 10 y n2 = 10, ası́ que se tomará el más cercano, si
ejecuto la aproximación Normal con el código de R, puede usar dichos valores ya que
ahı́ se encuentran contenidos más puntos que en la tabla. De esta manera se tiene que:
R = 12 > 8 = W 0.025 y R = 12 < 16 = W 0.975 .
Como se observa, la estadı́stica R no cae en la región de rechazo, por lo que no se

rechaza la hipótesis nula, asumiéndose ası́ con un nivel de significancia del 5 %, que el
organizador efectivamente realizo la rifa de manera aleatoria.
Este ejercicio puede ser simulado en R a través del siguiente código, en el cual la
función runs.test está contenida en la librerı́a “tseries”.
library ( tseries )
set . seed (2018)
X = sample (1:100 , 20 , replace = FALSE ) # simulacion de la muestra
XFactor = as . factor (X < median ( X ) )
# La funcion runs . test solo acepta factores como parametro

runs . test ( XFactor )
Runs Test
data: XFactor
Standard Normal = -0.45947, p-value = 0.6459
alternative hypothesis: two.sided
En este caso, la prueba muestra el p − value = 0.6459 debido a que obtiene la

distribución asociada a R, de manera análoga, no se rechaza la hipótesis nula con un
nivel de significancia del 5 % ya que
p − value = 0.64 > 0.05 = α
Por lo que nuevamente se llega a la conclusión que el organizador realizó la rifa de
manera aleatoria.
Ejemplo 4. Un equipo profesional de beisbol tiene la siguiente sucesión de triunfos

y derrotas en la última temporada:
g p g g p g p p p g p p g g p g g p g p g p g p p g p g p,
donde g significa “ganó el juego” y p significa “perdió el juego”. ¿Puede decirse que
el récord de sus triunfos y derrotas es aleatorio?. Supongamos que α = 0.05.
Hay que ver el número de rachas que hay en la sucesión:
g p gg p g ppp g pp gg p gg p g p g p g pp g p g p
R = 22 rachas
Sea n el tamaño de la muestra (total de juegos), entonces n = 29.
n1 = número de juegos ganados = 14
n2 = número de juegos perdidos = 15
La región crı́tica está definida como:

C= r | r < ωα/2 o r > ω1−α/2
donde ωα/2 = ω.025 = 10 y ω1−α/2 = ω.975 = 20. Como R = 22 > 20 = ω.975 se puede
concluir que el récord de triunfos y derrotas del equipo no es aleatorio, i.e. existe cierta
tendencia.
Ejemplo 5. Se tiene la siguiente lista de números:
15 77 01 64 69 58 40 81 16 60 20 00 84 22
28 26 46 66 36 86 66 17 49 85 40 51 30 10
¿Puede decirse que estos números son números aleatorios?.
Primero se calcula la mediana de la muestra y se divide ésta en dos grupos (mayores

o menores que la mediana), ya que la mediana es generalmente el cuantil más adecuado
para verificar la aleatoriedad en este caso.
Ahora se ordena la muestra para calcular la mediana:
00 01 10 15 16 17 20 22 26 28 30 36 40 40
46 49 51 58 60 64 66 66 69 77 81 84 85 86
e = 40+46
como el total de observaciones: n = 28 es par, la mediana es x 2
= 43. Denotando
por “a” a los números menores a la mediana y por “b” a los mayores, la sucesión original
queda de la siguiente forma:
a b a bbb a b a b aa b aaa bb a bb a bb a b aa
donde R = 19 total de corridas.

Aquı́ n1 = n2 = 14, sea α = 0.01, entonces ωα/2 = ω.005 = 8 y ω1−α/2 = ω.995 = 22
Como R = 19 < 22 = ω.995 , no se rechaza la hipótesis de aleatoriedad
y los números pueden considerarse como números aleatorios.

Capı́tulo 2
Pruebas de bondad de ajuste
Dada una distribución (Normal, Poisson, Gamma, etc.) es fácil dar estimaciones
acerca de los valores los parámetros desconocidos asociados a la distribución propues-
ta. Sin embargo, en la práctica, al realizar un muestreo difı́cilmente se conocerá la
distribución que los datos siguen, es por ello que se idearon métodos para ajustar a la
muestra aleatoria un modelo no paramétrico, estos métodos son denominados “pruebas
de bondad de ajuste”, en todos ellos se ajusta un modelo con un nivel de significancia
α para probar la hipótesis:
H0 : F (X) = FX∗ vs. Ha : F (X) 6= FX∗ .
Donde FX∗ es una distribución completamente conocida, es decir además de conocer

a la familia que pertenece también se conoce sus parámetros.
De esta manera si se rechaza la hipótesis nula hay evidencia suficiente para suponer
que la muestra aleatoria no se comporta como la distribución que se propuso. En las
siguientes secciones se abordará y desarrollarán algunas de las pruebas más importantes
de bondad de ajuste.
2.1. Prueba Ji-Cuadrada
La prueba de bondad de ajuste, fue uno de los primeros métodos en desarrollarse

para probar que un conjunto de datos sigue una determinada distribución. Esta prueba
fue ideada por primera vez por Karl Pearson alrededor de 1900, la cual consiste en medir
las diferencias entre la frecuencia esperada y la frecuencia observada, elementos con los
que se construye la estadı́stica que ayuda a contrastar la siguiente prueba de hipótesis:
19
20 Pruebas de bondad de ajuste
H0 : F (X) = FX∗ vs. Ha : F (X) 6= FX∗ .

El método divide a los datos en k diferentes clases, mutuamente independientes
una de la otra, cada clase o categorı́a se denotado como Ci con i = 1, 2, . . . , k, de igual
manera se denota como ni , al número de elementos que pertenecen en Ci , es decir, en
cada clase se mide la frecuencia de las observaciones. Debe satisfacerse que la suma de
todas las frecuencias de las diversas clases den como resultado el tamaño de la muestra,
n = ki=1 ni , posterior a ello se calcula bajo FX∗ , la distribución completamente cono-
P
cida, la probabilidad o proporción de veces que se esperarı́a que ocurriera el evento o

clase i, (P [X = Ci ]), debe de considerarse que la suma de todas las probabilidades debe
sumar 1, es decir ki=1 pi = 1, generalmente se escoge a la probabilidad de la k-ésima
P
categorı́a como 1 − P [X < Ck ] para satisfacer esta última condición. Finalmente se

obtiene la frecuencia esperada de eventos que sucedan en la clase Ci al multiplicar el
tamaño de la muestra n por la probabilidad o proporción que se esperarı́a que suceda
un evento en esa clase. Ası́ se tiene la siguiente tabla:
Frecuencia Probabilidad Frecuencia

Clase Observada Esperada Esperada
C1 n1 p1 n(p1 )
C2 n2 p2 n(p2 )
.. .. .. ..
. . . .
Ck nk pk n(pk )
Más adelante se realizará la demostración formal de la obtención de la estadı́stica,

sin embargo para no interrumpir al lector en el análisis puede suponerse a este momento
que Pearson definió a la estadı́stica T como:
k
X (Oi − ei )2
T = , (2.1)
i=1
ei
donde Oi es la frecuencia observada y ei es la frecuencia esperada en la clase i.

La estadı́stica T mide las distancias entre la frecuencia observada y la frecuencia
esperada, si la distribución propuesta FX∗ se apega a los datos entonces el valor de T se
aproximarı́a a 0, ya que la frecuencia observada serı́a similar a la esperada, dando como
resultado que las diferencias sean pequeñas. Se sabe gracias a Pearson que T ∼ χk−1 .
Este resultado se analizará más adelante.
2.1 Prueba Ji-Cuadrada 21
Debido a la distribución asociada a T , la región de rechazo de la prueba de hipótesis

planteada es cuando T sea muy grande a comparación del cuantil de una Ji-cuadrada
con k − 1 grados de libertad evaluada en el nivel de confianza 1 − α, es decir, hay
evidencia de rechazar la prueba de hipótesis cuando:
2(1−α)
T > χk−1 ,
en otro caso, no se rechaza H0 . A pesar de ser una de las pruebas más sencillas para
probar que una muestra sigue una determinada distribución, presenta una serie de
supuestos para su realización:
El tamaño de la muestra debe ser mayor a 20 elementos.
Clases con menos de 5 observaciones deben de ser combinadas con otra clase con
la finalidad de no poseer clases pequeñas.
Menos del 20 % de los datos deben de ser combinados en diversas clases para ası́
dar buenas aproximaciones.
Las clases son definidas por el investigador por lo que las k categorı́as son com-
pletamente arbitrarias lo que puede provocar que la prueba sea no sea válida para
diversos juicios.
2.1.1. La distribución de la estadı́stica de prueba
Para estudiar la distribución de la estadı́stica de prueba (2.1), se utilizará el cociente

de verosimilitudes generalizadas y su distribución asintótica, de acuerdo al siguiente
planteamiento del problema.
En su forma más simple, se tienen k celdas, en cada una de las cuales puede caer
el resultado de un experimento. Sea pi , i = 1, 2, ..., k, la probabilidad de que el expe-
rimento arroje un resultado que caiga en la i-ésima celda y sea ni , i = 1, 2, ..., k, el
número de veces que el resultado cae en la i-ésima celda en un total de n = ki=1 ni
P
realizaciones del experimento. En resumen, se tiene el siguiente esquema:
Celda i 1 2 3 ··· k
Número de observaciones en la celda i n1 n2 n3 ··· nk
Probabilidad de que el resultado esté en la celda i p1 p2 p3 ··· pk
En donde se cumplen las condiciones:

k
X k
X
ni = n y pi = 1.
i=1 i=1
Considerando cada celda por separado, cada vez que el resultado caiga en dicha
celda puede pensarse en un éxito y después de efectuar las n repeticiones del experi-
mento, sólo es relevante el total de veces que el resultado cayó en la celda. Lo anterior,
sugiere asociar una distribución binomial para cada celda, siendo pi la probabilidad
de éxito en un sólo ensayo del experimento y, como se efectúan n de tales ensayos, el
número esperado de éxitos para la i-ésima celda será la esperanza de la correspondiente
variable binomial, es decir npi . Ası́, para cada una de las celdas se tendrı́a que:
oi n1 n2 . . . nk
ei np1 np2 . . . npk ,
donde oi representa las frecuencias observadas y ei representa las frecuencias esperadas
en un total de n realizaciones del experimento. En este contexto, es posible plantear
el problema de bondad de ajuste mediante la siguiente pregunta: ¿cómo se puede
determinar si un conjunto de resultados experimentales es compatible con los resultados
esperados de acuerdo con las probabilidades que fueron postuladas para las celdas?
Formalmente, se desea probar la hipótesis:
H0 : pi = πi , i = 1, 2, ..., k;
donde las πi0 s son los valores postulados de las probabilidades de las celdas. Ésta es
una hipótesis simple; sin embargo, y debido a que ordinariamente no se tiene una
hipótesis alternativa en mente, se emplea aquı́ una prueba de razón de verosimilitudes
generalizadas.
La función de verosimilitud (o densidad conjunta de la muestra), para una variable
aleatoria discreta es la probabilidad de obtener los valores muestrales observados en el
orden en el cual fueron obtenidos, es decir:
L (θ) ≡ L (θ | n1 , n2 , ..., nk ) = pn1 1 pn2 2 pn3 3 ...pnk k , donde θ = (p1 , p2 , . . . , pk ).
Como ki=1 pi = 1, solamente k − 1 de las pi ’s son parámetros independientes; por lo

P
tanto, para encontrar los estimadores máximo verosı́miles de las pi ’s, se reemplazará
pk por 1 − k−1
P
i=1 pi , quedando:
k−1
!nk
n
X
L (θ) = pn1 1 pn2 2 pn3 3 ...pk−1k−1
1− pi .
i=1
La log-verosimilitud está dada por:

k−1
!
X
ln L (θ) = n1 ln p1 + n2 ln p2 + ... + nk−1 ln pk−1 + nk ln 1 − pi
i=1
k−1 k−1
!
X X
= ni ln pi + nk ln 1 − pi .
i=1 i=1
Derivando con respecto a pi e igualando a cero, se obtiene:

∂ ln L (θ) ni nk
= − Pk−1 = 0, i = 1, 2, ..., k − 1
∂pi pi 1 − i=1 pi
ni nk
⇒ = , i = 1, 2, ..., k
pi pk
⇒ ni pk = nk pi , i = 1, 2, ..., k
Sumando las k igualdades se tiene que:

k
X k
X
pk ni = nk pi ,
i=1 i=1
Pk Pk
donde i=1 ni = n y i=1 pi = 1, implicando que:
pk n = nk ,
por lo tanto
nk
. pbk =
n
Este resultado puede generalizarse a las demás pi ’s como:
ni
pbi = , i = 1, 2, ..., k.
n
Bajo la hipótesis nula:
L (θ) = π1n1 π2n2 ...πknk ,
la cual no tiene parámetros desconocidos, por lo que el cociente de verosimilitudes
generalizadas resulta ser:
máxθ∈Θ0 L (θ)
λ =
máxθ∈Θ L (θ)
π n1 π n2 ...π nk
= n1 n1 1 n22n2 k nk nk
... n
n n1n n n
nπ1 nπ2 2 nπk k
= ... ,
n1 n2 nk
donde cada ni tiene distribución Binomial(n, pi ) . Encontrar la distribución de λ es
complicado, ası́ que se puede utilizar la distribución asintótica de -2 ln λ como una
Ji-cuadrada con grados de libertad igual a la diferencia en el número de parámetros
independientes no especificados bajo Θ y Θ0 , en este caso, k − 1. Entonces la prueba
se reduce a considerar:
k
X nπi
−2 ln λ = −2 ni ln ,
i=1
n i
como una variable aleatoria con distribución Ji-cuadrada con k − 1 grados de libertad
y la región crı́tica queda determinada por:
λ ≤ λ0 ,
si y sólo si
ln λ ≤ ln λ0 ,
si y sólo si
−2 ln λ ≥ −2 ln λ0 = c,
donde
k
X nπi
−2 ln λ = −2 ni ln
i=1
ni
k
X πi
= −2 ni ln
i=1
ni /n
k
X ni
= −2 ni ln πi − ln . (2.2)
i=1
n
Por lo tanto, la región crı́tica es:
C = {−2 ln λ ≥ c} ,
o ( )
k
X ni
C = −2 ni ln πi − ln ≥c ,
i=1
n
donde c es tal que

P [−2 ln λ ≥ c | H0 ] = α.
Karl Pearson propuso la expresión (2.1) como estadı́stica de prueba para el problema
de bondad de ajuste, la cual es equivalente a:
k
X (ni − ei )2
T = , (2.3)
i=1
ei
donde ei representa el valor esperado en la celda i, es decir npi y, bajo Ho, ei = nπi .
A continuación se demostrará que la expresión para −2 ln λ dada en (2.2) es asintóti-
camente equivalente a (2.3).
ni
La expansión en series de Taylor para ln pi alrededor de pbi = n
es:
(pi − pbi )2

1 1
ln pi = ln pbi + (pi − pbi ) + − 2 +ε
pbi 2! pbi
n
2 2
pi − ni

ni ni n n
= ln + pi − − + ε,
n n ni 2 ni
o
ni ni n ni 2 n2
ln pi − ln = pi − − pi − + ε, (2.4)
n n ni n 2n2i
donde ε representa la suma de términos con signo alternante:
∞
X j+1
ni j nj
(−1) pi − .
j=3
n j!nji
Bajo H0 , pi = πi , ası́ que sustituyendo (2.4) en (2.2), se obtiene que:

k
X ni
−2 ln λ = −2 ni ln πi − ln
i=1
n
k
ni 2 n2

X ni n
= −2 ni p i − − pi − 2
+ε
i=1
n n i n 2n i
k k k
X X (nπi − ni )2 X
= −2 (nπi − ni ) + + ε0 , (2.5)
i=1 i=1
ni i=1
donde
k
X k
X k
X
(nπi − ni ) = n πi − ni = n − n = 0,
i=1 i=1 i=1
por lo que (2.5) se reduce a

k
X (nπi − ni )2
− 2 ln λ = + ε00 , (2.6)
i=1
ni
y ε00 → 0 cuando n → ∞, con probabilidad 1. (2.6) también puede escribirse como:

k
X (ni − nπi )2
− 2 ln λ = , (2.7)
i=1
ni
expresión que, bajo la hipótesis nula pi = πi , es muy similar a (2.3), excepto por el
denominador, pues ei = nπi .
ni
Por la Ley Débil de los Grandes Números se sabe que la variable aleatoria n
converge en probabilidad a pi , es decir:
h n i
i
lı́m P − pi > ε = 0, para toda ε > 0,
n→∞ n
lo cual es equivalente a:

1
lı́m P (|ni − npi | > ε) = 0, para toda ε > 0
n→∞ n
o
1
lı́m P (|ni − npi | < ε) = 1, para toda ε > 0,
n→∞ n
concluyendo que cuando n → ∞, es posible sustituir a ni por npi , por lo que bajo la
hipótesis nula, (2.7) se puede escribir como
k
X (ni − nπi )2
−2 ln λ = ,
i=1
nπi
que es igual a la estadı́stica T dada por (2.3).

Como la distribución asintótica de −2 ln λ es Ji-cuadrada con k − 1 grados de
libertad, se concluye que la estadı́stica T tiene esa distribución.
Ejemplo 6. Se tiene información estadı́stica de 200 pólizas de automóviles re-

gistradas en el 2010 en el Estado de Puebla, en esta primera etapa se requiere
determinar la distribución asociada a la frecuencia de la siniestralidad. Dado que
la frecuencia está relacionada a conteos, se desea hacer el siguiente contraste:
H0 : La frecuencia de la siniestralidad ∼ P oisson(λ = 1.02)

vs.
Ha : La frecuencia de la siniestralidad P oisson(λ = 1.02).
Realiza la prueba de la χ2 al 95 % de significancia.
Frecuencia
Eventos Observada
0 58
1 75
2 36
3 15
4 10
5 6
1. Se procede a calcular los cuantiles para

λ xi
P (X = xi ) = e−λ .
xi !
Recordar que la suma probabilidades deben de ser 1, por lo que se modifica el

último valor obteniendo:
Frecuencia Probabilidad
Eventos Observada Esperada
−1.02 1.020
0 58 e 0!
= 0.36059494
−1.02 1.021
1 75 e 1!
= 0.367806839
−1.02 1.022
2 36 e 2!
= 0.187581488
−1.02 1.023
3 15 e 3!
= 0.063777706
−1.02 1.024
4 10 e 4!
= 0.016263315
5 6 1 − P (X ≤ 4) = 0.003975712
2. Se obtiene las observaciones esperadas
ê = nP (xi ).
donde n = 200. Ası́ se obtiene la siguiente tabla:
Cuadro 2.1: Tabla de la chi-cuadrada para P oisson

Clase Ci Oi pi ei
0 58 0.36059494 72.11898803
1 75 0.367806839 73.5613678
2 36 0.187581488 37.51629758
3 15 0.063777706 12.75554118
4 10 0.016263315 3.252663
5 6 0.003975712 0.795142419
P (Oi −ei )2
3. Se obtiene la estadı́stica T = ei
= 51.3152
4. Se compara el cuantil, ya que T = 51.3152 y la región de valor crı́tico con un

2(1−0.05)
nivel de significancia α = 0.05 es χ5 = 11.070, por lo que:
2(1−0.05)
51.31 = T > χ5 = 11.07
Por lo que la estadı́stica T cae en la región de rechazo, ası́ que se tiene evidencia
suficiente para rechazar la hipótesis nula, la cual propone que los datos tienen
una distribución Poisson con parámetro λ = 1.02.
A través de R, el anterior resultado se puede realizar con el siguiente código:

Oi = c (58 ,75 ,36 ,15 ,10 ,6) # Observaciones
Ci = c (0 ,1 ,2 ,3 ,4 ,5) # clases
Pi = dpois ( Ci , 1.02) # cálculo de probabilidades
Pi [6]=1 - sum ( pi [1:5]) # Suma de Pi =1
chisq . test ( x = Oi , p = pi ) # función de la ji - cuadrada
Chi-squared test for given probabilities
data: Oi
X-squared = 51.315, df = 5, p-value = 7.454e-10
Warning message:
In chisq.test(x = Oi, p = pi) : Chi-squared approximation may be incorrect
Se observa que ambos resultados son similares, debido al p − value = 7.454e − 10 <
α = 0.05 lo que conlleva a que se rechace la hipótesis nula con un nivel de significancia
del 5 % por lo que hay evidencia suficiente para suponer que la muestra no sigue una
distribución Poisson con parámetro λ = 1.02.
2.2. Kolmogorov-Smirnov
En ejercicios prácticos es muy difı́cil conocer la distribución de una muestra aleato-

ria, generalmente sólo se tiene la información; ésta hay que procesarla para averiguar
si sigue una determinada distribución probabilı́stica, en un primer intento se ajustó
mediante la prueba de la Ji-cuadrada, sin embargo, al ser una de las pruebas más sen-
cillas su “potencia” al estimar una determinada distribución es baja, es por ello, que
se idearon otros métodos y uno de ello es la Prueba de Kolmogorov-Smirnov.
La prueba de Kolmogorov presenta la ventaja de que los datos no deben ser ca-
tegorizadas para poder realizar estimaciones en su distribución. Al igual que en la
prueba de la Ji-Cuadrada, Kolmogorov-Smirnov trabaja con una distribución Fx∗ (Xi )
totalmente especificada, es decir, se debe de tener sospecha de que la muestra alea-
toria siga una determinada distribución. De esta manera el objeto de estudio es una
muestra X1 , . . . , Xn de variables aleatorias idénticamente distribuidas, las cuales siguen
una distribución desconocida F (X) y se tiene la sospecha de que la muestra sigue una
2.2 Kolmogorov-Smirnov 29
distribución conocida Fx∗ (Xi ). Para probar la suposición de la distribución Fx∗ (Xi ) se
realiza la siguiente contraste:
H0 : F (Xi ) = Fx∗ (Xi ) vs. Ha : F (Xi ) 6= Fx∗ (Xi ) ∀i = 1, . . . n.
Donde Fx∗ (Xi ) es una distribución completamente conocida, es decir además de

conocer a la familia que pertenece también se conoce sus parámetros.
Lo que se busca es poder medir las distancia entre F (Xi ), la distribución descono-
cida, con los datos que siguen la función de distribución propuesta y completamente
conocida Fx∗ (Xi ). Sin embargo, F (Xi ) al ser desconocida se recurre a la construcción
de una distribución empı́rica la cual se define como:
Pn
1x≤Xi
Fn (Xi ) = i=1 .
n
Es decir, la función empı́rica mide el número de elementos menores o iguales a la

observación Xi , puede observarse que en el caso continuo, al no haber “empates” la
función empı́rica puede ser vista como:
i
Fn (Xi ) = , i = 1, . . . , n.
n
Al tener una distribución desconocida F (Xi ), la función empı́rica Fn (Xi ) puede ser
usada como un estimador insesgado de F (Xi ) pues:
Pn
i=11x≤Xi
E(Fn (Xi )) = E
n
Pn
= i=1 E (1x≤Xi ) ,
n
pero 1x≤Xi ∼ Bernoulli(P (x ≤ Xi )) = Bernoulli(p = F (Xi )) de esta forma
n
E(Fn (Xi )) = E (1x≤Xi )
n
= P (x ≤ Xi )
E(Fn (Xi )) = F (Xi ).
La función empı́rica es de gran importancia ya que gracias al teorema de Glivenko-

Cantelli se sabe que cuando el tamaño de la muestra tiende a infinito cualquier distri-
bución empı́rica se aproxima a la distribución real de los datos, la cual dicho sea de
paso, es una distribución completamente especificada. El teorema de Glivenko-Cantelli,

menciona que al calcular las diferencias de la distribución real y la empı́rica éstas son
cero en cada observación dada, el teorema que se enuncia como:
Sea X1 , . . . , Xn una muestra aleatoria de distribución F (Xi ) desconocida y sea
Fn (Xi ) la función empı́rica entonces.
sup |Fn (Xi ) − F (Xi )| → 0.

x∈R
Es decir, conforme mayor sea el tamaño de la muestra, Fn (Xi ) reproduce la verda-

dera distribución. De esta manera se establece la estadı́stica Dn , la cual no depende
de ningún parámetro desconocido, ya que engloba a la distribución empı́rica y a la
distribución propuesta:
Dn = sup |Fn (Xi )−Fx∗ (Xi )| = max{max{Fn (Xi−1 )−Fx∗ (Xi )}, max{Fn (Xi )−Fx∗ (Xi )}} ∀i.
x∈R
La anterior afirmación se desarrolla y demuestra en el siguiente teorema:
Teorema 2.1. Sea X1 , . . . , Xn una muestra de variables aleatorias idénticamente

distribuidas, sea Fn (Xi ) y Fx∗ (Xi ), la distribución empı́rica y la distribución pro-
puesta completamente especificada evaluadas en Xi i = 1, . . . , n respectivamente y
sea Dn+ = max [Fn (Xi ) − Fx∗ (Xi )] y Dn− = max [Fn (Xi−1 ) − Fx∗ (Xi )] distribucio-
nes completamente conocidas para cualquier distribución especificada y continua
Fx∗ (Xi ). Entonces la estadı́stica Dn cumple con ser de la forma:
Dn = sup |Fn (Xi ) − Fx∗ (Xi )| = max{D+ , D− }.

x∈R
Demostración:
Sea Dn = Sup|Fn (Xi ) − Fx∗ (Xi )| = max(D+ , D− ). Si se define a X(0) = −∞ y
x x
X(n+1) = ∞, se puede escribir la función empı́rica de la siguiente forma, recuerde que
la función real de los datos que se quiere comprobar sigue una distribución continua.
i
Fn (Xi ) = para X(i) ≤ x ≤ X(i+1) , i = 0, 1, . . . , n
n
De esta manera se tiene:

Dn+ = sup [Fn (Xi ) − Fx∗ (Xi )]

x
Dn+ = max sup [Fn (Xi ) − Fx∗ (Xi )]
o≤i≤nX ≤x≤X
(i) (i+1)

i ∗
Dn+ = max sup − Fx (Xi )
o≤i≤nX ≤x≤X
(i) (i+1)
n
" #
i
Dn+ = max − inf Fx∗ (Xi )
o≤i≤n n X(i) ≤x≤X(i+1)

+ i ∗
Dn = max − Fx (Xi )
o≤i≤n n

+ i ∗
Dn = max max − Fx (Xi ) , 0 .
o≤i≤n n
De forma similar para Dn− se tiene:
Dn− = sup [Fn (Xi−1 ) − Fx∗ (Xi )]

x
Dn− = max sup [Fn (Xi−1 ) − Fx∗ (Xi )]
o≤i≤nX ≤x≤X
(i) (i+1)

i−1
Dn− = max sup − Fx∗ (Xi )
o≤i≤nX ≤x≤X
(i) (i+1)
n
" #
i − 1
Dn− = max − inf Fx∗ (Xi )
o≤i≤n n X(i) ≤x≤X(i+1)

− i−1 ∗
Dn = max − Fx (Xi )
o≤i≤n n

− i−1 ∗
Dn = max max − Fx (Xi ) , 0 .
o≤i≤n n
De esta forma, la estadı́stica Dn se comporta como:
Dn = max(Dn+ , Dn− )

i ∗ i−1 ∗
Dn = max max max − Fx (Xi ) , 0 , max max − Fx (Xi ) , 0
o≤i≤n n o≤i≤n n

i ∗ i−1 ∗
Dn = max max − Fx (Xi ) , max − Fx (Xi ) , 0 .
o≤i≤n n o≤i≤n n
De esta última igualdad, la probabilidad de Dn+ , Dn− y Dn dependen sólo de variables

aleatorias completamente especificadas, es decir Fn (Xi ) y Fx∗ (Xi ), i = 1, 2, . . . , n.
Finalmente, se observa que si H0 es cierta entonces Dn → 0 ya que las diferencias

entre la diferencias entre la función empı́rica y la propuestas son mı́nimas, lo que
cumple con el teorema de Glivenko-Cantelli; por lo que hay evidencia de rechazar H0
cuando Dn > wk1−α donde wk1−α es el cuantil que acumula el 1 − α de probabilidad de
la distribución asociada a Dn la cual puede obtenerse al consultar el apéndice B.1, el
cual muestra los cuantiles de la distribución Kolmogorov-Smirnov .
Ejemplo 7. Dada la siguiente muestra 0.6379, 1.5299, 0.35005, 2.0505, 2.1906,

0.3459, 2.3214, 0.3128, 0.6548, 2.4373, 1.803, 2.3674, 1.2716, 0.2566 y 0.2513 ,
se desea hacer el siguiente contraste:
H0 : La muestra ∼ LogN (0, 1)

vs.
Ha : La muestra LogN (0, 1)
Realice la prueba de Kolmogorov-Smirnov al 5 % de significancia.
1. De las Xi observadas se procede a ordenarlas de menor a mayor, este vector se

denominará Xi ord
Pn
1
2. Se calcula la función empı́rica, es decir, i=1n Xi ≤x ∀i ∈ 1, 2, . . . , n, a este vector
se le denotará como Fn (xi ), para fines de éste ejercicio, ya que no hay ningún
valor repetido se supondrá que Fn (xi ) = 15i = 15
1 2
, 15 , . . . , 1
−1+ n
P
1
i=1 Xi ≤x
3. Se calcula la función empı́rica menos un valor, es decir, n
∀i ∈
1, 2, . . . , n este vector se denominará Fn (xi−1 ), para fines de este ejercicio, Fn (xi−1 ) =
i−1 0 1
12
= 15 , 15 , . . . , 14
15
4. Se calcula la distribución observada, es decir, P (X ≤ xi )
5. Se calcula Di+ que es el resultado de la resta de la distribución observada menos

la empı́rica es decir
Di+ = |P (X ≤ xi ) − Fn (xi )|
6. Se calcula Di− que es el resultado de la resta de la distribución observada menos

la empı́rica menos uno es decir
Di− = |P (X ≤ xi ) − Fn (xi−1 )|
De esta forma se tiene la siguiente tabla:

Cuadro 2.2: Tabla de Kolmogorov-Simirnov para Xi ∼ N (0, 1)

Xi Xi ord. Fn (Xi ) Fn (Xi )(x − ε) P (X < xi ) D+ D−
1 0.6379 0.2513 0.0667 0.0000 0.0836 0.0170 0.0836
2 1.5299 0.2566 0.1333 0.0667 0.0869 0.0465 0.0202
3 0.35005 0.3128 0.2000 0.1333 0.1226 0.0774 0.0108
4 2.0505 0.3459 0.2667 0.2000 0.1442 0.1225 0.0558
5 2.1906 0.3505 0.3333 0.2667 0.1472 0.1861 0.1194
6 0.3459 0.6379 0.4000 0.3333 0.3265 0.0735 0.0068
7 2.3214 0.6548 0.4667 0.4000 0.3360 0.1307 0.0640
8 0.3128 1.2716 0.5333 0.4667 0.5949 0.0616 0.1283
9 0.6548 1.5299 0.6000 0.5333 0.6647 0.0647 0.1313
10 2.4373 1.803 0.6667 0.6000 0.7222 0.0556 0.1222
11 1.803 2.0505 0.7333 0.6667 0.7636 0.0303 0.0970
12 2.3674 2.1906 0.8000 0.7333 0.7835 0.0165 0.0502
13 1.2716 2.3214 0.8667 0.8000 0.8002 0.0665 0.0002
14 0.2566 2.3674 0.9333 0.8667 0.8056 0.1277 0.0611
15 0.2513 2.4373 1.0000 0.9333 0.8135 0.1865 0.1198
7. Finalmente realizada la tabla, se calcula el máximo de las columnas Di+ y Di− ,

de esta manera se tiene:
D+ = max{Di+ } D− = max{Di− }
En este caso:
D+ = max{Di+ } = 0.186 D− = max{Di− } = 0.131
8. Se calcula el supremo para ello se obtiene el máximo entre D+ y D−
D = max{D+ , D− }
En el caso del ejercicio: D = 0.186
9. Este último resultado se compara con la tabla de valores crı́ticos de Kolmogorov-

Smirnov, consultar apéndice B.1, para un nivel de significancia α = 0.05
∴ W0.05 = 0.337
De esta manera se tiene que 0.337 = W0.05 > D = 0.186, como la estadı́stica W0.05
es mayor a comparación de D = 0.186 se acepta la prueba de lognormalidad con
media 1 y varianza 0, con un nivel de significancia α = 0.05.
Como se mencionó anteriormente:
Dn = sup |Fn (Xi )−Fx∗ (Xi )| = max{max{Fn (Xi−1 )−Fx∗ (Xi )}, max{Fn (Xi )−Fx∗ (Xi )}} ∀i
x∈R
Esta última estadı́stica permite encontrar intervalos de confianza, ya que cuando

Dn ≤ W1−α no se tiene evidencia de rechazar la hipótesis nula, de esta manera es
deseable conocer:
P (Dn ≤ W1−α ) = 1 − α

∗
P sup |Fn (Xi ) − Fx (Xi )| ≤ W1−α = 1 − α
x
P (|Fn (Xi ) − Fx∗ (Xi )| ≤ W1−α ∀x) = 1 − α,
por desigualdad del valor absoluto
P (−W1−α ≤ Fn (Xi ) − Fx∗ (Xi ) ≤ W1−α ∀x) = 1 − α

P (Fn (Xi ) − W1−α ≤ Fx∗ (Xi ) ≤ W1−α + Fn (Xi ) ∀x) = 1 − α.
Por lo tanto si la distribución propuesta es verdadera entonces Fx∗ (Xi ) ∈ (Fn (Xi ) ∓ W1−α ),
es decir, debe de estar contenida en las bandas de confianza con un nivel de significancia
α. Esto puede ser observado en el siguiente ejemplo:
Ejemplo 8. Las tallas, medida en metros, de nueve peces espadas capturados

en alta mar fueron: 1.628, 1.352, 1.8, 1.42, 1.594, 2.132, 1.614, 1.924, 1.692,
se piensa que sigue las medidas siguen una distribución normal con parámetros
N (1.684, 0.2422 ) se realiza la prueba de kolmogorov para verificar la bondad del
ajuste con un nivel de significancia α = 0.05.
H0 : Xi ∼ N (1.684, 0.2422 ) vs. H0 : Xi N (1.684, 0.2422 )
1. De la Xi observadas se procede a ordenarlas de menor a mayor a este vector se

le denominará Xi ord
2. Se calcula la función empı́rica, denominando a este vector como Fn (Xi ), para

fines de este ejercicio: Fn (Xi ) = 9i = 19 , 92 , . . . , 1
3. Se calcula la función empı́rica retrasada, para fines de este ejercicio, Fn (Xi−1 ) =

i−1
9
= 09 , 91 , . . . , 89
4. Se calcula la distribución observada, es decir, F (X ≤ xi )
5. Se calcula Di+ correspondiente a la resta de la distribución observada menos la

empı́rica, es decir:
Di+ = |F (X ≤ xi ) − Fn (Xi )|
6. Se calcula Di− correspondiente a la resta de la distribución observada menos la

empı́rica retrasada, es decir:
Di− = |F (X < xi ) − Fn (Xi−1 )|
Cuadro 2.3: Tabla de Kolmogorov-Simirnov para Xi ∼ N (1.684, 0.2422 )

Xi Xi ord. Fn (Xi ) Fn (x − 1) F (X < xi ) D+ D−
1 1.628 1.352 0.11111 0.00000 0.08505 0.02606 0.08505
2 1.352 1.42 0.22222 0.11111 0.13766 0.08457 0.02655
3 1.8 1.594 0.33333 0.22222 0.35498 0.02165 0.13276
4 1.42 1.614 0.44444 0.33333 0.38619 0.05825 0.05286
5 1.594 1.628 0.55556 0.44444 0.40850 0.14706 0.03594
6 2.132 1.692 0.66667 0.55556 0.51319 0.15348 0.04237
7 1.614 1.8 0.77778 0.66667 0.68415 0.09363 0.01748
8 1.924 1.924 0.88889 0.77778 0.83934 0.04955 0.06156
9 1.692 2.132 1.00000 0.88889 0.96793 0.03207 0.07904
7. Finalmente realizados Di− y Di+ , se observa cual es máximo de las dos, ası́ se
tiene:
En este caso:
D+ = max{Di+ } = 0.15348 D− = max{Di− } = 0.13276
8. Se calcula el supremo para ello se obtiene el máximo entre D+ y D−
D = max{D+ , D− }

9. Este último resultado se compara con la tabla de valores crı́ticos de Kolmogorov-

Smirnov, consultar apéndice B.1, para un nivel de significancia α = 0.05
∴ W0.05 = 0.43001
Como 0.43001 = W0.05 > D = 0.15348, la estadı́stica W0.05 es muy grande a

comparación de D = 0.15348, no se tiene evidencia suficiente para rechazar H0
por lo que se supone que la talla de los peces se comporta con normalidad con
parámetros Xi ∼ N (1.684, 0.2422 ) con un nivel de significancia α = 0.05.
10. Una vez aceptada la prueba se calculan los intervalos de confianza de manera
que la banda inferior es Fn (Xi ) − W1−α y la superior es Fn (Xi ) + W1−α de esta
manera se tiene:
Cuadro 2.4: Intervalos de KS para Xi ∼ N (1.684, 0.2422 )

Xi ord. Fn (Xi ) P (X < xi ) Fn (Xi ) − W1−α Fn (Xi ) + W1−α
1 1.352 0.11111 0.08505 0 (-0.3189) 0.54121
2 1.42 0.22222 0.13766 0 (-0.207) 0.65232
3 1.594 0.33333 0.35498 0 (0.096) 0.76343
4 1.614 0.44444 0.38619 0.01434 0.87454
5 1.628 0.55556 0.40850 0.12546 0.98566
6 1.692 0.66667 0.51319 0.23657 1 (1.096)
7 1.8 0.77778 0.68415 0.34768 1 (1.207)
8 1.924 0.88889 0.83934 0.45879 1 (1.31)
9 2.132 1.00000 0.96793 0.56990 1 (1.43)
El teorema de Glivenko-Cantelli se comprueba numéricamente a través de R, que

da como resultado la figura 2.1 el cual fue generado con el siguiente código, el cual
enuncia que entre más grande sea el tamaño de la muestra, la función propuesta y
completamente especificada, se aproxima a la función de distribución empı́rica.
par ( mfrow = c (2 ,2) ) # # cómando graficar 4 gráficas en 1 ventana

x = rnorm (10 ,0 ,1) # # Simula 10 valores normales media 0 , desviación 1
f = ecdf ( x ) # # Crea la función de dsitribución empı́rica
# # gráficamos la función empı́rica de color azul
plot (f , xlab = " observados " , ylab = " función de probabilidad " , main = "
muestra con 10 valores " , col = " darkcyan " )
# gráficamos la función de distribución de una normal 0 , 1 con los
datos almacedos
curve ( pnorm (x , 0 , 1) , add = TRUE , col = " red " )
x = rnorm (25 ,0 ,1)

f = ecdf ( x )
x = rnorm (100 ,0 ,1)

f = ecdf ( x )
x = rnorm (1000 ,0 ,1)

f = ecdf ( x )
Se observa que efectivamente, entre más grande sea el tamaño de la muestra, la fun-
ción empı́rica se aproxima más a la distribución propuesta, por lo que numéricamente
la siguiente proposición es válida:.
sup |Fn (Xi ) − Fx∗ (Xi )| → 0.

x∈R
En R la función que realiza la prueba de Kolmogorov-Smirnov es kstest y su

implementación es de la siguiente manera, en la cual se comprobará el primer ejercicio
desarrollado
# # Agregamos los valores a la variable x

x = c (0.6379 ,1.5299 ,0.35005 ,2.0505 ,2.1906 ,0.3459 ,2.3214 ,
0.3128 ,0.6548 ,2.4373 ,1.803 ,2.3674 ,1.2716 ,0.2566 ,0.2513)
# # Aplicamos la prueba KS , compuesto por datos ( x ) ,

# distribución a poner a prueba ( plnorm )
# # parametros media (0) , desviación 1
ks . test (x , plnorm , 0 , 1)
One-sample Kolmogorov-Smirnov test
data: x
D = 0.18649, p-value = 0.609
alternative hypothesis: two-sided
Muestra con 10 valores Muestra con 25 valores
1.0
1.0
Función de probabilidad
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
−1.5 −0.5 0.5 1.5 −1 0 1 2
Observados Observados
Muestra con 100 valores Muestra con 1000 valores

1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
−2 −1 0 1 2 3 −4 −2 0 2
Observados Observados
Figura 2.1: Relación de la función empı́rica (puntos azules) y la distribución teórica de

los datos (lı́nea continua de color rojo) para diversos tamaños muestrales
La estadı́stica D obtenida es igual al que se generó mediante la realización del

ejemplo 7, el p − value mostrado en la prueba confirma que con un nivel de significacia
alpha = 0.01 (99 % de confianza) se acepta la prueba de normalidad.
Para la comprobación del ejemplo 8, se puede implementar el siguiente código:
# Agregamos los valores a la variable x

x = c (1.628 ,1.352 ,1.8 ,1.42 ,1.594 ,2.132 ,1.614 ,1.924 ,1.692)
# # Aplicamos la prueba KS , compuesto por datos ( x ) ,

# distribución a poner a prueba ( pnorm )
# # parametros media (0) , desviación 1
ks . test (x , pnorm , 1.684 ,0.242)
data: x
D = 0.15348, p-value = 0.9629
La estadı́stica D obtenida es igual al que se generó mediante la realización del

ejemplo 8, el p − value mostrado en la prueba confirma que con un nivel de significacia
alpha = 0.01(99 % de confianza) se acepta la prueba de normalidad.
Para la realización de los intervalos de confianza es necesario tener precargado el
paquete NSM3 para implementar el siguiente código.
library ( NSM3 )
# ## Banda inferior
ecdf . ks . CI ( x ) $ lower
# # banda superior
ecdf . ks . CI ( x ) $ upper
[1] 0.00000000 0.00000000 0.00000000 0.01443444 0.12554556 0.23665667 0.34776778

[8] 0.45887889 0.56999000
[1] 0.5411211 0.6522322 0.7633433 0.8744544 0.9855656 1.0000000 1.0000000

[8] 1.0000000 1.0000000
Las bandas son iguales a la que obtuvo en el ejercicio de los peces, por lo que
graficando la distribución real, la empı́rica, ası́ como los intervalos de confianza.
# ## Grafico
ecdf . ks . CI ( x )
curve ( pnorm (x , 1.684 , 0.242) , add = TRUE , col =3)
ecdf(x) + 95% K.S.bands
1.0
0.8
0.6
Fn(x)
0.4
0.2
0.0
1.4 1.6 1.8 2.0 2.2
x
n= 9
Calculo del tamaño de una muestra
Una de las aplicaciones más interesantes de la prueba de Kolmogorov-Smirnov,

además de probar normalidad, es que la estadı́stica Dn puede ser usada para determinar
el tamaño mı́nimo de una muestra aleatoria que garantice, con un nivel de signficancia
α, que el error en la estimación no exceda un valor positivo c. El valor c representa al
porcentaje de error en la estimación a lo más permisible en un tamaño muestral dado,
es decir se busca que:
P (Dn ≤ c) = 1 − α,
lo es equivalente a
1 − P (Dn ≤ c) = α
P (Dn > c) = α.
Como se mencionó anteriormente la estadı́stica Dn cumple que cuando Dn ≤ W1−α

no se tiene evidencia suficiente para rechazar la hipótesis nula, es decir:
P (Dn ≤ W1−α ) = 1 − α,
lo es equivalente a
1 − P (Dn ≤ W1−α ) = α
P (Dn > W1−α ) = α.
De estas últimas igualdades se observa que c = W1−α ; Dado que se conoce el nivel
de significancia α, el porcentaje de error en la estimación c y que la única variable que
se desconoce es el tamaño de la muestra n, ésta puede obtenerse de la tabla de cuantiles
de la prueba de Kolmogorov-Smirnov mostrada en el apéndice B.1 . Para ejemplificar
se tiene el siguiente ejemplo:
Ejemplo 9. Usted desea tomar una muestra de una población especificada, por lo que
se pregunta cuál deberı́a ser el mı́nimo tamaño muestral que garantice que el error en
la estimación sea menor a 0.27 con un nivel de confianza del 99 %.
Solución:
Cómo se desea un nivel de confianza del 99 % entonces el nivel de significancia es
0.01, por lo que en la columna α = 0.01 de la tabla B.1, se busca el valor c = 0.27, lo
0.97
cual es hallado cuando n = 35 (W35 = 0.26897) ya que es el valor más próximo por
abajo de 0.27. De esta manera el tamaño mı́nimo de la muestra debe ser de al menos
35 elementos.
La tabla B.1 está acotada a valores menores o iguales a 50 elementos, si se desea
obtener cuantiles mayores a éstos se usan aproximaciones, las cuales de igual manera
son mostradas en la tabla de Kolmogorov-Smirnov. Para ello vea el siguiente ejemplo:
Ejemplo 10. Usted desea tomar otra una muestra de la misma población especificada,
pero ahora busca el mı́nimo tamaño muestral que garantice que el error en la estimación
sea menor a 0.10 con un nivel de confianza del 95 %.
Solución:
Cómo se desea un nivel de confianza del 95 % entonces el nivel de significancia es
0.05, por lo que en la columna α = 0.05 de la tabla B.1, se busca el valor c = 0.10,
como no es hallado dentro de los primeros 50 elementos usa la aproximación indicada
0.8043545
√
n
, esta aproximación es probada para diversos valores de n hasta que se satisfaga
con ser el primer tamaño que tenga un cuantil por debajo de 0.10, lo cual es logrado
cuando n = 77 ya que:
0.99 0.875897
W77 = p = 0.09981773
(77)
Por lo que el tamaño muestral mı́nimo deberá ser de al menos 77 elementos.

Nótese que entre mayor sea el tamaño muestral requerido menor será el error en la
estimación pues puede mostrarse fácilmente que:
Cons
lı́m √ = 0.
n→∞ n
donde Cons es la constante especificada para cada nivel de significancia α, es decir,

mientras que el número de elementos en una muestra sea lo considerablemente grande
se tendrá más confiabilidad de que la población es representada por la muestra aleatoria
logrando ası́ mejores estadı́sticas pues el error en la estimación disminuye.
2.3. La prueba de Lilliefors
Como se mencionó anteriormente la prueba de Kolmogorov-Smirnov posee el su-

puesto de que la distribución que se desea comprobar debe ser completamente especifi-
cada, es decir, conocer tanto la familia como el valor de los parámetros que conforman
dicha distribución. Debido al problema que puede ocasionar el no conocer los paráme-
tros, se modificó la prueba de Kolmogorov-Smirnov, con la finalidad de que sólo con
conocer la distribución se pudiera poner a prueba un conjunto de datos para saber si
siguen una cierta familia probabilı́stica con un nivel de confianza deseado, al aproximar
a los parámetros a través del uso de los estimadores puntuales. Esta prueba fue pre-
sentada por primera vez por Hubert Lilliefors en 1967. En este trabajo se examinará
la prueba Lilliefors para probar normalidad y exponencialidad.
2.3.1. Lilliefors para normalidad
Como su nombre lo indica la prueba de Lilliefors puede ser usada para probar con
un nivel de significancia dado, que una muestra aleatoria sigue una distribución normal
con media X̄ y varianza S 2 , los cuales corresponden a los estimadores puntuales de la
media y varianza denotados como:
n Pn 2
Xi i=1 Xi − X̄
X
2
X̄ = y S = .
i=1
n n − 1
Con esa adaptación se procede a realizar el procedimiento similar a la prueba de

Kolmogorov-Smirnov, a excepción del último paso en donde la estadı́stica varı́a un poco,
a continuación se muestra un ejemplo de la aplicación de Lilliefors para normalidad.
Ejemplo 11. Los siguientes datos, corresponden a una muestra aleatoria en la que
mide la perdida y ganancia de peso en KG de un grupo después vacaciones.
0.6822, 3.994, -0.9705, -0.5575, -2.1532, 0.0829, 2.9224, 0.2425,

-0.4962, -0.1621, 0.449, -0.8827, -0.8368, -1.5805, 0.386.
2.3 La prueba de Lilliefors 43
Se desea hacer el contraste:
H0 : La muestra ∼ N (µ, σ 2 )
vs.
Ha : La muestra N (µ, σ 2 )
Realice la prueba de Lilliefors al 95 % de significancia.
Para esta ejercicio se proporcionan las observaciones Xi y se desea comprobar que

la muestra sigue una distribución normal Xi ∼ N con media (µ) y varianza (σ) desco-
nocidas, por lo que se usa la prueba de Lilliefors, este método consiste en:
1. Primero se procede a contrastar mediante pruebas hipótesis el supuesto de nor-

malidad:
H0 : Los datos de la muestra siguen una distribución normal
Ha : Los datos de la muestra no siguen una distribución normal
2. Se elige un nivel significancia de cometer el error tipo 1, es decir rechazar H0

cuando es verdadera, el ejercicio menciona que es a un nivel de significancia
α = 0.05.
3. De la Xi observadas se procede a ordenarlas de menor a mayor, este vector se

denotará como Xi ord
4. Se obtienen los estimadores puntuales de distribución normal con los datos de la

muestra, por lo que la media es calculada como: x̄ = ni=1 xni = 0.074633333 y la
P
2
i −x̄)
varianza es calculada como S = ni=1 (xn−1
P
= 2.530670687.
Pn
i=1 1X≤Xi
5. Se calcula la función empı́rica, Fn (xi ) = n
, para fines de este ejercicio,
1 2
Fn (xi ) = 15 , 15 , . . . , 1.
6. Se calcula la función empı́rica menos uno, Fn (xi−1 ), para fines de este ejercicio.
0 1 14
Fn (xi−1 ) = , ,..., .
15 15 15
7. Se realiza la estandarización de la normal, este paso no es necesario, pero se hace
para la facilitar la búsqueda de valores acumulados de una normal estándar a
través de tablas. En este caso en particular, se usa la aproximación a una normal
estándar.
xi − 0.7463 xi − 0.7463
P Z< √ =ψ Z< √ .
2.5306 2.5306
8. Se calcula la distribución observada al evaluar φ(Z).
9. Se calcula Di+ la cual es calculada mediante la resta de la distribución observada

menos la empı́rica es decir
i
Di+ = φ(Z)i −
n
10. Se calcula Di− la cual es calculada mediante la resta de la distribución observada

menos la empı́rica retrasada es decir:
i−1
Di− = φ(Z)i −
n
donde finalmente D− = max{Di− }.

Cuadro 2.5: Tabla de Lilliefors normalidad

Xi Xi ord. Z = xis−x̄ P (Z) D+ D−
1 0.6822 -2.1532 -1.4004 0.0807 0.0140 0.0807
2 3.994 -1.5805 -1.0404 0.1491 0.0157 0.0824
3 -0.9705 -0.9705 -0.6570 0.2556 0.0556 0.1223
4 -0.5575 -0.8827 -0.6018 0.2737 0.0070 0.0737
5 -2.1532 -0.8368 -0.5729 0.2833 0.0500 0.0167
6 0.0829 -0.5575 -0.3974 0.3455 0.0545 0.0122
7 2.9224 -0.4962 -0.3588 0.3599 0.1068 0.0401
8 0.2425 -0.1621 -0.1488 0.4409 0.0925 0.0258
9 -0.4962 0.0829 0.0052 0.5021 0.0979 0.0313
10 -0.1621 0.2425 0.1055 0.5420 0.1246 0.0580
11 0.449 0.386 0.1957 0.5776 0.1557 0.0891
12 -0.8827 0.449 0.2353 0.5930 0.2070 0.1403
13 -0.8368 0.6822 0.3819 0.6487 0.2179 0.1513
14 -1.5805 2.9224 1.7901 0.9633 0.0300 0.0966
15 0.386 3.994 2.4638 0.9931 0.0069 0.0598
11. Finalmente realizada la anterior tabla de resumen, se calcula el supremo de la

diferencias, es decir, el máximo de la columna Di+ y la columna Di− , de esta
manera se tiene:
En este caso:
D+ = max{Di+ } = 0.151259139 D− = max{Di− } = 0.217925806
12. Para calcular el supremo se obtiene el máximo entre D+ y D−
D = max{D+ , D− }
13. Esté último resultado se compara con la tabla de valores crı́ticos de Lilliefors,
consular apéndice B.2, para un nivel de significancia α = 0.05 α = 0.05.
∴ W0.05 = 0.219
Como 0.219 = W0.05 > D = 0.217925806, la estadı́stica W0.05 es ligeramente

más grande a comparación de D = 0.2179 no se tiene evidencia suficiente para
rechazar H0 , por lo que se supone que la muestra se comporta con normalidad
con un nivel de significancia α = 0.05.
En R la prueba puede ser realizada mediante el siguiente código, en el cual se hace

uso de la paqueterı́a nortest el cual contiene varias pruebas de bondad de ajuste:
library ( nortest )
x = c (0.6822 , 3.994 , -0.9705 , -0.5575 , -2.1532 , 0.0829 , 2.9224 ,

0.2425 , -0.4962 , -0.1621 , 0.449 , -0.8827 , -0.8368 , -1.5805 ,0.386)
lillie . test ( x )
Lilliefors (Kolmogorov-Smirnov) normality test
data: x
D = 0.21793, p-value = 0.05356
Por lo que la estadı́stica D es el misma, una de las ventajas de realizar la prueba

en R, es que proporciona el p − value, donde se observa que p − value > 0.05 = α con
lo que se concluye que no se tiene suficiente evidencia para rechazar la hipótesis nula,
por lo que con un nivel de significancia del 5 % se tiene evidencia de que la muestra
tiene una distribución normal.
2.3.2. Lilliefors para la distribución exponencial
La prueba de Lilliefors para exponencialidad puede ser usada para probar que un
nivel de confianza dado, una muestra aleatoria sigue una distribución exponencial con
media λ̂ = X̄1 , el cual corresponde al estimador puntual de la media.
n
X n 1
λ̂ = =
i=1
Xi X̄
Con esa adaptación se procede a realizar el procedimiento similar a la prueba de

Kolmogorov-Smirnov, a excepción del último paso en donde la estadı́stica varı́a un
poco, a continuación se muestra un ejemplo de la aplicación de Lilliefors para expo-
nencialidad.
Ejemplo 12. Dada la siguiente muestra
0.4976, 1.2514, 0.6619, 0.561, 1.0026, 0.3529, 0.8595, 1.6254,

1.1514, 1.5181, 0.8642, 0.5206, 0.4229, 0.9825, 1.0183.
Se desea hacer el siguiente contraste:
H0 : La muestra ∼ Exp(λ)
vs.
Ha : La muestra Exp(λ)
Realice la prueba de Lilliefors al 95 % de significancia
1. De las Xi observadas se procede a ordenarlas de menor a mayor, este vector será

denotado como Xi ord.
2. Se obtiene el estimador puntual de la distribución exponencial con los datos de

la muestra, por lo que el λ es calculada como:
15 1
λ̂ = =
13.2903 0.88602
Pn
i=1 1X≤Xi
3. Se calcula la función empı́rica, Fn (xi ) = n
, para fines de este ejercicio,
1 2
Fn (xi ) = 15 , 15 , . . . , 1.
4. Se calcula la función empı́rica retrasada, a este vector se le denotará como Fn (xi −

0 1 14
1), para fines de este ejercicio, Fn (xi ) = 15 , 15 , . . . , 15 .
5. Se calcula la distribución observada, es decir, P (X ≤ xi ) de la forma:
F̂0 (X) = 1 − e−xi /x̄
donde:
15
X xi
x̄ = = 0.88602
i=1
15
6. Se calcula Di+ la cual es calculada mediante la resta de la distribución observada

menos la empı́rica es decir
i
Di+ = φ(Z)i −
n
7. Se calcula Di− la cual es calculada mediante la resta de la distribución observada

menos la empı́rica retrasada es decir:
i−1
Di− = φ(Z)i −
n
donde finalmente D− = max{Di− }

8. Finalmente realizada la anterior tabla de resumen, se calcula el supremo de la

diferencias, es decir, el máximo de la columna Di+ y la columna Di− , de esta
manera se tiene:
En este caso:
D+ = max{Di+ } = 0.261871436 D− = max{Di− } = 0.328538102
9. Para calcular el supremo se obtiene el máximo entre D+ y D− .
D = max{D+ , D− }

Cuadro 2.6: Tabla de Lilliefors exponencial

Xi Xi ord. Sn(x) Sn(x − 1) F̂0 (X) D+ D−
1 0.4976 0.3529 0.0667 0.0000 0.3285 0.2619 0.3285
2 1.2514 0.4229 0.1333 0.0667 0.3795 0.2462 0.3129
3 0.6619 0.4976 0.2000 0.1333 0.4297 0.2297 0.2964
4 0.561 0.5206 0.2667 0.2000 0.4443 0.1777 0.2443
5 1.0026 0.561 0.3333 0.2667 0.4691 0.1358 0.2024
6 0.3529 0.6619 0.4000 0.3333 0.5262 0.1262 0.1929
7 0.8595 0.8595 0.4667 0.4000 0.6209 0.1543 0.2209
8 1.6254 0.8642 0.5333 0.4667 0.6229 0.0896 0.1563
9 1.1514 0.9825 0.6000 0.5333 0.6701 0.0701 0.1367
10 1.5181 1.0026 0.6667 0.6000 0.6775 0.0108 0.0775
11 0.8642 1.0183 0.7333 0.6667 0.6831 0.0502 0.0165
12 0.5206 1.1514 0.8000 0.7333 0.7273 0.0727 0.0060
13 0.4229 1.2514 0.8667 0.8000 0.7564 0.1102 0.0436
14 0.9825 1.5181 0.9333 0.8667 0.8197 0.1136 0.0469
15 1.0183 1.6254 1.0000 0.9333 0.8403 0.1597 0.0930
10. Esté último resultado se compara con la tabla de valores crı́ticos de Lilliefors,
consular apéndice B.2, para un nivel de significancia α = 0.05.
∴ W0.05 = 0.33760
Como 0.33760 = W0.05 > D = 0.328538102, la estadı́stica W0.05 es más grande

a comparación de D = 0.32 por lo que no se tiene la evidencia suficiente para
rechazar la hipótesis nula de exponencialidadd con un nivel de significancia α =
0.05.
En R este resultado puede ser obtenido con el siguiente código, el cual usa como
base la prueba de Kolmogorov-Smirnov.
x = c (0.4976 , 1.2514 , 0.6619 , 0.561 , 1.0026 , 0.3529 , 0.8595 , 1.6254 ,

1.1514 , 1.5181 , 0.8642 , 0.5206 , 0.4229 , 0.9825 , 1.0183)
ks . test (x , pexp , 1 / mean ( x ) )
data: x
2.4 Anderson Darling 49
D = 0.32854, p-value = 0.06073

Por lo que la estadı́stica D es el misma, una de las ventajas de realizar la prueba

en R, es que proporciona el p − value, donde se observa que p − value > 0.05 = α con
lo que se concluye que no se tiene suficiente evidencia para rechazar la hipótesis nula,
por lo que con un nivel de significancia del 5 % se tiene evidencia de que la muestra
tiene una distribución normal.
2.4. Anderson Darling
La prueba de Anderson Darling, al igual que la prueba de Lilliefors sirve para probar
la hipótesis de que una muestra aleatoria sigue una cierta distribución especificada.
Anderson Darling al igual que las anteriores pruebas de bondad de ajuste tiene como
contraste de la prueba a las siguientes hipótesis.
H0 : F (Xi ) = Fx∗ (Xi ) vs. Ha : F (Xi ) 6= Fx∗ (Xi ).
Donde Fx∗ (Xi ) es la distribución teórica que se quiere probar con un nivel de signi-
ficancia α.
Para probar dicha hipótesis Anderson propone examinar las diferencias al cuadrados
entre la distribución empı́rica de los datos (Fn (Xi )) y la distribución teórica propuesta
y completamente especificada Fx∗ (Xi )(X) y luego integrar respecto a la distribución
propuesta. A este tipo de pruebas se les conoce como funciones de distribución
empı́ricas cuadráticas (QEDF) por sus siglas en inglés.
De esta manera la estadı́stica de la prueba Anderson-Darling se obtiene de integrar
la siguiente función QEDF:
Z ∞
1
2
An = n (Fn (Xi ) − Fx∗ (Xi )(X))2 ∗ .
−∞ Fx (Xi )(X)(1 − Fx∗ (Xi )(X))
1
Una caracterı́stica importante es que se usa la expresión F ∗ (Xi )(X)(1−F ∗ debido
x x (Xi )(X))
a que se busca que las colas de distribución tengan un peso cuantificablemente mayor,
con la finalidad de detectar diferencias en las colas de la distribución.
Resolviendo la integral se obtiene la estadı́stica de la forma:
n
X 2i − 1
2
An = −n − [ln (Fx∗ (Xi )) + ln(1 − Fx∗ (Xi )(xn−i+1 ))] .
i=1
n
Dado que la estadı́stica no depende de F (Xi ) y sólo depende de n entonces la dis-

tribución asitótica de Anderson-Darling es la que se muestra a continuación, asimismo
se mostrará algunos ajustes a la estadı́stica con la finalidad de que la prueba sea más
potente para determinados casos:
1−α
Caso Ajuste en la estadı́stica 0.90 0.95 0.975 0.99
Todos los parámetros conocidos A2n para n ≥ 52 1.933 2.492 3.070 3.857
4 25
Normal con N (X̄, S 2 ) 1 + n + n2 An 0.632 0.751 0.870 1.029
0.6 2
Exponencial con exp(X̄) 1 + n An 1.070 1.326 1.587 1.943
0.2
Weibull con W eibull(α̂, β̂) 1+ √
n
A2n 0.637 0.757 0.877 1.038

0.25
Log-lógista con loglog(α̂, β̂) 1+ √
n
A2n 0.563 0.660 0.769 0.906
Finalmente la regla de decisión será rechazar H0 si A2n > W 1−α , donde W 1−α es el
cuantil asociado a la distribución A2n bajo H0 , la cual puede consultarse en el apéndice
B.3 .
Para ejemplificar la prueba de Anderson Darling vea el siguiente enunciado
Ejemplo 13. Se desea probar la bondad del ajuste da la siguiente muestra
-4.1302, 9.315, 3.9757, 8.49, 5.6204, -6.9098, -0.1426, -2.3838,

-2.0039, 1.7349, 5.7442, 2.7931, 6.2938, 11.7337, -0.1318.
Se desea hacer el siguiente contraste:
H0 : La muestra ∼ N (µ, σ 2 )
vs.
Ha : La muestra N (µ, σ 2 )
Para ello se realizará la prueba de Anderson Darling con un nivel de significan-

cia del 5 %.
1. De las Xi observadas se procede a ordenarlas de menor a mayor este vector se

nombrará Xi ord
2. Se obtienen los estimadores puntuales de distribución normal con los datos de
la muestra, por lo que la media es calculada como: x̄ = ni=1 xni = 2.66658 y la
P
2
i −x̄)
varianza como: S = ni=1 (xn−1
P
= 28.23022452
2.4 Anderson Darling 51
3. Se calcula la distribución propuesta, en este caso una distribución normal con

media x̄ y varianza S 2 , es decir, P (X ≤ xi ), para ello se usa la aproximación a
una normal estándar.

xi − 2.66658 xi − 2.66658
P Z<√ =ψ Z< √
28.23022452 28.23022452
4. Se calcula el primer sumando ln (Fx∗ (Xi )) el cual se denotará como L1 , después

se calculará el segundo sumando ln(1 − Fx∗ (Xi )(xn−i+1 )) el cual se denota como
L2 .
5. Se calcula el incremento 2i−1

n
el cual se nombrará como Inc.
6. Por último se realiza el sumando de manera puntal, es decir, calcular

2i − 1
Qi = [ln (Fx∗ (Xi )) + ln(1 − Fx∗ (Xi )(xn−i+1 ))]
n
para i = 1, . . . , n. De esta forma se construye la tabla 2.7, la cual resume la
información anterior.
Cuadro 2.7: Tabla de Lilliefors exponencial

Xi Xi ord. Fx∗ (Xi )(X) L1 L2 Inc Qi
1 -4.1302 -6.9098 0.04 -3.331 -3.125 0.067 -0.43
2 9.315 -4.1302 0.1 -2.298 -2.25 0.200 -0.91
3 3.9757 -2.3838 0.17 -1.767 -1.991 0.333 -1.25
4 8.49 -2.0039 0.19 -1.662 -1.397 0.467 -1.43
5 5.6204 -0.1426 0.3 -1.209 -1.269 0.600 -1.49
6 -6.9098 -0.1318 0.3 -1.207 -1.241 0.733 -1.79
7 -0.1426 1.7349 0.43 -0.843 -0.91 0.867 -1.52
8 -2.3838 2.7931 0.51 -0.674 -0.712 1.000 -1.39
9 -2.0039 3.9757 0.6 -0.515 -0.563 1.133 -1.22
10 1.7349 5.6204 0.71 -0.341 -0.356 1.267 -0.88
11 5.7442 5.7442 0.72 -0.33 -0.355 1.400 -0.96
12 2.7931 6.2938 0.75 -0.284 -0.21 1.533 -0.76
13 6.2938 8.49 0.86 -0.147 -0.187 1.667 -0.56
14 11.7337 9.315 0.89 -0.111 -0.106 1.800 -0.39
15 -0.1318 11.7337 0.96 -0.045 -0.036 1.933 -0.16
7. Finalmente se suma todos los Qi y se construye la estadı́stica:
n n
X X 2i − 1
A2n = −n − Qi = −n − [ln (Fx∗ (Xi )) + ln(1 − Fx∗ (Xi )(xn−i+1 ))]
i=1 i=1
n
∴ A2n = 0.134020
8. Dado los puntos crı́ticos mencionados anteriormente se observa que con un nivel
de confianza 1 − α = 0.95, el punto W 0.95 = 2.492 es mayor que la estadı́stica
A2n , es decir:
A2n = 0.13402 < 2.492 = W 0.95
Por lo que la prueba no rechaza H0 , por lo que se asume que la muestra sigue
una distribución normal con un nivel de significancia de α = 0.05.
En R este resultado puede ser obtenido con el siguiente código, el cual usa como
base la prueba la función ad-test la cual se encuentra en la librerı́a “nortest”.
library ( nortest )
x = c ( -4.1302 , 9.315 ,3.9757 , 8.49 , 5.6204 , -6.9098 ,

-0.1426 , -2.3838 , -2.0039 ,1.7349 ,
5.7442 , 2.7931 , 6.2938 , 11.7337 , -0.1318)
ad . test ( x )
Anderson-Darling normality test
data: x
A = 0.13402, p-value = 0.9722
Usando el procedimiento de R, la estadı́stica A2n proporcionado es el mismo que

se habı́a obtenido de manera manual. Sin embargo, la herramienta computacional nos
proporciona el p − value el cual se observa que:
p − value = 0.972 > 0.05 = α
Por lo que no se rechaza la hipótesis H0 , por consiguiente, con al menos un nivel de

significancia del 5 % se tiene evidencia de que la muestra tiene una distribución normal.
Capı́tulo 3
Tablas de contingencia
Las tablas de contingencia, como lo dice su nombre, son tablas en el que se muestra
las frecuencias de diferentes clases, con la finalidad de observar si dos variables son
independientes entre si. Para la realización de esta prueba las frecuencias son anota-
das en tablas en las cuales cada observación es categorizada de manera exhaustiva y
mutuamente excluyente entre si. Una clasificación es exhaustiva cuando proporciona
suficientes categorı́as para acomodar a todos los miembros de la población. Las ca-
tegorı́as son mutuamente excluyentes cuando están definidas de tal manera que cada
miembro de la población puede ser asignado correctamente a una y sólo una categorı́a.
Para una versión general de una una tabla de contingencia de dos dimensiones,
suponga que la clasificación usa r renglones y c columnas, y sea Pij la probabilidad de
que un individuo elegido al azar de la población bajo consideración, caerá en la celda
correspondiente al i − ésimo renglón y j − ésima columna. Además, sea:
c
X
Pi• = Pij la probabilidad de estar en el i − ésimo renglón
j=1
r
X
P•j = Pij la probabilidad de estar en la j − ésima columna.
i=1
Al igual que en la prueba de la ji-cuadrada para bondad de ajuste, se tiene la

condición de que la suma de probabilidades debe ser igual a uno, lo cual se logra, si y
sólo si la suma de las marginales por columna y por renglón es igual 1, respectivamente,
es decir:
53
54 Tablas de contingencia
r X
X c r
X c
X
Pij = 1 ⇔ Pi• = 1 y P•j = 1.
i=1 j=1 i=1 j=1
El siguiente arreglo muestra una tabla de contingencia con r renglones y c columnas

(r y c categorı́as respectivamente para cada una de las variables involucradas).
Carac. 1 Carac.2 ... Carac. c Total

Pc
Variable 1 P11 P12 ... P1c P1j = P1•
Pj=1
c
Variable 2 P21 P22 ... P2c j=1 P2j = P2•
.. .. .. .. .. ..
. . . . . .
Pc
Variable r Pr1 Pr2 ... Prc j=1 Prj = Pr•
Pr Pr Pr
Total i=1 Pi1 = P•1 i=1 Pi2 = P•2 ... i=1 Pic = P•c
Sea nij la frecuencia observada en la celda (i, j), entonces, se tiene el siguiente
arreglo de tamaño r×c, en el cual la observación nrc corresponde al número de elementos
de la variable r que presenta la caracterı́stica c, ası́:
Carac. 1 Carac.2 ... Carac. c Total

Pc
Variable 1 n11 n12 ... n1c n1j = n1•
Pj=1
c
Variable 2 n21 n22 ... n2c j=1 n2j = n2•
.. .. .. .. .. ..
. . . . . .
Pc
Variable r nr1 nr2 ... nrc j=1 nrj = nr•
Pr Pr Pr
Total i=1 ni1 = n•1 i=1 ni2 = n•2 ... i=1 nic = n•c
El número de elementos totales es denotado como n, el cual corresponde a la suma

de cada frecuencia observada en el experimento:
r X
X c
nij = n,
i=1 j=1
y los totales marginales por renglón o columna se pueden escribir como:
r
X c
X
nij = n•j , nij = ni•
i=1 j=1
El problema de probar si las dos variables clasificadas son independientes puede

plantearse como:
H0 : Pij = Pi• P•j i = 1, 2, ..., r ; j = 1, 2, ..., c.

55
La función de verosimilitud, para una variable aleatoria discreta es la probabilidad

de obtener los valores maestrales observados en el orden en el que fueron observados:
n11 n12 n1c n21 n22 n2c nr1 nr2 nrc

L (θ) = P11 P12 . . . P1c . . . P21 P22 . . . P2c . . . . . . Pr1 Pr2 . . . Prc
Lo cual puede simplificarse con el doble producto de la forma:

r Y
c
n
Y
L (θ) = Pij ij . (3.1)
i=1 j=1
Cuando H0 es verdadera:
r Y
Y c
L (θ) = (Pi• P•j )nij . (3.2)
i=1 j=1
En las expresiones anteriores todos los parámetros que aparecen son desconocidos
para todo i y j, dichos parámetros son:
Pij , Pi• y P•j i = 1, 2, ..., r ; j = 1, 2, ..., c;
por lo que los valores esperados (o frecuencia esperada) para cada celda (i, j), de la
forma:
eij = nPij = nPi• P•j (bajo H0 )

necesarios para la prueba, son desconocidos, por lo que se reemplazarán por sus esti-
madores máximo verosı́miles correspondientes.
Para encontrar el máximo de la función dada en (3.2) de estas dos últimas expre-
siones, observe que:
r−1
X c−1
X
Pr• = 1 − Pi• y P•c = 1 − P•j , (3.3)
i=1 j=1
entonces (bajo H0 ):
r Y
Y c r Y
Y c
L (θ) = (Pi• P•j )nij = (Pi• )nij (P•j )nij
i=1 j=1 i=1 j=1
r
! c
!
n
Y Y
= Pi•ni• P•j•j .
i=1 j=1
De esta forma:
r
X c
X
ln L (θ) = ni• ln Pi• + n•j ln P•j
i=1 j=1
r−1
X c−1
X
= ni• ln Pi• + nr• ln Pr• + n•j ln P•j + n•c ln P•c
i=1 j=1
Sustituyendo ln Pr• y ln P•c de (3.3), se obtiene:
r−1 r−1
! c−1 c−1
!
X X X X
ln L (ω) = ni• ln Pi• + nr• ln 1 − Pi• + n•j ln P•j + n•c ln 1 − P•j .
i=1 i=1 j=1 j=1
Entonces para cada i y cada j fijas,
∂ ln L (ω) 1 (−1)
= ni• + nr• Pr−1 =0 (3.4)
∂Pi• Pi• 1 − i=1 Pi•
∂ ln L (ω) 1 (−1)
= n•j + n•c Pc−1 =0 (3.5)
∂P•j P•j 1 − j=1 P•j
de (3.4):
ni• nr•
= ⇒ ni• Pbr• = nr• Pi• i = 1, 2, ..., r
Pi• Pr•
entonces r r
X X
Pbr• ni• = nr• Pi•
i=1 i=1
Pr Pr
donde i=1 ni• = n y i=1 Pi• = 1.
Por lo tanto:
nr•
Pbr• = ,
n
y de (3.5),
n•j n•c
= ⇒ n•j Pb•c = n•c P•j j = 1, 2, ..., c
P•j P•c
57
lo cual implica que:

c
X c
X
Pb•c n•j = n•c P•j ,
j=1 j=1
Pc Pc
donde j=1 n•j = n y j=1 P•j = 1.
Por lo tanto:
n•c
Pb•c = .
n
El desarrollo es válido para cualquier i = 1, 2, ..., r y j = 1, 2, ..., c, por lo que:
ni• b n•j
Pbi• = y P•j = .
n n
En consecuencia, la función de verosimiltud maximizada en el espacio paramétrico
definido por H0 es:
r c
Y ni• ni• Y n•j n•j
máx L (θ) = . (3.6)
θ∈Θ0
i=1
n j=1
n
Ahora, la función de verosimilitud en todo el espacio paramétrico es:
r Y
c
n
Y
L (θ) = Pij ij
i=1 j=1
y
r X
X c
ln L (θ) = nij ln Pij .
i=1 j=1
De la hipótesis inicial, se puede escribir:

r X
X c
Pij = 1 ,
i=1 j=1
lo que implica que !

c X
X r−1 c−1
X
Prc = 1 − Pij + Prj .
j=1 i=1 j=1
Por lo tanto:
c X
X r−1 c−1
X
ln L (Θ) = nij ln Pij + nrj ln Prj + nrc ln Prc
j=1 i=1 j=1
c X
r−1 c−1 c X
r−1 c−1
!!
X X X X
= nij ln Pij + nrj ln Prj + nrc ln 1 − Pij + Prj .
j=1 i=1 j=1 j=1 i=1 j=1
Derivando con respecto a Pij se obtiene que:
∂ ln L (Θ) nij (−1) nrc

= + P P = 0,
∂Pij Pij 1− c r−1
P +
Pc−1
P
j=1 i=1 ij j=1 rj
entonces
nij nrc
= ,
Pij Pbrc
de donde
nij Pbrc = nrc Pij i = 1, 2, ..., r y j = 1, 2, ..., c.
Como:
r X
X c r X
X c
Pij = 1 y nij = n,
i=1 j=1 i=1 j=1
se tiene que:
r X
c r X
c
X X nrc
Pbrc nij = nrc Pij ⇒ Pbrc = .
i=1 j=1 i=1 j=1
n
Al igual que antes, el argumento es válido para cualquier i y j, por lo tanto:
nij
Pbij = i = 1, 2, ..., r y j = 1, 2, ..., c.
n
Ası́, la función de verosimilitud maximizada en todo el espacio paramétrico queda

de la siguiente manera:
r Y
c
Y nij nij
máx L (θ) = .
θ∈Θ
i=1 j=1
n
59
Finalmente, la razón o cociente de verosimilitudes es:
ni• ni• n•j n•j

Qr Qc
máxθ∈Θ0 L (θ) i=1 n j=1 n
λ= = Qr Qc nij nij ≤ λ0
máxθ∈Θ L (θ) i=1 j=1 n
Donde se debe obtener la distribución de λ, por lo que se usa el criterio asintótico

de la razón de verosimilitudes:
−2 ln λ ∼ χ2(ν) ,
donde ν se determina como k − 1 − s donde k es el número total de parámetros y s es
el número de parámetros independientes (o estimados), en este caso como
r X
X c
Pij = 1,
i=1 j=1
es equivalente a
r
X c
X
Pi• = 1 y P•j = 1,
i=1 j=1
de donde por (3.3) hay r + c − 2 parámetros independientes, por lo tanto:
ν = k − 1 − s = rc − 1 − (r + c − 2)
= (r − 1) (c − 1) .
La regla de decisión es, entonces: Rechazar H0 al nivel α si :
−2 ln λ ≥ ω1−α ,
donde ω1−α es el cuantil 1 − α de una distribución χ2((r−1)(c−1)) .

Se puede demostrar que, por el mismo argumento que se usó en la prueba de bondad
de ajuste,
r X
c ni• n•j 2
X nij − n
−2 ln λ = ni• n•j + Rn
i=1 j=1 n
donde Rn → 0 cuando n → ∞ con probabilidad 1 y

ni• n•j
= eij
n
ya que
ni• n•j ni• n•j
eij = npij = nPi• P•j = n 2
= .
n n
Por lo tanto la estadı́stica de prueba que se va a utilizar es:
r X c
X (nij − eij )2
T = ,
i=1 j=1
eij
cuya distribución también es χ2(r−1)(c−1) .

Se sintetizará la información con el siguiente ejemplo:
Ejemplo 14. Se recopilaron datos macroecónomicos de diversos paı́ses durante el

2017 del Fondo Monetario Internacional entre los cuales destacan el tamaño del
territorio del paı́s en km2 y la tasa de fertilidad. Se clasificó la información de la
siguiente manera:
Microestado cuando su territorio se menor o igual a 23, 180 km2
Paı́s pequeño cuando su territorio este ente los 23, 181 y 112, 760 km2
Paı́s mediano cuando su territorio este entre 112, 761 y los 527, 970 km2
Paı́s grande cuando su territorio sea mayor a los 527, 970 km2
A su vez los paı́ses se subclasifican en dos grupos dependiendo de la tasa de fecun-

didad del paı́s de la forma:
Tasa de Fecundidad menor o igual a 2.7 hijos por mujer
Tasa de Fecundidad mayor a 2.7 hijos por mujer
Con esa información se construyó la siguiente tabla de contingencia
Microestado Pais pequeño Pais mediano Pais grande

Tasa ≤ 2.7 35 31 28 26
Tasa > 2.7 12 15 18 26
De la tabla de contigencia realice el procedimiento obteniendo la estadı́stica necesaria

para rechazar o aceptar con un nivel de significancia α = 0.05 la hipótesis de que la
61
tasa de fecundidad y el tamaño del territorio se comportan de manera independiente

entre si con los parámetros dados.
Solución
Se calculan las marginales por renglón y por columna de la siguiente manera:
Micro peq. med. gde. Total

P5
Tasa ≤ 2.7 n11 = 35 n12 = 31 n13 = 28 n14 = 26 n1i = 120
Pi=1
5
Tasa > 2.7 n21 = 12 n22 = 15 n23 = 18 n24 = 26 i=1 n2i = 71
P2 P2 P2 P2
Total k=1 nk1 = 47 k=1 nk2 = 46 k=1 nk3 = 46 k=1 nk4 = 52 n = 191
Una vez obtenido las marginales, se calculan los valores esperados eij de la forma:
P5 P2
i=1 n1i × k=1 nk1 (120 × 47)
e11 = = = 29.52
n 191
P5 P2
i=1 n1i × k=1 nk2 (120 × 46)
e12 = = = 28.90
n 191
P5 P2
i=1 n1i × k=1 nk3 (120 × 46)
e13 = = = 28.90
n 191
P5 P2
i=1 n1i × k=1 nk4 (120 × 52)
e14 = = = 32.67
n 191
P5 P2
i=1 n2i × k=1 nk1 (71 × 47)
e21 = = = 17.47
n 191
P5 P2
i=1 n2i × k=1 nk2 (71 × 46)
e22 = = = 17.09
n 191
P5 P2
i=1 n2i × k=1 nk3 (71 × 46)
e23 = = = 17.09
n 191
P5 P2
i=1 n2i × k=1 nk4 (71 × 52)
e24 = = = 19.32
n 191
Finalmente se calcula la estadı́stica

r X c
X (nij − eij )2
T =
i=1 j=1
eij
(35 − 29.52)2 (31 − 28.9)2 (18 − 17.09)2 (26 − 19.32)2
T = + + ... + +
29.52 28.9 17.09 19.32
∴ T = 6.876336
Realizando la prueba de hipótesis con un nivel de significancia del 5 % se obtiene el

2(1−α)
cuantil W 0.95 = χ(2−1)(4−1) = 7.81 asociada a la distribución de la estadı́stica D, debido
a que:
T = 6.87 < 7.81 = W 0.95
Dada la regla de decisión de las tablas de contingencia, no se rechaza la hipótesis

nula con un nivel de significancia α = 0.05, por lo que se tiene evidencia suficiente de que
la tasa de fecundidad y el tamaño del paı́s son independientes entre si, económicamente
tiene sentido, ya que la extensión del territorio no afecta a la tasa de fecundidad lo que
afectará será la población del paı́s más no el tamaño del territorio del paı́s examinado.
En R puede ser resuelto el anterior resultado con el siguiente código: Para generar
la tabla de contingencia se realiza lo siguiente obteniendo como resultado:
y11 =35; y21 =12
y12 =31; y22 =15
y13 =28; y23 =18
y14 =26; y24 =26
tabla2 <- rbind ( c ( y11 , y12 , y13 , y14 ) ,c ( y21 , y22 , y23 , y24 ) )
colnames ( tabla2 ) <-c ( " Microestado " ," Pais pequeno " ," Pais mediano " ," Pais
grande " )
rownames ( tabla2 ) <-c ( " Tasa <= 2.7 " ," Tasa > 2.7 " )
tabl <- as . table ( tabla2 )

Tasa <= 2.7 35.00 31.00 28.00 26.00
Tasa > 2.7 12.00 15.00 18.00 26.00
De esta manera calculando las estadı́sticas de decisión se genera el siguiente código:
# Agrupamos
63
m _ 1 <- y11 + y21

m _ 2 <- y12 + y22
m _ 3 <- y13 + y23
m _ 4 <- y14 + y24
m1 _ <- y11 + y12 + y13 + y14

m2 _ <- y21 + y22 + y23 + y24
m <- m1 _ + m2 _
e _ 11 <-( m1 _ * m _ 1) / m
e _ 12 <-( m1 _ * m _ 2) / m
e _ 13 <-( m1 _ * m _ 3) / m
e _ 14 <-( m1 _ * m _ 4) / m
e _ 21 <-( m2 _ * m _ 1) / m
e _ 22 <-( m2 _ * m _ 2) / m
e _ 23 <-( m2 _ * m _ 3) / m
e _ 24 <-( m2 _ * m _ 4) / m
e _ <-c ( e _ 11 , e _ 12 , e _ 13 , e _ 14 , e _ 21 , e _ 22 , e _ 23 , e _ 24) # Esperados

yij <-c ( y11 , y12 , y13 , y14 , y21 , y22 , y23 , y24 ) # Observados
Ty <- sum (( yij - e _ ) ^2 / e _ ) # Calculamos la estadistica

Ty # Obtenemos una estadistica de 6.876336
gly <- (2 -1) * (4 -1)

gly # Grados de libertad =3
chi = qchisq (0.95 , gly )
De esta manera se obtienen los mismos resultados mencionados anteriormente. Dado

que las tablas de contigencia hereda muchas propiedades de la prueba Ji-Cuadrada, el
procedimiento anteriormente señalado puede ser calculado en R de la siguiente manera,
facilitando mucho los cálculos y lı́neas de código.
# Obtenemos nuestra tabla 2

y11 =35; y21 =12
y12 =31; y22 =15
y13 =28; y23 =18
y14 =26; y24 =26
tabla2 <- rbind ( c ( y11 , y12 , y13 , y14 ) ,c ( y21 , y22 , y23 , y24 ) )
colnames ( tabla2 ) <-c ( " Microestado " ," Pais pequeno " ," Pais mediano " ," Pais
grande " )
rownames ( tabla2 ) <-c ( " Tasa <= 2.7 " ," Tasa > 2.7 " )
# Realizamos la prueba para nuestra tabla 2

chisq . test ( tabl )

# Obtenemos : X - squared = 6.8763 , df = 3 , p - value = 0.07595
Pearson’s Chi-squared test
data: tabl
X-squared = 6.8763, df = 3, p-value = 0.07595
De esta manera el p − value = 0.75 > 0.05 = α por lo que la prueba no se

rechaza, teniendo evidencia del 95 % que las dos variables se distribuyen de manera
independiente la una de la otra.
Coeficiente de contingencia
Como una medida del grado de asociación entre variables en una tabla de contin-
gencia en donde se clasifican un total de n unidades experimentales, (Pearson, 2013)
propuso el coeficiente de contingencia C, definido como:
1/2
T
C= ,
T +n
donde T es la estadı́stica de prueba apropiada para la hipótesis de independencia.
Además valores crecientes de C implican un incremento en el grado de asociación, ya
que valores grandes de T son un resultado de más alejamiento significativo entre las
frecuencias observadas y esperadas de celdas. Pero el valor de C no puede ser mayor
de uno para cualquier n, una desventaja de C como una medida de asociación es que
no puede alcanzar el valor de 1, es decir C toma valores mayores que 0 pero menores a
1, es decir, 0 < C < 1. Si las variables examinadas son completamente independientes
entonces los valores de T y C son pequeños.
Puede demostrarse fácilmente que para una tabla de contingencia de doble entrada
de r × c, el valor máximo de C es:
1/2
t−1
Cmáx = , donde t = mı́n (r, c) .
t
Capı́tulo 4
Medidas de correlación de rango
Los datos consisten de parejas de números, es decir, datos pareados de n individuos

que se pueden pensar como provenientes de una muestra aleatoria bivariada de tamaño
n:
(X1 , Y1 ) , (X2 , Y2 ) , ..., (Xn , Yn ) .
Se usa (X, Y ) para hacer referencia a (Xi , Yi ) en general.
Por ejemplo, los siguientes datos corresponden a las calificaciones de 12 alumnos de
posgrado con sus calificaciones obtenidas en el examen GMAT (Graduate Management
Admission Test) que presentaron para entrar a la maestrı́a en negocios y su promedio
en ese programa académico, es decir, su correspondiente GPA (grade point average).
Lo anterior con la intención de analizar la relación entre estas dos variables.
GMAT GPA
1 710.0 4.0
2 610.0 4.0
3 640.0 3.9
4 580.0 3.8
5 545.0 3.7
6 560.0 3.6
7 610.0 3.5
8 530.0 3.5
9 560.0 3.5
10 540.0 3.3
11 570.0 3.2
12 560.0 3.2
Observe que como son datos pareados, siempre se tiene el mismo tamaño de muestra
65
66 Medidas de correlación de rango
(para ambos conjuntos de datos) y debido a que se usarán pruebas basadas en rango,
la escala debe ser al menos ordinal.
Una medida de correlación entre X y Y debe satisfacer lo siguiente:
1. Debe tomar valores únicamente entre -1 y 1.
2. Si los valores más grandes de X tienden a estar ligados con los valores más
grandes de Y , y por lo tanto, los valores más pequeños de X y Y tienden a estar
ligados, entonces la medida de correlación debe ser positiva y cercana a +1, si la
tendencia es fuerte. En este caso se dice que existe una correlación positiva entre
X y Y.
3. Si los valores grandes de X tienden a estar ligados con los valores chicos de Y
y viceversa, entonces la medida de correlación debe ser negativa y cercana a -1,
si la tendencia es fuerte. En este caso se dice que existe una correlación negativa
entre X y Y.
4. Si los valores de X se relacionan aleatoriamente con los valores de Y , la medida

de correlación es cercana a cero. Esto pasa si X y Y son independientes y en este
caso se dice que X y Y son no correlacionados o no tienen correlación o tienen
correlación cero.
La medida de correlación más conocida es el coeficiente de correlación de Pear-

son:
Pn
Xi − X Yi − Y
i=1
r = r (4.1)
Pn 2 Pn 2
i=1 Xi − X i=1 Yi − Y
Pn
i=1 Xi Yi − nXY
= r rP (4.2)
Pn 2 2 n 2 2
i=1 X i − nX Y
i=1 i − nY
donde el numerador es la covarianza muestral y el denominador es el producto de las

desviaciones estándar.
r satisface las caracterı́sticas 1, 2, 3 y 4 de un coeficiente de correlación, sin embargo
es una variable aleatoria con una distribución que depende de la distribución bivariada
de (X, Y ), por lo que r no tiene valor como una estadı́stica de prueba en pruebas
no paramétricas, o para formar intervalos de confianza, al menos que se conozca la
distribución de (X, Y ).
4.1 ρ (ro) de Spearman 67
Cálculo en R Se puede calcular el coeficiene de correlación de Pearson para el con-

junto de datos del ejemplo GMAT-GPA usando cor.test de R. Previamente se han
cargado los datos en dos vectores x, y que corresponde a GMAT y GPA respectiva-
mente:
#Ejemplo de los examenes GMAT y GPA

x=c(710,610,640,580,545,560,610,530,560,540,570,560)
y=c(4.0,4.0,3.9,3.8,3.7,3.6,3.5,3.5,3.5,3.3,3.2,3.2)
Estudiantes= cbind(x,y)
colnames(Estudiantes)= c("GMAT", "GPA")
rownames(Estudiantes)= c("1", "2","3","4","5","6","7","8","9","10","11","12")
Estudiantes = as.table(Estudiantes)
#Se calcula el coeficiente de correlacion de Pearson
cor.test(x,y, method = "pearson", alternative = "greater")
El resultado del comando anterior es
data: x and y
t = 2.8004, df = 10, p-value = 0.009391
alternative hypothesis: true correlation is greater than 0
0.244736 1.000000
sample estimates:
cor
0.6629678
Es decir, el coeficiente de correlación de Pearson es 0.662967. Además del cálculo

del coeficiente de correlación, se obtienen otros valores relacionados con el supuesto
de que el vector (X, Y ) tiene distribución bivariada y la correspondiente prueba de no
correlación.
Las medidas de correlación que se dan a continuación, tienen la caracterı́stica de
ser funciones únicamente de los rangos asignados a las observaciones.
4.1. ρ (ro) de Spearman
Sea R (Xi ) el rango de Xi cuando es se compara con los otros valores de X, para
i = 1, 2, ..., n; sea R (Yi ) el rango de Yi cuando se compara con los otros valores de Y,
para i = 1, 2, ..., n. Se permiten datos no numéricos que ocurren en n parejas, siempre
y cuando se puedan ordenar para poderles asignar un rango, es decir, la escala debe
ser al menos ordinal. En caso de empates, se asigna a cada empate el promedio de los
rangos que serı́an asignados si no hubiera empates.
La medida de correlación se denota por ρ (ro) y se define de la siguiente manera:
n+1 2
Pn
i=1 R (X i ) R (Y i ) − n 2
ρ= 1/2 P 1/2 . (4.3)
Pn 2 n+1
2 n 2 n+1 2
i=1 (R (Xi )) − n 2 i=1 (R (Yi )) − n 2
Note que esta expresión corresponde a la r de Pearson (4.2), pero en lugar de hacer el
cálculo usando las observaciones originales, se utilizan los rangos. Ası́,
n n
1X 1X 1 n (n + 1) n+1
R (X) = R (Xi ) = i= =
n i=1 n i=1 n 2 2
y también R (Y ) = n+12
. En la misma lógica de utilizar los rangos en lugar de las
observaciones originales, se hace el cálculo para el denominador de (4.1):
n n 2 X n 2 !
X 2 X n+1 n + 1
R (Xi ) − R (X) = i− = i2 − i (n + 1) +
i=1 i=1
2 i=1
2
n (n + 1) (2n + 1) (n + 1) (n + 1)2
= − (n + 1) n. +n
6 2 4
n (n2 − 1)
=
12
y también
n
X 2 n (n2 − 1)
R (Yi ) − R (Y ) = .
i=1
12
Es decir,
Pn
R (Xi ) − n+1 n+1

i=1 2
R (Yi ) − 2
ρ= 2
. (4.4)
n (n − 1) /12
En caso de que no haya empates, se pueden utilizar otras expresiones que se han
propuesto para facilitar los cálculos, tales como
Pn
6 i=1 (R (Xi ) − R (Yi ))2 6T
ρ=1− 2
=1− , (4.5)
n (n − 1) n (n2 − 1)
donde
n
X
T = (R (Xi ) − R (Yi ))2 . (4.6)
i=1
4.1.1. Prueba de Hipótesis
La ρ de Spearman se utiliza para probar independencia entre dos variables aleatorias

(dos poblaciones).
Se tienen los siguientes casos:
A (prueba de dos colas) H0 : Las Xi0 s y las Yi0 s son mutuamente independientes.
Ha : Existe una tendencia para que los valores más grandes de X estén “empareja-
dos” con los valores más grandes de Y y los valores chicos de X con los valores chicos de
Y ó existe una tendencia para que los valores más grandes de X estén “emparejados”
con los valores más chicos de Y y los valores chicos de X con los valores grandes de Y
(ρ 6= 0).
B (prueba de una cola) H0 : Las Xi0 s y las Yi0 s son mutuamente independientes.
dos” con los valores más grandes de Y y los valores más chicos de X estén “empareja-
dos” con los valores más chicos de Y (ρ > 0).
C (prueba de una cola) H0 : Las Xi0 s y las Yi0 s son mutuamente independientes.
Ha : Existe una tendencia para que los valores más grandes de X estén “empa-
rejados” con los valores más chicos de Y y que los valores más chicos de X estén
“emparejados” con los valores más grandes de Y (ρ < 0).
Usando ρ como estadı́stica de prueba se tiene la siguiente regla de decisión:
Se rechaza H0 al nivel de significancia α si:
A : ρ < ωα/2 ó ρ > ω1−α/2

B : ρ > ω1−α
C : ρ < ωα
donde ωp es el p − ésimo cuantil de la distribución de ρ, la cual puede ser obtenida de

la tabla mostrada en el apéndice B.5.
En lugar de la ρ de Spearman se puede usar directamente la estadı́stica T (si no
hay muchos empates):
n
X
T = (R (Xi ) − R (Yi ))2
i=1
Cuando T es grande ρ es pequeño y viceversa. Por lo tanto, la regla de decisión

cuando se utiliza a T como la estadı́stica de prueba es:
Rechazar H0 al nivel de significancia α si:
A : T < ωα/2 o T > ω1−α/2

B : T < ωα
C : T > ω1−α
donde ωp es el p − ésimo cuantil de la distribución de T.
Ejemplo 15. Continuando con el ejemplo de los exámenes GMAT y GPA, se obtu-
vieron los rangos para ambos resultados en las siguientes tablas, aunque a diferencia
de otras pruebas basadas en rangos, aquı́ se hizo la asignación de los mismos de
manera separada (es decir, en este caso no se mezclan los datos)
Obs. X Rango(X) Obs Y Rango(Y )

1 710 12 1 4.00 11.50
2 610 9.50 2 4.00 11.50
3 640 11 3 3.90 10
4 580 8 4 3.80 9
5 545 3 5 3.70 8
6 560 5 6 3.60 7
7 610 9.50 7 3.50 5
8 530 1 8 3.50 5
9 560 5 9 3.50 5
10 540 2 10 3.30 3
11 570 7 11 3.20 1.50
12 560 5 12 3.20 1.50
Se obtiene la estadı́stica mostrada en la ecuación (4.1.1), ya que la muestra no

presenta muchos empates, de esta forma se tiene:
n
X
T = (R (Xi ) − R (Yi ))2
i=1
T = (12 − 11.50)2 + (9.50 − 11.50)2 + . . . + (5 − 1.5)2
∴ T = 115
Después se sustituye el valor de T en la estadı́stica (4.5) obteniendo como resultado:
6T
ρ=1−
n (n2 − 1)
6(115)
ρ=1−
12 (122 − 1)
ρ = 0.59
Por lo que observado los cuantiles de la tabla B.5 se observa que con un 95 %, se
obtiene w0.025 = 0.587 dado que ρ < w0.025 , entonces se tiene evidencia que con al
menos un nivel de significancia del 5 %, la prueba rechaza la hipótesis nula, por lo que
existe una tendencia para que los valores más grandes de X estén “emparejados” con
los valores más grandes de Y y los valores chicos de X con los valores chicos de Y ó
existe una tendencia para que los valores más grandes de X estén “emparejados” con
los valores más chicos de Y y los valores chicos de X con los valores grandes de Y .
En R también se puede efectuar la prueba con cor.test, en este caso especificando
que el método es Spearman.
cor.test(x, y,method="spearman",alternative="greater",exact = TRUE)
##siendo el resultado
Spearman’s rank correlation rho

data: x and y
S = 117.25, p-value = 0.02172
alternative hypothesis: true rho is greater than 0
sample estimates:
rho
0.5900188
4.2. τ (tau) de Kendall
Los datos consisten de una muestra aleatoria bivariada de tamaño n,
(Xi , Yi ) para i = 1, 2, ..., n.
Se dice que dos observaciones son concordantes si ambos miembros de una pareja son
mayores (o menores) que sus miembros respectivos
de la otra pareja. Sea Nc el número
n
de observaciones concordantes del total de posibles parejas. Las observaciones
2
son discordantes si los dos números en una pareja difieren en dirección opuesta (una
negativa y una positiva) de los respectivos miembros de la otra pareja. Sea Nd el número
de parejas discordantes de observaciones. Las parejas con empates entre miembros
respectivos no son ni concordantes ni discordantes.

n
Como las n observaciones pueden compararse dos a dos de = n(n−1)
2
formas
2
diferentes, el número de parejas concordantes Nc más el número de parejas discordantes
Nd más el número de parejas con empates debe sumar n (n − 1) /2.
Los datos pueden ser no numéricos siempre y cuando puedan calcularse Nc y Nd
(escala ordinal).
La medida de correlación propuesta por Kendall es:
Nc − Nd
τ= ,
n (n − 1) /2
si todas las posibles parejas son concordantes, la τ de Kendall es igual a 1. Si todas
la parejas son discordantes el valor es -1. Por lo tanto, la τ de Kendall satisface las
condiciones para ser una medida de correlación.
En ocasiones también se calcula τ como
Nc − Nd
τ= .
Nc + Nd
Esta versión de la τ de Kendall tiene la ventaja de que puede alcanzar los valores 1 o
−1, aún en caso de empates.
En resumen, para hacer la comparación de las parejas (Xi , Yi ) y (Xj , Yj ) , considere
la cantidad
Yj − Yi
M= .
Xj − Xi
Si M > 0, se tiene una observación concordante. Si M < 0 si tiene una observación
discordante y si M = 0, se considera 0.5 para el conteo de observaciones concordantes
4.2 τ (tau) de Kendall 73
y 0.5 para discordantes. En el caso M = 0, se supone que Xi 6= Xj , pues si Xi = Xj ,

no se establece comparación.
El cálculo de τ se simplifica si las observaciones (Xi , Yi ) son ordenadas en una
columna de acuerdo a los valores crecientes de X y luego cada Y se compara solamente
con los que están abajo de ella. Además cada pareja se considera una sola vez.
Ejemplo 16. Usando el mismo ejemplo, se tiene el cálculo de los pares concor-
dantes y discordantes que sirven para calcular la τ de Kendall
Parejas Pares concordantes debajo de (Xi , Yi ) Pares discordantes debajo de (Xi , Yi )

(530, 3.5) 7 4
(540, 3.3) 8 2
(545, 3.7) 4 5
(560, 3.2) 5.5 0.5
(560, 3.5) 4.5 1.5
(560, 3.6) 4 2
(570, 3.2) 5 0
(580, 3.8) 3 1
(610, 3.5) 2 0
(610, 4.0) 0.5 1.5
(640, 3.9) 1 0
(740, 4.0)
4.2.1. Prueba de hipótesis
La τ de Kendall también puede usarse como una estadı́stica de prueba para probar
la hipótesis nula de independencia entre X y Y , con alternativas posibles de una o dos
colas (como las descritas para ρ). Por lo general se usa T como la estadı́stica de prueba
de Kendall, donde T se define como:
T = Nc − Nd ,
aunque puede haber variantes de la misma. En caso de muchos empates, se usa direc-
tamente la τ, siendo el p-ésimo cuantil de τ aproximadamente
p
2 (2n + 5)
wp = zp p
3 n (n − 1)
con zp el cuantil correspondiente de una distribución normal estándar.

Los cuantiles de la distribución de T (o τ ) están tabulados (ver apéndice B.6). Si

T excede el cuantil 1 − α, se rechaza H0 en favor de la alternativa de una cola de
correlación positiva, al nivel de significancia α. En R también se puede hacer la prueba
usando nuevamente cor.test
Ejemplo 17. Usando el mismo ejemplo de los casos anteriores (GMAT y GPA),
en clase se obtuvieron las observaciones concordantes y discordantes. En este caso,
para hacer la prueba, se puede utilizar
cor.test(x, y,method="kendall",alternative="greater",exact = NULL)
Kendall’s rank correlation tau
data: x and y
z = 1.8967, p-value = 0.02893
alternative hypothesis: true tau is greater than 0
sample estimates:
tau
0.4390389
En todos los casos se rechaza la hipótesis nula.

Capı́tulo 5
Pruebas basadas en rangos
En esta sección se mencionarán otras pruebas no paramétricas importantes, sin

embargo, el desarrollo formal no será abordado con la finalidad de enfocarse más a
ciertos ejercicios prácticos y abarcar una mayor cantidad de pruebas
5.1. Prueba de la U de Mann-Whitney / Prueba de

suma de rangos de Wilcoxon
La prueba de suma de rangos de Wilcoxon fue publicada en 1945 por el estadouni-

dense Frank Wilcoxon en Biometrics Bulletin (Wilcoxon, 1945), esta prueba no debe
confundirse con la prueba de Wilcoxon referente a la prueba de signos. En este articulo
Wilcoxon busca crear una solución para comparar dos tratamientos (muestras aleato-
rias) por medio de métodos de rango, esta prueba buscaba complementar a los métodos
existentes basados en los valores numéricos propios de dichas muestras, por lo que era
una respuesta más rápida al problema. Para probar su idea muestra diversos ejemplos
basados siempre en dos muestras aleatorias en la cual se compara efectividad de dos
insecticidas, ası́ como la comparación de usar fertilizantes en las plantas de maı́z, para
probar si los resultados eran parecidos o existı́an diferencias significativas, estas compa-
raciones las realizó para datos pareados y no pareados. Aunque este método fue bueno,
Wilcoxon sólo proporcionaba cuantiles hasta un tamaño de población que iba de 5 a 10
replicas para datos no pareados, mientras que para los datos pareados encontraba una
distribución asociada. Es por ello que en 1947, Henry Mann y D. R. Whitney publican
un artı́culo (Whitney, 1947), en el cual proporcionan una aproximación normal para
los datos no pareados lo cual facilita y generaliza dichos resultados. Es por ello que
aunque inicialmente las pruebas son muy parecidas entre sı́, en este texto se enfocará
al punto de vista proporcionada por Mann-Whitney.
75
76 Pruebas basadas en rangos
La prueba de Mann-Whitney-Wilcoxon es una prueba no paramétrica que es usada

cuando se tienen dos muestras aleatorias independientes y se desea probar que éstas
provienen de una misma población, es decir, se observará si existe evidencia con un
nivel significancia α que dos muestras aleatorias independientes son iguales entre si.
La idea general de esta prueba es comparar dos muestras aleatorias a través de
los rangos conjuntos. Al suponer que las muestras provienen de una misma población,
se podrı́a tratar estas dos muestras como una sola, ası́ ordenando de menor a mayor
y asignando su respectivo rango se esperarı́a que los rangos se comportaran de una
manera aleatoria uniforme, es decir, se esperarı́a que los rangos completos de ambas
muestras se intercambiaran de manera simétrica, por lo que si los rangos bajos o altos
presentan observaciones de una sola muestra serı́a de esperar que los datos no son
iguales. Posteriormente, se realiza la suma de todos los rangos de asignados por cada
muestra, si la suma de las dos difieren en deması́a se tiene evidencia de que las muestras
no provienen de una misma población.
Para ejemplificar esta idea se tomarán las siguientes muestras aleatorias, que más
adelante se detallará el origen de estos valores.
pais _ x = c (172 , 178 , 168 , 155 , 164 , 168 , 150 , 158)
pais _ y = c (191 , 167 , 189 , 164 , 158 , 176 , 186 , 193)
Para poder realizar esta observación de una manera más rápida y fácil replicación,
se hará uso de R, por ello se almacenaran dichas muestras en un dataframe (obje-
to de programación particular de R que busca emular una tabla) con su respectivo
identificador para que resulte más sencillo trabajar con los datos.
paises = data . frame ( pais = rep ( c ( " Paı́s X " , " Paı́s Y " ) , each = 8) ,
valor = c ( pais _x , pais _ y ) )
print ( paises )
pais valor
1 Paı́s X 172
2 Paı́s X 178
3 Paı́s X 168
4 Paı́s X 155
5 Paı́s X 164
6 Paı́s X 168
7 Paı́s X 150
8 Paı́s X 158
9 Paı́s Y 191
5.1 Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 77
10 Paı́s Y 167
11 Paı́s Y 189
12 Paı́s Y 164
13 Paı́s Y 158
14 Paı́s Y 176
15 Paı́s Y 186
16 Paı́s Y 193
Con esta base ya construida, se calculará los rangos completos (considerando a X

como a Y como una sóla muestra aleatoria), afortunadamente R tiene una función que
facilita los cálculos.
paises $ rango = rank ( paises $ valor )
print ( paises )
pais valor rango

1 Paı́s X 172 10.0
2 Paı́s X 178 12.0
3 Paı́s X 168 8.5
4 Paı́s X 155 2.0
5 Paı́s X 164 5.5
6 Paı́s X 168 8.5
7 Paı́s X 150 1.0
8 Paı́s X 158 3.5
9 Paı́s Y 191 15.0
10 Paı́s Y 167 7.0
11 Paı́s Y 189 14.0
12 Paı́s Y 164 5.5
13 Paı́s Y 158 3.5
14 Paı́s Y 176 11.0
15 Paı́s Y 186 13.0
16 Paı́s Y 193 16.0
Finalmente se graficarán los datos, para ver la distribución asociados a los datos, ası́
observando el comportamiento de los rangos.
library ( ggplot2 )
ggplot ( data = paises , aes ( x = rango , y =0) ) +
geom _ point ( aes ( colour = pais ) , size = 8) +
ggtitle ( " Comportamiento de los rangos " ) +
ylab ( " " ) + xlab ( " rango " ) +
theme _ bw () +
theme ( axis . text . y = element _ blank () )
Comportamiento de los rangos
pais
País X
País Y
4 8 12 16
rango
Figura 5.1: Comportamiento de los rangos de dos muestras aleatorias
El tamaño de la muestra es demasiado pequeño para dar un resultado concluyente

pero puede observarse claramente que los rangos mayores corresponden a la muestra
aleatoria Y mientras que valores pequeños a la muestra X, esto afirmación es respal-
dada por medio de la suma de los rangos. Si sumamos el rango completo de elementos
que pertenecen a la muestra X el valor resultante es 51, mientras que para Y es 85
esta diferencia es significativa ya que la razón de las sumas 1 − 51/85 es 0.4, número
”grande a que por la forma en la establecimos esta medida un buen resultado deberı́a
2
ser cercano a 0, por lo que podemos suponer (aún sin afirmar) que la muestra no provie-
nen de la misma población. Las sumas mencionadas anteriormente pueden calcularse
fácilmente con el siguiente código
library ( dplyr )
paises %> %
group _ by ( pais ) %> %
summarise ( suma _ rango = sum ( rango ) )
pais suma_rango
<chr> <dbl>
1 Paı́s X 51
2 Paı́s Y 85
Como se ha mencionado anteriormente de manera informal, la prueba de Wilco-

xon establece la hipótesis nula de que ambas muestras son iguales al poseer el mismo
valores esperado, de esta manera la prueba se describe como: Sean dos muestras alea-
torias, x1 , x2 , . . . , xn1 una muestra aleatoria de tamaño n1 denotada como X, y sea
y1 , y2 , . . . , yn2 una muestra aleatoria de tamaño n2 descrita como Y . Entonces la prue-
ba de hipótesis es definida como:
H0 : E [X] = E [Y ] vs. Ha : E [X] 6= E [Y ]
Cabe destacar que la prueba no solicita que el número de observaciones sean iguales
en ambas muestras, es decir, no siempre puede ocurrir que n1 = n2 . El procedimiento
consiste en asignar rangos completos a una muestra aleatoria resultado combinar a X
y a Y , por lo que a la muestra aleatoria combinada tiene tamaño N = n1 + n2 ; Además
sea R(X) y R(Y ) subconjuntos del rango completo de la muestra combinada, en la
cual R(X) contiene a los rangos asignados a cada elemento de X respecto a la serie
combinada, de manera análoga para R(Y ) para cada elemento de Y . Entonces se define
a la estadı́stica U como:
U = min(U1 , U2 ). (5.1)
donde:
n1 (n1 +1) Pn1

U1 = n1 n2 + 2
− i=1 R(Xi )
n2 (n2 +1) Pn2
U2 = n1 n2 + 2
− j=1 R(Yj )
Por simplicidad se denotará como R1 a la suma de rango de la muestra X y R2

para la suma de rango de Y , de esta manera la anterior ecuación puede ser expresada
como:
n1 (n1 + 1)
U 1 = n1 n2 + − R1
2
n2 (n2 + 1)
U 2 = n1 n2 + − R2
2
Estas notación de la prueba presenta varias resultados importantes por ejemplo.
Resultado 1. Sea X una muestra aleatoria de tamaño n1 con suma de rango R1 y sea
Y otra muestra aleatoria e independiente a X con suma de rango R2 , si en la muestra
no hay empates (valores repetidos en la muestra combinada) entonces la suma de R1 y

R2 es:
N (N + 1)
R1 + R2 = ,
2
donde N = n1 + n2
La demostración procede por inducción, particularmente no se desarrollará pero el

lector que lo desee probar, se esbozará dicha demostración.
Por hipótesis, se establece que no hay valores repetidos ni en las muestras ni de
manera conjunta por lo que el rango completo, será la secuencia 1, 2, . . . , N , por lo
que la suma de ambos rangos R1 y R2 al ser subconjuntos mutuamente excluyentes se
observa que:
R1 + R2 = 1 + 2 + . . . N,
ası́ que la suma de los primeros N naturales puede ser expresada por la famosa ”Suma
de Gauss”, ası́ que expresando con dicha ecuación se tiene:
N (N + 1)
R1 + R2 =
2
Finalmente, la regla de decisión es rechazar H0 , con un nivel de significancia α, si

U < W α/2 o U > W 1−α/2 , donde W se obtienen de la tabla de Wilcoxon, los cuales se
consultan en el apéndice B.7 .
La distribución W se obtiene de métodos numéricos, siendo esta la que proporcio-
na cuatiles más adecuados ya que es la distribución real asociada a U , sin embargo,
este método es pesado computacionalmente de calcular. Afortunadamente, cuando los
tamaños de muestra de X y Y son n1 > 10 y n2 > 10, lo que considerarı́amos lo sufi-
cientemente grandes, tal como lo demostró (Whitney, 1947), se dice que la distribución
real de datos se aproxima a una normal lo que hace que los tiempos de procesamiento y
respuesta de la prueba sean más rápidos. Los parámetros de esta aproximación normal
pueden observarse en el siguiente teorema.
Teorema 5.1. Cuando los tamaños de muestras de X y Y son los suficientemente

grandes (generalmente se pide que n1 > 10 y n2 > 10 aunque hay autores que
recomiendan que haya al menos 20 observaciones en cada muestra) entonces la
estadı́stica U se distribuye de manera normal U ∼ N (µ, σ 2 ) donde:
n1 n2 n1 n2 (n1 + n2 + 1)
µ= , σ2 =
2 12
Demostración
Sea xi el rango de la i-ésima observación de la muestra de menor tamaño. Bajo el

supuesto que no existen valores repetidos entonces la esperanza de dicho valor estarı́a
dado por:
N
1 X
E[xi ] = i
N i=1
Al suponer que no hay valores repetidos, o estos se compensarı́an de cierta manera

entre si y por el resultado 1:
1 N (N + 1)
E[xi ] =
N 2
N +1
E[xi ] =
2
De esta manera calculando la esperanza sobre R1 se tiene que:
n1
X
E[R1 ] = E[ xi ]
i=1
n1
X
E[R1 ] = E[xi ]
i=1
n1
X N +1 (N +1)
E[R1 ] = Por E[xi ] = 2
i=1
2
N +1
E[R1 ] = n1
2
Sustituyendo N = n1 + n2 se tiene:
n1 + n2 + 1
∴ E[R1 ] = n1
2
Si en la prueba de Wilcoxon se supone que se sigue una distribución Normal, el

valor estimado para la media serı́a E[R1 ], pero en el caso particular de la prueba de
Mann-Whitney se observa de manera análoga a E[R1 ] que la esperanza de la suma de
los rangos de la muestra Y serı́a
n1 + n2 + 1
E[R2 ] = n2 − ,
2
De esta manera, la esperanza de U1 de la estadı́stica 5.1 serı́a:


n1 (n1 + 1)
E[U1 ] = E n1 n2 + − R1
2
n1 (n1 + 1)
E[U1 ] = n1 n2 + − E [R1 ]
2
Sustituyendo por los resultados anteriores
n1 (n1 + 1) n1 + n2 + 1
E[U1 ] = n1 n2 + − n1
2 2
2n1 n2 + n1 (n1 + 1) − n1 (n1 + n2 + 1)
E[U1 ] =
2
2n1 n2 + n1 + n1 − n21 − n1 n2 − n1
2
E[U1 ] =
2
2n1 n2 − n1 n2
E[U1 ] =
2
n1 n2
∴ E[U1 ] =
2
De la misma manera para U2 se tiene:

n2 (n2 + 1)
E[U2 ] = E n1 n2 + − R2
2
n2 (n2 + 1)
E[U2 ] = n1 n2 + − E [R2 ]
2
Sustituyendo por los resultados anteriores
n2 (n2 + 1) n1 + n2 + 1
E[U2 ] = n1 n2 + − n2
2 2
2n1 n2 + n2 (n2 + 1) − n2 (n1 + n2 + 1)
E[U2 ] =
2
2n1 n2 + n22 + n2 − n1 n2 − n22 − n2
E[U2 ] =
2
2n1 n2 − n1 n2
E[U2 ] =
2
n1 n2
∴ E[U2 ] =
2
n1 n2
Finalmente ya que U = min(U1 , U 2) y tanto la media de U1 como la de U2 es 2
entonces la media de U es
2n1 n2 − n1 n2
E[U ] =
2
Para la varianza sea xi el rango de la i-ésima observación de la muestra de menor

tamaño. Bajo el supuesto que no existen valores repetidos entonces la esperanza de
dicho valor estarı́a dado por
PN
i2
E[x2i ] = i=1
N
Por hipótesis, al no haber valores repetidos, se realiza la suma de los primeros N

naturales, lo cual puede ser representado como
1 N (N + 1)(2N + 1)
E[x2i ] =
N 6
(N + 1)(2N + 1)
E[x2i ] =
6
La varianza del rango Xi esta dado por
V ar[xi ] = E[x2i ] − E 2 [xi ]
Susutiyuendo por los valores ya encontrados

2
(N + 1)(2N + 1) N +1
V ar[xi ] = −
6 2
(N + 1)(2N + 1) (N + 1)2
V ar[xi ] = −
6 4
2(N + 1)(2N + 1) − 3(N + 1)2
V ar[xi ] =
12
4N 2 + 2N + 4N + 2 − 3N 2 − 6N − 3
V ar[xi ] =
12
2
N −1
V ar[xi ] = ,
12
antes de continuar con la demostración, se observarán las siguientes propiedades de la

suma
- La suma de cuadrados de los primeros naturales es:
N
X N (N + 1)(2N + 1)
i2 =
i=1
6
- La suma de productos de dos sumas es:

N X
N
X N 2 (N + 1)2
ij = ,
j=1 i=1
4
por consiguiente, la suma de sobre todas las i, j tal que i 6= j es:

N
X N 2 (N + 1)2 N (N + 1)(2N + 1)
ij = − .
i6=j
4 6
De esta manera para poder calcular la covarianza del rango Xi y Xj para toda i 6= j
será necesario obtener la esperanza del productos de estos rangos, ası́:
1 X
E[xi xj ] = ij
N (N − 1) i6=j
2
N (N + 1)2 N (N + 1)(2N + 1)

1
E[xi xj ] = −
N (N − 1) 4 6
2
N (N + 1) (N + 1)(2N + 1)
E[xi xj ] = −
4(N − 1) 6(N − 1)
La covarianza del rango Xi y Xj para toda i 6= j esta dado por
Cov(xi ) = E[xi xj ] − E[xi ]E[xj ]

2
N (N + 1)2 (N + 1)(2N + 1)

N +1
Cov(xi ) = − −
4(N − 1) 6(N − 1) 2

N (N + 1) 2N + 1 N +1
Cov(xi ) = −(N + 1) − + +
4(N − 1) 6(N − 1) 4

−3N (N + 1) + 2(2N + 1) N + 1
Cov(xi ) = −(N + 1) +
12(N − 1) 4

−3N (N + 1) + 2(2N + 1) + 3(N + 1)(N − 1)
Cov(xi ) = −(N + 1)
12(N − 1)

−3N (N + 1) + 2(2N + 1) + 3N (N + 1) − 3(N + 1)
Cov(xi ) = −(N + 1)
12(N − 1)

N + 1 2(2N + 1) − 3(N + 1)
Cov(xi ) = −
12 N −1

N + 1 4N + 2 − 3N − 3
Cov(xi ) = −
12 N −1

N +1 N −1
Cov(xi ) = −
12 N −1
N +1
Cov(xi ) = − ,
12
ası́ obteniendo la varianza para la suma de rango R1 se obtiene:

" n1
#
X
V ar [R1 ] = V ar xi
i=1
n1
X n1
X
V ar [R1 ] = V ar [xi ] + Cov(xi , xj )
i=1 i6=j
n1 n1
X N2 − 1 N +1 X
V ar [R1 ] = +2 −
i=1
12 i<j
12
N2 − 1

N +1
V ar [R1 ] = n1 + n1 (n1 − 1) −
12 12
n1 2

V ar [R1 ] = N − 1 − (n1 − 1)(N + 1)
12
n1
N 2 − 1 − n1 N − n1 + N + 1

V ar [R1 ] =
12
n1
N 2 − n1 N − n1 + N

V ar [R1 ] =
12
n1
(n1 + n2 )2 − n1 (n1 + n2 ) − n1 + (n1 + n2 )

V ar [R1 ] =
12
n1 2
n1 + 2n1 n2 + n22 − n21 − n1 n2 − n1 + n1 + n2

V ar [R1 ] =
12
n1
n1 n2 + n22 + n2

V ar [R1 ] =
12
n1 n2
V ar [R1 ] = (n1 + n2 + 1)
12
De manera análoga para R2 se obtiene:
n1 n2
V ar [R2 ] = (n1 + n2 + 1)
12
Ası́ para obtener la varianza U se necesita calcular en el caso particular de U1 y U2 ası́:

n1 (n1 + 1)
V ar [U1 ] = V ar n1 n2 + − R1
2
La única parte aleatoria es R1 , todo lo demás serı́a constante
V ar [U1 ] = 0 + 0 + (−1)2 V ar [R1 ]

V ar [U1 ] = V ar [R1 ]
n1 n2
∴ V ar [U1 ] = (n1 + n2 + 1)
12
Para U2 se observa que:

n2 (n2 + 1)
V ar [U2 ] = V ar n1 n2 + − R2
2
V ar [U2 ] = V ar [R2 ]
n1 n2
∴ V ar [U2 ] = (n1 + n2 + 1)
12
Finalmente ya que U = min(U1 , U 2) y tanto la varianza de U1 ası́ como la varianza de

U2 es n12
1 n2
(n1 + n2 + 1) entonces la varianza de U es
n1 n2
V ar [U ] = (n1 + n2 + 1)
12
Cuando el tamaño de población es lo suficientemente grande será conveniente usar

la aproximación normal con los parámetros demostrados anteriormente. De esta manera
la regla de decisión de la prueba será rechazar H0 , con un nivel de significancia α, si
U < Z α/2 o U > Z 1−α/2 , donde Z es el cuantil de una normal evaluado en el punto α
con media µ = n12n2 y varianza σ 2 = n1 n2 (n12
1 +n2 +1)
Para ejemplificar esta prueba observe el siguiente ejercicio:
Ejemplo 18. Un estudio mide la altura de dos diferentes paı́ses para verificar que
la altura de los hombres de un paı́s X es mayor que la del paı́s Y , para ello se midió
aleatoriemante a 6 hombres del paı́s X y 8 del paı́s Y , obteniendo los siguientes
resultados:
Paı́s X 172 178 168 155 164 168 150 158

Paı́s Y 191 167 189 164 158 176 186 193
Realiza la prueba de Mann-Whitney para verificar que ambos paı́ses presentan

diferencias significativas en la estatura con un nivel de significancia del 5 %.
Solución
Anteriormente con el análisis observacional se concluyó que las muestras aleatorias
provienen de poblaciones distintas entre si, ya que existı́a una clara diferencia entre una
muestra y otra, en el caso particular de los datos presentados se observa que el grupo
de paı́ses X presenta claramente las menores estaturas mientras que para Y están las
estaturas mayores, por lo que asumı́amos que no eran iguales estas muestras. Como
respaldo de estas suposiciones se realizará la prueba formal de Mann-Whitney.
Para la realización de la prueba, se juntan las muestras aleatorias formando ası́ vir-
tualmente una sola muestra aleatoria, sobre esta última se asignan los rangos de menor
a mayor, en caso de empates se asigna el punto medio entre los valores subsecuentes y
antecesores.
X Y Rango
150 1
155 2
158 3.5
158 3.5
164 5.5
164 5.5
167 7
168 8.5
168 8.5
172 10
176 11
178 12
186 13
189 14
191 15
193 16
Una vez asignado se realiza la suma de los rangos correspondientes a la muestra X

y Y , para ello se realiza:
n1
X
R1 = R(Xi )
i=1
R1 = 1 + 2 + 3.5 + 5.5 + 8.5 + . . . + 10 + 12
⇒ R1 = 51
Para la suma de rango de la muestra Y se tiene:
n2
X
R2 = R(Yi )
i=1
R2 = 3.5 + 5.5 + 7 + 11 + . . . + 15 + 16
⇒ R2 = 85
Posterior a ello se calcula U1 y U2 . Primeramente para U1

n1 (n1 + 1)
U1 = n1 n2 + − R1
2
8(9)
U1 = 82 + − 51
2
U1 = 49,
de igual manera para U2

n2 (n2 + 1)
U2 = n1 n2 + − R2
2
8(9)
U2 = 82 + − 85
2
U2 = 15,
Sacando el mı́nimo entre U1 y U2 se tiene:
U = min(U1 , U2 )
∴ U = 15
Se sabe que el cuantil de una normal estándar en el punto crı́tico es W 0.025 = −1.95
y por simetrı́a de la distribución normal W 0.975 = 1.95, por lo que se observa que:
U = 15 > W 0.9755 = 1.95
Por lo que la estadı́stica U cae completamente en la región de rechazo, concluyendo

ası́ que con un nivel de significancia del 5 %, la prueba rechaza H0 asumiendo que las
dos poblaciones no son iguales, es decir, E [X] 6= E [Y ].
En R project este ejercicio puede ser simulado siguiendo el siguiente código.
pais _ x = c (172 , 178 , 168 , 155 , 164 , 168 , 150 , 158)
pais _ y = c (191 , 167 , 189 , 164 , 158 , 176 , 186 , 193)
wilcox . test ( pais _x , pais _y , paired = FALSE )
Wilcoxon rank sum test with continuity correction
data: pais_x and pais_y

W = 15, p-value = 0.08244
alternative hypothesis: true location shift is not equal to 0
5.2 Prueba de Kruskal-Wallis 89
De esta manera se observa que las estadı́sticas obtenidas son las mismas que las
mencionadas anteriormente.
5.2. Prueba de Kruskal-Wallis
La prueba de Kruskal Wallis, fue pensada por primera vez por William Kruskal y W.
Allen Wallis en 1952 (Kruskal y Wallis, 1952) es la generalización de la prueba de suma
de rangos de Wilcoxon, esta prueba sirve para analizar k muestras independientes con
k ≥ 3, en otro caso usar Wilcoxon, para verificar que las k muestras son todas iguales.
Al ser una generalización de la suma de rangos de Wilcoxon, la prueba de hipótesis
se define como la igualdad en los valores esperados de cada una de las k muestras
aleatorias. Es por ello que se define la prueba como:
H0 : E [X1 ] = E [X2 ] = . . . = E[Xk ] vs. Ha : E [X1 ] 6= E [X2 ] 6= . . . 6= E[Xk ].
Suponga que se tiene la información de k muestras aleatorias, las cuales son de-
notadas como Xi para i = 1, 2, . . . , k, cada observación es denotada como xij con
i = 1, 2, . . . k y j = 1, 2, . . . , ni , es decir, el subı́ndice i hace referencia a que muestra
pertenece la observación, y el subı́ndice j es la posición que ocupa dicha observación
en la muestra i.
X1 X2 ... Xk
x12 a21 ... xk1
x12 a22 ... xk2
.. .. .. ..
. . . .
x1n1 a2n2 ... xknk
Cabe señalar que ni es el tamaño de la muestra i, la prueba de Kruskal Wall, en

la prueba no se tiene un supuesto en el tamaño de la muestra, además del que sea
finita, por lo que no necesariamente tiene que ser: n1 = n2 = . . . = nk . El número de
elementos totales u observaciones a analizar está denotado como:
k
X
N= ni .
i=1
Una vez definido N se unen todas las muestras aleatorias en una sola muestra
ordenado las observaciones de menor a mayor, sobre toda N y se le asignan los rangos
correspondientes, R(xij ) hace referencia al rango asignado a la observación j de la

muestra i. Además sea Ri al rango marginal i correspondiente a la suma de los rangos
de las observaciones de la muestra i, el cual se denota como:
ni
X
Ri = R(xij ), i = 1, 2, . . . , k.
j=1
De esta manera resumiendo la información anterior, se tiene la siguiente tabla de

rangos:
R(X1 ) R(X2 ) ... R(Xk )

R(x12 ) R(x21 ) ... R(xk1 )
R(x12 ) R(x22 ) ... R(xk2 )
.. .. .. ..
. . . .
R(x1n1 ) R(x2n2 ) . . . R(xknk )
Para contrastar esta prueba, Kruskal-Wallis propusieron la siguiente estadı́stica:
k
!
1 X R2 i N (N + 1) 2
T = − . (5.2)
S2 i=1
ni 4
donde:
S 2 es de la forma:
!
1 X N (N + 1)2
S2 = R2 (xij ) − . (5.3)
N −1 T odos los rangos
4
En caso de que no se presentaran empates entonces:

N (N + 1)
S2 = . (5.4)
12
Puede demostrarse fácilmente que en caso de que no se presenten empates, la es-

tadı́stica T puede ser expresada como:
X R2 k
12 i
T = − 3(N + 1).
N (N + 1) i=1 ni
De esta manera, Kruskal-Wallis observaron que T se aproxima a χ2k−1 , por lo que

2(1−α)
la regla de decisión es rechazar H0 si T > χk−1 .
5.2 Prueba de Kruskal-Wallis 91
Ejemplo 19. Un análisis estudia la altura de los hombres de mediana edad de

cuatro diferentes paı́ses desarrollados para verificar que la altura de los hombres es
la misma en estos paı́ses con un nivel de significancia del 0.05, para ello se midió
aleatoriamente a 5 hombres de cada paı́s, salvo en el paı́s dos donde sólo se midió
a 4 hombres, obteniendo los siguientes resultados:
Muestra 1 Muestra 2 Muestra 3 Muestra 4

175 170 171 171
183 192 178 171
183 195 183 173
184 197 191 185
188 - 195 187
Solución
Se juntan las 5 muestras en una sola y se asignan los rangos de menor a mayor, en
caso de empates se asigna el punto medio entre los valores subsecuentes y antecesores.
Muestra Valor Rango Muestra Valor Rango

2 70 1 1 84 11
3 71 3 4 85 12
4 71 3 4 87 13
4 71 3 1 88 14
4 73 5 3 91 15
1 75 6 2 92 16
3 78 7 2 95 17.5
1 83 9 3 95 17.5
1 83 9 2 97 19
3 83 9
Después se obtienen los rangos marginales, ası́ como el tamaño de la muestra i, ası́:
R1 = 6 + 9 + 9 + 11 + 14 = 49 n1 = 5
R2 = 1 + 16 + 17.5 + 19 = 53.5 n2 = 4
R3 = 3 + 7 + 9 + 15 + 17.5 = 51.5 n3 = 5
R4 = 3 + 3 + 5 + 7 + 9 + 15 = 36 n4 = 5
P R2 2 2 Ri2
La suma definida como ki=1 nii = 495 + . . . + 365 da como resultado ki=1
P
ni
=
1985.41. Además se calcula la suma de todos los rangos al cuadrado, es decir:
ni
k X
X
R(xij ) = 1 + 33 + 33 + 32 + 52 + . . . + 17.52 + 192 = 2465.5
i=1 j=1
Una vez obtenido todos las sumas correspondientes, se calcula S 2 en este caso se
presenta empates por lo que se usara la ecuación (5.3).
19(20)2

2 1
S = 2465.5 − = 31.41
19 − 1 4
Sustituyendo S 2 en la estadı́stica (5.2) se tiene:
19(20)2

1
T = 1985.41 −
31.41 4
∴ T = 2.71
2(1−α)
Debido a que el cuantil de una χk−1 = 7.8 con k = 4, se observa que:
2(0.95)
T = 2.71 < χ3 = 7.8
Por lo que de acuerdo a la regla de decisión, la prueba no se rechaza con un nivel de

95 % por lo que se puede asumir que en los paı́ses desarrollados los hombres tienen la
misma estatura.
Capı́tulo 6
Otras pruebas no paramétricas
6.1. Prueba de McNemar
La prueba de McNemar, fue por primera vez descrita por Quinn McNemar en 1947
(McNemar, 1947), esta es una prueba no paramétrica que sirve para verificar con un
nivel de significancia α que un “tratamiento” induce un cambio en la respuesta del
mismo.
Se menciona como “tratamiento” pero en realidad la prueba puede hacer referencia
a cualquier procedimiento, suceso, acción o el paso de tiempo para su estudio, es por
ello que la prueba de McNemar sirve para probar que los cambios de la muestra son
significativos antes y después de la ocurrencia del suceso mencionado.
Esta prueba consiste en observaciones de variables aleatorias bidimensionales (xi , yi ), i =
1, 2, . . . n. Donde xi hace referencia al valor dicotómico de la observación i antes de eje-
cutarse el procedimiento, mientras que la variable yi se refiere, de igual forma, al valor
dicotómico de la observación i después de ejecutarse el procedimiento dado. Es decir,
xi y yi pueden denotarse como:

1 Si cumple la condición Z antes del procedimiento w.
xi =
0 Si no cumple la condición Z antes del procedimiento w.

1 Si cumple la condición Z después del procedimiento w.
yi =
0 Si no cumple la condición Z después del procedimiento w.
La prueba de McNemar establece como hipótesis nula la premisa que el procedi-

miento se debe al azar, es decir, el procedimiento no induce cambios importantes en la
93
94 Otras pruebas no paramétricas
muestra. Formulando el contraste de la prueba de hipótesis se tiene:
H0 : El tratamiento no induce cambios significativo en la respuesta de la muestra vs.

Ha : El tratamiento induce cambios significativo en la respuesta de la muestra
Esta prueba puede ser expresada a través de un arreglo de frecuencias en una tabla
de dimensión 2 × 2, la cual se muestra de la forma siguiente:
(+) (−)
yi = 1 yi = 0
(+) n
X n
X
xi = 1 A= 1(xi =1,yi =1) B= 1(xi =1,yi =0)
i=1 i=1
(−) n
X n
X
xi = 0 C = 1(xi =0,yi =1) D= 1(xi =0,yi =0)
i=1 i=1
En la tabla se puede observar que A y D son el número de elementos que no

cambiaron de elección después de aplicar el procedimiento w, por otro lado, B y C
son los elementos que cambiaron de elección después de aplicar el procedimiento w, es
decir, los pares discordantes. Se define a m = B + C como el número de elementos
que cambiaron en el tiempo (o número total de pares discordantes). Se esperarı́a que
la mitad de los cambios de m ocurriera de forma simétrica tanto hacia B como para C
para tener evidencia de que los cambios no son consecuencia del tratamiento, es decir
B tiene una esperanza de B+C 2
y una varianza denotada como B+C 4
si se supone que
B ∼ N ( B+C2
, B+C
4
). Entonces:
6.1 Prueba de McNemar 95
B+C B+C
B ∼ N( , )
2 4
B+C
B− 2
q ∼ N (0, 1)
B+C
4
B−C
2
√
B+C
∼ N (0, 1)
2
B−C
√ ∼ N (0, 1)
B+C
2
B−C
√ ∼ χ2(1)
B+C
(B − C)2
∴ ∼ χ2(1) .
B+C
2
De esta manera se establece a la estadı́stica T = (B−C)B+C
el cual claramente sigue
2
una distribución χ(1) . Sin embargo, algunos autores consideran necesario realizar una
transformación a la estadı́stica T o arreglo de continuidad, ya que se esta aproximando
una distribución discreta a una distribución continua como la χ2 , esta transformación
es conocida como el arreglo de continuidad de Yates, el cual se denota como:
(|B − C| − 1)2
T = .
B+C
De esta manera la regla de decisión es: rechazar H0 con un nivel de significancia α
2(α/2) 2(1−α/2)
cuando T < χ(1) o T > χ(1) .
Ejemplo 20. Una casa de bolsa escoge aleatoriamente a 100 persona y les pregunta
por su interés al invertir dando como resultado que 84 prefieren invertir en acciones
de empresas privadas, y 16 en bonos gubernamentales, después de una plática y
asesorı́a financiera, 21 personas que invertı́an en empresas privadas decidieron
invertir en bonos gubernamentales, y 4 inversores de bonos cambiaron a acciones.
Realiza la prueba correspondiente con un nivel de significancia del 5 % para verificar
si la asesorı́a indujo cambios en la respuesta de los individuos.
Solución
Se realiza la tabla de McNemar, anotando las frecuencias obtenidas, siendo Xi = 1

igual invertir en acciones antes de la asesorı́a, y yi = 1 denota invertir en acciones
después de la asesorı́a.
(+) (−)
Marginal
yi = 1 yi = 0
(+)
xi = 1 A = 63 B = 21 84
(−)
xi = 0 C=4 D = 12 16
Estableciendo la estadı́stica con la corrección de Yates, se tiene:
(|21 − 4| − 1)2
T =
21 + 4
∴ T = 10.24
2(0.025) 2(0.975)
Además que los cuantiles para χ(1) = 3.84 y χ(1) = 5.02, de esta manera se
tiene que:
2(0.975)
T = 10.24 > χ(1) = 5.02
Por lo que la prueba, rechaza H0 asumiendo de esta manera con un nivel de signi-
ficancia del 5 % que la asesorı́a indujo cambios en la respuesta de los individuos.
6.2. Prueba de Bartlett
La prueba de Bartlett es una prueba no paramétrica , utilizada para probar con un

cierto nivel de significancia α la homogeneidad en la varianza de r muestras aleatorias
con c observaciones cada una. Esta prueba sirve para verificar que las r muestras
aleatorias tienen la misma varianza, de esta manera se define la prueba de hipótesis
como:
H0 : σ12 = σ22 = . . . = σr2 vs. Ha : σ12 6= σ22 6= . . . 6= σr2 .
En caso de rechazar la prueba se dice que las varianzas son es heterocedástica

entre si, ya que presenta diferencias significativas en la varianza para todas u algunas
muestras aleatorias. En otro caso se dice que las varianzas son homocedásticas ya que
la varianza de las diversas muestras aleatorias son homogéneas entre si, presentando
desviaciones permisibles con un nivel de significancia α.
6.2 Prueba de Bartlett 97
Para contrastar la prueba de hipótesis de Bartlett, se utiliza la estadı́stica T la cual

sigue una distribución χ2(r−1) . Además defı́nase N como el número de elementos puestos
a observación, es decir, N = ri=1 ci , entonces:
P
(N − r) ln(Sp2 ) − (c − 1) ri=1 ln(Si2 )

P
T = . (6.1)
1 r 1

1 + 3(r−1) c−1
− N −r
donde:
Pr
SCi SCi
Sp2 = i=1
y Si2 =
N −r c−1
A su vez SCi se define como la suma de cuadrados de la forma:
P 2
c
j=1 xij
Xc
SCi = x2ij −
j=1
c
De esta manera la regla de decisión se define como, rechazar H0 con un nivel de

2(1−α)
significancia α cuando T > χ(r−1) , en otro caso la prueba no se rechaza.
Ejemplo 21. Una calificadora de riesgo asigna calificación a aseguradoras que van
de 0 a 5, siendo 5 la mayor calificación. Esta calificadora escoge aleatoriamente a 4
aseguradoras de los 3 ramos (vida, Accidentes-enfermedades y daños) y desea probar
con un nivel de significancia del 5 % que los 3 ramos tienen varianzas homogéneas.
Los resultados obtenidos fueron:
Aseguradora 1 Aseguradora 2 Aseguradora 3 Aseguradora 4

Ramo 1 4.2 4.5 4.3 4.5
Ramo 2 3.9 3.8 4.1 3.9
Ramo 3 3.8 3.8 4.2 3.5
Solución:
Se calcula la suma simple y al cuadrado de las observaciones por ramo ası́:
Pc Pc
c1 c2 c3 c4 j=1 xij j=1x2ij
r1 4.2 4.5 4.3 4.5 17.5 76.63
r2 3.9 3.8 4.1 3.9 15.7 61.67
r3 3.8 3.8 4.2 3.5 15.3 58.77
Pc 2
Pc 2 ( j=1 xij )
Después se calcula la suma de cuadrados SCi = j=1 xij − c
, ası́:
(17.5)2 (15.7)2
SC1 = 76.63 − = 0.0675 SC2 = 61.67 − = 0.0475
4 4
(15.3)2
SC3 = 58.77 − = 0.2475
4
Pr
SCi
Una vez calculado la suma de cuadrados, se puede obtener Sp2 = i=1
N −r
: y Si2 =
SCi
c−1
.
Para Sp2 se tiene:
0.0675 + 0.0475 + 0.2475

Sp2 =
12 − 3
2
∴ Sp = 0.0403.
Para S12 se tiene:
0.0675
S12 =
4−1
2
∴ S1 = 0.0225
Para S22 se tiene:
0.0475
S22 =
4−1
∴ S22 = 0.0158
Para S32 se tiene:
0.2475
S32 =
4−1
2
∴ S3 = 0.0825
6.2 Prueba de Bartlett 99
Finalmente se calcula la suma que esta contenida en la estadı́stica (6.1)

r
X
ln Si2 = 3(ln(0.0225) + ln(0.0158) + ln(0.0825))

(c − 1)
i=1
r
X
ln Si2 = −31.30

(c − 1)
i=1
Teniendo todos los elementos se puede construir la estadı́stica (6.1) sustituyendo los
anteriores elementos
(12 − 3)ln(0.0403) − (−31.30)

T =
1 3 1

1 + 3(3−1) 4−1
− 12−3
∴ T = 2.08
2(.95)
Se sabe que el cuantil de una distribución, con α = 0.05, es χ(2) = 5.99. Por lo
que:
2(.95)
T = 2.08 < χ(2) = 5.99
Por lo que la prueba no se rechaza, asumiendo ası́ que los 3 ramos de seguros tienen
una varianza homogénea en la calificación de sus aseguradoras.
Capı́tulo 7
Ejercicios y problemas estadı́stica

no paramétrica
Lea cuidadosamente y responde las siguientes ejercicios.
Prueba de proporciones
1. Suponga que adquiere un portafolio de instrumentos financieros, el bróker le
asegura que dicho portafolio esta formado de tal manera que a lo más el 25 %
de los activos presentan rendimientos negativos. Una vez adquirido el portafolio,
usted observa que 24 de los 80 instrumentos que conforman la cartera presentan
rendimientos negativos. ¿Es razonable suponer que el portafolio tiene a lo más
25 % de activos que presentan rendimientos negativos?. Realiza lo siguiente:
a) Establecer H0 vs. Ha
b) Encontrar la región de rechazo de la prueba binomial con un nivel de con-
fianza 95 %
2. El gobierno de cierto paı́s reportó al consejo de la ciudad que al menos el 60 % de

los residentes están a favor de la emisión de bonos gubernamentales. Un grupo
opositor seleccionó una muestra aleatoria de 150 miembros y se le preguntó su
opinión de la emisión de los bonos dando como resultado que 52 están a favor.
a) Establecer H0 vs. Ha .
b) Encontrar la región de rechazo de la prueba binomial con un nivel de con-
fianza 90 %.
101
102 Ejercicios y problemas estadı́stica no paramétrica
c) Calcular el p − value de la prueba anterior.

d) ¿Es razonable el reporte que presento el gobierno?.
Prueba de rachas
1. Suponga que compra el boleto para una rifa, el boleto le da la oportunidad
de ganar alguno de los 20 premios disponibles. El organizador asegura que el
procedimiento es completamente aleatorio. Para el dı́a de la rifa se han vendido
100 boletos y los boletos ganadores fueron:
27 57 15 10 74 51 31 86 56 6
13 77 3 43 44 65 4 5 48 98
Usted duda quiere comprobar la hipótesis del organizador, que la resultados fue-
ron aleatorios, con un nivel de significancia del 5 %.
2. El equipo de fútbol de Nuevo Toledo tiene la siguientes resultados durante su

actual temporada
p, v, v, v, p, v, v, p, p, v, v, p, v, p, p, p
Donde v hace referencia a una victoria, mientras que p hace referencia a una
derrota. Usted quiere comprobar la hipótesis que la resultados fueron aleatorios,
con un nivel de significancia del 1 %.
Pruebas de bondad de ajuste

1. En la prueba de Kolmogorov-Smirnov y Lilliefors demostrar que la función empı́ri-
ca Sn es un estimador insesgado.
Pn
1(x <X)
Sn (xi ) = i=1 i .
n
2. En la prueba de Kolmogorov-Smirnov muestre que:
Dn = sup |Sn (xi ) − Fx∗ | = max{max{Sn (xi−1 ) − Fx∗ }, max{Sn (xi ) − Fx∗ }}.
x∈R
3. La siguiente muestra aleatoria hace referencia a los rendimientos positivos de

cierta acción a lo largo del tiempo.
0.2513, 0.2566, 0.3459, 0.6379, 2.0505, 1.803, 2.1906,
1.5299, 0.35005, 0.3128, 1.2726, 2.3674, 2.3214, 2.4373, 0.6548.
103
a) Usted piensa que la anterior muestra sigue una distribución normal, realiza
la prueba correspondiente para verificar que su suposición es cierta con un
nivel de confianza del 90 %.
b) El gerente del banco asume que la muestra se distribuye sigue una distri-
bución lognormal con media 0 y varianza 1. ¿Realicé la prueba correspon-
diente para verificar la suposición del gerente con un nivel de significancia
α = 0.01?.
4. Un cierto banco otorga crédito a las personas con una tasa preferencial, de tal
manera que los acreditados pueden pagar en cualquier momento desde que pi-
den el préstamo hasta 8 semanas posteriores para que les sea respetada la tasa
preferencial . Se seleccionaron aleatoriamente a 1,000 personas y observaron su
comportamiento, generando de esta manera la siguiente tabla de frecuencia:
Semana Créditos pagados

Menos de 1 semana 64
1≤x<2 195
2≤x<3 287
3≤x<4 241
4≤x<5 140
5≤x<6 51
6≤x<7 25
7≤x<8 4
8 semanas o más 1
Usted piensa que el pago de estos créditos, sigue una distribución binomial con
parámetros n = 10 y p = 0.25, realicé la prueba χ2 para verificar que suposición
es válida con un 99 % de confianza.
5. En R fije la semilla 2019, y genera 25 observaciones distribuidas como una N (0, 1)

y con ella realiza.
Calcula y gráfica la función de distribución empı́rica de las observaciones

generadas.
Agrega sobre esa misma gráfica, la curva de la distribución verdadera (N (0, 1)).
A partir de las gráficas anteriores ¿La función de distribución empı́rica es
similar a la distribución teórica de los datos?.
Vuelve a fijar la semilla 2019, y genera un millón observaciones distribuidas como

una N (0, 1) y con ello realiza:
Calcula y gráfica la función de distribución empı́rica de las observaciones

generadas.
Agrega sobre esa misma gráfica, la curva de la distribución verdadera (N (0, 1)).
A partir de las gráficas anteriores ¿La función de distribución empı́rica es
similar a la distribución teórica de los datos? .
Realiza diferencia entre el valor de la función empı́rica y la función real,
(Hint: no olvides que debes ordenar de menor a mayor los valores de la dis-
tribución conocida y sólo mostrar los primeros 5 y los últimos 5 resultados)
¿Al ser una muestra mucho mayor que al anterior a que teorema te recuerda
el resultado obtenido?.
Tablas de contigencia
1. Se recopilaron datos macroecónomicos de diversos paı́ses durante el 2017 del
Fondo Monetario Internacional entre los cuales destacan el tamaño del territorio
del paı́s en km2 y la tasa de fertilidad. Se clasificó la información de la siguiente
manera:
Microestado cuando su territorio se menor o igual a 23, 180 km2 .

Paı́s pequeño cuando su territorio este ente los 23, 181 y 112, 760 km2 .
Paı́s mediano cuando su territorio este entre 112, 761 y los 527, 970 km2 .
Paı́s grande cuando su territorio sea mayor a los 527, 970 km2 .
A su vez los paı́ses se subclasifican en dos grupos dependiendo de la tasa de

fecundidad del paı́s de la forma:
Tasa de Fecundidad menor o igual a 2.7 hijos por mujer.

Tasa de Fecundidad mayor a 2.7 hijos por mujer.
Con esa información se construyó la siguiente tabla de contingencia:

Tasa ≤ 2.7 35 31 28 26
Tasa > 2.7 12 15 18 26
a) Establecer H0 vs. Ha
105
b) De la tabla de contigencia realicé el procedimiento obteniendo la estadı́stica

necesaria para rechazar o aceptar con un nivel de significancia α = 0.05 la
hipótesis de que la tasa de fecundidad y el tamaño del territorio se comportan
de manera independiente entre si con los parámetros dados.
c) Calcula el coeficiente de contigencia, ¿cómo lo interpretarı́as?.
d) Calcular el p − value de la prueba anterior.
e) Realiza el procedimiento mediante la prueba de la Ji-Cuadrada; De esta
forma ¿Se rechaza o no la prueba?.
f) ¿Económicamente tiene sentido la proposición de que el PIB y la población
se comportan de manera independiente?.
Pruebas de Wilcoxon / Kruskal Wallis / Medidas de

correlacion
1. La oficina de Censo reportó que se espera que los hispanos sobrepasen a los
afroamericanos como la minorı́a más grande en los Estados Unidos para el año
2030. Use dos pruebas diferentes para ver si hay una relación directa entre el
número de Hispanos y el procentaje de la población del estado para los nueve
estados que se presentan en la tabla siguiente:
Hispanos Porcentaje de la población

Estado (millones) del estado
California 6.6 23
Texas 4.1 24
New York 2.1 12
Florida 1.5 12
Illinois 0.8 7
Arizona 0.6 18
New Jersey 0.6 8
New Mexico 0.5 35
Colorado 0.4 11
Use el nivel de significancia α = 0.05.
2. Un psicólogo está investigando el impacto que el divorcio de los padres tiene

sobre el aprovechamiento académico de los niños. El psicólogo cuenta con las
calificaciones de un grupo de niños de escuela primaria cuyos padres tuvieron
un divorcio durante el año anterior, y las calificaciones para un grupo de niños
similares cuyos padres no se divorciaron.
no divorciados 80 72 99 82 62 50 85
divorciados 60 70 88 75 42 30 50
Se puede decir que hay diferencia en el aprovechamiento académico de los niños?
Use α = 0.05.
3. La tabla que se proporciona a continuación da el número de premios de postgra-

duados en ciencia médica y la razón de muerte por millón de tuberculosis para
los años 1959-69 (fuente: Annual Abstract of Statistics 1970).
Año Número de Premios Tasa de muerte por tuberculosis

1959 277 83
1960 318 74
1961 382 71
1962 441 65
1963 486 62
1964 597 52
1965 750 47
1966 738 48
1967 849 42
1968 932 43
1969 976 38
Demuestre que estos datos muestran una fuerte evidencia de correlación negativa
entre el número de premios y la tasa de muerte por tuberculosis. Explique este
“extraño” resultado. Use α = 0.05.
4. El personal de un hospital mental desea saber qué clase de tratamiento es más

efectivo para un tipo particular de desorden mental. Una baterı́a de pruebas
administrada a todos los pacientes delineó a un grupo de 40 pacientes quienes
fueron considerados de diagnóstico similar y también personalidad, inteligencia
y factores fisiológicos y proyectivos. Esta gente fue dividida en cuatro diferentes
grupos de 10 cada uno para tratamiento. Durante seis meses los grupos respectivos
recibieron (1) electroshock, (2) psicoterapia, (3) electroshock más psicoterapia, y
(4) ningún tipo de tratamiento. Al final de este perı́odo la baterı́a de pruebas fue
repetida en cada paciente. El único tipo de medida posible para estas pruebas
es un ordenamiento (ranking) de los 40 pacientes de acuerdo a su grado relativo
de mejorı́a al final del perı́odo de tratamiento; rango 1 indica el nivel más alto
de mejorı́a, rango 2 el segundo mejor, y ası́ sucesivamente. De acuerdo con estos
datos, existe diferencia en efectividad de los tipos de tratamiento? Use α = 0.05.
Grupos
107
1 2 3 4
19 14 12 38
22 21 1 39
25 2 5 40
24 6 8 30
29 10 4 31
26 16 13 32
37 17 9 33
23 11 15 36
27 18 3 34
28 7 20 35
En R realiza:
5. En el archivo pregunta1.r se encuentran 1000 pares de datos (Xi , Yi ). Calcule

el coeficiente de correlación de Pearson, la ρ de Spearman y pruebe H0 : Las Xi ’s
y las Yi ’s son mutuamente independientes.
6. En el archivo pregunta2.r se encuentran 1000 pares de datos (Xi , Yi ). Calcule

el número de parejas concordantes, el número de parejas discordantes, el número
de empates, la estadı́stica T = Nc − Nd y la τ de Kendall y pruebe la hipótesis
nula de independencia de las Xi ’s y las Yi ’s.
7. Para las dos muestras que se encuentran en el archivo pregunta3.r pruebe uti-
lizando la prueba de Wilcoxon H0 : Las medias son iguales.
8. Realice la prueba de Friedman para los datos que se dan en el archivo pregunta4.r.
9. Realice la prueba de Bartlett para los edatos que se dan en el archivo pregunta5.r.
Realice la prueba dividiendo la población en 3 grupos del mismo tamaño, des-
pués realice la prueba dividiendo la población en 4 grupos del mismo tamaño y
finalmente realice la prueba con ni = {49, 82, 103, 66}. Use α = 0.05.
Prueba McNemar
1. Como se mencionó en clase la tabla de Mcnemar las variables B y C, hacen
referencia al número de elementos que cambio de un estado al otro, el valor que
se esperarı́a que cambiaran de un estado a otro es B+C
2
y con una varianza B+C4
.
a) Demostrar que la distribución de B dada B +C = m es binomial, especifique

los parámetros.
b) Si se supone normalidad, demostrar que:
(B − C)2
∼ χ2(1) .
B+C
2. Una casa de bolsa forma portafolios de inversión clasificados de alto y bajo riesgo.
En 2005, de 100 individuos 70 elegı́an invertir en portafolios conformado por ac-
tivos de alto riesgo. Después de la crisis de 2008, en 2010, 25 personas que elegı́an
portafolios riesgosos cambiaron de portafolio eligiendo correr menos riesgos. Por
otra parte 10 personas cambiaron de portafolios con poco riesgo a carteras ries-
gosas. ¿Es significativo el cambio en el número de personas después de la crisis
de 2008?.
Apéndice A
Relación de distribuciones de
probabilidad.
En esta sección se abordarán algunos resultados de la distribuciones probabilisticas

ası́ como las relaciones más importante, las cuales serán de gran importancia en el
desarrollo del presente documento.
Relación en la paremetrización de la distribuciones:
Si X ∼ Bin(n = 1, p) entonces X se distribuye Bernulli con parámetro p:
X ∼ Bernoulli(p).
Si X ∼ BinN eg(n = 1, p) entonces X se distribuye geométrica con paráme-

tro p:
X ∼ Geo(p)
Si X ∼ Γ(α = 1, β) entonces X se distribuye exponencial con parámetro:
X ∼ Exp(β).
Si X ∼ Γ(α = r/2, β = 1/2) entonces X se distribuye χ2 con r grados de

libertad:
X ∼ χ2(r) .
Relación por transformaciones:
Si X ∼ N (µ, σ 2 ) y se define a la transformación lineal Y como Y = a + bX

entonces:
Y ∼ N (a + bµ, bσ 2 ).
109
110 Relación de distribuciones de probabilidad.
Si X ∼ Γ(α, β) y se define a la transformación Y = X

c
, entonces:
Y ∼ Γ(α, cβ).
Si X ∼ F (v1 , v2 ) y se define a la transformación lineal Y como Y = 1

X
entonces:
Y ∼ F (v2 , v1 ).
Si X ∼ Beta(α, β) y se define a la transformación lineal Y como Y = 1 − X
entonces:
Y ∼ Beta(β, α).
Si X ∼ N (0, 1) entonces:
X 2 ∼ χ2(1) .
Si X ∼ N (µ, σ 2 ) entonces:
X −µ
√ ∼ N (0, 1).
σ2
Suma de variables aleatorias:
Si X1 , X2 , . . . , Xn ∼ Bernoulli(p) entonces:
n
X
Xi ∼ Bin(n, p)
i=1
.
Si X1 , X2 , . . . , Xn ∼ Geom(p) entonces:
n
X
Xi ∼ BinN ega(n, p).
i=1
Si X1 , X2 , . . . , Xn ∼ Exp(β) entonces:
n
X
Xi ∼ Γ(n, β).
i=1
Si Xi ∼ N (µi , σi2 ), i = 1, 2, . . . , n entonces:

n n n
!
X X X
Xi ∼ N µi , σ2 .
i=1 i=1 i=1
Si Xi ∼ P ois(λi ), i = 1, 2, . . . , n entonces:
n n
!
X X
Xi ∼ P ois λi .
i=1 i=1
111
Si Xi ∼ χ2mi , i = 1, 2, . . . , n entonces:
n
X
Xi ∼ χ2(Pn m ) .
i=1 i
i=1
Si Xi ∼ N (µ, σ ), i = 1, 2, . . . , n entonces:
2
n
X (Xi − µ)2
∼ χ2n .
i=1
σ2
Si Xi ∼ N (µ, σ ), i = 1, 2, . . . , n entonces:
2
Pn 2
i=1 Xi − X̄
∼ χ2n−1
σ2
(n − 1)S 2
∼ χ2n−1 .
σ2
2
Pn (Xi −X̄ )
donde S 2 = i=1 n−1
.
Si Xi ∼ N (µ, σ 2 ), i = 1, 2, . . . , n entonces:
X̄ − µ
q ∼ t(n−1) .
S2
n
2
Pn (Xi −X̄ )
donde S 2 = i=1 n−1
.
Producto de variables aleatorias
Si X ∼ N (0, 1) y Y ∼ χ2(k) , entonces:
X
q ∼ t(k) .
Y
k
Si X ∼ χ2(n) y Y ∼ χ2(m) entonces:

X/n
∼ F(n,m) .
Y /m
Si Xi ∼ LogN orm(µi , σi2 ), i = 1, 2, . . . , n entonces:
n n
!
Y X X
Xi ∼ LogN orm µi , σi2 .
i=1 i=1 i=1
112 Relación de distribuciones de probabilidad.
Apéndice B
Tablas
En este apéndice se muestran algunas de las principales tablas mencionadas en lo

largo del trabajo, especı́ficamente en el análisis del tema de estadı́stica no paramétrica,
el lector puede hacer uso de ellas al elaborar algún o algunos ejercicios que lo requieran.
Las primeras tres tablas hacen referencia a pruebas de bondad de ajuste, y las siguientes
sobre tablas son referentes a tablas de pruebas particulares.
B.1. Valores Crı́ticos de la prueba de Kolmogorov-

Smirnov
En la siguiente sección se muestra el tabulado de la distribución asociada a la

estadı́stica Dn para diferentes cuantiles de significancia en relación con el tamaño de
la muestra de una prueba de bondad de ajuste: Kolmogorov-Smirnov. Recuerde que:
Dn = sup |Fn − Fx∗ | = max{max{Fn (xi−1 ) − Fx∗ }, max{Fn (xi ) − Fx∗ }}.
x∈R
113
114 Tablas
Tamaño Nivel de significacia α

n 0.10 0.05 0.02 0.01
1 0.95000 0.97500 0.99000 0.99500
2 0.77639 0.84189 0.90000 0.92929
3 0.63604 0.70760 0.78456 0.82900
4 0.56522 0.62394 0.68887 0.73424
5 0.50945 0.56328 0.62718 0.66853
6 0.46799 0.51926 0.57741 0.61661
7 0.43607 0.48342 0.53844 0.57581
8 0.40962 0.45427 0.50654 0.54179
9 0.38746 0.43001 0.47960 0.51332
10 0.36866 0.40925 0.45662 0.48893
B.1 Valores Crı́ticos de la prueba de Kolmogorov-Smirnov 115
Tamaño Nivel de significacia α

n 0.10 0.05 0.02 0.01
11 0.35242 0.39122 0.43670 0.46770
12 0.33815 0.37543 0.41918 0.44905
13 0.32549 0.36143 0.40362 0.43247
14 0.31417 0.34890 0.38970 0.41762
15 0.30397 0.33760 0.37713 0.40420
16 0.29472 0.32733 0.36571 0.39201
17 0.28627 0.31796 0.35528 0.38086
18 0.27851 0.30936 0.34569 0.37062
19 0.27136 0.30143 0.33685 0.36117
20 0.26473 0.29408 0.32866 0.35241
21 0.25858 0.28724 0.32104 0.34427
22 0.25283 0.28087 0.31394 0.33666
23 0.24746 0.27490 0.30728 0.32954
24 0.24242 0.26931 0.30104 0.32286
25 0.23768 0.26404 0.29516 0.31657
26 0.23320 0.25907 0.28962 0.31064
27 0.22898 0.25438 0.28438 0.30502
28 0.22497 0.24993 0.27942 0.29971
29 0.22117 0.24571 0.27471 0.29466
30 0.21756 0.24170 0.27023 0.28987
31 0.21412 0.23788 0.26596 0.28530
32 0.21085 0.23424 0.26189 0.28094
33 0.20771 0.23076 0.25801 0.27677
34 0.20472 0.22743 0.25429 0.27279
35 0.20185 0.22425 0.25073 0.26897
36 0.19910 0.22119 0.24732 0.26532
37 0.19646 0.21826 0.24404 0.26180
38 0.19392 0.21544 0.24089 0.25843
39 0.19148 0.21273 0.23786 0.25518
40 0.18913 0.21012 0.23494 0.25205
1.22 1.36 1.52 1.63

n > 40 √ √ √ √
n n n n
Cabe destacar, que la información se encuentra acotada para un tamaño de muestra

menor a 40 observaciones, sin embargo, puede aproximarse a través de los resultados
mostrados anteriormente, los cuales involucran un cuantil dividido entre la raı́z de las
observaciones, puede demostrase que entre más grande sea el tamaño de la muestra la
distribución de la estadı́stica tiende a cero.
116 Tablas
B.2. Valores Crı́ticos de la prueba de Lilliefors
En la siguiente sección se muestra el tabulado de la distribución asociada a la

estadı́stica Dn para diferentes cuantiles de significancia en relación con el tamaño de
la muestra de una prueba de bondad de ajuste: Lillifors. Recuerde que:
Dn = sup |Fn − Fx∗ | = max{max{Fn (xi−1 ) − Fx∗ }, max{Fn (xi ) − Fx∗ }}.
x∈R
n α = 0.20 α = 0.15 α = 0.10 α = 0.05 α = 0.01

4 0.3027 0.3216 0.3456 0.3754 0.4129
5 0.2893 0.3027 0.3188 0.3427 0.3959
6 0.2694 0.2816 0.2982 0.3245 0.3728
7 0.2521 0.2641 0.2802 0.3041 0.3504
8 0.2387 0.2502 0.2649 0.2875 0.3331
9 0.2273 0.2382 0.2522 0.2744 0.3162
10 0.2171 0.2273 0.241 0.2616 0.3037
11 0.208 0.2179 0.2306 0.2506 0.2905
12 0.2004 0.2101 0.2228 0.2426 0.2812
13 0.1932 0.2025 0.2147 0.2337 0.2714
14 0.1869 0.1959 0.2077 0.2257 0.2627
15 0.1811 0.1899 0.2016 0.2196 0.2545
16 0.1758 0.1843 0.1956 0.2128 0.2477
17 0.1711 0.1794 0.1902 0.2071 0.2408
18 0.1666 0.1747 0.1852 0.2018 0.2345
19 0.1624 0.17 0.1803 0.1965 0.2285
20 0.1589 0.1666 0.1764 0.192 0.2226
25 0.1429 0.1498 0.1589 0.1726 0.201
30 0.1315 0.1378 0.146 0.159 0.1848
31 0.1291 0.1353 0.1432 0.1559 0.182
32 0.1274 0.1336 0.1415 0.1542 0.1798
33 0.1254 0.1314 0.1392 0.1518 0.177
34 0.1236 0.1295 0.1373 0.1497 0.1747
35 0.122 0.1278 0.1356 0.1478 0.172
36 0.1203 0.126 0.1336 0.1454 0.1695
37 0.1188 0.1245 0.132 0.1436 0.1677
38 0.1174 0.123 0.1303 0.1421 0.1653
39 0.1159 0.1214 0.1288 0.1402 0.1634
40 0.1147 0.1204 0.1275 0.1386 0.1616
B.3 Valores Crı́ticos de la prueba de Anderson Darling 117
n α = 0.20 α = 0.15 α = 0.10 α = 0.05 α = 0.01

41 0.1131 0.1186 0.1258 0.1373 0.1599
42 0.1119 0.1172 0.1244 0.1353 0.1573
43 0.1106 0.1159 0.1228 0.1339 0.1556
44 0.1095 0.1148 0.1216 0.1322 0.1542
45 0.1083 0.1134 0.1204 0.1309 0.1525
46 0.1071 0.1123 0.1189 0.1293 0.1512
47 0.1062 0.1113 0.118 0.1282 0.1499
48 0.1047 0.1098 0.1165 0.1269 0.1476
49 0.104 0.1089 0.1153 0.1256 0.1463
50 0.103 0.1079 0.1142 0.1246 0.1457
0.724165 0.758905 0.8043545 0.875897 1.0210785
n > 50 √
n
√
n
√
n
√
n
√
n
Cabe destacar, que la información se encuentra acotada para un tamaño de mues-

tra menor igual a 50 observaciones, sin embargo, puede aproximarse a través de los
resultados mostrados anteriormente, los cuales involucran un cuantil dividido entre la
raı́z de las observaciones, puede demostrase que entre más grande sea el tamaño de la
muestra la distribución de la estadı́stica tiende a cero.
B.3. Valores Crı́ticos de la prueba de Anderson Dar-

ling
La estadı́stica de Anderson-Darling es:
n
X 2i − 1
A2n = −n − [ln (FX∗ (xi )) + ln(1 − FX∗ (xn−i+1 ))] .
i=1
n
Dado que la estadı́stica no depende de Fn (x) y sólo depende de n entonces la dis-

tribución asitótica de Anderson-Darling es la que se muestra a continuación, asimismo
se mostrará algunos ajustes a la estadı́stica con la finalidad de que la prueba sea más
potente para determinados casos:
118 Tablas
1−α
Caso Ajuste en la estadı́stica 0.90 0.95 0.975 0.99
Todos los parámetros conocidos A2n para n ≥ 52 1.933 2.492 3.070 3.857
4 25
Normal con N (X̄, S 2 ) 1 + n + n2 An 0.632 0.751 0.870 1.029
0.6 2
Exponencial con exp(X̄) 1 + n An 1.070 1.326 1.587 1.943
0.2
Weibull con W eibull(α̂, β̂) 1+ √
n
A2n 0.637 0.757 0.877 1.038

0.25
Log-lógista con loglog(α̂, β̂) 1+ √
n
A2n 0.563 0.660 0.769 0.906
B.4. Cuantiles de la estadı́stica Wald-Wolfowitz

B.4 Cuantiles de la estadı́stica Wald-Wolfowitz 119
n1 n2 W0.005 W0.01 W0.025 W0.05 W0.10 W0.90 W0.95 W0.975 W0.99 W0.995
2 5 - - 3 - - - - -
2 8 - - 3 3 - - - - -
2 11 - - 3 3 - - - - -
2 14 - - 3 3 3 - - - - -
2 17 - - 3 3 3 - - - - -
2 20 - 3 3 3 4 - - - - -
5 5 3 3 4 4 8 8 9 9 -
5 8 3 3 4 4 5 9 10 10 - -
5 11 4 4 5 5 6 10 - - - -
5 14 4 4 5 6 6 - - - - -
5 17 4 5 5 6 7 - - - - -
5 20 5 5 6 6 7 - - - - -
8 8 4 5 5 6 6 12 12 13 13 14
8 11 5 6 6 7 8 13 14 14 15 15
8 14 6 6 7 8 8 14 15 15 16 16
8 17 6 7 8 8 9 15 15 16 - -
8 20 7 7 8 9 10 15 16 16 - -
11 11 6 7 8 8 9 15 16 16 17 18
11 14 7 8 9 9 10 16 17 18 19 19
11 17 8 9 10 10 11 17 18 19 20 21
11 20 9 9 10 11 12 18 19 20 21 21
14 14 8 9 10 11 12 18 19 20 21 22
14 17 9 10 11 12 13 20 21 22 23 23
14 20 10 11 12 13 14 21 22 23 24 24
17 17 11 11 12 13 14 22 23 24 25 25
17 20 12 12 14 14 16 23 24 25 26 27
20 20 13 14 15 16 17 25 26 27 28 29
Para valores de n1 o n2 mayores de 20, el cuantil wp es aproximado como:

s
2n1 n2 2n1 n2 (2n1 n2 − n1 − n2 )
Wp = + 1 + Zp .
n1 + n2 (n1 + n2 )2 (n1 + n2 − 1)
donde Zp hace referencia al cuantil p de una distribución normal estándar.

120 Tablas
B.5. Cuantiles de la estadı́stica ρ de Spearman
En la siguiente tabla se muestran los valores crı́ticos con ciertos niveles de signifi-
cancia de la distribución asociada a la ρ de Spearman.
Nivel de Significancia α
n 0.1 0.05 0.025 0.01 0.005 0.001
4 1 1 - - - -
5 0.8 0.9 1 1 - -
6 0.657 0.829 0.886 0.943 1 -
7 0.571 0.714 0.786 0.893 0.929 1
8 0.524 0.643 0.738 0.833 0.881 0.952
9 0.483 0.6 0.7 0.783 0.833 0.917
10 0.455 0.564 0.648 0.745 0.794 0.879
11 0.427 0.536 0.618 0.709 0.755 0.845
12 0.406 0.503 0.587 0.678 0.727 0.818
13 0.385 0.484 0.56 0.648 0.703 0.791
14 0.367 0.464 0.538 0.6’26 0.679 0.771
15 0.354 0.446 0.521 0.604 0.654 0.75
16 0.341 0.429 0.503 0.582 0.635 0.729
17 0.328 0.414 0.488 0.566 0.618 0.711
18 0.317 0.401 0.472 0.55 0.6 0.692
19 0.309 0.391 0.46 0.535 0.584 0.675
20 0.299 0.38 0.447 0.522 0.57 0.662
21 0.292 0.37 0.436 0.509 0.556 0.647
22 0.284 0.361 0.425 0.497 0.544 0.633
23 0.278 0.353 0.416 0.486 0.532 0.621
24 0.271 0.344 0.407 0.476 0.521 0.609
25 0.265 0.337 0.398 0.466 0.511 0.597
26 0.259 0.331 0.39 0.457 0.501 0.586
27 0.255 0.324 0.383 0.449 0.492 0.576
28 0.25 0.318 0.375 0.441 0.483 0.567
29 0.245 0.312 0.368 0.433 0.475 0.558
30 0.240 0.306 0.362 0.425 0.467 0.549
31 0.236 0.301 0.356 0.419 0.459 0.540
32 0.232 0.296 0.350 0.412 0.452 0.532
33 0.229 0.291 0.345 0.405 0.446 0.525
34 0.225 0.287 0.340 0.400 0.439 0.517
35 0.222 0.283 0.335 0.394 0.433 0.540
B.5 Cuantiles de la estadı́stica ρ de Spearman 121
n 0.1 0.05 0.025 0.01 0.005 0.001
36 0.219 0.279 0.3.30 0.388 0.427 0.503
37 0.215 0.275 0.325 0.383 0.421 0.497
38 0.212 0.271 0.321 0.378 0.415 0.491
39 0.210 0.267 0.317 0.373 0.410 0.485
40 0.207 0.264 0.313 0.368 0.405 0.479
41 0.204 0.261 0.309 0.364 0.400 0.473
42 0.202 0.257 0.305 0.359 0.396 0.468
43 0.199 0.254 0.301 0.355 0.391 0.462
44 0.197 0.251 0.298 0.351 0.386 0.457
45 0.194 0.248 0.294 0.347 0.382 0 452
46 0.192 0.246 0.291 0.343 0.378 0.448
47 0.190 0.243 0.288 0.340 0.374 0.443
48 0.188 0.240 0.285 0.336 0.370 0.439
49 0.186 0.238 0.282 0.333 0.366 0.434
50 0.184 0.235 0.279 0.329 0.363 0.430
51 0.182 0.233 0.276 0.326 0.359 0.426
52 0.180 0.231 0.274 0.323 0.356 0 422
53 0.179 0.228 0.271 0.320 0.352 0.418
54 0.177 0.226 0.268 0.317 0.349 0.414
55 0.175 0.224 0.266 0.314 0.346 0.411
56 0.174 0.222 0.264 0.311 0.343 0.407
57 0.172 0.220 0.261 0.308 0.340 0.404
58 0.171 0.218 0.259 0.306 0.337 0.400
59 0.169 0.216 0.257 0.303 0.334 0 397
60 0.168 0.214 0.255 0.301 0.331 0.394

tra menor igual a 60 observaciones, sin embargo, puede verse que los resultados para
muestras mayores a 60 se comporta de manera más asintoticamente por lo que puede
aproximarse valores por encima de lı́mite con n = 60, para mayor confiabilidad puede
realizar el experimento en R.
122 Tablas
B.6. Cuantiles de la estadı́stica τ de Kendall
cancia de la distribución asociada a la τ de Kendall.
n 0.1 0.05 0.025 0.01 0.005 0.001
4 1 1 - - - -
5 0.8 0.8 1 1 - -
6 0.6 0.733 0.867 0.867 1 -
7 0.524 0.619 0.714 0.81 0.905 1
8 0.429 0.571 0.643 0.714 0.786 0.857
9 0.389 0.5 0.556 0.667 0.722 0.833
10 0.378 0.467 0.511 0.6 0.644 0.778
11 0.345 0.418 0.491 0.564 0.6 0.709
12 0.303 0.394 0.455 0.545 0.576 0.667
13 0.308 0.359 0.436 0.513 0.564 0.641
14 0.275 0.363 0.407 0.473 0.516 0.604
15 0.276 0.333 0.39 0.467 0.505 0.581
16 0.25 0.317 0.383 0.433 0.483 0.567
17 0.25 0.309 0.368 0.426 0.471 0.544
18 0.242 0.294 0.346 0.412 0.451 0.529
19 0.228 0.287 0.333 0.392 0.439 0.509
20 0.221 0.274 0.326 0.379 0.421 0.495
21 0.21 0.267 0.314 0..371 0.41 0.486
22 0.203 0.264 0..307 0.359 0.394 0.472
23 0.202 0.257 0.296 0.352 0.391 0.455
24 0.196 0.246 0.29 0.341 0.377 0.449
25 0.193 0.24 0.287 0.333 0.367 0.44
26 0.188 0.237 0.28 0.329 0.36 0.428
27 0.179 0.231 0.271 0.322 0.356 0.419
28 0.18 0.228 0.265 0.312 0.344 0.413
29 0.172 0.222 0.261 0.31 0.34 0.404
30 0.172 0.218 0.255 0.301 0.333 0..393
31 0.166 0.213 0.252 0.295 0.325 0.389
32 0.165 0.21 0.246 0.29 0.323 0.379
33 0.163 0.205 0.242 0.288 0.314 0 375
34 0.159 0.201 0.237 0.28 0.312 0.369
B.6 Cuantiles de la estadı́stica τ de Kendall 123
n 0.1 0.05 0.025 0.01 0.005 0.001
35 0.156 0.197 0.234 0.277 0.304 0.361
36 0.152 0.194 0.232 0.273 0.302 0 359
37 0.15 0.192 0.228 0.267 0.297 0.351
38 0.149 0.189 0.223 0.263 0.292 0.346
39 0.147 0.188 0.22 0.26 0.287 0.341
40 0.144 0.185 0.218 0.256 0.285 0 338
41 0.141 0.18 0.215 0.254 0.28 0.334
42 0.141 0.178 0.213 0.25 0.275 0.329
43 0.138 0.176 0.209 0.247 0.274 0 324
44 0.137 0.173 0.207 0.243 0.268 0.321
45 0.135 0.172 0.204 0.24 0.267 0.317
46 0.132 0.169 0.202 0.239 0.264 0.314
47 0.132 0.167 0.199 0.236 0.26 0 310
48 0.129 0.167 0.197 0.232 0.257 0.307
49 0.129 0.163 0.196 0.23 0.253 0.303
50 0.127 0.162 0.192 0.228 0.251 0 300
51 0.126 0.161 0.191 0.225 0.249 0.297
52 0.124 0.158 0.189 0.223 0.246 0.294
53 0.123 0.157 0.187 0.221 0.244 0 290
54 0.122 0.156 0.185 0.219 0.241 0 287
55 0.121 0.154 0.182 0.216 0.239 0.285
56 0.119 0.152 0.181 0.214 0.2.36 0.282
57 0.118 0.152 0.179 0.212 0.234 0 279
58 0.117 0.149 0.177 0.21 0.2.32 0.276
59 0.116 0.148 0.176 0.209 0.2.30 0.274
60 0.115 0.147 0.174 0.207 0.228 0.272

124 Tablas
B.7. Cuantiles de la estadı́stica de Wilcoxon
cancia de la distribución asociada la estadı́stica de Wilcoxon, particularmente para la
prueba de dos colas.
H0 : E [X] = E [Y ] vs. Ha : E [X] 6= E [Y ] .
n 0.05 0.01
6 1 -
7 2 -
8 4 0
9 6 2
10 8 3
11 11 5
12 14 7
13 17 10
14 21 13
15 25 16
16 30 19
17 35 23
18 40 28
19 46 32
20 52 37
21 59 43
22 66 49
23 73 55
24 81 68
25 90 68
26 98 76
27 107 84
28 117 92
29 127 100
30 137 109

B.7 Cuantiles de la estadı́stica de Wilcoxon 125
126 Tablas
Apéndice C
Formulario
En esta sección se mencionarán los principales resultados que se abordaron a lo largo

del presente trabajo con la finalidad de resumir la información y en caso de que se desee
consultar algún resultado sea más sencillo para el lector encontrarlo, sin embargo, se
invita a leer al demás contenido para justificar los resultados mostrados. El apéndice
cuenta con tres secciones, los cuales hacen referencia a los temas de estadı́stica no
paramétrica además de que se menciona la pagina en la que puede encontrarse el
anterior resultado.
C.1. Estadı́stica no paramétrica
En esta sección se mostrarán las reglas de decisión de las pruebas no paramétricas

abordadas en el presente texto, ası́ como de manera general las hipótesis que se analizan.
Pruebas Para Proporciones
Ver página 2.
El test para proporciones prueba afirmaciones sobre la proporción o la probabilidad
“p” esperada de que ocurra un cierto suceso en una muestra aleatoria. La prueba de
hipótesis para una cola es:
H0 : p = p∗ vs. H1 : p 6= p∗
donde p∗ es la proporción o probabilidad que se desea poner a prueba.
127
128 Formulario
Se define a la estadı́stica de prueba como el número de observaciones donde se

obtuvo el suceso esperado O1 ası́:
T = O1 .
Se define a α = α1 + α2 . Por lo que sea t1 y t2 tal que:
P [Y ≤ t1 ] = α1 .
y análogamente con valores:
P [Y ≤ t2 ] = 1 − α2 .
donde Y ∼ Bin(n, p∗ ).
De esta forma se rechaza H0 si T ≤ t1 o si T > t2 . En cualquier otro caso, se acepta
la hipótesis nula.
El p − value equivale a:
p − value = 2 ∗ min (P [Y ≤ T ] , P [Y ≥ T ]) .
Por lo que si p − value ≤ α se rechaza la hipótesis nula de hipótesis con un nivel

de significancia α.
Pueba de corridas o rachas
Ver página 13.

La prueba de rachas mide si la ocurrencia de una variable dicotómica ha sido de
manera aleatoria. Ası́ se prueba el siguiente contraste.
H0 : La muestra es aleatoria vs. Ha : La muestra no es aleatoria
Se define a la estadı́stica R como R = r1 +r2 , donde r1 son las rachas de un resultado

tipo I, r2 las rachas del tipo II. De esta manera, la regla de decisión es rechazar H0
con un nivel de significancia α si:
R < Wα/2 ó R > W1−α/2
Donde Wα/2 y W1−α/2 son obtenidos de la tabla de cuantiles del apéndice B.4.
C.1 Estadı́stica no paramétrica 129
Prueba de la Ji-Cuadrada
Ver página 20
La prueba de la Ji-cuadrada es una prueba de bondad de ajuste, consiste en medir
las diferencias entre la frecuencia esperada y la frecuencia observado; La prueba de
hipótesis es:
H0 : F (X) = FX∗ vs. Ha : F (X) 6= FX∗

Se define la estadı́stica T como:
k
X (Oi − Ei )2
T =
i=1
Ei
Donde Oi es la frecuencia observada en la clase i, y Ei es la frecuencia esperada en

la clase i, en cada una de las k agrupaciones mutuamente excluyentes entre si.
2(1−α)
La regla de decisión es rechazar la prueba de hipótesis cuando: T > χk−1 , en otro
caso no se tiene evidencia de rechazar la prueba con un nivel de significancia α
Kolmogorov-Smirnov
Ver página 32.

El test de Kolmogorov-Smirnov pone a prueba es las siguientes de hipótesis:
H0 : F (X) = FX∗ vs. Ha : F (X) 6= FX∗

Pn
i=11xi ≤x
La distribución empı́rica la cual se define como: Fn = n
, se define a la
estadı́stica:
Dn = sup |Fn − Fx∗ | = max{max{Fn (xi−1 ) − Fx∗ }, max{Fn (xi ) − Fx∗ }}

x∈R
130 Formulario
Finalmente, se observa hay evidencia de rechazar H0 cuando Dn > wk1−α donde

wk1−α es el cuantil que acumula el 1 − α de probabilidad de la distribución asociada a
Dn la cual puede obtenerse al consultar el apéndice B.1.
Lilliefors
La prueba de Kolmogorov-Smirnov posee el supuesto de que la distribución que se

desea comprobar debe ser completamente especificada; la prueba de Lillifors modifico la
prueba de Kolmogorov-Smirnov, con la finalidad de que sólo con conocer la distribución
se pudiera poner a prueba un conjunto de datos para saber si siguen una cierta familia
probabilistica con un nivel de confianza deseado, al aproximar a los parámetros a través
del uso de los estimadores puntuales
Lilliefors para normalidad
Ver página 42.

Es usada para probar que un nivel de confianza dado, que una muestra aleatoria
sigue una distribución normal con media X̄ y varianza S 2 .
Se desea hacer el contraste:
H0 : La muestra ∼ N (X̄, S 2 )
vs.
Ha : La muestra N (X̄, S 2 )
Pn
i=1 1xi ≤x
Se define a la distribución empı́rica como: Fn = n
, ası́ la estadı́stica Dn se
denota como

xi − X̄ xi − X̄ xi − X̄
Dn = sup |Fn −φ | = max{max{Fn (xi−1 )−φ }, max{Fn (xi )−φ }}
x∈R S2 S2 S2
Finalmente, se observa hay evidencia de rechazar H0 cuando Dn > wk1−α donde

wk1−αes el cuantil que acumula el 1 − α de probabilidad de la distribución asociada a
Dn la cual puede obtenerse al consultar el apéndice B.2.
Anderson Darling
Ver página 50.

Anderson Darling al igual que las anteriores pruebas de bondad de ajuste tiene
como contraste de la prueba a las siguientes hipótesis.
H0 : F (X) = FX∗ vs. Ha : F (X) 6= FX∗
Donde FX∗ es la distribución teórica que se quiere probar con un nivel de significancia
α.
La estadı́stica de Anderson-Darling es:
n
X 2i − 1
A2n = −n − [ln (FX∗ (xi )) + ln(1 − FX∗ (xn−i+1 ))]
i=1
n
Finalmente la regla de decisión será rechazar H0 si A2n > W 1−α , donde W 1−α es el
cuantil asociado a la distribución A2n bajo H0 , la cual puede consultarse en el apéndice
B.3
Tablas de contingencia
Las tablas de contingencia, como lo dice su nombre, son tablas en el que se muestra
las frecuencias de c diferentes clases, con la finalidad de observar si r variables son
independientes entre si, de esta manera se plantea la siguiente prueba de hipótesis:
Xr Xc Xr c
X
H0 : Pij = Pij Pij vs. Ha : Pij 6= Pij Pij , ∀i = 1, . . . , r; j = 1, . . . , c
i=1 j=1 i=1 j=1
La estadı́stica de la prueba, denotado por la letra T es:

r X c
X (nij − eij )2
T =
i=1 j=1
eij
Pc
( nij )( ci=1 nij )
P
j=1
Donde eij = N
. Cuya distribución probabilista asociada es T ∼
2
χ(r−1)(c−1) .
Por lo que la regla de decisión es: Rechazar H0 , a un nivel de significancia α
si
T ≥ W 1−α
Donde W 1−α es el cuantil 1 − α de una distribución χ2(r−1)(c−1) .
132 Formulario
ρ (ro) de Spearman
Ver página 69.

La medida de correlación se denota por ρ (ro) y se define de la siguiente manera:
n+1 2
Pn
i=1 R (X i ) R (Y i ) − n 2
ρ= 1/2 P 1/2 . (C.1)
Pn 2 n+1
2 n 2 n+1 2
i=1 (R (Xi )) − n 2 i=1 (R (Yi )) − n 2
Prueba de Hipótesis
La ρ de Spearman se utiliza para probar independencia entre dos variables aleatorias

(dos poblaciones).
Se tiene el siguiente caso:
A (prueba de dos colas) H0 : Las Xi0 s y las Yi0 s son mutuamente independientes.
dos” con los valores más grandes de Y y los valores chicos de X con los valores chicos de
Y ó existe una tendencia para que los valores más grandes de X estén “emparejados”
con los valores más chicos de Y y los valores chicos de X con los valores grandes de Y
(ρ 6= 0).
Usando ρ como estadı́stica de prueba se tiene la siguiente regla de decisión:
Se rechaza H0 al nivel de significancia α si:
A : ρ < ωα/2 ó ρ > ω1−α/2

B : ρ > ω1−α
C : ρ < ωα
donde ωp es el p − ésimo cuantil de la distribución de ρ., la cual puede ser obtenida de

la tabla mostrada en el anexo B.5.
τ (tau) de Kendall
Ver página 73.

La τ de Kendall también puede usarse como una estadı́stica de prueba para probar
la hipótesis nula de independencia entre X y Y . Por lo general se usa T como la
estadı́stica de prueba:
T = Nc − Nd ,
donde Nc es el número de parejas concordantes, mientras que Nd es el número de

parejas discordantes
Los cuantiles de la distribución de T (o τ ) están tabulados (ver apéndice B.6 ).
Si T excede el cuantil 1 − α, se rechaza H0 en favor de la alternativa de una cola de
correlación positiva, al nivel de significancia α.
Prueba de Suma de Rangos de Wilcoxon
Ver página 80.

La prueba de suma de rangos de Wilcoxon se usa cuando se tienen dos muestras
independientes de poblaciones diferentes y se desea probar que éstas son iguales. La
prueba de hipótesis es definida como:
H0 : E [X] = E [Y ] vs. Ha : E [X] 6= E [Y ]
Se define a la estadı́stica T como: T = S − n(n+1) , donde S = ni=1 R(Xi ) (La suma

P
2
de todos los rangos asignados de manera combinada a la muestra aleatoria del tipo 1).
Rechazar H0 , con un nivel de significancia α, si T1 < W α/2 o T1 > W 1−α/2 , donde W
sigue una distribución normal estándar. Si se trabaja con la estadı́stica T , la región de
rechazo es la misma, salvo que los cuantiles de W se obtienen de la tabla de Wilcoxon.
Prueba de Kruskal-Wallis
Ver página 90.

La prueba de Kruskal Wallis, esta test sirve para analizar k, para verificar que las
k muestras son todas iguales. Es por ello que se define la prueba como:
H0 : E [X1 ] = E [X2 ] = . . . = E[Xk ] vs. Ha : E [X1 ] 6= E [X2 ] 6= . . . 6= E[Xk ].
Para contrastar esta prueba, Kruskal-Wallis propusieron la siguiente estadı́stica:

134 Formulario
k
!
1 X R2 i N (N + 1)2
T = 2 −
S i=1
ni 4
donde:
S 2 es de la forma:
!
1 X N (N + 1)2
S2 = R2 (xij ) −
N T odos los rangos
4
En caso de que no se presentaran empates entonces:
N (N + 1)
S2 =
12
De esta manera, Kruskal-Wallis observaron que T se aproxima a χ2k−1 , por lo que

2(1−α)
la regla de decisión es rechazar H0 si T > χk−1 .
Prueba de McNemar
Ver página 95.

La prueba de McNemar, sirve para verificar con un nivel de significancia α que un
“tratamiento”induce un cambio en la respuesta del mismo. Formulando el contraste de
la prueba de hipótesis se tiene:
H0 : El tratamiento no induce cambios significativo en la respuesta de la muestra vs.

Ha : El tratamiento induce cambios significativo en la respuesta de la muestra
(B−C)2
Se usa la estadı́stica T = B+C
sigue una distribución χ2(1) .
D0e esta manera la regla de decisión es: rechazar H0 con un nivel de significancia
2(α/2) 2(1−α/2)
α cuando T < χ(1) o T > χ(1) .
Prueba de Bartlett
Ver página 97.

La prueba de Bartlett prueba con un cierto nivel de significancia α la homogeneidad

en la varianza de r muestras aleatorias con c observaciones cada una, de esta manera
se define la prueba de hipótesis como:
H0 : σ12 = σ22 = . . . = σr2 vs. Ha : σ12 6= σ22 6= . . . 6= σr2
Para contrastar la prueba de hipótesis de Bartlett, se utiliza la estadı́stica T la cual

sigue una distribución χ2(r−1) . Además defı́nase N como el número de elementos puestos
a observación, es decir, N = ri=1 ci , entonces:
P
(N − r) ln(Sp2 ) − (c − 1) ri=1 ln(Si2 )

P
T = (C.2)
1 r
− N1−r

1 + 3(r−1) c−1
donde:
Pr
SCi SCi
Sp2 = i=1
y Si2 =
N −r c−1
A su vez SCi se define como la suma de cuadrados de la forma:
P 2
c
Xc x
j=1 ij
SCi = x2ij −
j=1
c
De esta manera la regla de decisión se define como, rechazar H0 con un nivel de

2(1−α)
significancia α cuando T > χ(r−1) , en otro caso la prueba no se rechaza.
136 Formulario
Referencias
Bollen, K. A., y Jackman, R. W. (1985, may). Regression diagnostics. Sociological

Methods & Research, 13 (4), 510–542. doi: 10.1177/0049124185013004004
Conover, W. J. (1998). Practical nonparametric statistics. John Wiley
& Sons. Descargado de https://www.ebook.de/de/product/3644579/w j
conover practical nonparametric statistics.html
Cramer, H. (1999). Mathematical methods of statistics (pms-9), volume 9. PRINCE-
TON UNIV PR. Descargado de https://www.ebook.de/de/product/3646411/
harald cramer mathematical methods of statistics pms 9 volume 9.html
Draper, N. R. (1998). Applied regression analysis. Wiley-Blackwell. Des-
cargado de https://www.ebook.de/de/product/3055944/norman r draper
applied regression analysis.html
Frees, E. W. (2015). Regression modeling with actuarial and financial applications.
Cambridge University Press. Descargado de https://www.ebook.de/de/
product/9549208/edward w frees regression modeling with actuarial
and financial applications.html
George Casella, R. B. (2001). Statistical inference. Cengage Learning,
Inc. Descargado de https://www.ebook.de/de/product/3248529/
george university of florida casella roger arizona state university
berger statistical inference.html
Gomez Gomez, M., Danglot Banck, C., y Vega Franc, L. (2003). Sinopsis de pruebas
estadisticas no parametricas. cuando usarlas. Revista de Pediatria, 70 (2), 91-99.
Graybill, F. A. (1961). Introduction to linear statistical models (McGraw-Hill, Ed.).
Guzman, M. (1994). Prueba de wald wolfowitz (Vol. 12; C. en Estadistica y Computo,
Ed.) (n.o 2). Montecillo, Edo. de Mexico: Colegio de Postgraduados, Centro de
Estadistica y Calculo.
Hair, J. F., Tatham, R. L., Anderson, R. E., y Black, W. (1998). Multivariate
data analysis (5th edition). Prentice Hall. Descargado de https://www
.amazon.com/Multivariate-Data-Analysis-Joseph-Hair/dp/0138948585
?SubscriptionId=AKIAIOBINVZYXZQZ2U3A&tag=chimbori05-20&linkCode=
xm2&camp=2025&creative=165953&creativeASIN=0138948585
Hogg Robert V, A. T. C., Joseph McKean. (2018, may). Introduction to mathematical
statistics. Pearson, 23 (3), 716–717.
Izquierdo, S. A. (1998). Historia y desarrollo de la actuaria y sus ciencias auxiliares.
Tesis para obtener el titulo de actuario. (Universidad Nacional Autonoma de
Mexico)
Jean Dickinson Gibbons, S. C. (2010). Nonparametric statistical inference. Gibb-
SonTaylor & Francis Ltd. Descargado de https://www.ebook.de/de/product/
7364962/jean dickinson gibbons subhabrata chakraborti nonparametric
Referencias 137
statistical inference.html
Kruskal, W. H., y Wallis, W. A. (1952, dec). Use of ranks in one-criterion variance
analysis. Journal of the American Statistical Association, 47 (260), 583–621. doi:
10.1080/01621459.1952.10483441
McNemar, Q. (1947, jun). Note on the sampling error of the difference between
correlated proportions or percentages. Psychometrika, 12 (2), 153–157. doi: 10
.1007/bf02295996
Mejia, H. A. R. (2001). Algebra lineal. Prensas de Ciencias.
Mood, A. (1974). Introduction to the theory of statistics. McGraw-Hill Education.
NCCS. (s.f.). Analysis of runs. NCCS Statiscal Software, Chapter 256 . Descargado
de https://ncss-wpengine.netdna-ssl.com/wp-content/themes/ncss/pdf/
Procedures/NCSS/Analysis of Runs.pdf
Pearson, K. (2013). On the theory of contingency and its relation to association and
normal correlation. HardPress Publishing. Descargado de https://www.ebook
.de/de/product/32047345/karl pearson on the theory of contingency
and its relation to association and normal correlation.html
Pena, D. (2002). Analisis de datos multivariantes. McGraw-Hill Interamericana
de Espana S.L. Descargado de https://www.ebook.de/de/product/8559396/
daniel pena analisis de datos multivariantes.html
Phoebus Dhrymes, J. G. (2017). Introductory econometrics. Springer-
Verlag GmbH. Descargado de https://www.ebook.de/de/product/29672392/
phoebus dhrymes john guerard introductory econometrics.html
Robert S. Pindyck, D. L. R. (2001). Econometria: Modelos y pronosticos (McGraw-Hill,
Ed.).
Siegel, S. (2012). Estadistica no parametrica (E. TRILLAS, Ed.). N. John Castellan.
Stephen H. Friedberg, L. E. S., Arnold J. Insel. (2002). Linear algebra (4th Edicion
ed.; Pearson, Ed.).
UNAM. (s.f.). Actuaria. Descargado de http://oferta.unam.mx/actuaria.html
Verzani, J. (2002). Using r for introductory statistics. CSI Math department. Descar-
gado de https://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf
Wayne, D. (1990). Applied nonparametric statistics. Boston: PWS-KENT Pub.
White, H. (1980). A heteroskedasticity-consistent covariance matrix estimator and
a direct test for heteroskedasticity. Econometrica. Descargado de https://www
.jstor.org/stable/1912934?seq=1#page scan tab contentsl
Whitney, H. B. M. D. R. (1947). On a test of whether one of two random variables
is stochastically larger than the other. The Annals of Mathematical Statistics,
50-60.
Wilcoxon, F. (1945). Individual comparisons by ranking methods (I. B. Society,
Ed.). Biometrics Bulletin. Descargado de https://sci2s.ugr.es/keel/pdf/
algorithm/articulo/wilcoxon1945.pdf
138 Formulario
Wolfowitz, A. W. J. (1940). On a test wheter two samples are from same population.
The Annals of Mathematical Statistics, 147-162.

Estad Stica No Param Trica 20211 May2021

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estad Stica No Param Trica 20211 May2021

Cargado por

Copyright:

Formatos disponibles

Estadı́stica no Paramétrica.

Omar Rodrı́guez Torres

1. Introducción a pruebas no paramétricas 1

1.1. Pruebas para proporciones . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Prueba de corridas o rachas . . . . . . . . . . . . . . . . . . . . . . . . 9

2. Pruebas de bondad de ajuste 19

2.1. Prueba Ji-Cuadrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.1.1. La distribución de la estadı́stica de prueba . . . . . . . . . . . . 21

2.3. La prueba de Lilliefors . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.3.1. Lilliefors para normalidad . . . . . . . . . . . . . . . . . . . . . 42

2.3.2. Lilliefors para la distribución exponencial . . . . . . . . . . . . . 46

2.4. Anderson Darling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4. Medidas de correlación de rango 65

4.1. ρ (ro) de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.1.1. Prueba de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . 69

4.2. τ (tau) de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.2.1. Prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . 73

5. Pruebas basadas en rangos 75

6. Otras pruebas no paramétricas 93

7. Ejercicios y problemas estadı́stica no paramétrica 101

A. Relación de distribuciones de probabilidad. 109

En un primer curso de inferencia estadı́stica se estudian una serie de métodos

El objetivo de este texto es ofrecer al lector un panorama de las principales pruebas

La primera prueba no paramétrica a abordar será la prueba binomial. Las pruebas

1.1. Pruebas para proporciones

La distribución binomial modela el número de éxitos en n ensayos independientes,

en palabras, T es el número de veces que se tiene éxito, es decir, las observaciones de

por lo que si p − value ≤ α se rechaza la hipótesis nula con un nivel de significancia

P(Y ≤ t1) =α1 P(Y ≤ t2) = 1 −α2

Prueba de una cola (izquierda)

Una consecuencia del análisis anterior es poner a prueba la proporción dada en

Una manera equivalente de definir t serı́a:

Por lo tanto, se rechaza H0 , al nivel de significancia α, cuando T > t ya que

por lo que si p − value ≤ α se rechaza la hipótesis nula con un nivel de significancia α.

Prueba de una cola (derecha)

Un caso análogo al anterior es poner a prueba a la proporción dado un intervalo

Para valores pequeños de T o alejados por la izquierda respecto a la media indican

por lo que si p − value ≤ α se rechaza la hipótesis nula con un nivel de significancia

La prueba de hipótesis que se debe de plantear de acuerdo a la caracterı́stica del

H0 : p = 0.5 vs. H1 : p 6= 0.5

Por conveniencia se elige al cuantil que proporciona una probabilidad menor a α1

Esto se cumple con

Por el mismo comentario anterior, se elige a t2 = 8, con la finalidad de reducir el

Como p − value > α con un nivel de significancia α = 0.05 no se rechaza la prueba.

# Segundo tama~ n o de la muestra

1-sample proportions test with continuity correction

data: 8 out of 10, null probability 0.5

Se observa que el p − value = 0.1138 es muy parecido al obtenido, y en ambos casos

Ejemplo 2. La Asociación Mexicana de Instituciones de Seguros (AMIS) mencio-

Debido a las caracterı́sticas del problema, se plantea la siguiente prueba de hipótesis:

H0 : p ≤ 0.25 vs. H1 : p > 0.25

Donde Y ∼ Bin ∼ (1500, 0.25) de aquı́ se tiene dos posibles resultados:

Por conveniencia se elige al cuantil menor a α con la finalidad de que al reducir el

Como p − value < α con un nivel de significancia α = 0.05 se rechaza la hipótesis

1-sample proportions test with continuity correction

data: 900 out of 1500, null probability 0.25

Se nota que el p − value = 2.2e − 16 es demasiado pequeño, y en ambos casos se

1.2. Prueba de corridas o rachas

La prueba de rachas también conocida como prueba de Wald-Wolfwitz, en honor a

En la anterior secuencia, hay 6 rachas, de los cuales 3 corresponden a “águila” y 3

H0 : La muestra es aleatoria vs. Ha : La muestra no es aleatoria

La hipótesis nula de aleatoriedad se rechaza cuando el número total de rachas de

en el ejemplo de la moneda que se examinó anteriormente, Rmin podrı́a ser: observar

Rmax = 2min {n1 , n2 } + 1,