Está en la página 1de 144

Estadı́stica no Paramétrica.

Omar Rodrı́guez Torres


Jaime Vázquez Alamilla

31 de agosto de 2021
Índice general

Prefacio 1

1. Introducción a pruebas no paramétricas 1

1.1. Pruebas para proporciones . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Prueba de corridas o rachas . . . . . . . . . . . . . . . . . . . . . . . . 9

2. Pruebas de bondad de ajuste 19

2.1. Prueba Ji-Cuadrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.1.1. La distribución de la estadı́stica de prueba . . . . . . . . . . . . 21

2.2. Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.3. La prueba de Lilliefors . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.3.1. Lilliefors para normalidad . . . . . . . . . . . . . . . . . . . . . 42

2.3.2. Lilliefors para la distribución exponencial . . . . . . . . . . . . . 46

2.4. Anderson Darling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3. Tablas de contingencia 53

4. Medidas de correlación de rango 65

4.1. ρ (ro) de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.1.1. Prueba de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . 69

4.2. τ (tau) de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3
4 ÍNDICE GENERAL

4.2.1. Prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . 73

5. Pruebas basadas en rangos 75


5.1. Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 75
5.2. Prueba de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . 89

6. Otras pruebas no paramétricas 93


6.1. Prueba de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.2. Prueba de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7. Ejercicios y problemas estadı́stica no paramétrica 101

A. Relación de distribuciones de probabilidad. 109

B. Tablas 113
B.1. Valores Crı́ticos de la prueba de Kolmogorov-Smirnov . . . . . . . . . . 113
B.2. Valores Crı́ticos de la prueba de Lilliefors . . . . . . . . . . . . . . . . . 116
B.3. Valores Crı́ticos de la prueba de Anderson Darling . . . . . . . . . . . . 117
B.4. Cuantiles de la estadı́stica Wald-Wolfowitz . . . . . . . . . . . . . . . . 118
B.5. Cuantiles de la estadı́stica ρ de Spearman . . . . . . . . . . . . . . . . 120
B.6. Cuantiles de la estadı́stica τ de Kendall . . . . . . . . . . . . . . . . . 122
B.7. Cuantiles de la estadı́stica de Wilcoxon . . . . . . . . . . . . . . . . . 124

C. Formulario 127
C.1. Estadı́stica no paramétrica . . . . . . . . . . . . . . . . . . . . . . . . 127
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Prefacio

En un primer curso de inferencia estadı́stica se estudian una serie de métodos


de estimación puntual (método de momentos, estimadores de máxima verosimilitud,
métodos bayesianos, o el método de los percentiles), además se aprende a evaluar dichos
estimadores para encontrar ası́ los mejores. Sin embargo, en este enfoque paramétrico
se tiene la desventaja de que siempre se trabaja con muestras aleatorias basadas en
el supuesto de que siguen una cierta distribución conocida, que en ejercicios prácticos
muy difı́cilmente se conocerán estos supuestos.
Por ejemplo, si se intentara estimarPla esperanza de vida de una pila, ¿seria válido
nX
suponer normalidad y asumir que µ̂ = i=1 n
i
? donde Xi es el tiempo de vida de una
pila en dı́as a partir de las compras y n es el tamaño de la muestra.
En el enfoque no paramétrico, se elimina el supuesto de que la forma del modelo
es conocida y las inferencias se realizan sobre la distribución completa. Es decir, se
pueden dar estimaciones de muestras aleatorias la cuales siguen una cierta distribución
F desconocida. Sin embargo, en este tipo de estimaciones se pierde nivel de significacia
o son menos precisas que la versión paramétrica, pero nos dan una buena aproximación
al valor deseado. Para poder aplicar estas pruebas debe considerarse que las observa-
ciones se comportan de manera aleatoria y con independencia, ası́ mismo, el tamaño
de la muestra debe ser considerable, por lo que pruebas para muestras menores a 20
observaciones no son muy recomendadas.
De acuerdo con (Gomez Gomez, Danglot Banck, y Vega Franc, 2003) las ventajas
y desventajas de las pruebas no paramétricas puede resumirse en el siguiente cuadro:

1
2 Prefacio

Ventajas Desventajas
Determinación sencilla, generalmente Al realizar la prueba se pierde informa-
mediante el cálculo de una estadı́stica ción de la muestra ya que en muchos
dado casos se requiere formar estratificacio-
nes arbitrarias
A mayor tamaño de muestra mejores No recomendable para pruebas meno-
estimaciones res de 20 observaciones
Pocos supuestos para realizar la esti- Muchos de los procesos son iterativos,
mación por lo que en ocasiones sin software es-
pecializado puede ser un poco tedioso.

El objetivo de este texto es ofrecer al lector un panorama de las principales pruebas


no paramétricas como un documento de consulta rápida, con un esquema que incluye
la descripción de la prueba, los principales supuestos para su uso, la descripción de la
estadı́stica de prueba y su implementación en el software estadı́stico R.
Capı́tulo 1

Introducción a pruebas no
paramétricas

La primera prueba no paramétrica a abordar será la prueba binomial. Las pruebas


basadas en la distribución binomial son denominadas de esta forma ya que la distribu-
ción de la estadı́stica de prueba tiene una distribución Binomial.

1.1. Pruebas para proporciones

La distribución binomial modela el número de éxitos en n ensayos independientes,


de esta forma al realizar los n experimentos o ensayos mencionados anteriormente cada
uno de los resultados se pueden clasificar de la siguiente manera: los éxitos o resultados
favorables respecto a la variable en la que se enfoca el experimento, en eventos del tipo
“clase 1” el cual se denotará como C1 , y en eventos del tipo “clase 2” denotado como
C2 a las observaciones que corresponden a fallas o casos no favorables. Por lo tanto,
el número de observaciones en la que se observó un éxito [o de manera equivalente:
el número de elementos que pertenecen al conjunto referente a la clase 1] es denotado
como O1 y al número de observaciones de la clase 2 como O2 de tal manera que puede
observarse que n = O1 + O2 , ya que la clase 1 y clase 2 son mutuamente excluyentes
una del otra.
De esta manera se tiene que X1 , X2 , . . . , Xn es una muestra aleatoria en la cual
para cada Xi , i = 1, . . . n hay dos posibilidades: que la observación Xi corresponda a
un evento de la clase 1 o de la clase 2, es decir, Xi ∈ C1 con probabilidad p o Xi ∈ C2
con probabilidad 1 − p, la clave de esta prueba es que la probabilidad p puede ser vista
como la proporción de veces que se observará Xi ∈ C1 .

1
2 Introducción a pruebas no paramétricas

La prueba para proporciones es de gran utilidad ya que es una auxiliar para de-
mostrar las afirmaciones sobre la proporción o la probabilidad “p” esperada de que
ocurra un cierto suceso en una muestra aleatoria. De esta forma se plantea la siguiente
hipótesis:

H0 : p = p∗ vs. H1 : p 6= p∗ ,
donde p∗ es la proporción o probabilidad que se desea poner a prueba, es decir, mediante
esta prueba de hipótesis se busca conocer si la proporción que se plantea se apega
a los datos con un nivel de significancia α, por consiguiente, la zona de rechazo es
determinada por α.
Una vez definido lo anterior, se enfocará la atención en la probabilidad de caer en el
evento clase 1; es por ello que se define a la estadı́stica de prueba como T = ni=1 1xi ∈C1 ,
P

en palabras, T es el número de veces que se tiene éxito, es decir, las observaciones de


la clase 1. Es por ello que T puede ser vista como:

T = O1 .

Los datos que más interesan en esta prueba son los valores que se encuentran
alejados tanto a la derecha como a la izquierda respecto de la media, ya que serı́an
datos que caerı́an en la zona de rechazo, en caso de que esto ocurra se tendrı́a evidencia
suficiente para rechazar la hipótesis nula. Debido a que se busca la igualdad en la
hipótesis nula se genera dos colas, es por ello que es conveniente definir a α = α1 + α2 .
Por lo anterior se buscan los puntos crı́ticos t1 y t2 tal que cumplan con:

P [Y ≤ t1 ] = α1 ,
y análogamente con valores

P [Y ≤ t2 ] = 1 − α2 ,
donde Y ∼ Bin(n, p∗ ).
De esta forma se rechaza H0 si T ≤ t1 o si T > t2 , ya que una T mayor o menor a
estas bandas significarı́a que se observan valores muy alejados de la media por lo que
se tendrı́a evidencia para rechazar la hipótesis nula. En cualquier otro caso, se no se
rechaza la hipótesis nula, es decir H0 : p = p∗ .
El p − value de acuerdo a la metodologı́a usada en (Conover, 1998), equivale a:

p − value = 2 ∗ min {P [Y ≤ T ] , P [Y ≥ T ]} ,
1.1 Pruebas para proporciones 3

por lo que si p − value ≤ α se rechaza la hipótesis nula con un nivel de significancia


α.
Para ejemplificar las suposiciones anteriores, observe la figura 1.1, en ella se puede
apreciar la simulación de 100 experimentos de una distribución binomial con paráme-
tros n, p. La gráfica superior se complementa con algún experimento cualquiera, en el
que se observó 10 éxitos por lo tanto T = 10 marcado con la lı́nea puntada azul, de
igual manera, se calculó los cuantiles t1 y t2 en el que se acumula P [Y ≤ t1 ] = α1 , y
P [Y ≤ t2 ] = 1−α2 , entonces puede observarse que T se encuentra contenido estas ban-
das delimitadas por t1 y t2 , dibujadas con lı́nea roja, lo que implica que la probabilidad
del experimento es cercana a la probabilidad teórica que se desea probar, por lo que
existe evidencia para no rechazar la prueba con al menos un un nivel de significancia α.
Caso contrario, en la gráfica inferior se observa que hay 17 éxitos, T = 17 se aprecia que
T es mayor que el punto crı́tico t2 por lo que el valor observado se distancia del valor
esperado medio por lo que se tiene evidencia de rechazar la prueba. Pero no sólo eso,
se puede apreciar que el p − value < α por consiguiente tenemos la misma conclusión.

t1 T t2

0.18

0.15

P(Y ≤ t1) =α1 P(Y ≤ t2) = 1 −α2

0.1
f(x)

0.05

5 10 15 19

Éxitos

t1 t2 T

0.18

0.15 p−value

0.1
f(x)

α2

0.05

5 10 15 19

Éxitos

Figura 1.1: Distribución binomial con los puntos crı́ticos y una distribución T teórica.
4 Introducción a pruebas no paramétricas

Prueba de una cola (izquierda)

Una consecuencia del análisis anterior es poner a prueba la proporción dada en


forma de intervalo, este caso p ∈ [0, p∗ ], usualmente se menciona como “la proporción
es a lo más p∗ ”, por ello la prueba de hipótesis puede ser denotada como:

H0 : p ≤ p∗ vs. H1 : p > p∗ .

Para valores grandes de T o alejados por la derecha respecto a la media indican que
H0 es falso, por lo tanto la región de rechazo serı́a cuando:

P [Y ≤ t] = 1 − α

Una manera equivalente de definir t serı́a:

P [Y > t] = α,
debido a que la distribución asociada a Y es discreta, se puede reescribir la anterior
ecuación como:
P [Y ≥ t + 1] = α,

Por lo tanto, se rechaza H0 , al nivel de significancia α, cuando T > t ya que


implicarı́a que son valores de T son alejados respecto a la media , en otro caso no se
rechaza H0 .
El p − value, equivale a:

p − value = P [Y ≥ T ],

por lo que si p − value ≤ α se rechaza la hipótesis nula con un nivel de significancia α.

Prueba de una cola (derecha)

Un caso análogo al anterior es poner a prueba a la proporción dado un intervalo


complementario del caso de una cola izquierda, es decir p ∈ [p∗ , 1], usualmente se
menciona como “la proporción es mayor o igual a p∗ ”, es por ello que la prueba de
hipótesis puede ser denotada como:

H0 : p ≥ p∗ vs. H1 : p < p∗ .
1.1 Pruebas para proporciones 5

Para valores pequeños de T o alejados por la izquierda respecto a la media indican


que H0 es falso, por lo tanto la región de rechazo caerı́a cuando al evaluar la siguiente
probabilidad:
P [Y ≤ t] = α,
se observa que si T ≤ t implicarı́a que son valores alejados por la izquierda, al menos
con un nivel de significancia α de T , por lo que se tiene evidencia suficiente para
rechazar la hipótesis nula, en otro caso, no se rechaza H0 .
El p − value, equivale a:
p − value = P [Y ≤ T ],

por lo que si p − value ≤ α se rechaza la hipótesis nula con un nivel de significancia


α.
Ejemplo 1. En un volado, una moneda tiene dos posibilidades, salir cara o cruz.
Se lanzan 10 monedas de manera consecutivas obteniendo como resultado 7 caras
y 3 veces cruz, ¿Es válido suponer que la moneda sea justa, es decir que p = 0.5?.
Considerando α = 0.05

La prueba de hipótesis que se debe de plantear de acuerdo a la caracterı́stica del


problema es:

H0 : p = 0.5 vs. H1 : p 6= 0.5

Los éxitos serán considerados cada vez que salga en la moneda una cara, de esta
manera se observa 7 éxitos, es decir, T = 7, se evalúan las regiones de rechazo con un
nivel de significancia α = 0.05, es decir, con un nivel de confianza 1 − α = 0.95 para
validar que p = 0.5. La distribución binomial es simétrica, por lo tanto es válido suponer
que α construida de la forma α = α1 + α2 puede particionarse como: α1 = α2 = 0.025.
Por lo tanto, se debe encontrar el valor de t1 de la siguiente igualdad:
P [Y ≤ t1 ] = 0.025,
donde Y ∼ Bin ∼ (10, 0.5), debido a que la distribución binomial es discreta en la
mayorı́a de las ocasiones no será posible encontrar el valor t1 , t2 que proporcione el valor
exacto en relación al nivel α buscando. En el caso particular de este ejercicio existen
dos posibles valores para el cuantil t1 que se encuentran cercanos al nivel α1 = 0.025.

P (Y ≤ t1 = 1) = 0.010.
P (Y ≤ t1 = 2) = 0.054.
6 Introducción a pruebas no paramétricas

Por conveniencia se elige al cuantil que proporciona una probabilidad menor a α1


con la finalidad de reducir el nivel de significancia para que ası́ la prueba tenga asociada
una mayor confiabilidad en la elección de la hipótesis, de lo contrario se aumentarı́a el
nivel de confianza saliendo ası́ de los parámetros que inicialmente se deseaban, debido
a ello se elige ası́ t1 = 1.
Para encontrar a t2 se evalúa su región de rechazo.

P [Y ≤ t2 ] = 1 − 0.025

Esto se cumple con

P (Y ≤ t2 = 7) = 0.9453
P (Y ≤ t2 = 8) = 0.9892

Por el mismo comentario anterior, se elige a t2 = 8, con la finalidad de reducir el


nivel de significancia. Recuerde que esta última región esta evaluada en la probabilidad
1 − α2 , ası́ si t2 = 8 entonces α = 1 − 0.9892 = 0.0108, en el caso contrario, si t2 = 7,
α2 = 1 − 0.9453 = 0.547, si se seleccionara este último, el nivel de significancia serı́a
mucho mayor a lo que deseábamos inicialmente α = 0.5.
Finalmente, la regla de rechazo de H0 ocurre cuando T ≤ t1 o si T > t2 , en otro
caso, no se rechaza la prueba. En el caso de particular de este ejemplo, T = 7 por lo
que no se rechaza la hipótesis nula pues T = 7 > 1 = t1 y T = 7 < 8 = t2 , por lo que
no hay evidencia suficiente para rechazar la hipótesis nula con un nivel de significancia
del 5 % Es decir, es válido suponer que la proporción que se observará tanto caras como
cruces es 0.5 de las veces, asumiendo ası́ que la moneda es justa.
Realizando la prueba mediante el p-value se tiene:

p − value = 2 ∗ min (P [Y ≤ T ] , P [Y ≥ T ])
= 2 ∗ min (P [Y ≤ 8] , P [Y ≥ 8])
= 2 ∗ min (P [Y ≤ 8] , P [Y ≥ 8])
= 2 ∗ min (0.98 , 0.05469)
= 2 ∗ (0.05469)
p − value = 0.1093.

Como p − value > α con un nivel de significancia α = 0.05 no se rechaza la prueba.


En R este resultado puede ser visto a continuación:
# primer parametro observaciones
1.1 Pruebas para proporciones 7

# Segundo tama~ n o de la muestra


# Two . sided prueba de dos colas
prop . test (8 , 10 , p = 0.5 , alternative = c ( " two . sided " ) , conf . level =
0.95)

1-sample proportions test with continuity correction

data: 8 out of 10, null probability 0.5


X-squared = 2.5, df = 1, p-value = 0.1138
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.4421814 0.9645731
sample estimates:
p
0.8

Se observa que el p − value = 0.1138 es muy parecido al obtenido, y en ambos casos


se acepta la hipótesis de la proporción esperada, es decir, P es igual a 0.5.

Ejemplo 2. La Asociación Mexicana de Instituciones de Seguros (AMIS) mencio-


na que a lo más el 25 % de los automóviles compactos sufren algún accidente, una
aseguradora observa que de su cartera de 1, 500 automóviles compactos 900, sufrie-
ron un accidente ¿La aseguradora tendrı́a evidencias para rechazar la hipótesis de
AMIS?. Considere α = 0.05

Debido a las caracterı́sticas del problema, se plantea la siguiente prueba de hipótesis:

H0 : p ≤ 0.25 vs. H1 : p > 0.25

El éxito es representado como que el automóvil sufra algún accidente, ası́ se observan
900 éxitos, es decir, T = 900, se evalúan las regiones de rechazo con α = 0.05 .
Por lo tanto, se necesita buscar a t tal que cumpla con:

P [Y ≤ t] = 1 − 0.5

P [Y ≤ t] = 0.95

Donde Y ∼ Bin ∼ (1500, 0.25) de aquı́ se tiene dos posibles resultados:


8 Introducción a pruebas no paramétricas

P (Y ≤ t = 402) = 0.948
P (Y ≤ t = 403) = 0.954

Por conveniencia se elige al cuantil menor a α con la finalidad de que al reducir el


nivel de significancia la prueba tenga asociada una mayor confiabilidad en la elección
de la hipótesis, ası́ t = 403.
Como se mencionó anteriormente, la regla de rechazo es si T > t, en otro caso,
no se rechaza la hipótesis nula. Como T = 900, la estadı́stica esta contenida en la
región de rechazo ya que T > t, por lo que se rechaza la hipótesis nula con un nivel de
significancia del 5 %.
Al realizar la prueba con el p-value se confirma la suposición de rechazar la prueba
de hipótesis.

p − value = P [Y ≥ T ]
= P [Y ≥ 900]
p − value = 0.00000000001

Como p − value < α con un nivel de significancia α = 0.05 se rechaza la hipótesis


nula. Es decir, se tiene evidencias para suponer que la proposición de AMIS1 es errónea
en la cartera de la aseguradora. En R este resultado puede ser visto con el siguiente
código:
# primer parametro observaciones
# Segundo tama~ n o de la muestra
# greater ya que hipotesis alternativa es mayor o igual
prop . test (900 , 1500 , p = 0.25 , alternative = c ( " greater " ) , conf . level =
0.95)

1-sample proportions test with continuity correction

data: 900 out of 1500, null probability 0.25


X-squared = 978.13, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is greater than 0.25
95 percent confidence interval:
0.5786964 1.0000000
1
Datos usados a manera de ejemplo, no implica datos reales.
1.2 Prueba de corridas o rachas 9

sample estimates:
p
0.6

Se nota que el p − value = 2.2e − 16 es demasiado pequeño, y en ambos casos se


acepta la hipótesis de la proporción esperada de P es 0.5 con un nivel de significancia
α = 0.05.

1.2. Prueba de corridas o rachas

La prueba de rachas también conocida como prueba de Wald-Wolfwitz, en honor a


sus desarrolladores, mide si el orden de ocurrencia en la observación de los atributos de
una variable dicotómica, variable que puede tomar un valor de dos posibles resultados,
ha sido de manera aleatoria.
Esta prueba no paramétrica es de gran importancia ya que prueba con un cierto
nivel de significancia que una muestra aleatoria dicotómica sigue un comportamiento
aleatorio, como por ejemplo comprobar la aleatoriedad en el lanzamiento de una mo-
neda, las victorias o derrotas de un equipo deportivo, el sexo de personas que sufren
una cierta enfermedad, etcétera.
Para emplear la prueba es necesario suponer n observaciones de una muestra alea-
toria X1 , X2 , . . . , Xn donde Xi , i = 1, . . . , n sólo puede tomar un valor de dos posibi-
lidades, en caso de que Xi pueda tomar más valores, éstos deben de poder clasificarse
en dos categorı́as mutuamente excluyentes la una de la otra, la forma en que se definan
las dos categorı́as va a depender del problema especı́fico que se tenga y de la hipótesis
a probar.
El procedimiento se basa en ejecutar el experimento n veces y registrar ordenada-
mente cada una de las observaciones, una vez registrada la secuencia se hallan rachas
o cadenas en la que la información se repite de manera consecutiva con la finalidad de
clasificar elementos del mismo tipo ubicados adyacentemente, por ejemplo, considere el
lanzamiento de 10 monedas, lo cual generó la siguiente secuencia en la que 1 representa
que la moneda cae en águila y 0 que cae en sol.

1 0 0 0 1 1 0 0 1 0

En la anterior secuencia, hay 6 rachas, de los cuales 3 corresponden a “águila” y 3


a que la moneda de como resultado “sol”.
10 Introducción a pruebas no paramétricas

De esta manera, se contabilizan los elementos que conforman dicha categorı́a, sea
n1 las observaciones de un tipo, y n2 las observaciones de la otra categorı́a. Además
suponga que existe r1 corridas de elementos del tipo 1 y r2 corridas del segundo tipo,
entonces el número de rachas totales se define como R donde R = r1 + r2 . Debido a
que el número de corridas es el que ayudará a decir si la muestra es aleatoria o no,
la prueba se basa en la distribución del número R de corridas que se presenta en la
secuencia de observaciones, de esta manera se construye una prueba de hipótesis en la
que la hipótesis nula representa que la muestra se comporta de manera aleatoria.

H0 : La muestra es aleatoria vs. Ha : La muestra no es aleatoria

La hipótesis nula de aleatoriedad se rechaza cuando el número total de rachas de


una categorı́a es demasiado grande o pequeña a comparación de la otra, es por ello que
inicialmente se pide que haya por lo menos un elemento en cada categorı́a ya que si no
existiese este supuesto se tendrı́a una clara sospecha de falta de aleatoriedad.
Una consideración importante, es que el máximo y mı́nimo de rachas sin modificar
el número de elementos totales de cada categorı́a, son los siguientes

Rmin = 2,

en el ejemplo de la moneda que se examinó anteriormente, Rmin podrı́a ser: observar


todos los elementos de una categorı́a en una sóla racha por conseguiente en otra racha
registrar todos los elementos de la otra categorı́a, es decir:

1111 000000

Rmax = 2min {n1 , n2 } + 1,

el número máximo de rachas queda delimitado por el mı́nimo de elementos de cada


categorı́a. En el ejemplo de la moneda, exiten 10 elementos, n1 = 4, n2 = 6. Entonces en
ese caso, el número de rachas máximas sin modificar n1 y n2 , serı́a 9 (2∗min {4, 6}+1 =
9). El cual podrı́a ser la siguiente secuencia:

0 1 0 1 0 1 0 1 00
1.2 Prueba de corridas o rachas 11

De esta manera igual puede observar que el valor esperado de rachas dados n1 y n2
queda delimitado por:
n1 n2
E[R] = n1 +n2 +1
2
2n1 n2
E[R] = +1
n1 + n2
2n1 n2
∴ E[R] = +1
n
De manera análoga, para la varianza de R dados n1 y n2 , es:

2n1 n2 (2n1 n2 − n1 − n2 )
V ar[R] =
(n1 + n2 )2 (n1 + n2 − 1)
2n1 n2 (2n1 n2 − n)
V ar[R] =
n2 (n − 1)
2n1 n2 2n1 n2 − n
V ar[R] = ,
n n(n − 1)

sumando un 0
  
2n1 n2 2n1 n2 − n
V ar[R] = +1−1 ,
n n(n − 1)
2n1 n2
sustituyendo por E[R] = n
+1

2n1 n2 − n
V ar[R] = (E[R] − 1)
n(n − 1)
 
E[R] − 1 2n1 n2 − n
V ar[R] =
n−1 n
 
E[R] − 1 2n1 n2
V ar[R] = −1 ,
n−1 n

sumando un 0
 
E[R] − 1 2n1 n2
V ar[R] = −1+2−2 ,
n−1 n
2n1 n2
sustituyendo por E[R] = n
+1

E[R] − 1
V ar[R] = (E[R] − 2)
n−1
(E[R] − 1) (E[R] − 2)
∴ V ar[R] =
n−1
12 Introducción a pruebas no paramétricas

Distribución exacta

Para calcular la distribución exacta de una serie dicotómica se debe calcular las
probabilidades de obtener determinados números de rachas condicionales en n1 y n2 .
Si la muestra es aleatoria, la probabilidad de que el número total de rachas sea un
número par es

  
n1 − 1 n2 − 1
2 v v
2
−1 −1
P (T = v|H0 es cierta) =  2 , si v es par
n
n1

La probabilidad de que el número total de rachas sea un número impar es:

     
n1 − 1 n2 − 1 n1 − 1 n2 − 1
v−1 v−1 + v−1 v−1
2
−1 2
−1
P (T = v|H0 es cierta) =   2 2
, si v es impar,
n
n1

donde v es el número de rachas y es tal que v = 2, 3, . . . , n.


Generalizando se tiene la siguiente función de densidad:

   
n1 − 1 n2 − 1
2 v


 v

 2
−1 2
−1
, si v es par

  
n







 n1
f (v) = P [T = v] =
     
n1 − 1 n2 − 1 n1 − 1 n2 − 1




 v−1 v−1 + v−1 v−1


2
−1 2 2 2
−1
, si v es impar


  


 n

n1

Como se observa, la función de densidad es discreta, por lo que la función de dis-


tribución y la de supervivencia quedan especificadas como:

v
X
F (v) = P [T ≤ v] = P (T = i),
i=Rmin
1.2 Prueba de corridas o rachas 13

donde recuérdese que Rmin = 2.


R
X max

S(v) = P [T ≥ v] = P (T = i),
i=v

La regla de decisión es la de rechazar H0 con un nivel de significancia α si:

R < Wα/2 ó R > W1−α/2 . (1.1)

donde los cuantiles Wα/2 y W1−α/2 son tales que P (R ≤ Wα/2 ) = α2 , P (R ≤ W1−α/2 ) =
1− α2 evaluadas en sus correspondientes distribuciones asociadas en la estadı́stica R, que
se mencionó anteriormente, una evaluación en determinados puntos se puede encontrar
en el apéndice B.4.

Distribución asintótica

La distribución analizada anteriormente, es la distribución exacta de las rachas,


sin embargo, puede resultar un poco engorroso realizar todos los cálculos necesarios
para encontrar el cuantil que satisfaga las condiciones deseadas, es por ello que se
usa una aproximación a una distribución Normal estándar, ya que tiene un nivel de
convergencia alto, es decir, para tamaños de muestra grandes, usualmente se piden más
de 20 datos por muestra. En caso de no reunir el tamaño mı́nimo para una convergencia
a la normal, lo más recomendable es utilizar la distribución real de los datos. Sea R el
número de rachas totales, entonces:

R ∼ N ormal(E[R], V ar[R]),

estandarizando se tiene:
R − E[R]
Z=p ∼ N (0, 1),
V ar[R]
donde E[R] y V ar[R] es la esperanza y varianza obtenidas anteriormente.

2n1 n2 (E[R] − 1) (E[R] − 2)


E[R] = +1 V ar[R] =
n n−1

Esta distribución aunque es adecuada suele ser, a nivel teórico, menos precisa que
la distribución exacta, pero su cálculo es más sencillo y cuando el tamaño de muestra
es lo suficientemente grande las conclusiones son parecidas.
Uno de los principales problemas de la aproximación normal es que se intenta
ajustar una distribución discreta por medio de una distribución continua, como es
14 Introducción a pruebas no paramétricas

el caso de la distribución Normal, es por ello que algunos autores mencionan realizar
un ajuste de continuidad. Este ajuste suele proporcionar mejores estimaciones que
la aproximación normal, siendo esta una mejora en la estimación, sin embargo, no
sustituye a la distribución real. El ajuste de continuidad que se propone es:

 R−E[R]−0.5
 √ si R ≥ E[R]
V ar[R]
Zcc = R−E[R]+0.5
 √ si R < E[R]
V ar[R]

Con cualquiera de las anteriores aproximaciones se tiene la siguiente regla de deci-


sión:
Rechazar H0 si Z ≤ Wα/2 o si Z ≥ W1−α/2 , de lo contrario no se rechaza la prueba,
donde los cuantiles Wα/2 , W1−α/2 se obtiene de P [X < Wα/2 ] = α/2, P [X < W1−α/2 ] =
1−α/2, donde X sigue una aproximación normal estándar y Z es la estadı́stica obtenida
anteriormente, la cual puede ser resultado de la estandarización sobre el número de
rachas o del ajuste de continuidad.
Si el lector le interesa generar una tabla cómo la que se muestra en la tabla B.4,
pero con una aproximación normal puede ejecutar el siguiente código:
n1 = n2 = W005 = W01 = W025 = W05 = W1 = W9 = W95 = W975 = W99 = W995 = c ()
for ( n1 _ aux in 1:20) {
for ( n2 _ aux in 1:20) {

n = n1 _ aux + n2 _ aux
media = (2 * n1 _ aux * n2 _ aux ) / n +1
desviacion = sqrt (( media -1) * ( media -2) / (n -1) )

n1 [ length ( n1 ) +1]= n1 _ aux


n2 [ length ( n2 ) +1]= n2 _ aux
for ( cuantil in c ( " 005 " ," 01 " ," 025 " ," 05 " ," 1 " , " 9 " ," 95 " , " 975 " ," 99 " ,"
995 " ) ) {
eval ( parse ( text = paste (
" W " , cuantil , " [ length ( W " , cuantil , " ) +1]= round ( qnorm (0. " ,
cuantil , " , media , desviacion ) ,0) " , sep = " "
)))

}
}
}

Tabla _ WaldWolf = data . frame ( n1 , n2 , W005 , W01 , W025 , W05 , W1 , W9 , W95 , W975 , W99 ,
W995 )
tail ( Tabla _ WaldWolf )
1.2 Prueba de corridas o rachas 15

n1 n2 W005 W01 W025 W05 W1 W9 W95 W975 W99 W995


395 20 15 11 12 13 13 14 22 23 24 25 25
396 20 16 11 12 13 14 15 23 24 24 26 26
397 20 17 12 12 14 14 16 23 24 25 26 27
398 20 18 12 13 14 15 16 24 25 26 27 28
399 20 19 13 13 14 15 17 24 26 27 28 28
400 20 20 13 14 15 16 17 25 26 27 28 29

Si se ejecuta, observará que para tamaño de muestras pequeñas la aproximación no


es muy buena, pero para 20 datos o más los resultados entre la distribución real y la
Normal son muy parecidos entre si.
Para ilustrar de mejor forma la prueba de Rachas se ejemplificará a través del
siguiente ejercicio.

Ejemplo 3. Suponga que compra el boleto para una rifa, el boleto le da la opor-
tunidad de ganar alguno de los 20 premios disponibles. El organizador asegura que
el procedimiento es completamente aleatorio. Para el dı́a de la rifa se han vendido
100 boletos. Después de realizar la rifa, los boletos ganadores fueron:

27 57 15 10 74 51 31 86 56 6
13 77 3 43 44 65 4 5 48 98

Usted duda y quiere comprobar la hipótesis del organizador, que la resultados fueron
aleatorios, con un nivel de significancia del 5 %.
Dado que se tiene múltiples datos y la prueba de corridas es dicotómica, se procede
a categorizar los resultados para formar dos subclases ambas excluyentes la una de la
otra. Para ello se ordena la información y se escoge como medida la mediana, (algunos
autores recomiendan elegir la media X̄), se propone a la mediana con la finalidad de
tener en ambos subgrupos el mismo número de elementos (con diferencia de +1 en caso
de que el tamaño de muestra sea impar) en este caso la mediana de la muestra es 43.5.
Una vez categorizada la información, los valores que son menores a la mediana se
les asignará la letra p, y los que son mayores a la mediana se les asignará la letra q, de
esta manera con la nueva asignación se genera una muestra aleatoria dicotómica.

p q p p q q p q q p
p q p p q q p p q q

Con los nuevos valores se contabilizan las rachas que tiene el modelo. De manera en
particular para el ejercicio se tiene: 12 rachas (R = 12), las cuales 6 corridas correspon-
den a números menores de 43.5,(r1 = 6), el resto corresponde a observaciones mayores
16 Introducción a pruebas no paramétricas

a 43.5, (r2 = 6), a continuación se muestran las cadenas de rachas que se tienen en el
experimento de la feria.

p q pp qq p qq pp q pp qq pp qq

Con un nivel de significancia α = 0.05, y con las subrachas r1 = 6 y r2 = 6 y con


el número de elementos n1 = 10 y n2 = 10, se procede a buscar la estadı́stica W 0.025
y W 0.975 , los cuales se obtienen de la tabla B.4, en este caso en particular la tabla
no proporciona valores para n1 = 10 y n2 = 10, ası́ que se tomará el más cercano, si
ejecuto la aproximación Normal con el código de R, puede usar dichos valores ya que
ahı́ se encuentran contenidos más puntos que en la tabla. De esta manera se tiene que:
R = 12 > 8 = W 0.025 y R = 12 < 16 = W 0.975 .

Como se observa, la estadı́stica R no cae en la región de rechazo, por lo que no se


rechaza la hipótesis nula, asumiéndose ası́ con un nivel de significancia del 5 %, que el
organizador efectivamente realizo la rifa de manera aleatoria.
Este ejercicio puede ser simulado en R a través del siguiente código, en el cual la
función runs.test está contenida en la librerı́a “tseries”.
library ( tseries )
set . seed (2018)
X = sample (1:100 , 20 , replace = FALSE ) # simulacion de la muestra
XFactor = as . factor (X < median ( X ) )

# La funcion runs . test solo acepta factores como parametro


runs . test ( XFactor )

Runs Test

data: XFactor
Standard Normal = -0.45947, p-value = 0.6459
alternative hypothesis: two.sided

En este caso, la prueba muestra el p − value = 0.6459 debido a que obtiene la


distribución asociada a R, de manera análoga, no se rechaza la hipótesis nula con un
nivel de significancia del 5 % ya que
p − value = 0.64 > 0.05 = α
Por lo que nuevamente se llega a la conclusión que el organizador realizó la rifa de
manera aleatoria.
1.2 Prueba de corridas o rachas 17

Ejemplo 4. Un equipo profesional de beisbol tiene la siguiente sucesión de triunfos


y derrotas en la última temporada:

g p g g p g p p p g p p g g p g g p g p g p g p p g p g p,
donde g significa “ganó el juego” y p significa “perdió el juego”. ¿Puede decirse que
el récord de sus triunfos y derrotas es aleatorio?. Supongamos que α = 0.05.

Hay que ver el número de rachas que hay en la sucesión:

g p gg p g ppp g pp gg p gg p g p g p g pp g p g p

R = 22 rachas
Sea n el tamaño de la muestra (total de juegos), entonces n = 29.
n1 = número de juegos ganados = 14
n2 = número de juegos perdidos = 15
La región crı́tica está definida como:


C= r | r < ωα/2 o r > ω1−α/2
donde ωα/2 = ω.025 = 10 y ω1−α/2 = ω.975 = 20. Como R = 22 > 20 = ω.975 se puede
concluir que el récord de triunfos y derrotas del equipo no es aleatorio, i.e. existe cierta
tendencia.

Ejemplo 5. Se tiene la siguiente lista de números:

15 77 01 64 69 58 40 81 16 60 20 00 84 22
28 26 46 66 36 86 66 17 49 85 40 51 30 10

¿Puede decirse que estos números son números aleatorios?.

Primero se calcula la mediana de la muestra y se divide ésta en dos grupos (mayores


o menores que la mediana), ya que la mediana es generalmente el cuantil más adecuado
para verificar la aleatoriedad en este caso.
Ahora se ordena la muestra para calcular la mediana:
18 Introducción a pruebas no paramétricas

00 01 10 15 16 17 20 22 26 28 30 36 40 40
46 49 51 58 60 64 66 66 69 77 81 84 85 86
e = 40+46
como el total de observaciones: n = 28 es par, la mediana es x 2
= 43. Denotando
por “a” a los números menores a la mediana y por “b” a los mayores, la sucesión original
queda de la siguiente forma:

a b a bbb a b a b aa b aaa bb a bb a bb a b aa

donde R = 19 total de corridas.


Aquı́ n1 = n2 = 14, sea α = 0.01, entonces ωα/2 = ω.005 = 8 y ω1−α/2 = ω.995 = 22

Como R = 19 < 22 = ω.995 , no se rechaza la hipótesis de aleatoriedad

y los números pueden considerarse como números aleatorios.


Capı́tulo 2

Pruebas de bondad de ajuste

Dada una distribución (Normal, Poisson, Gamma, etc.) es fácil dar estimaciones
acerca de los valores los parámetros desconocidos asociados a la distribución propues-
ta. Sin embargo, en la práctica, al realizar un muestreo difı́cilmente se conocerá la
distribución que los datos siguen, es por ello que se idearon métodos para ajustar a la
muestra aleatoria un modelo no paramétrico, estos métodos son denominados “pruebas
de bondad de ajuste”, en todos ellos se ajusta un modelo con un nivel de significancia
α para probar la hipótesis:

H0 : F (X) = FX∗ vs. Ha : F (X) 6= FX∗ .

Donde FX∗ es una distribución completamente conocida, es decir además de conocer


a la familia que pertenece también se conoce sus parámetros.
De esta manera si se rechaza la hipótesis nula hay evidencia suficiente para suponer
que la muestra aleatoria no se comporta como la distribución que se propuso. En las
siguientes secciones se abordará y desarrollarán algunas de las pruebas más importantes
de bondad de ajuste.

2.1. Prueba Ji-Cuadrada

La prueba de bondad de ajuste, fue uno de los primeros métodos en desarrollarse


para probar que un conjunto de datos sigue una determinada distribución. Esta prueba
fue ideada por primera vez por Karl Pearson alrededor de 1900, la cual consiste en medir
las diferencias entre la frecuencia esperada y la frecuencia observada, elementos con los
que se construye la estadı́stica que ayuda a contrastar la siguiente prueba de hipótesis:

19
20 Pruebas de bondad de ajuste

H0 : F (X) = FX∗ vs. Ha : F (X) 6= FX∗ .

Donde FX∗ es una distribución completamente conocida, es decir además de conocer


a la familia que pertenece también se conoce sus parámetros.
El método divide a los datos en k diferentes clases, mutuamente independientes
una de la otra, cada clase o categorı́a se denotado como Ci con i = 1, 2, . . . , k, de igual
manera se denota como ni , al número de elementos que pertenecen en Ci , es decir, en
cada clase se mide la frecuencia de las observaciones. Debe satisfacerse que la suma de
todas las frecuencias de las diversas clases den como resultado el tamaño de la muestra,
n = ki=1 ni , posterior a ello se calcula bajo FX∗ , la distribución completamente cono-
P

cida, la probabilidad o proporción de veces que se esperarı́a que ocurriera el evento o


clase i, (P [X = Ci ]), debe de considerarse que la suma de todas las probabilidades debe
sumar 1, es decir ki=1 pi = 1, generalmente se escoge a la probabilidad de la k-ésima
P

categorı́a como 1 − P [X < Ck ] para satisfacer esta última condición. Finalmente se


obtiene la frecuencia esperada de eventos que sucedan en la clase Ci al multiplicar el
tamaño de la muestra n por la probabilidad o proporción que se esperarı́a que suceda
un evento en esa clase. Ası́ se tiene la siguiente tabla:

Frecuencia Probabilidad Frecuencia


Clase Observada Esperada Esperada
C1 n1 p1 n(p1 )
C2 n2 p2 n(p2 )
.. .. .. ..
. . . .
Ck nk pk n(pk )

Más adelante se realizará la demostración formal de la obtención de la estadı́stica,


sin embargo para no interrumpir al lector en el análisis puede suponerse a este momento
que Pearson definió a la estadı́stica T como:
k
X (Oi − ei )2
T = , (2.1)
i=1
ei

donde Oi es la frecuencia observada y ei es la frecuencia esperada en la clase i.


La estadı́stica T mide las distancias entre la frecuencia observada y la frecuencia
esperada, si la distribución propuesta FX∗ se apega a los datos entonces el valor de T se
aproximarı́a a 0, ya que la frecuencia observada serı́a similar a la esperada, dando como
resultado que las diferencias sean pequeñas. Se sabe gracias a Pearson que T ∼ χk−1 .
Este resultado se analizará más adelante.
2.1 Prueba Ji-Cuadrada 21

Debido a la distribución asociada a T , la región de rechazo de la prueba de hipótesis


planteada es cuando T sea muy grande a comparación del cuantil de una Ji-cuadrada
con k − 1 grados de libertad evaluada en el nivel de confianza 1 − α, es decir, hay
evidencia de rechazar la prueba de hipótesis cuando:
2(1−α)
T > χk−1 ,

en otro caso, no se rechaza H0 . A pesar de ser una de las pruebas más sencillas para
probar que una muestra sigue una determinada distribución, presenta una serie de
supuestos para su realización:

El tamaño de la muestra debe ser mayor a 20 elementos.

Clases con menos de 5 observaciones deben de ser combinadas con otra clase con
la finalidad de no poseer clases pequeñas.

Menos del 20 % de los datos deben de ser combinados en diversas clases para ası́
dar buenas aproximaciones.

Las clases son definidas por el investigador por lo que las k categorı́as son com-
pletamente arbitrarias lo que puede provocar que la prueba sea no sea válida para
diversos juicios.

2.1.1. La distribución de la estadı́stica de prueba

Para estudiar la distribución de la estadı́stica de prueba (2.1), se utilizará el cociente


de verosimilitudes generalizadas y su distribución asintótica, de acuerdo al siguiente
planteamiento del problema.
En su forma más simple, se tienen k celdas, en cada una de las cuales puede caer
el resultado de un experimento. Sea pi , i = 1, 2, ..., k, la probabilidad de que el expe-
rimento arroje un resultado que caiga en la i-ésima celda y sea ni , i = 1, 2, ..., k, el
número de veces que el resultado cae en la i-ésima celda en un total de n = ki=1 ni
P

realizaciones del experimento. En resumen, se tiene el siguiente esquema:

Celda i 1 2 3 ··· k
Número de observaciones en la celda i n1 n2 n3 ··· nk
Probabilidad de que el resultado esté en la celda i p1 p2 p3 ··· pk

En donde se cumplen las condiciones:


k
X k
X
ni = n y pi = 1.
i=1 i=1
22 Pruebas de bondad de ajuste

Considerando cada celda por separado, cada vez que el resultado caiga en dicha
celda puede pensarse en un éxito y después de efectuar las n repeticiones del experi-
mento, sólo es relevante el total de veces que el resultado cayó en la celda. Lo anterior,
sugiere asociar una distribución binomial para cada celda, siendo pi la probabilidad
de éxito en un sólo ensayo del experimento y, como se efectúan n de tales ensayos, el
número esperado de éxitos para la i-ésima celda será la esperanza de la correspondiente
variable binomial, es decir npi . Ası́, para cada una de las celdas se tendrı́a que:
oi n1 n2 . . . nk
ei np1 np2 . . . npk ,
donde oi representa las frecuencias observadas y ei representa las frecuencias esperadas
en un total de n realizaciones del experimento. En este contexto, es posible plantear
el problema de bondad de ajuste mediante la siguiente pregunta: ¿cómo se puede
determinar si un conjunto de resultados experimentales es compatible con los resultados
esperados de acuerdo con las probabilidades que fueron postuladas para las celdas?
Formalmente, se desea probar la hipótesis:

H0 : pi = πi , i = 1, 2, ..., k;

donde las πi0 s son los valores postulados de las probabilidades de las celdas. Ésta es
una hipótesis simple; sin embargo, y debido a que ordinariamente no se tiene una
hipótesis alternativa en mente, se emplea aquı́ una prueba de razón de verosimilitudes
generalizadas.
La función de verosimilitud (o densidad conjunta de la muestra), para una variable
aleatoria discreta es la probabilidad de obtener los valores muestrales observados en el
orden en el cual fueron obtenidos, es decir:

L (θ) ≡ L (θ | n1 , n2 , ..., nk ) = pn1 1 pn2 2 pn3 3 ...pnk k , donde θ = (p1 , p2 , . . . , pk ).

Como ki=1 pi = 1, solamente k − 1 de las pi ’s son parámetros independientes; por lo


P

tanto, para encontrar los estimadores máximo verosı́miles de las pi ’s, se reemplazará
pk por 1 − k−1
P
i=1 pi , quedando:

k−1
!nk
n
X
L (θ) = pn1 1 pn2 2 pn3 3 ...pk−1k−1
1− pi .
i=1

La log-verosimilitud está dada por:


k−1
!
X
ln L (θ) = n1 ln p1 + n2 ln p2 + ... + nk−1 ln pk−1 + nk ln 1 − pi
i=1
k−1 k−1
!
X X
= ni ln pi + nk ln 1 − pi .
i=1 i=1
2.1 Prueba Ji-Cuadrada 23

Derivando con respecto a pi e igualando a cero, se obtiene:


∂ ln L (θ) ni nk
= − Pk−1 = 0, i = 1, 2, ..., k − 1
∂pi pi 1 − i=1 pi

ni nk
⇒ = , i = 1, 2, ..., k
pi pk
⇒ ni pk = nk pi , i = 1, 2, ..., k

Sumando las k igualdades se tiene que:


k
X k
X
pk ni = nk pi ,
i=1 i=1
Pk Pk
donde i=1 ni = n y i=1 pi = 1, implicando que:

pk n = nk ,

por lo tanto
nk
. pbk =
n
Este resultado puede generalizarse a las demás pi ’s como:
ni
pbi = , i = 1, 2, ..., k.
n
Bajo la hipótesis nula:
L (θ) = π1n1 π2n2 ...πknk ,
la cual no tiene parámetros desconocidos, por lo que el cociente de verosimilitudes
generalizadas resulta ser:
máxθ∈Θ0 L (θ)
λ =
máxθ∈Θ L (θ)
π n1 π n2 ...π nk
= n1 n1 1 n22n2 k nk nk
... n
 n n1n  n  n
nπ1 nπ2 2 nπk k
= ... ,
n1 n2 nk
donde cada ni tiene distribución Binomial(n, pi ) . Encontrar la distribución de λ es
complicado, ası́ que se puede utilizar la distribución asintótica de -2 ln λ como una
Ji-cuadrada con grados de libertad igual a la diferencia en el número de parámetros
independientes no especificados bajo Θ y Θ0 , en este caso, k − 1. Entonces la prueba
se reduce a considerar:
k  
X nπi
−2 ln λ = −2 ni ln ,
i=1
n i
24 Pruebas de bondad de ajuste

como una variable aleatoria con distribución Ji-cuadrada con k − 1 grados de libertad
y la región crı́tica queda determinada por:

λ ≤ λ0 ,

si y sólo si
ln λ ≤ ln λ0 ,

si y sólo si
−2 ln λ ≥ −2 ln λ0 = c,

donde
k  
X nπi
−2 ln λ = −2 ni ln
i=1
ni
k  
X πi
= −2 ni ln
i=1
ni /n
k
X  ni 
= −2 ni ln πi − ln . (2.2)
i=1
n

Por lo tanto, la región crı́tica es:

C = {−2 ln λ ≥ c} ,

o ( )
k
X  ni 
C = −2 ni ln πi − ln ≥c ,
i=1
n

donde c es tal que


P [−2 ln λ ≥ c | H0 ] = α.

Karl Pearson propuso la expresión (2.1) como estadı́stica de prueba para el problema
de bondad de ajuste, la cual es equivalente a:

k
X (ni − ei )2
T = , (2.3)
i=1
ei

donde ei representa el valor esperado en la celda i, es decir npi y, bajo Ho, ei = nπi .
A continuación se demostrará que la expresión para −2 ln λ dada en (2.2) es asintóti-
camente equivalente a (2.3).
2.1 Prueba Ji-Cuadrada 25

ni
La expansión en series de Taylor para ln pi alrededor de pbi = n
es:

(pi − pbi )2
 
1 1
ln pi = ln pbi + (pi − pbi ) + − 2 +ε
pbi 2! pbi
n
 2 2
pi − ni

ni  ni  n n
= ln + pi − − + ε,
n n ni 2 ni
o
ni  ni  n  ni 2 n2
ln pi − ln = pi − − pi − + ε, (2.4)
n n ni n 2n2i
donde ε representa la suma de términos con signo alternante:

X j+1
 ni  j nj
(−1) pi − .
j=3
n j!nji

Bajo H0 , pi = πi , ası́ que sustituyendo (2.4) en (2.2), se obtiene que:


k
X  ni 
−2 ln λ = −2 ni ln πi − ln
i=1
n
k
ni  2 n2
 
X ni  n 
= −2 ni p i − − pi − 2

i=1
n n i n 2n i
k k k
X X (nπi − ni )2 X
= −2 (nπi − ni ) + + ε0 , (2.5)
i=1 i=1
ni i=1

donde
k
X k
X k
X
(nπi − ni ) = n πi − ni = n − n = 0,
i=1 i=1 i=1

por lo que (2.5) se reduce a


k
X (nπi − ni )2
− 2 ln λ = + ε00 , (2.6)
i=1
ni

y ε00 → 0 cuando n → ∞, con probabilidad 1. (2.6) también puede escribirse como:


k
X (ni − nπi )2
− 2 ln λ = , (2.7)
i=1
ni

expresión que, bajo la hipótesis nula pi = πi , es muy similar a (2.3), excepto por el
denominador, pues ei = nπi .
26 Pruebas de bondad de ajuste

ni
Por la Ley Débil de los Grandes Números se sabe que la variable aleatoria n
converge en probabilidad a pi , es decir:
h  n i
i
lı́m P − pi > ε = 0, para toda ε > 0,
n→∞ n
lo cual es equivalente a:
 
1
lı́m P (|ni − npi | > ε) = 0, para toda ε > 0
n→∞ n

o  
1
lı́m P (|ni − npi | < ε) = 1, para toda ε > 0,
n→∞ n

concluyendo que cuando n → ∞, es posible sustituir a ni por npi , por lo que bajo la
hipótesis nula, (2.7) se puede escribir como
k
X (ni − nπi )2
−2 ln λ = ,
i=1
nπi

que es igual a la estadı́stica T dada por (2.3).


Como la distribución asintótica de −2 ln λ es Ji-cuadrada con k − 1 grados de
libertad, se concluye que la estadı́stica T tiene esa distribución.

Ejemplo 6. Se tiene información estadı́stica de 200 pólizas de automóviles re-


gistradas en el 2010 en el Estado de Puebla, en esta primera etapa se requiere
determinar la distribución asociada a la frecuencia de la siniestralidad. Dado que
la frecuencia está relacionada a conteos, se desea hacer el siguiente contraste:

H0 : La frecuencia de la siniestralidad ∼ P oisson(λ = 1.02)


vs.
Ha : La frecuencia de la siniestralidad  P oisson(λ = 1.02).
Realiza la prueba de la χ2 al 95 % de significancia.

Frecuencia
Eventos Observada
0 58
1 75
2 36
3 15
4 10
5 6
2.1 Prueba Ji-Cuadrada 27

1. Se procede a calcular los cuantiles para


λ xi
P (X = xi ) = e−λ .
xi !

Recordar que la suma probabilidades deben de ser 1, por lo que se modifica el


último valor obteniendo:

Frecuencia Probabilidad
Eventos Observada Esperada
−1.02 1.020
0 58 e 0!
= 0.36059494
−1.02 1.021
1 75 e 1!
= 0.367806839
−1.02 1.022
2 36 e 2!
= 0.187581488
−1.02 1.023
3 15 e 3!
= 0.063777706
−1.02 1.024
4 10 e 4!
= 0.016263315
5 6 1 − P (X ≤ 4) = 0.003975712

2. Se obtiene las observaciones esperadas

ê = nP (xi ).

donde n = 200. Ası́ se obtiene la siguiente tabla:

Cuadro 2.1: Tabla de la chi-cuadrada para P oisson


Clase Ci Oi pi ei
0 58 0.36059494 72.11898803
1 75 0.367806839 73.5613678
2 36 0.187581488 37.51629758
3 15 0.063777706 12.75554118
4 10 0.016263315 3.252663
5 6 0.003975712 0.795142419

P (Oi −ei )2
3. Se obtiene la estadı́stica T = ei
= 51.3152

4. Se compara el cuantil, ya que T = 51.3152 y la región de valor crı́tico con un


2(1−0.05)
nivel de significancia α = 0.05 es χ5 = 11.070, por lo que:
2(1−0.05)
51.31 = T > χ5 = 11.07

Por lo que la estadı́stica T cae en la región de rechazo, ası́ que se tiene evidencia
suficiente para rechazar la hipótesis nula, la cual propone que los datos tienen
una distribución Poisson con parámetro λ = 1.02. 
28 Pruebas de bondad de ajuste

A través de R, el anterior resultado se puede realizar con el siguiente código:


Oi = c (58 ,75 ,36 ,15 ,10 ,6) # Observaciones
Ci = c (0 ,1 ,2 ,3 ,4 ,5) # clases
Pi = dpois ( Ci , 1.02) # cálculo de probabilidades
Pi [6]=1 - sum ( pi [1:5]) # Suma de Pi =1

chisq . test ( x = Oi , p = pi ) # función de la ji - cuadrada

Chi-squared test for given probabilities

data: Oi
X-squared = 51.315, df = 5, p-value = 7.454e-10

Warning message:
In chisq.test(x = Oi, p = pi) : Chi-squared approximation may be incorrect

Se observa que ambos resultados son similares, debido al p − value = 7.454e − 10 <
α = 0.05 lo que conlleva a que se rechace la hipótesis nula con un nivel de significancia
del 5 % por lo que hay evidencia suficiente para suponer que la muestra no sigue una
distribución Poisson con parámetro λ = 1.02.

2.2. Kolmogorov-Smirnov

En ejercicios prácticos es muy difı́cil conocer la distribución de una muestra aleato-


ria, generalmente sólo se tiene la información; ésta hay que procesarla para averiguar
si sigue una determinada distribución probabilı́stica, en un primer intento se ajustó
mediante la prueba de la Ji-cuadrada, sin embargo, al ser una de las pruebas más sen-
cillas su “potencia” al estimar una determinada distribución es baja, es por ello, que
se idearon otros métodos y uno de ello es la Prueba de Kolmogorov-Smirnov.
La prueba de Kolmogorov presenta la ventaja de que los datos no deben ser ca-
tegorizadas para poder realizar estimaciones en su distribución. Al igual que en la
prueba de la Ji-Cuadrada, Kolmogorov-Smirnov trabaja con una distribución Fx∗ (Xi )
totalmente especificada, es decir, se debe de tener sospecha de que la muestra alea-
toria siga una determinada distribución. De esta manera el objeto de estudio es una
muestra X1 , . . . , Xn de variables aleatorias idénticamente distribuidas, las cuales siguen
una distribución desconocida F (X) y se tiene la sospecha de que la muestra sigue una
2.2 Kolmogorov-Smirnov 29

distribución conocida Fx∗ (Xi ). Para probar la suposición de la distribución Fx∗ (Xi ) se
realiza la siguiente contraste:

H0 : F (Xi ) = Fx∗ (Xi ) vs. Ha : F (Xi ) 6= Fx∗ (Xi ) ∀i = 1, . . . n.

Donde Fx∗ (Xi ) es una distribución completamente conocida, es decir además de


conocer a la familia que pertenece también se conoce sus parámetros.
Lo que se busca es poder medir las distancia entre F (Xi ), la distribución descono-
cida, con los datos que siguen la función de distribución propuesta y completamente
conocida Fx∗ (Xi ). Sin embargo, F (Xi ) al ser desconocida se recurre a la construcción
de una distribución empı́rica la cual se define como:
Pn
1x≤Xi
Fn (Xi ) = i=1 .
n

Es decir, la función empı́rica mide el número de elementos menores o iguales a la


observación Xi , puede observarse que en el caso continuo, al no haber “empates” la
función empı́rica puede ser vista como:
i
Fn (Xi ) = , i = 1, . . . , n.
n

Al tener una distribución desconocida F (Xi ), la función empı́rica Fn (Xi ) puede ser
usada como un estimador insesgado de F (Xi ) pues:

 Pn 
i=11x≤Xi
E(Fn (Xi )) = E
n
Pn
= i=1 E (1x≤Xi ) ,
n

pero 1x≤Xi ∼ Bernoulli(P (x ≤ Xi )) = Bernoulli(p = F (Xi )) de esta forma

n
E(Fn (Xi )) = E (1x≤Xi )
n
= P (x ≤ Xi )
E(Fn (Xi )) = F (Xi ).

La función empı́rica es de gran importancia ya que gracias al teorema de Glivenko-


Cantelli se sabe que cuando el tamaño de la muestra tiende a infinito cualquier distri-
bución empı́rica se aproxima a la distribución real de los datos, la cual dicho sea de
30 Pruebas de bondad de ajuste

paso, es una distribución completamente especificada. El teorema de Glivenko-Cantelli,


menciona que al calcular las diferencias de la distribución real y la empı́rica éstas son
cero en cada observación dada, el teorema que se enuncia como:
Sea X1 , . . . , Xn una muestra aleatoria de distribución F (Xi ) desconocida y sea
Fn (Xi ) la función empı́rica entonces.

sup |Fn (Xi ) − F (Xi )| → 0.


x∈R

Es decir, conforme mayor sea el tamaño de la muestra, Fn (Xi ) reproduce la verda-


dera distribución. De esta manera se establece la estadı́stica Dn , la cual no depende
de ningún parámetro desconocido, ya que engloba a la distribución empı́rica y a la
distribución propuesta:

Dn = sup |Fn (Xi )−Fx∗ (Xi )| = max{max{Fn (Xi−1 )−Fx∗ (Xi )}, max{Fn (Xi )−Fx∗ (Xi )}} ∀i.
x∈R

La anterior afirmación se desarrolla y demuestra en el siguiente teorema:

Teorema 2.1. Sea X1 , . . . , Xn una muestra de variables aleatorias idénticamente


distribuidas, sea Fn (Xi ) y Fx∗ (Xi ), la distribución empı́rica y la distribución pro-
puesta completamente especificada evaluadas en Xi i = 1, . . . , n respectivamente y
sea Dn+ = max [Fn (Xi ) − Fx∗ (Xi )] y Dn− = max [Fn (Xi−1 ) − Fx∗ (Xi )] distribucio-
nes completamente conocidas para cualquier distribución especificada y continua
Fx∗ (Xi ). Entonces la estadı́stica Dn cumple con ser de la forma:

Dn = sup |Fn (Xi ) − Fx∗ (Xi )| = max{D+ , D− }.


x∈R

Demostración:
Sea Dn = Sup|Fn (Xi ) − Fx∗ (Xi )| = max(D+ , D− ). Si se define a X(0) = −∞ y
x x
X(n+1) = ∞, se puede escribir la función empı́rica de la siguiente forma, recuerde que
la función real de los datos que se quiere comprobar sigue una distribución continua.

i
Fn (Xi ) = para X(i) ≤ x ≤ X(i+1) , i = 0, 1, . . . , n
n

De esta manera se tiene:


2.2 Kolmogorov-Smirnov 31

Dn+ = sup [Fn (Xi ) − Fx∗ (Xi )]


x
Dn+ = max sup [Fn (Xi ) − Fx∗ (Xi )]
o≤i≤nX ≤x≤X
(i) (i+1)
 
i ∗
Dn+ = max sup − Fx (Xi )
o≤i≤nX ≤x≤X
(i) (i+1)
n
" #
i
Dn+ = max − inf Fx∗ (Xi )
o≤i≤n n X(i) ≤x≤X(i+1)
 
+ i ∗
Dn = max − Fx (Xi )
o≤i≤n n
   
+ i ∗
Dn = max max − Fx (Xi ) , 0 .
o≤i≤n n

De forma similar para Dn− se tiene:

Dn− = sup [Fn (Xi−1 ) − Fx∗ (Xi )]


x
Dn− = max sup [Fn (Xi−1 ) − Fx∗ (Xi )]
o≤i≤nX ≤x≤X
(i) (i+1)
 
i−1
Dn− = max sup − Fx∗ (Xi )
o≤i≤nX ≤x≤X
(i) (i+1)
n
" #
i − 1
Dn− = max − inf Fx∗ (Xi )
o≤i≤n n X(i) ≤x≤X(i+1)
 
− i−1 ∗
Dn = max − Fx (Xi )
o≤i≤n n
   
− i−1 ∗
Dn = max max − Fx (Xi ) , 0 .
o≤i≤n n

De esta forma, la estadı́stica Dn se comporta como:

Dn = max(Dn+ , Dn− )
        
i ∗ i−1 ∗
Dn = max max max − Fx (Xi ) , 0 , max max − Fx (Xi ) , 0
o≤i≤n n o≤i≤n n
     
i ∗ i−1 ∗
Dn = max max − Fx (Xi ) , max − Fx (Xi ) , 0 .
o≤i≤n n o≤i≤n n

De esta última igualdad, la probabilidad de Dn+ , Dn− y Dn dependen sólo de variables


aleatorias completamente especificadas, es decir Fn (Xi ) y Fx∗ (Xi ), i = 1, 2, . . . , n.
32 Pruebas de bondad de ajuste

Finalmente, se observa que si H0 es cierta entonces Dn → 0 ya que las diferencias


entre la diferencias entre la función empı́rica y la propuestas son mı́nimas, lo que
cumple con el teorema de Glivenko-Cantelli; por lo que hay evidencia de rechazar H0
cuando Dn > wk1−α donde wk1−α es el cuantil que acumula el 1 − α de probabilidad de
la distribución asociada a Dn la cual puede obtenerse al consultar el apéndice B.1, el
cual muestra los cuantiles de la distribución Kolmogorov-Smirnov .

Ejemplo 7. Dada la siguiente muestra 0.6379, 1.5299, 0.35005, 2.0505, 2.1906,


0.3459, 2.3214, 0.3128, 0.6548, 2.4373, 1.803, 2.3674, 1.2716, 0.2566 y 0.2513 ,
se desea hacer el siguiente contraste:

H0 : La muestra ∼ LogN (0, 1)


vs.
Ha : La muestra  LogN (0, 1)

Realice la prueba de Kolmogorov-Smirnov al 5 % de significancia.

1. De las Xi observadas se procede a ordenarlas de menor a mayor, este vector se


denominará Xi ord
Pn
1
2. Se calcula la función empı́rica, es decir, i=1n Xi ≤x ∀i ∈ 1, 2, . . . , n, a este vector
se le denotará como Fn (xi ), para fines de éste ejercicio, ya que no hay ningún
valor repetido se supondrá que Fn (xi ) = 15i = 15
1 2
, 15 , . . . , 1
−1+ n
P
1
i=1 Xi ≤x
3. Se calcula la función empı́rica menos un valor, es decir, n
∀i ∈
1, 2, . . . , n este vector se denominará Fn (xi−1 ), para fines de este ejercicio, Fn (xi−1 ) =
i−1 0 1
12
= 15 , 15 , . . . , 14
15

4. Se calcula la distribución observada, es decir, P (X ≤ xi )

5. Se calcula Di+ que es el resultado de la resta de la distribución observada menos


la empı́rica es decir
Di+ = |P (X ≤ xi ) − Fn (xi )|

6. Se calcula Di− que es el resultado de la resta de la distribución observada menos


la empı́rica menos uno es decir

Di− = |P (X ≤ xi ) − Fn (xi−1 )|

De esta forma se tiene la siguiente tabla:


2.2 Kolmogorov-Smirnov 33

Cuadro 2.2: Tabla de Kolmogorov-Simirnov para Xi ∼ N (0, 1)


Xi Xi ord. Fn (Xi ) Fn (Xi )(x − ε) P (X < xi ) D+ D−
1 0.6379 0.2513 0.0667 0.0000 0.0836 0.0170 0.0836
2 1.5299 0.2566 0.1333 0.0667 0.0869 0.0465 0.0202
3 0.35005 0.3128 0.2000 0.1333 0.1226 0.0774 0.0108
4 2.0505 0.3459 0.2667 0.2000 0.1442 0.1225 0.0558
5 2.1906 0.3505 0.3333 0.2667 0.1472 0.1861 0.1194
6 0.3459 0.6379 0.4000 0.3333 0.3265 0.0735 0.0068
7 2.3214 0.6548 0.4667 0.4000 0.3360 0.1307 0.0640
8 0.3128 1.2716 0.5333 0.4667 0.5949 0.0616 0.1283
9 0.6548 1.5299 0.6000 0.5333 0.6647 0.0647 0.1313
10 2.4373 1.803 0.6667 0.6000 0.7222 0.0556 0.1222
11 1.803 2.0505 0.7333 0.6667 0.7636 0.0303 0.0970
12 2.3674 2.1906 0.8000 0.7333 0.7835 0.0165 0.0502
13 1.2716 2.3214 0.8667 0.8000 0.8002 0.0665 0.0002
14 0.2566 2.3674 0.9333 0.8667 0.8056 0.1277 0.0611
15 0.2513 2.4373 1.0000 0.9333 0.8135 0.1865 0.1198

7. Finalmente realizada la tabla, se calcula el máximo de las columnas Di+ y Di− ,


de esta manera se tiene:

D+ = max{Di+ } D− = max{Di− }

En este caso:

D+ = max{Di+ } = 0.186 D− = max{Di− } = 0.131

8. Se calcula el supremo para ello se obtiene el máximo entre D+ y D−

D = max{D+ , D− }

En el caso del ejercicio: D = 0.186

9. Este último resultado se compara con la tabla de valores crı́ticos de Kolmogorov-


Smirnov, consultar apéndice B.1, para un nivel de significancia α = 0.05

∴ W0.05 = 0.337

De esta manera se tiene que 0.337 = W0.05 > D = 0.186, como la estadı́stica W0.05
es mayor a comparación de D = 0.186 se acepta la prueba de lognormalidad con
media 1 y varianza 0, con un nivel de significancia α = 0.05. 
34 Pruebas de bondad de ajuste

Como se mencionó anteriormente:

Dn = sup |Fn (Xi )−Fx∗ (Xi )| = max{max{Fn (Xi−1 )−Fx∗ (Xi )}, max{Fn (Xi )−Fx∗ (Xi )}} ∀i
x∈R

Esta última estadı́stica permite encontrar intervalos de confianza, ya que cuando


Dn ≤ W1−α no se tiene evidencia de rechazar la hipótesis nula, de esta manera es
deseable conocer:

P (Dn ≤ W1−α ) = 1 − α
 

P sup |Fn (Xi ) − Fx (Xi )| ≤ W1−α = 1 − α
x

P (|Fn (Xi ) − Fx∗ (Xi )| ≤ W1−α ∀x) = 1 − α,

por desigualdad del valor absoluto

P (−W1−α ≤ Fn (Xi ) − Fx∗ (Xi ) ≤ W1−α ∀x) = 1 − α


P (Fn (Xi ) − W1−α ≤ Fx∗ (Xi ) ≤ W1−α + Fn (Xi ) ∀x) = 1 − α.

Por lo tanto si la distribución propuesta es verdadera entonces Fx∗ (Xi ) ∈ (Fn (Xi ) ∓ W1−α ),
es decir, debe de estar contenida en las bandas de confianza con un nivel de significancia
α. Esto puede ser observado en el siguiente ejemplo:

Ejemplo 8. Las tallas, medida en metros, de nueve peces espadas capturados


en alta mar fueron: 1.628, 1.352, 1.8, 1.42, 1.594, 2.132, 1.614, 1.924, 1.692,
se piensa que sigue las medidas siguen una distribución normal con parámetros
N (1.684, 0.2422 ) se realiza la prueba de kolmogorov para verificar la bondad del
ajuste con un nivel de significancia α = 0.05.

H0 : Xi ∼ N (1.684, 0.2422 ) vs. H0 : Xi  N (1.684, 0.2422 )

1. De la Xi observadas se procede a ordenarlas de menor a mayor a este vector se


le denominará Xi ord

2. Se calcula la función empı́rica, denominando a este vector como Fn (Xi ), para


fines de este ejercicio: Fn (Xi ) = 9i = 19 , 92 , . . . , 1

3. Se calcula la función empı́rica retrasada, para fines de este ejercicio, Fn (Xi−1 ) =


i−1
9
= 09 , 91 , . . . , 89
2.2 Kolmogorov-Smirnov 35

4. Se calcula la distribución observada, es decir, F (X ≤ xi )

5. Se calcula Di+ correspondiente a la resta de la distribución observada menos la


empı́rica, es decir:
Di+ = |F (X ≤ xi ) − Fn (Xi )|

6. Se calcula Di− correspondiente a la resta de la distribución observada menos la


empı́rica retrasada, es decir:

Di− = |F (X < xi ) − Fn (Xi−1 )|

De esta forma se tiene la siguiente tabla:

Cuadro 2.3: Tabla de Kolmogorov-Simirnov para Xi ∼ N (1.684, 0.2422 )


Xi Xi ord. Fn (Xi ) Fn (x − 1) F (X < xi ) D+ D−
1 1.628 1.352 0.11111 0.00000 0.08505 0.02606 0.08505
2 1.352 1.42 0.22222 0.11111 0.13766 0.08457 0.02655
3 1.8 1.594 0.33333 0.22222 0.35498 0.02165 0.13276
4 1.42 1.614 0.44444 0.33333 0.38619 0.05825 0.05286
5 1.594 1.628 0.55556 0.44444 0.40850 0.14706 0.03594
6 2.132 1.692 0.66667 0.55556 0.51319 0.15348 0.04237
7 1.614 1.8 0.77778 0.66667 0.68415 0.09363 0.01748
8 1.924 1.924 0.88889 0.77778 0.83934 0.04955 0.06156
9 1.692 2.132 1.00000 0.88889 0.96793 0.03207 0.07904

7. Finalmente realizados Di− y Di+ , se observa cual es máximo de las dos, ası́ se
tiene:

D+ = max{Di+ } D− = max{Di− }

En este caso:

D+ = max{Di+ } = 0.15348 D− = max{Di− } = 0.13276

8. Se calcula el supremo para ello se obtiene el máximo entre D+ y D−

D = max{D+ , D− }

En el caso del ejercicio: D = 0.15348


36 Pruebas de bondad de ajuste

9. Este último resultado se compara con la tabla de valores crı́ticos de Kolmogorov-


Smirnov, consultar apéndice B.1, para un nivel de significancia α = 0.05

∴ W0.05 = 0.43001

Como 0.43001 = W0.05 > D = 0.15348, la estadı́stica W0.05 es muy grande a


comparación de D = 0.15348, no se tiene evidencia suficiente para rechazar H0
por lo que se supone que la talla de los peces se comporta con normalidad con
parámetros Xi ∼ N (1.684, 0.2422 ) con un nivel de significancia α = 0.05.

10. Una vez aceptada la prueba se calculan los intervalos de confianza de manera
que la banda inferior es Fn (Xi ) − W1−α y la superior es Fn (Xi ) + W1−α de esta
manera se tiene:

Cuadro 2.4: Intervalos de KS para Xi ∼ N (1.684, 0.2422 )


Xi ord. Fn (Xi ) P (X < xi ) Fn (Xi ) − W1−α Fn (Xi ) + W1−α
1 1.352 0.11111 0.08505 0 (-0.3189) 0.54121
2 1.42 0.22222 0.13766 0 (-0.207) 0.65232
3 1.594 0.33333 0.35498 0 (0.096) 0.76343
4 1.614 0.44444 0.38619 0.01434 0.87454
5 1.628 0.55556 0.40850 0.12546 0.98566
6 1.692 0.66667 0.51319 0.23657 1 (1.096)
7 1.8 0.77778 0.68415 0.34768 1 (1.207)
8 1.924 0.88889 0.83934 0.45879 1 (1.31)
9 2.132 1.00000 0.96793 0.56990 1 (1.43)

El teorema de Glivenko-Cantelli se comprueba numéricamente a través de R, que


da como resultado la figura 2.1 el cual fue generado con el siguiente código, el cual
enuncia que entre más grande sea el tamaño de la muestra, la función propuesta y
completamente especificada, se aproxima a la función de distribución empı́rica.

par ( mfrow = c (2 ,2) ) # # cómando graficar 4 gráficas en 1 ventana


x = rnorm (10 ,0 ,1) # # Simula 10 valores normales media 0 , desviación 1
f = ecdf ( x ) # # Crea la función de dsitribución empı́rica
# # gráficamos la función empı́rica de color azul
plot (f , xlab = " observados " , ylab = " función de probabilidad " , main = "
muestra con 10 valores " , col = " darkcyan " )
# gráficamos la función de distribución de una normal 0 , 1 con los
datos almacedos
curve ( pnorm (x , 0 , 1) , add = TRUE , col = " red " )
2.2 Kolmogorov-Smirnov 37

x = rnorm (25 ,0 ,1)


f = ecdf ( x )
plot (f , xlab = " observados " , ylab = " función de probabilidad " , main = "
muestra con 25 valores " , col = " darkcyan " )
curve ( pnorm (x , 0 , 1) , add = TRUE , col = " red " )

x = rnorm (100 ,0 ,1)


f = ecdf ( x )
plot (f , xlab = " observados " , ylab = " función de probabilidad " , main = "
muestra con 100 valores " , col = " darkcyan " )
curve ( pnorm (x , 0 , 1) , add = TRUE , col = " red " )

x = rnorm (1000 ,0 ,1)


f = ecdf ( x )
plot (f , xlab = " observados " , ylab = " función de probabilidad " , main = "
muestra con 1000 valores " , col = " darkcyan " )
curve ( pnorm (x , 0 , 1) , add = TRUE , col = " red " )

Se observa que efectivamente, entre más grande sea el tamaño de la muestra, la fun-
ción empı́rica se aproxima más a la distribución propuesta, por lo que numéricamente
la siguiente proposición es válida:.

sup |Fn (Xi ) − Fx∗ (Xi )| → 0.


x∈R

En R la función que realiza la prueba de Kolmogorov-Smirnov es kstest y su


implementación es de la siguiente manera, en la cual se comprobará el primer ejercicio
desarrollado

# # Agregamos los valores a la variable x


x = c (0.6379 ,1.5299 ,0.35005 ,2.0505 ,2.1906 ,0.3459 ,2.3214 ,
0.3128 ,0.6548 ,2.4373 ,1.803 ,2.3674 ,1.2716 ,0.2566 ,0.2513)

# # Aplicamos la prueba KS , compuesto por datos ( x ) ,


# distribución a poner a prueba ( plnorm )
# # parametros media (0) , desviación 1
ks . test (x , plnorm , 0 , 1)

One-sample Kolmogorov-Smirnov test

data: x
D = 0.18649, p-value = 0.609
alternative hypothesis: two-sided
38 Pruebas de bondad de ajuste

Muestra con 10 valores Muestra con 25 valores

1.0

1.0
Función de probabilidad

Función de probabilidad
0.8

0.8
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0
−1.5 −0.5 0.5 1.5 −1 0 1 2
Observados Observados

Muestra con 100 valores Muestra con 1000 valores


1.0

1.0
Función de probabilidad

Función de probabilidad
0.8

0.8
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

−2 −1 0 1 2 3 −4 −2 0 2
Observados Observados

Figura 2.1: Relación de la función empı́rica (puntos azules) y la distribución teórica de


los datos (lı́nea continua de color rojo) para diversos tamaños muestrales

La estadı́stica D obtenida es igual al que se generó mediante la realización del


ejemplo 7, el p − value mostrado en la prueba confirma que con un nivel de significacia
alpha = 0.01 (99 % de confianza) se acepta la prueba de normalidad.
Para la comprobación del ejemplo 8, se puede implementar el siguiente código:

# Agregamos los valores a la variable x


2.2 Kolmogorov-Smirnov 39

x = c (1.628 ,1.352 ,1.8 ,1.42 ,1.594 ,2.132 ,1.614 ,1.924 ,1.692)

# # Aplicamos la prueba KS , compuesto por datos ( x ) ,


# distribución a poner a prueba ( pnorm )
# # parametros media (0) , desviación 1
ks . test (x , pnorm , 1.684 ,0.242)

One-sample Kolmogorov-Smirnov test

data: x
D = 0.15348, p-value = 0.9629
alternative hypothesis: two-sided

La estadı́stica D obtenida es igual al que se generó mediante la realización del


ejemplo 8, el p − value mostrado en la prueba confirma que con un nivel de significacia
alpha = 0.01(99 % de confianza) se acepta la prueba de normalidad.
Para la realización de los intervalos de confianza es necesario tener precargado el
paquete NSM3 para implementar el siguiente código.
library ( NSM3 )

# ## Banda inferior
ecdf . ks . CI ( x ) $ lower
# # banda superior
ecdf . ks . CI ( x ) $ upper

[1] 0.00000000 0.00000000 0.00000000 0.01443444 0.12554556 0.23665667 0.34776778


[8] 0.45887889 0.56999000

[1] 0.5411211 0.6522322 0.7633433 0.8744544 0.9855656 1.0000000 1.0000000


[8] 1.0000000 1.0000000

Las bandas son iguales a la que obtuvo en el ejercicio de los peces, por lo que
graficando la distribución real, la empı́rica, ası́ como los intervalos de confianza.

# ## Grafico
ecdf . ks . CI ( x )
curve ( pnorm (x , 1.684 , 0.242) , add = TRUE , col =3)
40 Pruebas de bondad de ajuste

ecdf(x) + 95% K.S.bands

1.0
0.8
0.6
Fn(x)

0.4
0.2
0.0

1.4 1.6 1.8 2.0 2.2

x
n= 9

Calculo del tamaño de una muestra

Una de las aplicaciones más interesantes de la prueba de Kolmogorov-Smirnov,


además de probar normalidad, es que la estadı́stica Dn puede ser usada para determinar
el tamaño mı́nimo de una muestra aleatoria que garantice, con un nivel de signficancia
α, que el error en la estimación no exceda un valor positivo c. El valor c representa al
porcentaje de error en la estimación a lo más permisible en un tamaño muestral dado,
es decir se busca que:

P (Dn ≤ c) = 1 − α,

lo es equivalente a

1 − P (Dn ≤ c) = α
P (Dn > c) = α.

Como se mencionó anteriormente la estadı́stica Dn cumple que cuando Dn ≤ W1−α


no se tiene evidencia suficiente para rechazar la hipótesis nula, es decir:

P (Dn ≤ W1−α ) = 1 − α,

lo es equivalente a

1 − P (Dn ≤ W1−α ) = α
P (Dn > W1−α ) = α.
2.2 Kolmogorov-Smirnov 41

De estas últimas igualdades se observa que c = W1−α ; Dado que se conoce el nivel
de significancia α, el porcentaje de error en la estimación c y que la única variable que
se desconoce es el tamaño de la muestra n, ésta puede obtenerse de la tabla de cuantiles
de la prueba de Kolmogorov-Smirnov mostrada en el apéndice B.1 . Para ejemplificar
se tiene el siguiente ejemplo:
Ejemplo 9. Usted desea tomar una muestra de una población especificada, por lo que
se pregunta cuál deberı́a ser el mı́nimo tamaño muestral que garantice que el error en
la estimación sea menor a 0.27 con un nivel de confianza del 99 %.

Solución:
Cómo se desea un nivel de confianza del 99 % entonces el nivel de significancia es
0.01, por lo que en la columna α = 0.01 de la tabla B.1, se busca el valor c = 0.27, lo
0.97
cual es hallado cuando n = 35 (W35 = 0.26897) ya que es el valor más próximo por
abajo de 0.27. De esta manera el tamaño mı́nimo de la muestra debe ser de al menos
35 elementos.
La tabla B.1 está acotada a valores menores o iguales a 50 elementos, si se desea
obtener cuantiles mayores a éstos se usan aproximaciones, las cuales de igual manera
son mostradas en la tabla de Kolmogorov-Smirnov. Para ello vea el siguiente ejemplo:
Ejemplo 10. Usted desea tomar otra una muestra de la misma población especificada,
pero ahora busca el mı́nimo tamaño muestral que garantice que el error en la estimación
sea menor a 0.10 con un nivel de confianza del 95 %.

Solución:
Cómo se desea un nivel de confianza del 95 % entonces el nivel de significancia es
0.05, por lo que en la columna α = 0.05 de la tabla B.1, se busca el valor c = 0.10,
como no es hallado dentro de los primeros 50 elementos usa la aproximación indicada
0.8043545

n
, esta aproximación es probada para diversos valores de n hasta que se satisfaga
con ser el primer tamaño que tenga un cuantil por debajo de 0.10, lo cual es logrado
cuando n = 77 ya que:

0.99 0.875897
W77 = p = 0.09981773
(77)

Por lo que el tamaño muestral mı́nimo deberá ser de al menos 77 elementos.


Nótese que entre mayor sea el tamaño muestral requerido menor será el error en la
estimación pues puede mostrarse fácilmente que:
Cons
lı́m √ = 0.
n→∞ n
42 Pruebas de bondad de ajuste

donde Cons es la constante especificada para cada nivel de significancia α, es decir,


mientras que el número de elementos en una muestra sea lo considerablemente grande
se tendrá más confiabilidad de que la población es representada por la muestra aleatoria
logrando ası́ mejores estadı́sticas pues el error en la estimación disminuye.

2.3. La prueba de Lilliefors

Como se mencionó anteriormente la prueba de Kolmogorov-Smirnov posee el su-


puesto de que la distribución que se desea comprobar debe ser completamente especifi-
cada, es decir, conocer tanto la familia como el valor de los parámetros que conforman
dicha distribución. Debido al problema que puede ocasionar el no conocer los paráme-
tros, se modificó la prueba de Kolmogorov-Smirnov, con la finalidad de que sólo con
conocer la distribución se pudiera poner a prueba un conjunto de datos para saber si
siguen una cierta familia probabilı́stica con un nivel de confianza deseado, al aproximar
a los parámetros a través del uso de los estimadores puntuales. Esta prueba fue pre-
sentada por primera vez por Hubert Lilliefors en 1967. En este trabajo se examinará
la prueba Lilliefors para probar normalidad y exponencialidad.

2.3.1. Lilliefors para normalidad

Como su nombre lo indica la prueba de Lilliefors puede ser usada para probar con
un nivel de significancia dado, que una muestra aleatoria sigue una distribución normal
con media X̄ y varianza S 2 , los cuales corresponden a los estimadores puntuales de la
media y varianza denotados como:
n Pn 2
Xi i=1 Xi − X̄
X
2
X̄ = y S = .
i=1
n n − 1

Con esa adaptación se procede a realizar el procedimiento similar a la prueba de


Kolmogorov-Smirnov, a excepción del último paso en donde la estadı́stica varı́a un poco,
a continuación se muestra un ejemplo de la aplicación de Lilliefors para normalidad.

Ejemplo 11. Los siguientes datos, corresponden a una muestra aleatoria en la que
mide la perdida y ganancia de peso en KG de un grupo después vacaciones.

0.6822, 3.994, -0.9705, -0.5575, -2.1532, 0.0829, 2.9224, 0.2425,


-0.4962, -0.1621, 0.449, -0.8827, -0.8368, -1.5805, 0.386.
2.3 La prueba de Lilliefors 43

Se desea hacer el contraste:

H0 : La muestra ∼ N (µ, σ 2 )
vs.
Ha : La muestra  N (µ, σ 2 )

Realice la prueba de Lilliefors al 95 % de significancia.

Para esta ejercicio se proporcionan las observaciones Xi y se desea comprobar que


la muestra sigue una distribución normal Xi ∼ N con media (µ) y varianza (σ) desco-
nocidas, por lo que se usa la prueba de Lilliefors, este método consiste en:

1. Primero se procede a contrastar mediante pruebas hipótesis el supuesto de nor-


malidad:
H0 : Los datos de la muestra siguen una distribución normal
Ha : Los datos de la muestra no siguen una distribución normal

2. Se elige un nivel significancia de cometer el error tipo 1, es decir rechazar H0


cuando es verdadera, el ejercicio menciona que es a un nivel de significancia
α = 0.05.

3. De la Xi observadas se procede a ordenarlas de menor a mayor, este vector se


denotará como Xi ord

4. Se obtienen los estimadores puntuales de distribución normal con los datos de la


muestra, por lo que la media es calculada como: x̄ = ni=1 xni = 0.074633333 y la
P
2
i −x̄)
varianza es calculada como S = ni=1 (xn−1
P
= 2.530670687.
Pn
i=1 1X≤Xi
5. Se calcula la función empı́rica, Fn (xi ) = n
, para fines de este ejercicio,
1 2
Fn (xi ) = 15 , 15 , . . . , 1.

6. Se calcula la función empı́rica menos uno, Fn (xi−1 ), para fines de este ejercicio.
0 1 14
Fn (xi−1 ) = , ,..., .
15 15 15
7. Se realiza la estandarización de la normal, este paso no es necesario, pero se hace
para la facilitar la búsqueda de valores acumulados de una normal estándar a
través de tablas. En este caso en particular, se usa la aproximación a una normal
estándar.    
xi − 0.7463 xi − 0.7463
P Z< √ =ψ Z< √ .
2.5306 2.5306
44 Pruebas de bondad de ajuste

8. Se calcula la distribución observada al evaluar φ(Z).

9. Se calcula Di+ la cual es calculada mediante la resta de la distribución observada


menos la empı́rica es decir
i
Di+ = φ(Z)i −
n

10. Se calcula Di− la cual es calculada mediante la resta de la distribución observada


menos la empı́rica retrasada es decir:

i−1
Di− = φ(Z)i −
n

donde finalmente D− = max{Di− }.


De esta forma se tiene la siguiente tabla:

Cuadro 2.5: Tabla de Lilliefors normalidad


Xi Xi ord. Z = xis−x̄ P (Z) D+ D−
1 0.6822 -2.1532 -1.4004 0.0807 0.0140 0.0807
2 3.994 -1.5805 -1.0404 0.1491 0.0157 0.0824
3 -0.9705 -0.9705 -0.6570 0.2556 0.0556 0.1223
4 -0.5575 -0.8827 -0.6018 0.2737 0.0070 0.0737
5 -2.1532 -0.8368 -0.5729 0.2833 0.0500 0.0167
6 0.0829 -0.5575 -0.3974 0.3455 0.0545 0.0122
7 2.9224 -0.4962 -0.3588 0.3599 0.1068 0.0401
8 0.2425 -0.1621 -0.1488 0.4409 0.0925 0.0258
9 -0.4962 0.0829 0.0052 0.5021 0.0979 0.0313
10 -0.1621 0.2425 0.1055 0.5420 0.1246 0.0580
11 0.449 0.386 0.1957 0.5776 0.1557 0.0891
12 -0.8827 0.449 0.2353 0.5930 0.2070 0.1403
13 -0.8368 0.6822 0.3819 0.6487 0.2179 0.1513
14 -1.5805 2.9224 1.7901 0.9633 0.0300 0.0966
15 0.386 3.994 2.4638 0.9931 0.0069 0.0598

11. Finalmente realizada la anterior tabla de resumen, se calcula el supremo de la


diferencias, es decir, el máximo de la columna Di+ y la columna Di− , de esta
manera se tiene:

D+ = max{Di+ } D− = max{Di− }

En este caso:
2.3 La prueba de Lilliefors 45

D+ = max{Di+ } = 0.151259139 D− = max{Di− } = 0.217925806

12. Para calcular el supremo se obtiene el máximo entre D+ y D−

D = max{D+ , D− }

En el caso del ejercicio: D = 0.217925806

13. Esté último resultado se compara con la tabla de valores crı́ticos de Lilliefors,
consular apéndice B.2, para un nivel de significancia α = 0.05 α = 0.05.

∴ W0.05 = 0.219

Como 0.219 = W0.05 > D = 0.217925806, la estadı́stica W0.05 es ligeramente


más grande a comparación de D = 0.2179 no se tiene evidencia suficiente para
rechazar H0 , por lo que se supone que la muestra se comporta con normalidad
con un nivel de significancia α = 0.05.

En R la prueba puede ser realizada mediante el siguiente código, en el cual se hace


uso de la paqueterı́a nortest el cual contiene varias pruebas de bondad de ajuste:
library ( nortest )

x = c (0.6822 , 3.994 , -0.9705 , -0.5575 , -2.1532 , 0.0829 , 2.9224 ,


0.2425 , -0.4962 , -0.1621 , 0.449 , -0.8827 , -0.8368 , -1.5805 ,0.386)

lillie . test ( x )

Lilliefors (Kolmogorov-Smirnov) normality test

data: x
D = 0.21793, p-value = 0.05356

Por lo que la estadı́stica D es el misma, una de las ventajas de realizar la prueba


en R, es que proporciona el p − value, donde se observa que p − value > 0.05 = α con
lo que se concluye que no se tiene suficiente evidencia para rechazar la hipótesis nula,
por lo que con un nivel de significancia del 5 % se tiene evidencia de que la muestra
tiene una distribución normal.
46 Pruebas de bondad de ajuste

2.3.2. Lilliefors para la distribución exponencial

La prueba de Lilliefors para exponencialidad puede ser usada para probar que un
nivel de confianza dado, una muestra aleatoria sigue una distribución exponencial con
media λ̂ = X̄1 , el cual corresponde al estimador puntual de la media.

n
X n 1
λ̂ = =
i=1
Xi X̄

Con esa adaptación se procede a realizar el procedimiento similar a la prueba de


Kolmogorov-Smirnov, a excepción del último paso en donde la estadı́stica varı́a un
poco, a continuación se muestra un ejemplo de la aplicación de Lilliefors para expo-
nencialidad.

Ejemplo 12. Dada la siguiente muestra

0.4976, 1.2514, 0.6619, 0.561, 1.0026, 0.3529, 0.8595, 1.6254,


1.1514, 1.5181, 0.8642, 0.5206, 0.4229, 0.9825, 1.0183.

Se desea hacer el siguiente contraste:

H0 : La muestra ∼ Exp(λ)
vs.
Ha : La muestra  Exp(λ)

Realice la prueba de Lilliefors al 95 % de significancia

1. De las Xi observadas se procede a ordenarlas de menor a mayor, este vector será


denotado como Xi ord.

2. Se obtiene el estimador puntual de la distribución exponencial con los datos de


la muestra, por lo que el λ es calculada como:

15 1
λ̂ = =
13.2903 0.88602
Pn
i=1 1X≤Xi
3. Se calcula la función empı́rica, Fn (xi ) = n
, para fines de este ejercicio,
1 2
Fn (xi ) = 15 , 15 , . . . , 1.
2.3 La prueba de Lilliefors 47

4. Se calcula la función empı́rica retrasada, a este vector se le denotará como Fn (xi −


0 1 14
1), para fines de este ejercicio, Fn (xi ) = 15 , 15 , . . . , 15 .

5. Se calcula la distribución observada, es decir, P (X ≤ xi ) de la forma:

F̂0 (X) = 1 − e−xi /x̄

donde:

15
X xi
x̄ = = 0.88602
i=1
15

6. Se calcula Di+ la cual es calculada mediante la resta de la distribución observada


menos la empı́rica es decir
i
Di+ = φ(Z)i −
n

7. Se calcula Di− la cual es calculada mediante la resta de la distribución observada


menos la empı́rica retrasada es decir:

i−1
Di− = φ(Z)i −
n

donde finalmente D− = max{Di− }


De esta forma se tiene la siguiente tabla:

8. Finalmente realizada la anterior tabla de resumen, se calcula el supremo de la


diferencias, es decir, el máximo de la columna Di+ y la columna Di− , de esta
manera se tiene:

D+ = max{Di+ } D− = max{Di− }

En este caso:

D+ = max{Di+ } = 0.261871436 D− = max{Di− } = 0.328538102

9. Para calcular el supremo se obtiene el máximo entre D+ y D− .

D = max{D+ , D− }

En el caso del ejercicio: D = 0.328538102


48 Pruebas de bondad de ajuste

Cuadro 2.6: Tabla de Lilliefors exponencial


Xi Xi ord. Sn(x) Sn(x − 1) F̂0 (X) D+ D−
1 0.4976 0.3529 0.0667 0.0000 0.3285 0.2619 0.3285
2 1.2514 0.4229 0.1333 0.0667 0.3795 0.2462 0.3129
3 0.6619 0.4976 0.2000 0.1333 0.4297 0.2297 0.2964
4 0.561 0.5206 0.2667 0.2000 0.4443 0.1777 0.2443
5 1.0026 0.561 0.3333 0.2667 0.4691 0.1358 0.2024
6 0.3529 0.6619 0.4000 0.3333 0.5262 0.1262 0.1929
7 0.8595 0.8595 0.4667 0.4000 0.6209 0.1543 0.2209
8 1.6254 0.8642 0.5333 0.4667 0.6229 0.0896 0.1563
9 1.1514 0.9825 0.6000 0.5333 0.6701 0.0701 0.1367
10 1.5181 1.0026 0.6667 0.6000 0.6775 0.0108 0.0775
11 0.8642 1.0183 0.7333 0.6667 0.6831 0.0502 0.0165
12 0.5206 1.1514 0.8000 0.7333 0.7273 0.0727 0.0060
13 0.4229 1.2514 0.8667 0.8000 0.7564 0.1102 0.0436
14 0.9825 1.5181 0.9333 0.8667 0.8197 0.1136 0.0469
15 1.0183 1.6254 1.0000 0.9333 0.8403 0.1597 0.0930

10. Esté último resultado se compara con la tabla de valores crı́ticos de Lilliefors,
consular apéndice B.2, para un nivel de significancia α = 0.05.

∴ W0.05 = 0.33760

Como 0.33760 = W0.05 > D = 0.328538102, la estadı́stica W0.05 es más grande


a comparación de D = 0.32 por lo que no se tiene la evidencia suficiente para
rechazar la hipótesis nula de exponencialidadd con un nivel de significancia α =
0.05.

En R este resultado puede ser obtenido con el siguiente código, el cual usa como
base la prueba de Kolmogorov-Smirnov.

x = c (0.4976 , 1.2514 , 0.6619 , 0.561 , 1.0026 , 0.3529 , 0.8595 , 1.6254 ,


1.1514 , 1.5181 , 0.8642 , 0.5206 , 0.4229 , 0.9825 , 1.0183)

ks . test (x , pexp , 1 / mean ( x ) )

One-sample Kolmogorov-Smirnov test

data: x
2.4 Anderson Darling 49

D = 0.32854, p-value = 0.06073


alternative hypothesis: two-sided

Por lo que la estadı́stica D es el misma, una de las ventajas de realizar la prueba


en R, es que proporciona el p − value, donde se observa que p − value > 0.05 = α con
lo que se concluye que no se tiene suficiente evidencia para rechazar la hipótesis nula,
por lo que con un nivel de significancia del 5 % se tiene evidencia de que la muestra
tiene una distribución normal.

2.4. Anderson Darling

La prueba de Anderson Darling, al igual que la prueba de Lilliefors sirve para probar
la hipótesis de que una muestra aleatoria sigue una cierta distribución especificada.
Anderson Darling al igual que las anteriores pruebas de bondad de ajuste tiene como
contraste de la prueba a las siguientes hipótesis.

H0 : F (Xi ) = Fx∗ (Xi ) vs. Ha : F (Xi ) 6= Fx∗ (Xi ).

Donde Fx∗ (Xi ) es la distribución teórica que se quiere probar con un nivel de signi-
ficancia α.
Para probar dicha hipótesis Anderson propone examinar las diferencias al cuadrados
entre la distribución empı́rica de los datos (Fn (Xi )) y la distribución teórica propuesta
y completamente especificada Fx∗ (Xi )(X) y luego integrar respecto a la distribución
propuesta. A este tipo de pruebas se les conoce como funciones de distribución
empı́ricas cuadráticas (QEDF) por sus siglas en inglés.
De esta manera la estadı́stica de la prueba Anderson-Darling se obtiene de integrar
la siguiente función QEDF:
Z ∞
1
2
An = n (Fn (Xi ) − Fx∗ (Xi )(X))2 ∗ .
−∞ Fx (Xi )(X)(1 − Fx∗ (Xi )(X))

1
Una caracterı́stica importante es que se usa la expresión F ∗ (Xi )(X)(1−F ∗ debido
x x (Xi )(X))
a que se busca que las colas de distribución tengan un peso cuantificablemente mayor,
con la finalidad de detectar diferencias en las colas de la distribución.
Resolviendo la integral se obtiene la estadı́stica de la forma:
n  
X 2i − 1
2
An = −n − [ln (Fx∗ (Xi )) + ln(1 − Fx∗ (Xi )(xn−i+1 ))] .
i=1
n
50 Pruebas de bondad de ajuste

Dado que la estadı́stica no depende de F (Xi ) y sólo depende de n entonces la dis-


tribución asitótica de Anderson-Darling es la que se muestra a continuación, asimismo
se mostrará algunos ajustes a la estadı́stica con la finalidad de que la prueba sea más
potente para determinados casos:

1−α
Caso Ajuste en la estadı́stica 0.90 0.95 0.975 0.99
Todos los parámetros conocidos A2n para n ≥  52 1.933 2.492 3.070 3.857
4 25
Normal con N (X̄, S 2 ) 1 + n + n2 An 0.632 0.751 0.870 1.029
0.6 2
Exponencial con exp(X̄)  1 + n An 1.070 1.326 1.587 1.943
0.2
Weibull con W eibull(α̂, β̂) 1+ √
n
A2n 0.637 0.757 0.877 1.038
 
0.25
Log-lógista con loglog(α̂, β̂) 1+ √
n
A2n 0.563 0.660 0.769 0.906

Finalmente la regla de decisión será rechazar H0 si A2n > W 1−α , donde W 1−α es el
cuantil asociado a la distribución A2n bajo H0 , la cual puede consultarse en el apéndice
B.3 .
Para ejemplificar la prueba de Anderson Darling vea el siguiente enunciado

Ejemplo 13. Se desea probar la bondad del ajuste da la siguiente muestra

-4.1302, 9.315, 3.9757, 8.49, 5.6204, -6.9098, -0.1426, -2.3838,


-2.0039, 1.7349, 5.7442, 2.7931, 6.2938, 11.7337, -0.1318.

Se desea hacer el siguiente contraste:

H0 : La muestra ∼ N (µ, σ 2 )
vs.
Ha : La muestra  N (µ, σ 2 )

Para ello se realizará la prueba de Anderson Darling con un nivel de significan-


cia del 5 %.

1. De las Xi observadas se procede a ordenarlas de menor a mayor este vector se


nombrará Xi ord
2. Se obtienen los estimadores puntuales de distribución normal con los datos de
la muestra, por lo que la media es calculada como: x̄ = ni=1 xni = 2.66658 y la
P
2
i −x̄)
varianza como: S = ni=1 (xn−1
P
= 28.23022452
2.4 Anderson Darling 51

3. Se calcula la distribución propuesta, en este caso una distribución normal con


media x̄ y varianza S 2 , es decir, P (X ≤ xi ), para ello se usa la aproximación a
una normal estándar.
   
xi − 2.66658 xi − 2.66658
P Z<√ =ψ Z< √
28.23022452 28.23022452

4. Se calcula el primer sumando ln (Fx∗ (Xi )) el cual se denotará como L1 , después


se calculará el segundo sumando ln(1 − Fx∗ (Xi )(xn−i+1 )) el cual se denota como
L2 .

5. Se calcula el incremento 2i−1



n
el cual se nombrará como Inc.

6. Por último se realiza el sumando de manera puntal, es decir, calcular


 
2i − 1
Qi = [ln (Fx∗ (Xi )) + ln(1 − Fx∗ (Xi )(xn−i+1 ))]
n
para i = 1, . . . , n. De esta forma se construye la tabla 2.7, la cual resume la
información anterior.

Cuadro 2.7: Tabla de Lilliefors exponencial


Xi Xi ord. Fx∗ (Xi )(X) L1 L2 Inc Qi
1 -4.1302 -6.9098 0.04 -3.331 -3.125 0.067 -0.43
2 9.315 -4.1302 0.1 -2.298 -2.25 0.200 -0.91
3 3.9757 -2.3838 0.17 -1.767 -1.991 0.333 -1.25
4 8.49 -2.0039 0.19 -1.662 -1.397 0.467 -1.43
5 5.6204 -0.1426 0.3 -1.209 -1.269 0.600 -1.49
6 -6.9098 -0.1318 0.3 -1.207 -1.241 0.733 -1.79
7 -0.1426 1.7349 0.43 -0.843 -0.91 0.867 -1.52
8 -2.3838 2.7931 0.51 -0.674 -0.712 1.000 -1.39
9 -2.0039 3.9757 0.6 -0.515 -0.563 1.133 -1.22
10 1.7349 5.6204 0.71 -0.341 -0.356 1.267 -0.88
11 5.7442 5.7442 0.72 -0.33 -0.355 1.400 -0.96
12 2.7931 6.2938 0.75 -0.284 -0.21 1.533 -0.76
13 6.2938 8.49 0.86 -0.147 -0.187 1.667 -0.56
14 11.7337 9.315 0.89 -0.111 -0.106 1.800 -0.39
15 -0.1318 11.7337 0.96 -0.045 -0.036 1.933 -0.16

7. Finalmente se suma todos los Qi y se construye la estadı́stica:

n n  
X X 2i − 1
A2n = −n − Qi = −n − [ln (Fx∗ (Xi )) + ln(1 − Fx∗ (Xi )(xn−i+1 ))]
i=1 i=1
n
52 Pruebas de bondad de ajuste

∴ A2n = 0.134020

8. Dado los puntos crı́ticos mencionados anteriormente se observa que con un nivel
de confianza 1 − α = 0.95, el punto W 0.95 = 2.492 es mayor que la estadı́stica
A2n , es decir:
A2n = 0.13402 < 2.492 = W 0.95
Por lo que la prueba no rechaza H0 , por lo que se asume que la muestra sigue
una distribución normal con un nivel de significancia de α = 0.05.

En R este resultado puede ser obtenido con el siguiente código, el cual usa como
base la prueba la función ad-test la cual se encuentra en la librerı́a “nortest”.

library ( nortest )

x = c ( -4.1302 , 9.315 ,3.9757 , 8.49 , 5.6204 , -6.9098 ,


-0.1426 , -2.3838 , -2.0039 ,1.7349 ,
5.7442 , 2.7931 , 6.2938 , 11.7337 , -0.1318)

ad . test ( x )

Anderson-Darling normality test

data: x
A = 0.13402, p-value = 0.9722

Usando el procedimiento de R, la estadı́stica A2n proporcionado es el mismo que


se habı́a obtenido de manera manual. Sin embargo, la herramienta computacional nos
proporciona el p − value el cual se observa que:

p − value = 0.972 > 0.05 = α

Por lo que no se rechaza la hipótesis H0 , por consiguiente, con al menos un nivel de


significancia del 5 % se tiene evidencia de que la muestra tiene una distribución normal.
Capı́tulo 3

Tablas de contingencia

Las tablas de contingencia, como lo dice su nombre, son tablas en el que se muestra
las frecuencias de diferentes clases, con la finalidad de observar si dos variables son
independientes entre si. Para la realización de esta prueba las frecuencias son anota-
das en tablas en las cuales cada observación es categorizada de manera exhaustiva y
mutuamente excluyente entre si. Una clasificación es exhaustiva cuando proporciona
suficientes categorı́as para acomodar a todos los miembros de la población. Las ca-
tegorı́as son mutuamente excluyentes cuando están definidas de tal manera que cada
miembro de la población puede ser asignado correctamente a una y sólo una categorı́a.
Para una versión general de una una tabla de contingencia de dos dimensiones,
suponga que la clasificación usa r renglones y c columnas, y sea Pij la probabilidad de
que un individuo elegido al azar de la población bajo consideración, caerá en la celda
correspondiente al i − ésimo renglón y j − ésima columna. Además, sea:

c
X
Pi• = Pij la probabilidad de estar en el i − ésimo renglón
j=1

r
X
P•j = Pij la probabilidad de estar en la j − ésima columna.
i=1

Al igual que en la prueba de la ji-cuadrada para bondad de ajuste, se tiene la


condición de que la suma de probabilidades debe ser igual a uno, lo cual se logra, si y
sólo si la suma de las marginales por columna y por renglón es igual 1, respectivamente,
es decir:

53
54 Tablas de contingencia

r X
X c r
X c
X
Pij = 1 ⇔ Pi• = 1 y P•j = 1.
i=1 j=1 i=1 j=1

El siguiente arreglo muestra una tabla de contingencia con r renglones y c columnas


(r y c categorı́as respectivamente para cada una de las variables involucradas).

Carac. 1 Carac.2 ... Carac. c Total


Pc
Variable 1 P11 P12 ... P1c P1j = P1•
Pj=1
c
Variable 2 P21 P22 ... P2c j=1 P2j = P2•
.. .. .. .. .. ..
. . . . . .
Pc
Variable r Pr1 Pr2 ... Prc j=1 Prj = Pr•
Pr Pr Pr
Total i=1 Pi1 = P•1 i=1 Pi2 = P•2 ... i=1 Pic = P•c

Sea nij la frecuencia observada en la celda (i, j), entonces, se tiene el siguiente
arreglo de tamaño r×c, en el cual la observación nrc corresponde al número de elementos
de la variable r que presenta la caracterı́stica c, ası́:

Carac. 1 Carac.2 ... Carac. c Total


Pc
Variable 1 n11 n12 ... n1c n1j = n1•
Pj=1
c
Variable 2 n21 n22 ... n2c j=1 n2j = n2•
.. .. .. .. .. ..
. . . . . .
Pc
Variable r nr1 nr2 ... nrc j=1 nrj = nr•
Pr Pr Pr
Total i=1 ni1 = n•1 i=1 ni2 = n•2 ... i=1 nic = n•c

El número de elementos totales es denotado como n, el cual corresponde a la suma


de cada frecuencia observada en el experimento:

r X
X c
nij = n,
i=1 j=1

y los totales marginales por renglón o columna se pueden escribir como:

r
X c
X
nij = n•j , nij = ni•
i=1 j=1

El problema de probar si las dos variables clasificadas son independientes puede


plantearse como:

H0 : Pij = Pi• P•j i = 1, 2, ..., r ; j = 1, 2, ..., c.


55

La función de verosimilitud, para una variable aleatoria discreta es la probabilidad


de obtener los valores maestrales observados en el orden en el que fueron observados:

n11 n12 n1c n21 n22 n2c nr1 nr2 nrc


L (θ) = P11 P12 . . . P1c . . . P21 P22 . . . P2c . . . . . . Pr1 Pr2 . . . Prc

Lo cual puede simplificarse con el doble producto de la forma:


r Y
c
n
Y
L (θ) = Pij ij . (3.1)
i=1 j=1

Cuando H0 es verdadera:

r Y
Y c
L (θ) = (Pi• P•j )nij . (3.2)
i=1 j=1

En las expresiones anteriores todos los parámetros que aparecen son desconocidos
para todo i y j, dichos parámetros son:

Pij , Pi• y P•j i = 1, 2, ..., r ; j = 1, 2, ..., c;

por lo que los valores esperados (o frecuencia esperada) para cada celda (i, j), de la
forma:

eij = nPij = nPi• P•j (bajo H0 )


necesarios para la prueba, son desconocidos, por lo que se reemplazarán por sus esti-
madores máximo verosı́miles correspondientes.
Para encontrar el máximo de la función dada en (3.2) de estas dos últimas expre-
siones, observe que:
r−1
X c−1
X
Pr• = 1 − Pi• y P•c = 1 − P•j , (3.3)
i=1 j=1

entonces (bajo H0 ):

r Y
Y c r Y
Y c
L (θ) = (Pi• P•j )nij = (Pi• )nij (P•j )nij
i=1 j=1 i=1 j=1
r
! c
!
n
Y Y
= Pi•ni• P•j•j .
i=1 j=1
56 Tablas de contingencia

De esta forma:

r
X c
X
ln L (θ) = ni• ln Pi• + n•j ln P•j
i=1 j=1
r−1
X c−1
X
= ni• ln Pi• + nr• ln Pr• + n•j ln P•j + n•c ln P•c
i=1 j=1

Sustituyendo ln Pr• y ln P•c de (3.3), se obtiene:

r−1 r−1
! c−1 c−1
!
X X X X
ln L (ω) = ni• ln Pi• + nr• ln 1 − Pi• + n•j ln P•j + n•c ln 1 − P•j .
i=1 i=1 j=1 j=1

Entonces para cada i y cada j fijas,

∂ ln L (ω) 1 (−1)
= ni• + nr• Pr−1 =0 (3.4)
∂Pi• Pi• 1 − i=1 Pi•

∂ ln L (ω) 1 (−1)
= n•j + n•c Pc−1 =0 (3.5)
∂P•j P•j 1 − j=1 P•j
de (3.4):

ni• nr•
= ⇒ ni• Pbr• = nr• Pi• i = 1, 2, ..., r
Pi• Pr•
entonces r r
X X
Pbr• ni• = nr• Pi•
i=1 i=1
Pr Pr
donde i=1 ni• = n y i=1 Pi• = 1.
Por lo tanto:

nr•
Pbr• = ,
n
y de (3.5),

n•j n•c
= ⇒ n•j Pb•c = n•c P•j j = 1, 2, ..., c
P•j P•c
57

lo cual implica que:


c
X c
X
Pb•c n•j = n•c P•j ,
j=1 j=1
Pc Pc
donde j=1 n•j = n y j=1 P•j = 1.
Por lo tanto:

n•c
Pb•c = .
n
El desarrollo es válido para cualquier i = 1, 2, ..., r y j = 1, 2, ..., c, por lo que:

ni• b n•j
Pbi• = y P•j = .
n n
En consecuencia, la función de verosimiltud maximizada en el espacio paramétrico
definido por H0 es:

r  c
Y ni• ni• Y  n•j n•j
máx L (θ) = . (3.6)
θ∈Θ0
i=1
n j=1
n

Ahora, la función de verosimilitud en todo el espacio paramétrico es:

r Y
c
n
Y
L (θ) = Pij ij
i=1 j=1
y

r X
X c
ln L (θ) = nij ln Pij .
i=1 j=1

De la hipótesis inicial, se puede escribir:


r X
X c
Pij = 1 ,
i=1 j=1

lo que implica que !


c X
X r−1 c−1
X
Prc = 1 − Pij + Prj .
j=1 i=1 j=1

Por lo tanto:
58 Tablas de contingencia

c X
X r−1 c−1
X
ln L (Θ) = nij ln Pij + nrj ln Prj + nrc ln Prc
j=1 i=1 j=1
c X
r−1 c−1 c X
r−1 c−1
!!
X X X X
= nij ln Pij + nrj ln Prj + nrc ln 1 − Pij + Prj .
j=1 i=1 j=1 j=1 i=1 j=1

Derivando con respecto a Pij se obtiene que:

∂ ln L (Θ) nij (−1) nrc


= + P P  = 0,
∂Pij Pij 1− c r−1
P +
Pc−1
P
j=1 i=1 ij j=1 rj

entonces
nij nrc
= ,
Pij Pbrc
de donde
nij Pbrc = nrc Pij i = 1, 2, ..., r y j = 1, 2, ..., c.

Como:

r X
X c r X
X c
Pij = 1 y nij = n,
i=1 j=1 i=1 j=1

se tiene que:

r X
c r X
c
X X nrc
Pbrc nij = nrc Pij ⇒ Pbrc = .
i=1 j=1 i=1 j=1
n

Al igual que antes, el argumento es válido para cualquier i y j, por lo tanto:

nij
Pbij = i = 1, 2, ..., r y j = 1, 2, ..., c.
n

Ası́, la función de verosimilitud maximizada en todo el espacio paramétrico queda


de la siguiente manera:

r Y
c 
Y nij nij
máx L (θ) = .
θ∈Θ
i=1 j=1
n
59

Finalmente, la razón o cociente de verosimilitudes es:

ni• ni• n•j n•j


Qr  Qc
máxθ∈Θ0 L (θ) i=1 n j=1 n
λ= = Qr Qc nij nij ≤ λ0
máxθ∈Θ L (θ) i=1 j=1 n

Donde se debe obtener la distribución de λ, por lo que se usa el criterio asintótico


de la razón de verosimilitudes:

−2 ln λ ∼ χ2(ν) ,
donde ν se determina como k − 1 − s donde k es el número total de parámetros y s es
el número de parámetros independientes (o estimados), en este caso como
r X
X c
Pij = 1,
i=1 j=1

es equivalente a
r
X c
X
Pi• = 1 y P•j = 1,
i=1 j=1

de donde por (3.3) hay r + c − 2 parámetros independientes, por lo tanto:

ν = k − 1 − s = rc − 1 − (r + c − 2)
= (r − 1) (c − 1) .

La regla de decisión es, entonces: Rechazar H0 al nivel α si :

−2 ln λ ≥ ω1−α ,

donde ω1−α es el cuantil 1 − α de una distribución χ2((r−1)(c−1)) .


Se puede demostrar que, por el mismo argumento que se usó en la prueba de bondad
de ajuste,

r X
c ni• n•j 2
X nij − n
−2 ln λ = ni• n•j + Rn
i=1 j=1 n

donde Rn → 0 cuando n → ∞ con probabilidad 1 y


ni• n•j
= eij
n
60 Tablas de contingencia

ya que
ni• n•j ni• n•j
eij = npij = nPi• P•j = n 2
= .
n n

Por lo tanto la estadı́stica de prueba que se va a utilizar es:

r X c
X (nij − eij )2
T = ,
i=1 j=1
eij

cuya distribución también es χ2(r−1)(c−1) .


Se sintetizará la información con el siguiente ejemplo:

Ejemplo 14. Se recopilaron datos macroecónomicos de diversos paı́ses durante el


2017 del Fondo Monetario Internacional entre los cuales destacan el tamaño del
territorio del paı́s en km2 y la tasa de fertilidad. Se clasificó la información de la
siguiente manera:

Microestado cuando su territorio se menor o igual a 23, 180 km2

Paı́s pequeño cuando su territorio este ente los 23, 181 y 112, 760 km2

Paı́s mediano cuando su territorio este entre 112, 761 y los 527, 970 km2

Paı́s grande cuando su territorio sea mayor a los 527, 970 km2

A su vez los paı́ses se subclasifican en dos grupos dependiendo de la tasa de fecun-


didad del paı́s de la forma:

Tasa de Fecundidad menor o igual a 2.7 hijos por mujer

Tasa de Fecundidad mayor a 2.7 hijos por mujer

Con esa información se construyó la siguiente tabla de contingencia

Microestado Pais pequeño Pais mediano Pais grande


Tasa ≤ 2.7 35 31 28 26
Tasa > 2.7 12 15 18 26

De la tabla de contigencia realice el procedimiento obteniendo la estadı́stica necesaria


para rechazar o aceptar con un nivel de significancia α = 0.05 la hipótesis de que la
61

tasa de fecundidad y el tamaño del territorio se comportan de manera independiente


entre si con los parámetros dados.
Solución
Se calculan las marginales por renglón y por columna de la siguiente manera:

Micro peq. med. gde. Total


P5
Tasa ≤ 2.7 n11 = 35 n12 = 31 n13 = 28 n14 = 26 n1i = 120
Pi=1
5
Tasa > 2.7 n21 = 12 n22 = 15 n23 = 18 n24 = 26 i=1 n2i = 71
P2 P2 P2 P2
Total k=1 nk1 = 47 k=1 nk2 = 46 k=1 nk3 = 46 k=1 nk4 = 52 n = 191

Una vez obtenido las marginales, se calculan los valores esperados eij de la forma:

P5 P2 
i=1 n1i × k=1 nk1 (120 × 47)
e11 = = = 29.52
n 191

P5 P2 
i=1 n1i × k=1 nk2 (120 × 46)
e12 = = = 28.90
n 191

P5 P2 
i=1 n1i × k=1 nk3 (120 × 46)
e13 = = = 28.90
n 191

P5 P2 
i=1 n1i × k=1 nk4 (120 × 52)
e14 = = = 32.67
n 191

P5 P2 
i=1 n2i × k=1 nk1 (71 × 47)
e21 = = = 17.47
n 191

P5 P2 
i=1 n2i × k=1 nk2 (71 × 46)
e22 = = = 17.09
n 191

P5 P2 
i=1 n2i × k=1 nk3 (71 × 46)
e23 = = = 17.09
n 191

P5 P2 
i=1 n2i × k=1 nk4 (71 × 52)
e24 = = = 19.32
n 191
62 Tablas de contingencia

Finalmente se calcula la estadı́stica


r X c
X (nij − eij )2
T =
i=1 j=1
eij
(35 − 29.52)2 (31 − 28.9)2 (18 − 17.09)2 (26 − 19.32)2
T = + + ... + +
29.52 28.9 17.09 19.32

∴ T = 6.876336

Realizando la prueba de hipótesis con un nivel de significancia del 5 % se obtiene el


2(1−α)
cuantil W 0.95 = χ(2−1)(4−1) = 7.81 asociada a la distribución de la estadı́stica D, debido
a que:

T = 6.87 < 7.81 = W 0.95

Dada la regla de decisión de las tablas de contingencia, no se rechaza la hipótesis


nula con un nivel de significancia α = 0.05, por lo que se tiene evidencia suficiente de que
la tasa de fecundidad y el tamaño del paı́s son independientes entre si, económicamente
tiene sentido, ya que la extensión del territorio no afecta a la tasa de fecundidad lo que
afectará será la población del paı́s más no el tamaño del territorio del paı́s examinado.
En R puede ser resuelto el anterior resultado con el siguiente código: Para generar
la tabla de contingencia se realiza lo siguiente obteniendo como resultado:
y11 =35; y21 =12
y12 =31; y22 =15
y13 =28; y23 =18
y14 =26; y24 =26

tabla2 <- rbind ( c ( y11 , y12 , y13 , y14 ) ,c ( y21 , y22 , y23 , y24 ) )
colnames ( tabla2 ) <-c ( " Microestado " ," Pais pequeno " ," Pais mediano " ," Pais
grande " )
rownames ( tabla2 ) <-c ( " Tasa <= 2.7 " ," Tasa > 2.7 " )
tabl <- as . table ( tabla2 )

Microestado Pais pequeño Pais mediano Pais grande


Tasa <= 2.7 35.00 31.00 28.00 26.00
Tasa > 2.7 12.00 15.00 18.00 26.00

De esta manera calculando las estadı́sticas de decisión se genera el siguiente código:

# Agrupamos
63

m _ 1 <- y11 + y21


m _ 2 <- y12 + y22
m _ 3 <- y13 + y23
m _ 4 <- y14 + y24

m1 _ <- y11 + y12 + y13 + y14


m2 _ <- y21 + y22 + y23 + y24

m <- m1 _ + m2 _

e _ 11 <-( m1 _ * m _ 1) / m
e _ 12 <-( m1 _ * m _ 2) / m
e _ 13 <-( m1 _ * m _ 3) / m
e _ 14 <-( m1 _ * m _ 4) / m
e _ 21 <-( m2 _ * m _ 1) / m
e _ 22 <-( m2 _ * m _ 2) / m
e _ 23 <-( m2 _ * m _ 3) / m
e _ 24 <-( m2 _ * m _ 4) / m

e _ <-c ( e _ 11 , e _ 12 , e _ 13 , e _ 14 , e _ 21 , e _ 22 , e _ 23 , e _ 24) # Esperados


yij <-c ( y11 , y12 , y13 , y14 , y21 , y22 , y23 , y24 ) # Observados

Ty <- sum (( yij - e _ ) ^2 / e _ ) # Calculamos la estadistica


Ty # Obtenemos una estadistica de 6.876336

gly <- (2 -1) * (4 -1)


gly # Grados de libertad =3
chi = qchisq (0.95 , gly )

De esta manera se obtienen los mismos resultados mencionados anteriormente. Dado


que las tablas de contigencia hereda muchas propiedades de la prueba Ji-Cuadrada, el
procedimiento anteriormente señalado puede ser calculado en R de la siguiente manera,
facilitando mucho los cálculos y lı́neas de código.

# Obtenemos nuestra tabla 2


y11 =35; y21 =12
y12 =31; y22 =15
y13 =28; y23 =18
y14 =26; y24 =26

tabla2 <- rbind ( c ( y11 , y12 , y13 , y14 ) ,c ( y21 , y22 , y23 , y24 ) )
colnames ( tabla2 ) <-c ( " Microestado " ," Pais pequeno " ," Pais mediano " ," Pais
grande " )
rownames ( tabla2 ) <-c ( " Tasa <= 2.7 " ," Tasa > 2.7 " )

# Realizamos la prueba para nuestra tabla 2


64 Tablas de contingencia

chisq . test ( tabl )


# Obtenemos : X - squared = 6.8763 , df = 3 , p - value = 0.07595

Pearson’s Chi-squared test

data: tabl
X-squared = 6.8763, df = 3, p-value = 0.07595

De esta manera el p − value = 0.75 > 0.05 = α por lo que la prueba no se


rechaza, teniendo evidencia del 95 % que las dos variables se distribuyen de manera
independiente la una de la otra.

Coeficiente de contingencia

Como una medida del grado de asociación entre variables en una tabla de contin-
gencia en donde se clasifican un total de n unidades experimentales, (Pearson, 2013)
propuso el coeficiente de contingencia C, definido como:

 1/2
T
C= ,
T +n
donde T es la estadı́stica de prueba apropiada para la hipótesis de independencia.
Además valores crecientes de C implican un incremento en el grado de asociación, ya
que valores grandes de T son un resultado de más alejamiento significativo entre las
frecuencias observadas y esperadas de celdas. Pero el valor de C no puede ser mayor
de uno para cualquier n, una desventaja de C como una medida de asociación es que
no puede alcanzar el valor de 1, es decir C toma valores mayores que 0 pero menores a
1, es decir, 0 < C < 1. Si las variables examinadas son completamente independientes
entonces los valores de T y C son pequeños.
Puede demostrarse fácilmente que para una tabla de contingencia de doble entrada
de r × c, el valor máximo de C es:

 1/2
t−1
Cmáx = , donde t = mı́n (r, c) .
t
Capı́tulo 4

Medidas de correlación de rango

Los datos consisten de parejas de números, es decir, datos pareados de n individuos


que se pueden pensar como provenientes de una muestra aleatoria bivariada de tamaño
n:
(X1 , Y1 ) , (X2 , Y2 ) , ..., (Xn , Yn ) .
Se usa (X, Y ) para hacer referencia a (Xi , Yi ) en general.
Por ejemplo, los siguientes datos corresponden a las calificaciones de 12 alumnos de
posgrado con sus calificaciones obtenidas en el examen GMAT (Graduate Management
Admission Test) que presentaron para entrar a la maestrı́a en negocios y su promedio
en ese programa académico, es decir, su correspondiente GPA (grade point average).
Lo anterior con la intención de analizar la relación entre estas dos variables.

GMAT GPA
1 710.0 4.0
2 610.0 4.0
3 640.0 3.9
4 580.0 3.8
5 545.0 3.7
6 560.0 3.6
7 610.0 3.5
8 530.0 3.5
9 560.0 3.5
10 540.0 3.3
11 570.0 3.2
12 560.0 3.2

Observe que como son datos pareados, siempre se tiene el mismo tamaño de muestra

65
66 Medidas de correlación de rango

(para ambos conjuntos de datos) y debido a que se usarán pruebas basadas en rango,
la escala debe ser al menos ordinal.
Una medida de correlación entre X y Y debe satisfacer lo siguiente:

1. Debe tomar valores únicamente entre -1 y 1.

2. Si los valores más grandes de X tienden a estar ligados con los valores más
grandes de Y , y por lo tanto, los valores más pequeños de X y Y tienden a estar
ligados, entonces la medida de correlación debe ser positiva y cercana a +1, si la
tendencia es fuerte. En este caso se dice que existe una correlación positiva entre
X y Y.

3. Si los valores grandes de X tienden a estar ligados con los valores chicos de Y
y viceversa, entonces la medida de correlación debe ser negativa y cercana a -1,
si la tendencia es fuerte. En este caso se dice que existe una correlación negativa
entre X y Y.

4. Si los valores de X se relacionan aleatoriamente con los valores de Y , la medida


de correlación es cercana a cero. Esto pasa si X y Y son independientes y en este
caso se dice que X y Y son no correlacionados o no tienen correlación o tienen
correlación cero.

La medida de correlación más conocida es el coeficiente de correlación de Pear-


son:

Pn  
Xi − X Yi − Y
i=1
r = r (4.1)
Pn 2 Pn 2 
i=1 Xi − X i=1 Yi − Y
Pn
i=1 Xi Yi − nXY
= r rP  (4.2)
Pn 2 2 n 2 2
i=1 X i − nX Y
i=1 i − nY

donde el numerador es la covarianza muestral y el denominador es el producto de las


desviaciones estándar.
r satisface las caracterı́sticas 1, 2, 3 y 4 de un coeficiente de correlación, sin embargo
es una variable aleatoria con una distribución que depende de la distribución bivariada
de (X, Y ), por lo que r no tiene valor como una estadı́stica de prueba en pruebas
no paramétricas, o para formar intervalos de confianza, al menos que se conozca la
distribución de (X, Y ).
4.1 ρ (ro) de Spearman 67

Cálculo en R Se puede calcular el coeficiene de correlación de Pearson para el con-


junto de datos del ejemplo GMAT-GPA usando cor.test de R. Previamente se han
cargado los datos en dos vectores x, y que corresponde a GMAT y GPA respectiva-
mente:

#Ejemplo de los examenes GMAT y GPA


x=c(710,610,640,580,545,560,610,530,560,540,570,560)
y=c(4.0,4.0,3.9,3.8,3.7,3.6,3.5,3.5,3.5,3.3,3.2,3.2)
Estudiantes= cbind(x,y)
colnames(Estudiantes)= c("GMAT", "GPA")
rownames(Estudiantes)= c("1", "2","3","4","5","6","7","8","9","10","11","12")
Estudiantes = as.table(Estudiantes)
#Se calcula el coeficiente de correlacion de Pearson
cor.test(x,y, method = "pearson", alternative = "greater")

El resultado del comando anterior es

data: x and y
t = 2.8004, df = 10, p-value = 0.009391
alternative hypothesis: true correlation is greater than 0
95 percent confidence interval:
0.244736 1.000000
sample estimates:
cor
0.6629678

Es decir, el coeficiente de correlación de Pearson es 0.662967. Además del cálculo


del coeficiente de correlación, se obtienen otros valores relacionados con el supuesto
de que el vector (X, Y ) tiene distribución bivariada y la correspondiente prueba de no
correlación.
Las medidas de correlación que se dan a continuación, tienen la caracterı́stica de
ser funciones únicamente de los rangos asignados a las observaciones.

4.1. ρ (ro) de Spearman

Sea R (Xi ) el rango de Xi cuando es se compara con los otros valores de X, para
i = 1, 2, ..., n; sea R (Yi ) el rango de Yi cuando se compara con los otros valores de Y,
para i = 1, 2, ..., n. Se permiten datos no numéricos que ocurren en n parejas, siempre
68 Medidas de correlación de rango

y cuando se puedan ordenar para poderles asignar un rango, es decir, la escala debe
ser al menos ordinal. En caso de empates, se asigna a cada empate el promedio de los
rangos que serı́an asignados si no hubiera empates.
La medida de correlación se denota por ρ (ro) y se define de la siguiente manera:
n+1 2
Pn 
i=1 R (X i ) R (Y i ) − n 2
ρ=  1/2 P  1/2 . (4.3)
Pn 2 n+1
 2 n 2 n+1 2
i=1 (R (Xi )) − n 2 i=1 (R (Yi )) − n 2

Note que esta expresión corresponde a la r de Pearson (4.2), pero en lugar de hacer el
cálculo usando las observaciones originales, se utilizan los rangos. Ası́,

n n
1X 1X 1 n (n + 1) n+1
R (X) = R (Xi ) = i= =
n i=1 n i=1 n 2 2

y también R (Y ) = n+12
. En la misma lógica de utilizar los rangos en lugar de las
observaciones originales, se hace el cálculo para el denominador de (4.1):

n  n  2 X n  2 !
X 2 X n+1 n + 1
R (Xi ) − R (X) = i− = i2 − i (n + 1) +
i=1 i=1
2 i=1
2
n (n + 1) (2n + 1) (n + 1) (n + 1)2
= − (n + 1) n. +n
6 2 4
n (n2 − 1)
=
12
y también

n 
X 2 n (n2 − 1)
R (Yi ) − R (Y ) = .
i=1
12

Es decir,

Pn
R (Xi ) − n+1 n+1
 
i=1 2
R (Yi ) − 2
ρ= 2
. (4.4)
n (n − 1) /12
En caso de que no haya empates, se pueden utilizar otras expresiones que se han
propuesto para facilitar los cálculos, tales como

Pn
6 i=1 (R (Xi ) − R (Yi ))2 6T
ρ=1− 2
=1− , (4.5)
n (n − 1) n (n2 − 1)
4.1 ρ (ro) de Spearman 69

donde
n
X
T = (R (Xi ) − R (Yi ))2 . (4.6)
i=1

4.1.1. Prueba de Hipótesis

La ρ de Spearman se utiliza para probar independencia entre dos variables aleatorias


(dos poblaciones).
Se tienen los siguientes casos:

A (prueba de dos colas) H0 : Las Xi0 s y las Yi0 s son mutuamente independientes.
Ha : Existe una tendencia para que los valores más grandes de X estén “empareja-
dos” con los valores más grandes de Y y los valores chicos de X con los valores chicos de
Y ó existe una tendencia para que los valores más grandes de X estén “emparejados”
con los valores más chicos de Y y los valores chicos de X con los valores grandes de Y
(ρ 6= 0).

B (prueba de una cola) H0 : Las Xi0 s y las Yi0 s son mutuamente independientes.
Ha : Existe una tendencia para que los valores más grandes de X estén “empareja-
dos” con los valores más grandes de Y y los valores más chicos de X estén “empareja-
dos” con los valores más chicos de Y (ρ > 0).

C (prueba de una cola) H0 : Las Xi0 s y las Yi0 s son mutuamente independientes.
Ha : Existe una tendencia para que los valores más grandes de X estén “empa-
rejados” con los valores más chicos de Y y que los valores más chicos de X estén
“emparejados” con los valores más grandes de Y (ρ < 0).
Usando ρ como estadı́stica de prueba se tiene la siguiente regla de decisión:
Se rechaza H0 al nivel de significancia α si:

A : ρ < ωα/2 ó ρ > ω1−α/2


B : ρ > ω1−α
C : ρ < ωα
70 Medidas de correlación de rango

donde ωp es el p − ésimo cuantil de la distribución de ρ, la cual puede ser obtenida de


la tabla mostrada en el apéndice B.5.
En lugar de la ρ de Spearman se puede usar directamente la estadı́stica T (si no
hay muchos empates):

n
X
T = (R (Xi ) − R (Yi ))2
i=1

Cuando T es grande ρ es pequeño y viceversa. Por lo tanto, la regla de decisión


cuando se utiliza a T como la estadı́stica de prueba es:
Rechazar H0 al nivel de significancia α si:

A : T < ωα/2 o T > ω1−α/2


B : T < ωα
C : T > ω1−α
donde ωp es el p − ésimo cuantil de la distribución de T.

Ejemplo 15. Continuando con el ejemplo de los exámenes GMAT y GPA, se obtu-
vieron los rangos para ambos resultados en las siguientes tablas, aunque a diferencia
de otras pruebas basadas en rangos, aquı́ se hizo la asignación de los mismos de
manera separada (es decir, en este caso no se mezclan los datos)

Obs. X Rango(X) Obs Y Rango(Y )


1 710 12 1 4.00 11.50
2 610 9.50 2 4.00 11.50
3 640 11 3 3.90 10
4 580 8 4 3.80 9
5 545 3 5 3.70 8
6 560 5 6 3.60 7
7 610 9.50 7 3.50 5
8 530 1 8 3.50 5
9 560 5 9 3.50 5
10 540 2 10 3.30 3
11 570 7 11 3.20 1.50
12 560 5 12 3.20 1.50

Se obtiene la estadı́stica mostrada en la ecuación (4.1.1), ya que la muestra no


presenta muchos empates, de esta forma se tiene:
4.1 ρ (ro) de Spearman 71

n
X
T = (R (Xi ) − R (Yi ))2
i=1
T = (12 − 11.50)2 + (9.50 − 11.50)2 + . . . + (5 − 1.5)2
∴ T = 115

Después se sustituye el valor de T en la estadı́stica (4.5) obteniendo como resultado:

6T
ρ=1−
n (n2 − 1)
6(115)
ρ=1−
12 (122 − 1)
ρ = 0.59

Por lo que observado los cuantiles de la tabla B.5 se observa que con un 95 %, se
obtiene w0.025 = 0.587 dado que ρ < w0.025 , entonces se tiene evidencia que con al
menos un nivel de significancia del 5 %, la prueba rechaza la hipótesis nula, por lo que
existe una tendencia para que los valores más grandes de X estén “emparejados” con
los valores más grandes de Y y los valores chicos de X con los valores chicos de Y ó
existe una tendencia para que los valores más grandes de X estén “emparejados” con
los valores más chicos de Y y los valores chicos de X con los valores grandes de Y .
En R también se puede efectuar la prueba con cor.test, en este caso especificando
que el método es Spearman.

cor.test(x, y,method="spearman",alternative="greater",exact = TRUE)

##siendo el resultado

Spearman’s rank correlation rho


data: x and y
S = 117.25, p-value = 0.02172
alternative hypothesis: true rho is greater than 0
sample estimates:
rho
0.5900188
72 Medidas de correlación de rango

4.2. τ (tau) de Kendall

Los datos consisten de una muestra aleatoria bivariada de tamaño n,

(Xi , Yi ) para i = 1, 2, ..., n.

Se dice que dos observaciones son concordantes si ambos miembros de una pareja son
mayores (o menores) que sus miembros respectivos
  de la otra pareja. Sea Nc el número
n
de observaciones concordantes del total de posibles parejas. Las observaciones
2
son discordantes si los dos números en una pareja difieren en dirección opuesta (una
negativa y una positiva) de los respectivos miembros de la otra pareja. Sea Nd el número
de parejas discordantes de observaciones. Las parejas con empates entre miembros
respectivos no son ni concordantes ni discordantes.
 
n
Como las n observaciones pueden compararse dos a dos de = n(n−1)
2
formas
2
diferentes, el número de parejas concordantes Nc más el número de parejas discordantes
Nd más el número de parejas con empates debe sumar n (n − 1) /2.
Los datos pueden ser no numéricos siempre y cuando puedan calcularse Nc y Nd
(escala ordinal).
La medida de correlación propuesta por Kendall es:

Nc − Nd
τ= ,
n (n − 1) /2
si todas las posibles parejas son concordantes, la τ de Kendall es igual a 1. Si todas
la parejas son discordantes el valor es -1. Por lo tanto, la τ de Kendall satisface las
condiciones para ser una medida de correlación.
En ocasiones también se calcula τ como
Nc − Nd
τ= .
Nc + Nd
Esta versión de la τ de Kendall tiene la ventaja de que puede alcanzar los valores 1 o
−1, aún en caso de empates.
En resumen, para hacer la comparación de las parejas (Xi , Yi ) y (Xj , Yj ) , considere
la cantidad
Yj − Yi
M= .
Xj − Xi
Si M > 0, se tiene una observación concordante. Si M < 0 si tiene una observación
discordante y si M = 0, se considera 0.5 para el conteo de observaciones concordantes
4.2 τ (tau) de Kendall 73

y 0.5 para discordantes. En el caso M = 0, se supone que Xi 6= Xj , pues si Xi = Xj ,


no se establece comparación.
El cálculo de τ se simplifica si las observaciones (Xi , Yi ) son ordenadas en una
columna de acuerdo a los valores crecientes de X y luego cada Y se compara solamente
con los que están abajo de ella. Además cada pareja se considera una sola vez.

Ejemplo 16. Usando el mismo ejemplo, se tiene el cálculo de los pares concor-
dantes y discordantes que sirven para calcular la τ de Kendall

Parejas Pares concordantes debajo de (Xi , Yi ) Pares discordantes debajo de (Xi , Yi )


(530, 3.5) 7 4
(540, 3.3) 8 2
(545, 3.7) 4 5
(560, 3.2) 5.5 0.5
(560, 3.5) 4.5 1.5
(560, 3.6) 4 2
(570, 3.2) 5 0
(580, 3.8) 3 1
(610, 3.5) 2 0
(610, 4.0) 0.5 1.5
(640, 3.9) 1 0
(740, 4.0)

4.2.1. Prueba de hipótesis

La τ de Kendall también puede usarse como una estadı́stica de prueba para probar
la hipótesis nula de independencia entre X y Y , con alternativas posibles de una o dos
colas (como las descritas para ρ). Por lo general se usa T como la estadı́stica de prueba
de Kendall, donde T se define como:

T = Nc − Nd ,
aunque puede haber variantes de la misma. En caso de muchos empates, se usa direc-
tamente la τ, siendo el p-ésimo cuantil de τ aproximadamente
p
2 (2n + 5)
wp = zp p
3 n (n − 1)

con zp el cuantil correspondiente de una distribución normal estándar.


74 Medidas de correlación de rango

Los cuantiles de la distribución de T (o τ ) están tabulados (ver apéndice B.6). Si


T excede el cuantil 1 − α, se rechaza H0 en favor de la alternativa de una cola de
correlación positiva, al nivel de significancia α. En R también se puede hacer la prueba
usando nuevamente cor.test

Ejemplo 17. Usando el mismo ejemplo de los casos anteriores (GMAT y GPA),
en clase se obtuvieron las observaciones concordantes y discordantes. En este caso,
para hacer la prueba, se puede utilizar

cor.test(x, y,method="kendall",alternative="greater",exact = NULL)

Kendall’s rank correlation tau

data: x and y

z = 1.8967, p-value = 0.02893

alternative hypothesis: true tau is greater than 0

sample estimates:

tau

0.4390389

En todos los casos se rechaza la hipótesis nula.


Capı́tulo 5

Pruebas basadas en rangos

En esta sección se mencionarán otras pruebas no paramétricas importantes, sin


embargo, el desarrollo formal no será abordado con la finalidad de enfocarse más a
ciertos ejercicios prácticos y abarcar una mayor cantidad de pruebas

5.1. Prueba de la U de Mann-Whitney / Prueba de


suma de rangos de Wilcoxon

La prueba de suma de rangos de Wilcoxon fue publicada en 1945 por el estadouni-


dense Frank Wilcoxon en Biometrics Bulletin (Wilcoxon, 1945), esta prueba no debe
confundirse con la prueba de Wilcoxon referente a la prueba de signos. En este articulo
Wilcoxon busca crear una solución para comparar dos tratamientos (muestras aleato-
rias) por medio de métodos de rango, esta prueba buscaba complementar a los métodos
existentes basados en los valores numéricos propios de dichas muestras, por lo que era
una respuesta más rápida al problema. Para probar su idea muestra diversos ejemplos
basados siempre en dos muestras aleatorias en la cual se compara efectividad de dos
insecticidas, ası́ como la comparación de usar fertilizantes en las plantas de maı́z, para
probar si los resultados eran parecidos o existı́an diferencias significativas, estas compa-
raciones las realizó para datos pareados y no pareados. Aunque este método fue bueno,
Wilcoxon sólo proporcionaba cuantiles hasta un tamaño de población que iba de 5 a 10
replicas para datos no pareados, mientras que para los datos pareados encontraba una
distribución asociada. Es por ello que en 1947, Henry Mann y D. R. Whitney publican
un artı́culo (Whitney, 1947), en el cual proporcionan una aproximación normal para
los datos no pareados lo cual facilita y generaliza dichos resultados. Es por ello que
aunque inicialmente las pruebas son muy parecidas entre sı́, en este texto se enfocará
al punto de vista proporcionada por Mann-Whitney.

75
76 Pruebas basadas en rangos

La prueba de Mann-Whitney-Wilcoxon es una prueba no paramétrica que es usada


cuando se tienen dos muestras aleatorias independientes y se desea probar que éstas
provienen de una misma población, es decir, se observará si existe evidencia con un
nivel significancia α que dos muestras aleatorias independientes son iguales entre si.
La idea general de esta prueba es comparar dos muestras aleatorias a través de
los rangos conjuntos. Al suponer que las muestras provienen de una misma población,
se podrı́a tratar estas dos muestras como una sola, ası́ ordenando de menor a mayor
y asignando su respectivo rango se esperarı́a que los rangos se comportaran de una
manera aleatoria uniforme, es decir, se esperarı́a que los rangos completos de ambas
muestras se intercambiaran de manera simétrica, por lo que si los rangos bajos o altos
presentan observaciones de una sola muestra serı́a de esperar que los datos no son
iguales. Posteriormente, se realiza la suma de todos los rangos de asignados por cada
muestra, si la suma de las dos difieren en deması́a se tiene evidencia de que las muestras
no provienen de una misma población.
Para ejemplificar esta idea se tomarán las siguientes muestras aleatorias, que más
adelante se detallará el origen de estos valores.
pais _ x = c (172 , 178 , 168 , 155 , 164 , 168 , 150 , 158)
pais _ y = c (191 , 167 , 189 , 164 , 158 , 176 , 186 , 193)

Para poder realizar esta observación de una manera más rápida y fácil replicación,
se hará uso de R, por ello se almacenaran dichas muestras en un dataframe (obje-
to de programación particular de R que busca emular una tabla) con su respectivo
identificador para que resulte más sencillo trabajar con los datos.
paises = data . frame ( pais = rep ( c ( " Paı́s X " , " Paı́s Y " ) , each = 8) ,
valor = c ( pais _x , pais _ y ) )

print ( paises )

pais valor
1 Paı́s X 172
2 Paı́s X 178
3 Paı́s X 168
4 Paı́s X 155
5 Paı́s X 164
6 Paı́s X 168
7 Paı́s X 150
8 Paı́s X 158
9 Paı́s Y 191
5.1 Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 77

10 Paı́s Y 167
11 Paı́s Y 189
12 Paı́s Y 164
13 Paı́s Y 158
14 Paı́s Y 176
15 Paı́s Y 186
16 Paı́s Y 193

Con esta base ya construida, se calculará los rangos completos (considerando a X


como a Y como una sóla muestra aleatoria), afortunadamente R tiene una función que
facilita los cálculos.
paises $ rango = rank ( paises $ valor )
print ( paises )

pais valor rango


1 Paı́s X 172 10.0
2 Paı́s X 178 12.0
3 Paı́s X 168 8.5
4 Paı́s X 155 2.0
5 Paı́s X 164 5.5
6 Paı́s X 168 8.5
7 Paı́s X 150 1.0
8 Paı́s X 158 3.5
9 Paı́s Y 191 15.0
10 Paı́s Y 167 7.0
11 Paı́s Y 189 14.0
12 Paı́s Y 164 5.5
13 Paı́s Y 158 3.5
14 Paı́s Y 176 11.0
15 Paı́s Y 186 13.0
16 Paı́s Y 193 16.0

Finalmente se graficarán los datos, para ver la distribución asociados a los datos, ası́
observando el comportamiento de los rangos.
library ( ggplot2 )
ggplot ( data = paises , aes ( x = rango , y =0) ) +
geom _ point ( aes ( colour = pais ) , size = 8) +
ggtitle ( " Comportamiento de los rangos " ) +
ylab ( " " ) + xlab ( " rango " ) +
78 Pruebas basadas en rangos

theme _ bw () +
theme ( axis . text . y = element _ blank () )

Comportamiento de los rangos

pais
País X

País Y

4 8 12 16
rango

Figura 5.1: Comportamiento de los rangos de dos muestras aleatorias

El tamaño de la muestra es demasiado pequeño para dar un resultado concluyente


pero puede observarse claramente que los rangos mayores corresponden a la muestra
aleatoria Y mientras que valores pequeños a la muestra X, esto afirmación es respal-
dada por medio de la suma de los rangos. Si sumamos el rango completo de elementos
que pertenecen a la muestra X el valor resultante es 51, mientras que para Y es 85
esta diferencia es significativa ya que la razón de las sumas 1 − 51/85 es 0.4, número
”grande a que por la forma en la establecimos esta medida un buen resultado deberı́a
2

ser cercano a 0, por lo que podemos suponer (aún sin afirmar) que la muestra no provie-
nen de la misma población. Las sumas mencionadas anteriormente pueden calcularse
fácilmente con el siguiente código
library ( dplyr )
paises %> %
group _ by ( pais ) %> %
summarise ( suma _ rango = sum ( rango ) )

pais suma_rango
<chr> <dbl>
1 Paı́s X 51
2 Paı́s Y 85
5.1 Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 79

Como se ha mencionado anteriormente de manera informal, la prueba de Wilco-


xon establece la hipótesis nula de que ambas muestras son iguales al poseer el mismo
valores esperado, de esta manera la prueba se describe como: Sean dos muestras alea-
torias, x1 , x2 , . . . , xn1 una muestra aleatoria de tamaño n1 denotada como X, y sea
y1 , y2 , . . . , yn2 una muestra aleatoria de tamaño n2 descrita como Y . Entonces la prue-
ba de hipótesis es definida como:

H0 : E [X] = E [Y ] vs. Ha : E [X] 6= E [Y ]

Cabe destacar que la prueba no solicita que el número de observaciones sean iguales
en ambas muestras, es decir, no siempre puede ocurrir que n1 = n2 . El procedimiento
consiste en asignar rangos completos a una muestra aleatoria resultado combinar a X
y a Y , por lo que a la muestra aleatoria combinada tiene tamaño N = n1 + n2 ; Además
sea R(X) y R(Y ) subconjuntos del rango completo de la muestra combinada, en la
cual R(X) contiene a los rangos asignados a cada elemento de X respecto a la serie
combinada, de manera análoga para R(Y ) para cada elemento de Y . Entonces se define
a la estadı́stica U como:

U = min(U1 , U2 ). (5.1)

donde:

n1 (n1 +1) Pn1


U1 = n1 n2 + 2
− i=1 R(Xi )
n2 (n2 +1) Pn2
U2 = n1 n2 + 2
− j=1 R(Yj )

Por simplicidad se denotará como R1 a la suma de rango de la muestra X y R2


para la suma de rango de Y , de esta manera la anterior ecuación puede ser expresada
como:

n1 (n1 + 1)
U 1 = n1 n2 + − R1
2
n2 (n2 + 1)
U 2 = n1 n2 + − R2
2

Estas notación de la prueba presenta varias resultados importantes por ejemplo.

Resultado 1. Sea X una muestra aleatoria de tamaño n1 con suma de rango R1 y sea
Y otra muestra aleatoria e independiente a X con suma de rango R2 , si en la muestra
80 Pruebas basadas en rangos

no hay empates (valores repetidos en la muestra combinada) entonces la suma de R1 y


R2 es:
N (N + 1)
R1 + R2 = ,
2
donde N = n1 + n2

La demostración procede por inducción, particularmente no se desarrollará pero el


lector que lo desee probar, se esbozará dicha demostración.
Por hipótesis, se establece que no hay valores repetidos ni en las muestras ni de
manera conjunta por lo que el rango completo, será la secuencia 1, 2, . . . , N , por lo
que la suma de ambos rangos R1 y R2 al ser subconjuntos mutuamente excluyentes se
observa que:
R1 + R2 = 1 + 2 + . . . N,
ası́ que la suma de los primeros N naturales puede ser expresada por la famosa ”Suma
de Gauss”, ası́ que expresando con dicha ecuación se tiene:

N (N + 1)
R1 + R2 =
2 

Finalmente, la regla de decisión es rechazar H0 , con un nivel de significancia α, si


U < W α/2 o U > W 1−α/2 , donde W se obtienen de la tabla de Wilcoxon, los cuales se
consultan en el apéndice B.7 .
La distribución W se obtiene de métodos numéricos, siendo esta la que proporcio-
na cuatiles más adecuados ya que es la distribución real asociada a U , sin embargo,
este método es pesado computacionalmente de calcular. Afortunadamente, cuando los
tamaños de muestra de X y Y son n1 > 10 y n2 > 10, lo que considerarı́amos lo sufi-
cientemente grandes, tal como lo demostró (Whitney, 1947), se dice que la distribución
real de datos se aproxima a una normal lo que hace que los tiempos de procesamiento y
respuesta de la prueba sean más rápidos. Los parámetros de esta aproximación normal
pueden observarse en el siguiente teorema.

Teorema 5.1. Cuando los tamaños de muestras de X y Y son los suficientemente


grandes (generalmente se pide que n1 > 10 y n2 > 10 aunque hay autores que
recomiendan que haya al menos 20 observaciones en cada muestra) entonces la
estadı́stica U se distribuye de manera normal U ∼ N (µ, σ 2 ) donde:

n1 n2 n1 n2 (n1 + n2 + 1)
µ= , σ2 =
2 12

Demostración
5.1 Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 81

Sea xi el rango de la i-ésima observación de la muestra de menor tamaño. Bajo el


supuesto que no existen valores repetidos entonces la esperanza de dicho valor estarı́a
dado por:
N
1 X
E[xi ] = i
N i=1

Al suponer que no hay valores repetidos, o estos se compensarı́an de cierta manera


entre si y por el resultado 1:

1 N (N + 1)
E[xi ] =
N 2
N +1
E[xi ] =
2

De esta manera calculando la esperanza sobre R1 se tiene que:

n1
X
E[R1 ] = E[ xi ]
i=1
n1
X
E[R1 ] = E[xi ]
i=1
n1
X N +1 (N +1)
E[R1 ] = Por E[xi ] = 2
i=1
2
N +1
E[R1 ] = n1
2
Sustituyendo N = n1 + n2 se tiene:

n1 + n2 + 1
∴ E[R1 ] = n1
2

Si en la prueba de Wilcoxon se supone que se sigue una distribución Normal, el


valor estimado para la media serı́a E[R1 ], pero en el caso particular de la prueba de
Mann-Whitney se observa de manera análoga a E[R1 ] que la esperanza de la suma de
los rangos de la muestra Y serı́a
n1 + n2 + 1
E[R2 ] = n2 − ,
2

De esta manera, la esperanza de U1 de la estadı́stica 5.1 serı́a:


82 Pruebas basadas en rangos

 
n1 (n1 + 1)
E[U1 ] = E n1 n2 + − R1
2
n1 (n1 + 1)
E[U1 ] = n1 n2 + − E [R1 ]
2

Sustituyendo por los resultados anteriores

n1 (n1 + 1) n1 + n2 + 1
E[U1 ] = n1 n2 + − n1
2 2
2n1 n2 + n1 (n1 + 1) − n1 (n1 + n2 + 1)
E[U1 ] =
2
2n1 n2 + n1 + n1 − n21 − n1 n2 − n1
2
E[U1 ] =
2
2n1 n2 − n1 n2
E[U1 ] =
2
n1 n2
∴ E[U1 ] =
2

De la misma manera para U2 se tiene:


 
n2 (n2 + 1)
E[U2 ] = E n1 n2 + − R2
2
n2 (n2 + 1)
E[U2 ] = n1 n2 + − E [R2 ]
2

Sustituyendo por los resultados anteriores

n2 (n2 + 1) n1 + n2 + 1
E[U2 ] = n1 n2 + − n2
2 2
2n1 n2 + n2 (n2 + 1) − n2 (n1 + n2 + 1)
E[U2 ] =
2
2n1 n2 + n22 + n2 − n1 n2 − n22 − n2
E[U2 ] =
2
2n1 n2 − n1 n2
E[U2 ] =
2
n1 n2
∴ E[U2 ] =
2
n1 n2
Finalmente ya que U = min(U1 , U 2) y tanto la media de U1 como la de U2 es 2
entonces la media de U es
2n1 n2 − n1 n2
E[U ] =
2
5.1 Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 83

Para la varianza sea xi el rango de la i-ésima observación de la muestra de menor


tamaño. Bajo el supuesto que no existen valores repetidos entonces la esperanza de
dicho valor estarı́a dado por

PN
i2
E[x2i ] = i=1
N

Por hipótesis, al no haber valores repetidos, se realiza la suma de los primeros N


naturales, lo cual puede ser representado como

1 N (N + 1)(2N + 1)
E[x2i ] =
N 6
(N + 1)(2N + 1)
E[x2i ] =
6

La varianza del rango Xi esta dado por

V ar[xi ] = E[x2i ] − E 2 [xi ]

Susutiyuendo por los valores ya encontrados


 2
(N + 1)(2N + 1) N +1
V ar[xi ] = −
6 2
(N + 1)(2N + 1) (N + 1)2
V ar[xi ] = −
6 4
2(N + 1)(2N + 1) − 3(N + 1)2
V ar[xi ] =
12
4N 2 + 2N + 4N + 2 − 3N 2 − 6N − 3
V ar[xi ] =
12
2
N −1
V ar[xi ] = ,
12

antes de continuar con la demostración, se observarán las siguientes propiedades de la


suma

- La suma de cuadrados de los primeros naturales es:

N
X N (N + 1)(2N + 1)
i2 =
i=1
6
84 Pruebas basadas en rangos

- La suma de productos de dos sumas es:


N X
N
X N 2 (N + 1)2
ij = ,
j=1 i=1
4

por consiguiente, la suma de sobre todas las i, j tal que i 6= j es:


N
X N 2 (N + 1)2 N (N + 1)(2N + 1)
ij = − .
i6=j
4 6

De esta manera para poder calcular la covarianza del rango Xi y Xj para toda i 6= j
será necesario obtener la esperanza del productos de estos rangos, ası́:
1 X
E[xi xj ] = ij
N (N − 1) i6=j
 2
N (N + 1)2 N (N + 1)(2N + 1)

1
E[xi xj ] = −
N (N − 1) 4 6
2
N (N + 1) (N + 1)(2N + 1)
E[xi xj ] = −
4(N − 1) 6(N − 1)
La covarianza del rango Xi y Xj para toda i 6= j esta dado por

Cov(xi ) = E[xi xj ] − E[xi ]E[xj ]


2
N (N + 1)2 (N + 1)(2N + 1)

N +1
Cov(xi ) = − −
4(N − 1) 6(N − 1) 2
 
N (N + 1) 2N + 1 N +1
Cov(xi ) = −(N + 1) − + +
4(N − 1) 6(N − 1) 4
 
−3N (N + 1) + 2(2N + 1) N + 1
Cov(xi ) = −(N + 1) +
12(N − 1) 4
 
−3N (N + 1) + 2(2N + 1) + 3(N + 1)(N − 1)
Cov(xi ) = −(N + 1)
12(N − 1)
 
−3N (N + 1) + 2(2N + 1) + 3N (N + 1) − 3(N + 1)
Cov(xi ) = −(N + 1)
12(N − 1)
 
N + 1 2(2N + 1) − 3(N + 1)
Cov(xi ) = −
12 N −1
 
N + 1 4N + 2 − 3N − 3
Cov(xi ) = −
12 N −1
 
N +1 N −1
Cov(xi ) = −
12 N −1
N +1
Cov(xi ) = − ,
12
5.1 Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 85

ası́ obteniendo la varianza para la suma de rango R1 se obtiene:


" n1
#
X
V ar [R1 ] = V ar xi
i=1
n1
X n1
X
V ar [R1 ] = V ar [xi ] + Cov(xi , xj )
i=1 i6=j
n1 n1
X N2 − 1 N +1 X
V ar [R1 ] = +2 −
i=1
12 i<j
12
N2 − 1
 
N +1
V ar [R1 ] = n1 + n1 (n1 − 1) −
12 12
n1 2

V ar [R1 ] = N − 1 − (n1 − 1)(N + 1)
12
n1
N 2 − 1 − n1 N − n1 + N + 1

V ar [R1 ] =
12
n1
N 2 − n1 N − n1 + N

V ar [R1 ] =
12
n1
(n1 + n2 )2 − n1 (n1 + n2 ) − n1 + (n1 + n2 )

V ar [R1 ] =
12
n1 2
n1 + 2n1 n2 + n22 − n21 − n1 n2 − n1 + n1 + n2

V ar [R1 ] =
12
n1
n1 n2 + n22 + n2

V ar [R1 ] =
12
n1 n2
V ar [R1 ] = (n1 + n2 + 1)
12

De manera análoga para R2 se obtiene:

n1 n2
V ar [R2 ] = (n1 + n2 + 1)
12

Ası́ para obtener la varianza U se necesita calcular en el caso particular de U1 y U2 ası́:


 
n1 (n1 + 1)
V ar [U1 ] = V ar n1 n2 + − R1
2

La única parte aleatoria es R1 , todo lo demás serı́a constante

V ar [U1 ] = 0 + 0 + (−1)2 V ar [R1 ]


V ar [U1 ] = V ar [R1 ]
n1 n2
∴ V ar [U1 ] = (n1 + n2 + 1)
12
86 Pruebas basadas en rangos

Para U2 se observa que:


 
n2 (n2 + 1)
V ar [U2 ] = V ar n1 n2 + − R2
2
V ar [U2 ] = V ar [R2 ]
n1 n2
∴ V ar [U2 ] = (n1 + n2 + 1)
12

Finalmente ya que U = min(U1 , U 2) y tanto la varianza de U1 ası́ como la varianza de


U2 es n12
1 n2
(n1 + n2 + 1) entonces la varianza de U es

n1 n2
V ar [U ] = (n1 + n2 + 1)
12

Cuando el tamaño de población es lo suficientemente grande será conveniente usar


la aproximación normal con los parámetros demostrados anteriormente. De esta manera
la regla de decisión de la prueba será rechazar H0 , con un nivel de significancia α, si
U < Z α/2 o U > Z 1−α/2 , donde Z es el cuantil de una normal evaluado en el punto α
con media µ = n12n2 y varianza σ 2 = n1 n2 (n12
1 +n2 +1)

Para ejemplificar esta prueba observe el siguiente ejercicio:

Ejemplo 18. Un estudio mide la altura de dos diferentes paı́ses para verificar que
la altura de los hombres de un paı́s X es mayor que la del paı́s Y , para ello se midió
aleatoriemante a 6 hombres del paı́s X y 8 del paı́s Y , obteniendo los siguientes
resultados:

Paı́s X 172 178 168 155 164 168 150 158


Paı́s Y 191 167 189 164 158 176 186 193

Realiza la prueba de Mann-Whitney para verificar que ambos paı́ses presentan


diferencias significativas en la estatura con un nivel de significancia del 5 %.

Solución
Anteriormente con el análisis observacional se concluyó que las muestras aleatorias
provienen de poblaciones distintas entre si, ya que existı́a una clara diferencia entre una
muestra y otra, en el caso particular de los datos presentados se observa que el grupo
de paı́ses X presenta claramente las menores estaturas mientras que para Y están las
estaturas mayores, por lo que asumı́amos que no eran iguales estas muestras. Como
respaldo de estas suposiciones se realizará la prueba formal de Mann-Whitney.
5.1 Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 87

Para la realización de la prueba, se juntan las muestras aleatorias formando ası́ vir-
tualmente una sola muestra aleatoria, sobre esta última se asignan los rangos de menor
a mayor, en caso de empates se asigna el punto medio entre los valores subsecuentes y
antecesores.

X Y Rango
150 1
155 2
158 3.5
158 3.5
164 5.5
164 5.5
167 7
168 8.5
168 8.5
172 10
176 11
178 12
186 13
189 14
191 15
193 16

Una vez asignado se realiza la suma de los rangos correspondientes a la muestra X


y Y , para ello se realiza:

n1
X
R1 = R(Xi )
i=1
R1 = 1 + 2 + 3.5 + 5.5 + 8.5 + . . . + 10 + 12
⇒ R1 = 51

Para la suma de rango de la muestra Y se tiene:

n2
X
R2 = R(Yi )
i=1
R2 = 3.5 + 5.5 + 7 + 11 + . . . + 15 + 16
⇒ R2 = 85
88 Pruebas basadas en rangos

Posterior a ello se calcula U1 y U2 . Primeramente para U1


n1 (n1 + 1)
U1 = n1 n2 + − R1
2
8(9)
U1 = 82 + − 51
2
U1 = 49,

de igual manera para U2


n2 (n2 + 1)
U2 = n1 n2 + − R2
2
8(9)
U2 = 82 + − 85
2
U2 = 15,

Sacando el mı́nimo entre U1 y U2 se tiene:

U = min(U1 , U2 )
∴ U = 15

Se sabe que el cuantil de una normal estándar en el punto crı́tico es W 0.025 = −1.95
y por simetrı́a de la distribución normal W 0.975 = 1.95, por lo que se observa que:
U = 15 > W 0.9755 = 1.95

Por lo que la estadı́stica U cae completamente en la región de rechazo, concluyendo


ası́ que con un nivel de significancia del 5 %, la prueba rechaza H0 asumiendo que las
dos poblaciones no son iguales, es decir, E [X] 6= E [Y ].
En R project este ejercicio puede ser simulado siguiendo el siguiente código.
pais _ x = c (172 , 178 , 168 , 155 , 164 , 168 , 150 , 158)
pais _ y = c (191 , 167 , 189 , 164 , 158 , 176 , 186 , 193)
wilcox . test ( pais _x , pais _y , paired = FALSE )

Wilcoxon rank sum test with continuity correction

data: pais_x and pais_y


W = 15, p-value = 0.08244
alternative hypothesis: true location shift is not equal to 0
5.2 Prueba de Kruskal-Wallis 89

De esta manera se observa que las estadı́sticas obtenidas son las mismas que las
mencionadas anteriormente.

5.2. Prueba de Kruskal-Wallis

La prueba de Kruskal Wallis, fue pensada por primera vez por William Kruskal y W.
Allen Wallis en 1952 (Kruskal y Wallis, 1952) es la generalización de la prueba de suma
de rangos de Wilcoxon, esta prueba sirve para analizar k muestras independientes con
k ≥ 3, en otro caso usar Wilcoxon, para verificar que las k muestras son todas iguales.
Al ser una generalización de la suma de rangos de Wilcoxon, la prueba de hipótesis
se define como la igualdad en los valores esperados de cada una de las k muestras
aleatorias. Es por ello que se define la prueba como:

H0 : E [X1 ] = E [X2 ] = . . . = E[Xk ] vs. Ha : E [X1 ] 6= E [X2 ] 6= . . . 6= E[Xk ].

Suponga que se tiene la información de k muestras aleatorias, las cuales son de-
notadas como Xi para i = 1, 2, . . . , k, cada observación es denotada como xij con
i = 1, 2, . . . k y j = 1, 2, . . . , ni , es decir, el subı́ndice i hace referencia a que muestra
pertenece la observación, y el subı́ndice j es la posición que ocupa dicha observación
en la muestra i.

X1 X2 ... Xk
x12 a21 ... xk1
x12 a22 ... xk2
.. .. .. ..
. . . .
x1n1 a2n2 ... xknk

Cabe señalar que ni es el tamaño de la muestra i, la prueba de Kruskal Wall, en


la prueba no se tiene un supuesto en el tamaño de la muestra, además del que sea
finita, por lo que no necesariamente tiene que ser: n1 = n2 = . . . = nk . El número de
elementos totales u observaciones a analizar está denotado como:

k
X
N= ni .
i=1

Una vez definido N se unen todas las muestras aleatorias en una sola muestra
ordenado las observaciones de menor a mayor, sobre toda N y se le asignan los rangos
90 Pruebas basadas en rangos

correspondientes, R(xij ) hace referencia al rango asignado a la observación j de la


muestra i. Además sea Ri al rango marginal i correspondiente a la suma de los rangos
de las observaciones de la muestra i, el cual se denota como:
ni
X
Ri = R(xij ), i = 1, 2, . . . , k.
j=1

De esta manera resumiendo la información anterior, se tiene la siguiente tabla de


rangos:

R(X1 ) R(X2 ) ... R(Xk )


R(x12 ) R(x21 ) ... R(xk1 )
R(x12 ) R(x22 ) ... R(xk2 )
.. .. .. ..
. . . .
R(x1n1 ) R(x2n2 ) . . . R(xknk )

Para contrastar esta prueba, Kruskal-Wallis propusieron la siguiente estadı́stica:

k
!
1 X R2 i N (N + 1) 2
T = − . (5.2)
S2 i=1
ni 4

donde:

S 2 es de la forma:
!
1 X N (N + 1)2
S2 = R2 (xij ) − . (5.3)
N −1 T odos los rangos
4

En caso de que no se presentaran empates entonces:


N (N + 1)
S2 = . (5.4)
12

Puede demostrarse fácilmente que en caso de que no se presenten empates, la es-


tadı́stica T puede ser expresada como:

X R2 k
12 i
T = − 3(N + 1).
N (N + 1) i=1 ni

De esta manera, Kruskal-Wallis observaron que T se aproxima a χ2k−1 , por lo que


2(1−α)
la regla de decisión es rechazar H0 si T > χk−1 .
5.2 Prueba de Kruskal-Wallis 91

Ejemplo 19. Un análisis estudia la altura de los hombres de mediana edad de


cuatro diferentes paı́ses desarrollados para verificar que la altura de los hombres es
la misma en estos paı́ses con un nivel de significancia del 0.05, para ello se midió
aleatoriamente a 5 hombres de cada paı́s, salvo en el paı́s dos donde sólo se midió
a 4 hombres, obteniendo los siguientes resultados:

Muestra 1 Muestra 2 Muestra 3 Muestra 4


175 170 171 171
183 192 178 171
183 195 183 173
184 197 191 185
188 - 195 187

Solución
Se juntan las 5 muestras en una sola y se asignan los rangos de menor a mayor, en
caso de empates se asigna el punto medio entre los valores subsecuentes y antecesores.

Muestra Valor Rango Muestra Valor Rango


2 70 1 1 84 11
3 71 3 4 85 12
4 71 3 4 87 13
4 71 3 1 88 14
4 73 5 3 91 15
1 75 6 2 92 16
3 78 7 2 95 17.5
1 83 9 3 95 17.5
1 83 9 2 97 19
3 83 9

Después se obtienen los rangos marginales, ası́ como el tamaño de la muestra i, ası́:

R1 = 6 + 9 + 9 + 11 + 14 = 49 n1 = 5
R2 = 1 + 16 + 17.5 + 19 = 53.5 n2 = 4
R3 = 3 + 7 + 9 + 15 + 17.5 = 51.5 n3 = 5
R4 = 3 + 3 + 5 + 7 + 9 + 15 = 36 n4 = 5
92 Pruebas basadas en rangos

P R2 2 2 Ri2
La suma definida como ki=1 nii = 495 + . . . + 365 da como resultado ki=1
P
ni
=
1985.41. Además se calcula la suma de todos los rangos al cuadrado, es decir:
ni
k X
X
R(xij ) = 1 + 33 + 33 + 32 + 52 + . . . + 17.52 + 192 = 2465.5
i=1 j=1

Una vez obtenido todos las sumas correspondientes, se calcula S 2 en este caso se
presenta empates por lo que se usara la ecuación (5.3).

19(20)2
 
2 1
S = 2465.5 − = 31.41
19 − 1 4

Sustituyendo S 2 en la estadı́stica (5.2) se tiene:

19(20)2
 
1
T = 1985.41 −
31.41 4
∴ T = 2.71

2(1−α)
Debido a que el cuantil de una χk−1 = 7.8 con k = 4, se observa que:
2(0.95)
T = 2.71 < χ3 = 7.8

Por lo que de acuerdo a la regla de decisión, la prueba no se rechaza con un nivel de


95 % por lo que se puede asumir que en los paı́ses desarrollados los hombres tienen la
misma estatura.
Capı́tulo 6

Otras pruebas no paramétricas

6.1. Prueba de McNemar

La prueba de McNemar, fue por primera vez descrita por Quinn McNemar en 1947
(McNemar, 1947), esta es una prueba no paramétrica que sirve para verificar con un
nivel de significancia α que un “tratamiento” induce un cambio en la respuesta del
mismo.
Se menciona como “tratamiento” pero en realidad la prueba puede hacer referencia
a cualquier procedimiento, suceso, acción o el paso de tiempo para su estudio, es por
ello que la prueba de McNemar sirve para probar que los cambios de la muestra son
significativos antes y después de la ocurrencia del suceso mencionado.
Esta prueba consiste en observaciones de variables aleatorias bidimensionales (xi , yi ), i =
1, 2, . . . n. Donde xi hace referencia al valor dicotómico de la observación i antes de eje-
cutarse el procedimiento, mientras que la variable yi se refiere, de igual forma, al valor
dicotómico de la observación i después de ejecutarse el procedimiento dado. Es decir,
xi y yi pueden denotarse como:


1 Si cumple la condición Z antes del procedimiento w.
xi =
0 Si no cumple la condición Z antes del procedimiento w.


1 Si cumple la condición Z después del procedimiento w.
yi =
0 Si no cumple la condición Z después del procedimiento w.

La prueba de McNemar establece como hipótesis nula la premisa que el procedi-


miento se debe al azar, es decir, el procedimiento no induce cambios importantes en la

93
94 Otras pruebas no paramétricas

muestra. Formulando el contraste de la prueba de hipótesis se tiene:

H0 : El tratamiento no induce cambios significativo en la respuesta de la muestra vs.


Ha : El tratamiento induce cambios significativo en la respuesta de la muestra

Esta prueba puede ser expresada a través de un arreglo de frecuencias en una tabla
de dimensión 2 × 2, la cual se muestra de la forma siguiente:

(+) (−)
yi = 1 yi = 0
(+) n
X n
X
xi = 1 A= 1(xi =1,yi =1) B= 1(xi =1,yi =0)
i=1 i=1
(−) n
X n
X
xi = 0 C = 1(xi =0,yi =1) D= 1(xi =0,yi =0)
i=1 i=1

En la tabla se puede observar que A y D son el número de elementos que no


cambiaron de elección después de aplicar el procedimiento w, por otro lado, B y C
son los elementos que cambiaron de elección después de aplicar el procedimiento w, es
decir, los pares discordantes. Se define a m = B + C como el número de elementos
que cambiaron en el tiempo (o número total de pares discordantes). Se esperarı́a que
la mitad de los cambios de m ocurriera de forma simétrica tanto hacia B como para C
para tener evidencia de que los cambios no son consecuencia del tratamiento, es decir
B tiene una esperanza de B+C 2
y una varianza denotada como B+C 4
si se supone que
B ∼ N ( B+C2
, B+C
4
). Entonces:
6.1 Prueba de McNemar 95

B+C B+C
B ∼ N( , )
2 4
B+C
B− 2
q ∼ N (0, 1)
B+C
4

B−C
2

B+C
∼ N (0, 1)
2

B−C
√ ∼ N (0, 1)
B+C
 2
B−C
√ ∼ χ2(1)
B+C

(B − C)2
∴ ∼ χ2(1) .
B+C
2
De esta manera se establece a la estadı́stica T = (B−C)B+C
el cual claramente sigue
2
una distribución χ(1) . Sin embargo, algunos autores consideran necesario realizar una
transformación a la estadı́stica T o arreglo de continuidad, ya que se esta aproximando
una distribución discreta a una distribución continua como la χ2 , esta transformación
es conocida como el arreglo de continuidad de Yates, el cual se denota como:

(|B − C| − 1)2
T = .
B+C
De esta manera la regla de decisión es: rechazar H0 con un nivel de significancia α
2(α/2) 2(1−α/2)
cuando T < χ(1) o T > χ(1) .

Ejemplo 20. Una casa de bolsa escoge aleatoriamente a 100 persona y les pregunta
por su interés al invertir dando como resultado que 84 prefieren invertir en acciones
de empresas privadas, y 16 en bonos gubernamentales, después de una plática y
asesorı́a financiera, 21 personas que invertı́an en empresas privadas decidieron
invertir en bonos gubernamentales, y 4 inversores de bonos cambiaron a acciones.
Realiza la prueba correspondiente con un nivel de significancia del 5 % para verificar
si la asesorı́a indujo cambios en la respuesta de los individuos.

Solución
96 Otras pruebas no paramétricas

Se realiza la tabla de McNemar, anotando las frecuencias obtenidas, siendo Xi = 1


igual invertir en acciones antes de la asesorı́a, y yi = 1 denota invertir en acciones
después de la asesorı́a.

(+) (−)
Marginal
yi = 1 yi = 0
(+)
xi = 1 A = 63 B = 21 84
(−)
xi = 0 C=4 D = 12 16

Estableciendo la estadı́stica con la corrección de Yates, se tiene:

(|21 − 4| − 1)2
T =
21 + 4
∴ T = 10.24

2(0.025) 2(0.975)
Además que los cuantiles para χ(1) = 3.84 y χ(1) = 5.02, de esta manera se
tiene que:
2(0.975)
T = 10.24 > χ(1) = 5.02

Por lo que la prueba, rechaza H0 asumiendo de esta manera con un nivel de signi-
ficancia del 5 % que la asesorı́a indujo cambios en la respuesta de los individuos.

6.2. Prueba de Bartlett

La prueba de Bartlett es una prueba no paramétrica , utilizada para probar con un


cierto nivel de significancia α la homogeneidad en la varianza de r muestras aleatorias
con c observaciones cada una. Esta prueba sirve para verificar que las r muestras
aleatorias tienen la misma varianza, de esta manera se define la prueba de hipótesis
como:
H0 : σ12 = σ22 = . . . = σr2 vs. Ha : σ12 6= σ22 6= . . . 6= σr2 .

En caso de rechazar la prueba se dice que las varianzas son es heterocedástica


entre si, ya que presenta diferencias significativas en la varianza para todas u algunas
muestras aleatorias. En otro caso se dice que las varianzas son homocedásticas ya que
la varianza de las diversas muestras aleatorias son homogéneas entre si, presentando
desviaciones permisibles con un nivel de significancia α.
6.2 Prueba de Bartlett 97

Para contrastar la prueba de hipótesis de Bartlett, se utiliza la estadı́stica T la cual


sigue una distribución χ2(r−1) . Además defı́nase N como el número de elementos puestos
a observación, es decir, N = ri=1 ci , entonces:
P

(N − r) ln(Sp2 ) − (c − 1) ri=1 ln(Si2 )


P
T =   . (6.1)
1 r 1

1 + 3(r−1) c−1
− N −r

donde:

Pr
SCi SCi
Sp2 = i=1
y Si2 =
N −r c−1
A su vez SCi se define como la suma de cuadrados de la forma:
P 2
c
j=1 xij
Xc
SCi = x2ij −
j=1
c

De esta manera la regla de decisión se define como, rechazar H0 con un nivel de


2(1−α)
significancia α cuando T > χ(r−1) , en otro caso la prueba no se rechaza.

Ejemplo 21. Una calificadora de riesgo asigna calificación a aseguradoras que van
de 0 a 5, siendo 5 la mayor calificación. Esta calificadora escoge aleatoriamente a 4
aseguradoras de los 3 ramos (vida, Accidentes-enfermedades y daños) y desea probar
con un nivel de significancia del 5 % que los 3 ramos tienen varianzas homogéneas.
Los resultados obtenidos fueron:

Aseguradora 1 Aseguradora 2 Aseguradora 3 Aseguradora 4


Ramo 1 4.2 4.5 4.3 4.5
Ramo 2 3.9 3.8 4.1 3.9
Ramo 3 3.8 3.8 4.2 3.5

Solución:
Se calcula la suma simple y al cuadrado de las observaciones por ramo ası́:
Pc Pc
c1 c2 c3 c4 j=1 xij j=1x2ij
r1 4.2 4.5 4.3 4.5 17.5 76.63
r2 3.9 3.8 4.1 3.9 15.7 61.67
r3 3.8 3.8 4.2 3.5 15.3 58.77
98 Otras pruebas no paramétricas

Pc 2
Pc 2 ( j=1 xij )
Después se calcula la suma de cuadrados SCi = j=1 xij − c
, ası́:

(17.5)2 (15.7)2
SC1 = 76.63 − = 0.0675 SC2 = 61.67 − = 0.0475
4 4

(15.3)2
SC3 = 58.77 − = 0.2475
4
Pr
SCi
Una vez calculado la suma de cuadrados, se puede obtener Sp2 = i=1
N −r
: y Si2 =
SCi
c−1
.

Para Sp2 se tiene:

0.0675 + 0.0475 + 0.2475


Sp2 =
12 − 3
2
∴ Sp = 0.0403.

Para S12 se tiene:

0.0675
S12 =
4−1
2
∴ S1 = 0.0225

Para S22 se tiene:

0.0475
S22 =
4−1
∴ S22 = 0.0158

Para S32 se tiene:

0.2475
S32 =
4−1
2
∴ S3 = 0.0825
6.2 Prueba de Bartlett 99

Finalmente se calcula la suma que esta contenida en la estadı́stica (6.1)


r
X
ln Si2 = 3(ln(0.0225) + ln(0.0158) + ln(0.0825))

(c − 1)
i=1
r
X
ln Si2 = −31.30

(c − 1)
i=1

Teniendo todos los elementos se puede construir la estadı́stica (6.1) sustituyendo los
anteriores elementos

(12 − 3)ln(0.0403) − (−31.30)


T =  
1 3 1

1 + 3(3−1) 4−1
− 12−3

∴ T = 2.08

2(.95)
Se sabe que el cuantil de una distribución, con α = 0.05, es χ(2) = 5.99. Por lo
que:
2(.95)
T = 2.08 < χ(2) = 5.99
Por lo que la prueba no se rechaza, asumiendo ası́ que los 3 ramos de seguros tienen
una varianza homogénea en la calificación de sus aseguradoras.
100 Otras pruebas no paramétricas
Capı́tulo 7

Ejercicios y problemas estadı́stica


no paramétrica

Lea cuidadosamente y responde las siguientes ejercicios.

Prueba de proporciones
1. Suponga que adquiere un portafolio de instrumentos financieros, el bróker le
asegura que dicho portafolio esta formado de tal manera que a lo más el 25 %
de los activos presentan rendimientos negativos. Una vez adquirido el portafolio,
usted observa que 24 de los 80 instrumentos que conforman la cartera presentan
rendimientos negativos. ¿Es razonable suponer que el portafolio tiene a lo más
25 % de activos que presentan rendimientos negativos?. Realiza lo siguiente:

a) Establecer H0 vs. Ha
b) Encontrar la región de rechazo de la prueba binomial con un nivel de con-
fianza 95 %

2. El gobierno de cierto paı́s reportó al consejo de la ciudad que al menos el 60 % de


los residentes están a favor de la emisión de bonos gubernamentales. Un grupo
opositor seleccionó una muestra aleatoria de 150 miembros y se le preguntó su
opinión de la emisión de los bonos dando como resultado que 52 están a favor.

a) Establecer H0 vs. Ha .
b) Encontrar la región de rechazo de la prueba binomial con un nivel de con-
fianza 90 %.

101
102 Ejercicios y problemas estadı́stica no paramétrica

c) Calcular el p − value de la prueba anterior.


d) ¿Es razonable el reporte que presento el gobierno?.

Prueba de rachas
1. Suponga que compra el boleto para una rifa, el boleto le da la oportunidad
de ganar alguno de los 20 premios disponibles. El organizador asegura que el
procedimiento es completamente aleatorio. Para el dı́a de la rifa se han vendido
100 boletos y los boletos ganadores fueron:

27 57 15 10 74 51 31 86 56 6
13 77 3 43 44 65 4 5 48 98

Usted duda quiere comprobar la hipótesis del organizador, que la resultados fue-
ron aleatorios, con un nivel de significancia del 5 %.

2. El equipo de fútbol de Nuevo Toledo tiene la siguientes resultados durante su


actual temporada
p, v, v, v, p, v, v, p, p, v, v, p, v, p, p, p
Donde v hace referencia a una victoria, mientras que p hace referencia a una
derrota. Usted quiere comprobar la hipótesis que la resultados fueron aleatorios,
con un nivel de significancia del 1 %.

Pruebas de bondad de ajuste


1. En la prueba de Kolmogorov-Smirnov y Lilliefors demostrar que la función empı́ri-
ca Sn es un estimador insesgado.
Pn
1(x <X)
Sn (xi ) = i=1 i .
n
2. En la prueba de Kolmogorov-Smirnov muestre que:
Dn = sup |Sn (xi ) − Fx∗ | = max{max{Sn (xi−1 ) − Fx∗ }, max{Sn (xi ) − Fx∗ }}.
x∈R

3. La siguiente muestra aleatoria hace referencia a los rendimientos positivos de


cierta acción a lo largo del tiempo.
0.2513, 0.2566, 0.3459, 0.6379, 2.0505, 1.803, 2.1906,
1.5299, 0.35005, 0.3128, 1.2726, 2.3674, 2.3214, 2.4373, 0.6548.
103

a) Usted piensa que la anterior muestra sigue una distribución normal, realiza
la prueba correspondiente para verificar que su suposición es cierta con un
nivel de confianza del 90 %.
b) El gerente del banco asume que la muestra se distribuye sigue una distri-
bución lognormal con media 0 y varianza 1. ¿Realicé la prueba correspon-
diente para verificar la suposición del gerente con un nivel de significancia
α = 0.01?.

4. Un cierto banco otorga crédito a las personas con una tasa preferencial, de tal
manera que los acreditados pueden pagar en cualquier momento desde que pi-
den el préstamo hasta 8 semanas posteriores para que les sea respetada la tasa
preferencial . Se seleccionaron aleatoriamente a 1,000 personas y observaron su
comportamiento, generando de esta manera la siguiente tabla de frecuencia:

Semana Créditos pagados


Menos de 1 semana 64
1≤x<2 195
2≤x<3 287
3≤x<4 241
4≤x<5 140
5≤x<6 51
6≤x<7 25
7≤x<8 4
8 semanas o más 1

Usted piensa que el pago de estos créditos, sigue una distribución binomial con
parámetros n = 10 y p = 0.25, realicé la prueba χ2 para verificar que suposición
es válida con un 99 % de confianza.

5. En R fije la semilla 2019, y genera 25 observaciones distribuidas como una N (0, 1)


y con ella realiza.

Calcula y gráfica la función de distribución empı́rica de las observaciones


generadas.
Agrega sobre esa misma gráfica, la curva de la distribución verdadera (N (0, 1)).
A partir de las gráficas anteriores ¿La función de distribución empı́rica es
similar a la distribución teórica de los datos?.

Vuelve a fijar la semilla 2019, y genera un millón observaciones distribuidas como


una N (0, 1) y con ello realiza:
104 Ejercicios y problemas estadı́stica no paramétrica

Calcula y gráfica la función de distribución empı́rica de las observaciones


generadas.
Agrega sobre esa misma gráfica, la curva de la distribución verdadera (N (0, 1)).
A partir de las gráficas anteriores ¿La función de distribución empı́rica es
similar a la distribución teórica de los datos? .
Realiza diferencia entre el valor de la función empı́rica y la función real,
(Hint: no olvides que debes ordenar de menor a mayor los valores de la dis-
tribución conocida y sólo mostrar los primeros 5 y los últimos 5 resultados)
¿Al ser una muestra mucho mayor que al anterior a que teorema te recuerda
el resultado obtenido?.

Tablas de contigencia
1. Se recopilaron datos macroecónomicos de diversos paı́ses durante el 2017 del
Fondo Monetario Internacional entre los cuales destacan el tamaño del territorio
del paı́s en km2 y la tasa de fertilidad. Se clasificó la información de la siguiente
manera:

Microestado cuando su territorio se menor o igual a 23, 180 km2 .


Paı́s pequeño cuando su territorio este ente los 23, 181 y 112, 760 km2 .
Paı́s mediano cuando su territorio este entre 112, 761 y los 527, 970 km2 .
Paı́s grande cuando su territorio sea mayor a los 527, 970 km2 .

A su vez los paı́ses se subclasifican en dos grupos dependiendo de la tasa de


fecundidad del paı́s de la forma:

Tasa de Fecundidad menor o igual a 2.7 hijos por mujer.


Tasa de Fecundidad mayor a 2.7 hijos por mujer.

Con esa información se construyó la siguiente tabla de contingencia:

Microestado Pais pequeño Pais mediano Pais grande


Tasa ≤ 2.7 35 31 28 26
Tasa > 2.7 12 15 18 26

a) Establecer H0 vs. Ha
105

b) De la tabla de contigencia realicé el procedimiento obteniendo la estadı́stica


necesaria para rechazar o aceptar con un nivel de significancia α = 0.05 la
hipótesis de que la tasa de fecundidad y el tamaño del territorio se comportan
de manera independiente entre si con los parámetros dados.
c) Calcula el coeficiente de contigencia, ¿cómo lo interpretarı́as?.
d) Calcular el p − value de la prueba anterior.
e) Realiza el procedimiento mediante la prueba de la Ji-Cuadrada; De esta
forma ¿Se rechaza o no la prueba?.
f) ¿Económicamente tiene sentido la proposición de que el PIB y la población
se comportan de manera independiente?.

Pruebas de Wilcoxon / Kruskal Wallis / Medidas de


correlacion
1. La oficina de Censo reportó que se espera que los hispanos sobrepasen a los
afroamericanos como la minorı́a más grande en los Estados Unidos para el año
2030. Use dos pruebas diferentes para ver si hay una relación directa entre el
número de Hispanos y el procentaje de la población del estado para los nueve
estados que se presentan en la tabla siguiente:

Hispanos Porcentaje de la población


Estado (millones) del estado
California 6.6 23
Texas 4.1 24
New York 2.1 12
Florida 1.5 12
Illinois 0.8 7
Arizona 0.6 18
New Jersey 0.6 8
New Mexico 0.5 35
Colorado 0.4 11
Use el nivel de significancia α = 0.05.

2. Un psicólogo está investigando el impacto que el divorcio de los padres tiene


sobre el aprovechamiento académico de los niños. El psicólogo cuenta con las
calificaciones de un grupo de niños de escuela primaria cuyos padres tuvieron
un divorcio durante el año anterior, y las calificaciones para un grupo de niños
similares cuyos padres no se divorciaron.
106 Ejercicios y problemas estadı́stica no paramétrica

no divorciados 80 72 99 82 62 50 85
divorciados 60 70 88 75 42 30 50
Se puede decir que hay diferencia en el aprovechamiento académico de los niños?
Use α = 0.05.

3. La tabla que se proporciona a continuación da el número de premios de postgra-


duados en ciencia médica y la razón de muerte por millón de tuberculosis para
los años 1959-69 (fuente: Annual Abstract of Statistics 1970).

Año Número de Premios Tasa de muerte por tuberculosis


1959 277 83
1960 318 74
1961 382 71
1962 441 65
1963 486 62
1964 597 52
1965 750 47
1966 738 48
1967 849 42
1968 932 43
1969 976 38
Demuestre que estos datos muestran una fuerte evidencia de correlación negativa
entre el número de premios y la tasa de muerte por tuberculosis. Explique este
“extraño” resultado. Use α = 0.05.

4. El personal de un hospital mental desea saber qué clase de tratamiento es más


efectivo para un tipo particular de desorden mental. Una baterı́a de pruebas
administrada a todos los pacientes delineó a un grupo de 40 pacientes quienes
fueron considerados de diagnóstico similar y también personalidad, inteligencia
y factores fisiológicos y proyectivos. Esta gente fue dividida en cuatro diferentes
grupos de 10 cada uno para tratamiento. Durante seis meses los grupos respectivos
recibieron (1) electroshock, (2) psicoterapia, (3) electroshock más psicoterapia, y
(4) ningún tipo de tratamiento. Al final de este perı́odo la baterı́a de pruebas fue
repetida en cada paciente. El único tipo de medida posible para estas pruebas
es un ordenamiento (ranking) de los 40 pacientes de acuerdo a su grado relativo
de mejorı́a al final del perı́odo de tratamiento; rango 1 indica el nivel más alto
de mejorı́a, rango 2 el segundo mejor, y ası́ sucesivamente. De acuerdo con estos
datos, existe diferencia en efectividad de los tipos de tratamiento? Use α = 0.05.

Grupos
107

1 2 3 4
19 14 12 38
22 21 1 39
25 2 5 40
24 6 8 30
29 10 4 31
26 16 13 32
37 17 9 33
23 11 15 36
27 18 3 34
28 7 20 35

En R realiza:

5. En el archivo pregunta1.r se encuentran 1000 pares de datos (Xi , Yi ). Calcule


el coeficiente de correlación de Pearson, la ρ de Spearman y pruebe H0 : Las Xi ’s
y las Yi ’s son mutuamente independientes.

6. En el archivo pregunta2.r se encuentran 1000 pares de datos (Xi , Yi ). Calcule


el número de parejas concordantes, el número de parejas discordantes, el número
de empates, la estadı́stica T = Nc − Nd y la τ de Kendall y pruebe la hipótesis
nula de independencia de las Xi ’s y las Yi ’s.

7. Para las dos muestras que se encuentran en el archivo pregunta3.r pruebe uti-
lizando la prueba de Wilcoxon H0 : Las medias son iguales.

8. Realice la prueba de Friedman para los datos que se dan en el archivo pregunta4.r.

9. Realice la prueba de Bartlett para los edatos que se dan en el archivo pregunta5.r.
Realice la prueba dividiendo la población en 3 grupos del mismo tamaño, des-
pués realice la prueba dividiendo la población en 4 grupos del mismo tamaño y
finalmente realice la prueba con ni = {49, 82, 103, 66}. Use α = 0.05.

Prueba McNemar
1. Como se mencionó en clase la tabla de Mcnemar las variables B y C, hacen
referencia al número de elementos que cambio de un estado al otro, el valor que
se esperarı́a que cambiaran de un estado a otro es B+C
2
y con una varianza B+C4
.
108 Ejercicios y problemas estadı́stica no paramétrica

a) Demostrar que la distribución de B dada B +C = m es binomial, especifique


los parámetros.
b) Si se supone normalidad, demostrar que:

(B − C)2
∼ χ2(1) .
B+C

2. Una casa de bolsa forma portafolios de inversión clasificados de alto y bajo riesgo.
En 2005, de 100 individuos 70 elegı́an invertir en portafolios conformado por ac-
tivos de alto riesgo. Después de la crisis de 2008, en 2010, 25 personas que elegı́an
portafolios riesgosos cambiaron de portafolio eligiendo correr menos riesgos. Por
otra parte 10 personas cambiaron de portafolios con poco riesgo a carteras ries-
gosas. ¿Es significativo el cambio en el número de personas después de la crisis
de 2008?.
Apéndice A

Relación de distribuciones de
probabilidad.

En esta sección se abordarán algunos resultados de la distribuciones probabilisticas


ası́ como las relaciones más importante, las cuales serán de gran importancia en el
desarrollo del presente documento.

Relación en la paremetrización de la distribuciones:

ˆ Si X ∼ Bin(n = 1, p) entonces X se distribuye Bernulli con parámetro p:

X ∼ Bernoulli(p).

ˆ Si X ∼ BinN eg(n = 1, p) entonces X se distribuye geométrica con paráme-


tro p:
X ∼ Geo(p)

ˆ Si X ∼ Γ(α = 1, β) entonces X se distribuye exponencial con parámetro:

X ∼ Exp(β).

ˆ Si X ∼ Γ(α = r/2, β = 1/2) entonces X se distribuye χ2 con r grados de


libertad:
X ∼ χ2(r) .

Relación por transformaciones:

ˆ Si X ∼ N (µ, σ 2 ) y se define a la transformación lineal Y como Y = a + bX


entonces:
Y ∼ N (a + bµ, bσ 2 ).

109
110 Relación de distribuciones de probabilidad.

ˆ Si X ∼ Γ(α, β) y se define a la transformación Y = X


c
, entonces:

Y ∼ Γ(α, cβ).

ˆ Si X ∼ F (v1 , v2 ) y se define a la transformación lineal Y como Y = 1


X
entonces:
Y ∼ F (v2 , v1 ).
ˆ Si X ∼ Beta(α, β) y se define a la transformación lineal Y como Y = 1 − X
entonces:
Y ∼ Beta(β, α).
ˆ Si X ∼ N (0, 1) entonces:
X 2 ∼ χ2(1) .
ˆ Si X ∼ N (µ, σ 2 ) entonces:
X −µ
√ ∼ N (0, 1).
σ2
Suma de variables aleatorias:

ˆ Si X1 , X2 , . . . , Xn ∼ Bernoulli(p) entonces:
n
X
Xi ∼ Bin(n, p)
i=1
.
ˆ Si X1 , X2 , . . . , Xn ∼ Geom(p) entonces:
n
X
Xi ∼ BinN ega(n, p).
i=1

ˆ Si X1 , X2 , . . . , Xn ∼ Exp(β) entonces:
n
X
Xi ∼ Γ(n, β).
i=1

ˆ Si Xi ∼ N (µi , σi2 ), i = 1, 2, . . . , n entonces:


n n n
!
X X X
Xi ∼ N µi , σ2 .
i=1 i=1 i=1

ˆ Si Xi ∼ P ois(λi ), i = 1, 2, . . . , n entonces:
n n
!
X X
Xi ∼ P ois λi .
i=1 i=1
111

ˆ Si Xi ∼ χ2mi , i = 1, 2, . . . , n entonces:
n
X
Xi ∼ χ2(Pn m ) .
i=1 i
i=1

ˆ Si Xi ∼ N (µ, σ ), i = 1, 2, . . . , n entonces:
2

n
X (Xi − µ)2
∼ χ2n .
i=1
σ2
ˆ Si Xi ∼ N (µ, σ ), i = 1, 2, . . . , n entonces:
2

Pn 2
i=1 Xi − X̄
∼ χ2n−1
σ2

(n − 1)S 2
∼ χ2n−1 .
σ2
2
Pn (Xi −X̄ )
donde S 2 = i=1 n−1
.

ˆ Si Xi ∼ N (µ, σ 2 ), i = 1, 2, . . . , n entonces:

X̄ − µ
q ∼ t(n−1) .
S2
n
2
Pn (Xi −X̄ )
donde S 2 = i=1 n−1
.

Producto de variables aleatorias

ˆ Si X ∼ N (0, 1) y Y ∼ χ2(k) , entonces:

X
q ∼ t(k) .
Y
k

ˆ Si X ∼ χ2(n) y Y ∼ χ2(m) entonces:


X/n
∼ F(n,m) .
Y /m
ˆ Si Xi ∼ LogN orm(µi , σi2 ), i = 1, 2, . . . , n entonces:

n n
!
Y X X
Xi ∼ LogN orm µi , σi2 .
i=1 i=1 i=1
112 Relación de distribuciones de probabilidad.
Apéndice B

Tablas

En este apéndice se muestran algunas de las principales tablas mencionadas en lo


largo del trabajo, especı́ficamente en el análisis del tema de estadı́stica no paramétrica,
el lector puede hacer uso de ellas al elaborar algún o algunos ejercicios que lo requieran.
Las primeras tres tablas hacen referencia a pruebas de bondad de ajuste, y las siguientes
sobre tablas son referentes a tablas de pruebas particulares.

B.1. Valores Crı́ticos de la prueba de Kolmogorov-


Smirnov

En la siguiente sección se muestra el tabulado de la distribución asociada a la


estadı́stica Dn para diferentes cuantiles de significancia en relación con el tamaño de
la muestra de una prueba de bondad de ajuste: Kolmogorov-Smirnov. Recuerde que:

Dn = sup |Fn − Fx∗ | = max{max{Fn (xi−1 ) − Fx∗ }, max{Fn (xi ) − Fx∗ }}.
x∈R

113
114 Tablas

Tamaño Nivel de significacia α


n 0.10 0.05 0.02 0.01
1 0.95000 0.97500 0.99000 0.99500
2 0.77639 0.84189 0.90000 0.92929
3 0.63604 0.70760 0.78456 0.82900
4 0.56522 0.62394 0.68887 0.73424
5 0.50945 0.56328 0.62718 0.66853
6 0.46799 0.51926 0.57741 0.61661
7 0.43607 0.48342 0.53844 0.57581
8 0.40962 0.45427 0.50654 0.54179
9 0.38746 0.43001 0.47960 0.51332
10 0.36866 0.40925 0.45662 0.48893
B.1 Valores Crı́ticos de la prueba de Kolmogorov-Smirnov 115

Tamaño Nivel de significacia α


n 0.10 0.05 0.02 0.01
11 0.35242 0.39122 0.43670 0.46770
12 0.33815 0.37543 0.41918 0.44905
13 0.32549 0.36143 0.40362 0.43247
14 0.31417 0.34890 0.38970 0.41762
15 0.30397 0.33760 0.37713 0.40420
16 0.29472 0.32733 0.36571 0.39201
17 0.28627 0.31796 0.35528 0.38086
18 0.27851 0.30936 0.34569 0.37062
19 0.27136 0.30143 0.33685 0.36117
20 0.26473 0.29408 0.32866 0.35241
21 0.25858 0.28724 0.32104 0.34427
22 0.25283 0.28087 0.31394 0.33666
23 0.24746 0.27490 0.30728 0.32954
24 0.24242 0.26931 0.30104 0.32286
25 0.23768 0.26404 0.29516 0.31657
26 0.23320 0.25907 0.28962 0.31064
27 0.22898 0.25438 0.28438 0.30502
28 0.22497 0.24993 0.27942 0.29971
29 0.22117 0.24571 0.27471 0.29466
30 0.21756 0.24170 0.27023 0.28987
31 0.21412 0.23788 0.26596 0.28530
32 0.21085 0.23424 0.26189 0.28094
33 0.20771 0.23076 0.25801 0.27677
34 0.20472 0.22743 0.25429 0.27279
35 0.20185 0.22425 0.25073 0.26897
36 0.19910 0.22119 0.24732 0.26532
37 0.19646 0.21826 0.24404 0.26180
38 0.19392 0.21544 0.24089 0.25843
39 0.19148 0.21273 0.23786 0.25518
40 0.18913 0.21012 0.23494 0.25205

1.22 1.36 1.52 1.63


n > 40 √ √ √ √
n n n n

Cabe destacar, que la información se encuentra acotada para un tamaño de muestra


menor a 40 observaciones, sin embargo, puede aproximarse a través de los resultados
mostrados anteriormente, los cuales involucran un cuantil dividido entre la raı́z de las
observaciones, puede demostrase que entre más grande sea el tamaño de la muestra la
distribución de la estadı́stica tiende a cero.
116 Tablas

B.2. Valores Crı́ticos de la prueba de Lilliefors

En la siguiente sección se muestra el tabulado de la distribución asociada a la


estadı́stica Dn para diferentes cuantiles de significancia en relación con el tamaño de
la muestra de una prueba de bondad de ajuste: Lillifors. Recuerde que:

Dn = sup |Fn − Fx∗ | = max{max{Fn (xi−1 ) − Fx∗ }, max{Fn (xi ) − Fx∗ }}.
x∈R

n α = 0.20 α = 0.15 α = 0.10 α = 0.05 α = 0.01


4 0.3027 0.3216 0.3456 0.3754 0.4129
5 0.2893 0.3027 0.3188 0.3427 0.3959
6 0.2694 0.2816 0.2982 0.3245 0.3728
7 0.2521 0.2641 0.2802 0.3041 0.3504
8 0.2387 0.2502 0.2649 0.2875 0.3331
9 0.2273 0.2382 0.2522 0.2744 0.3162
10 0.2171 0.2273 0.241 0.2616 0.3037
11 0.208 0.2179 0.2306 0.2506 0.2905
12 0.2004 0.2101 0.2228 0.2426 0.2812
13 0.1932 0.2025 0.2147 0.2337 0.2714
14 0.1869 0.1959 0.2077 0.2257 0.2627
15 0.1811 0.1899 0.2016 0.2196 0.2545
16 0.1758 0.1843 0.1956 0.2128 0.2477
17 0.1711 0.1794 0.1902 0.2071 0.2408
18 0.1666 0.1747 0.1852 0.2018 0.2345
19 0.1624 0.17 0.1803 0.1965 0.2285
20 0.1589 0.1666 0.1764 0.192 0.2226
25 0.1429 0.1498 0.1589 0.1726 0.201
30 0.1315 0.1378 0.146 0.159 0.1848
31 0.1291 0.1353 0.1432 0.1559 0.182
32 0.1274 0.1336 0.1415 0.1542 0.1798
33 0.1254 0.1314 0.1392 0.1518 0.177
34 0.1236 0.1295 0.1373 0.1497 0.1747
35 0.122 0.1278 0.1356 0.1478 0.172
36 0.1203 0.126 0.1336 0.1454 0.1695
37 0.1188 0.1245 0.132 0.1436 0.1677
38 0.1174 0.123 0.1303 0.1421 0.1653
39 0.1159 0.1214 0.1288 0.1402 0.1634
40 0.1147 0.1204 0.1275 0.1386 0.1616
B.3 Valores Crı́ticos de la prueba de Anderson Darling 117

n α = 0.20 α = 0.15 α = 0.10 α = 0.05 α = 0.01


41 0.1131 0.1186 0.1258 0.1373 0.1599
42 0.1119 0.1172 0.1244 0.1353 0.1573
43 0.1106 0.1159 0.1228 0.1339 0.1556
44 0.1095 0.1148 0.1216 0.1322 0.1542
45 0.1083 0.1134 0.1204 0.1309 0.1525
46 0.1071 0.1123 0.1189 0.1293 0.1512
47 0.1062 0.1113 0.118 0.1282 0.1499
48 0.1047 0.1098 0.1165 0.1269 0.1476
49 0.104 0.1089 0.1153 0.1256 0.1463
50 0.103 0.1079 0.1142 0.1246 0.1457
0.724165 0.758905 0.8043545 0.875897 1.0210785
n > 50 √
n

n

n

n

n

Cabe destacar, que la información se encuentra acotada para un tamaño de mues-


tra menor igual a 50 observaciones, sin embargo, puede aproximarse a través de los
resultados mostrados anteriormente, los cuales involucran un cuantil dividido entre la
raı́z de las observaciones, puede demostrase que entre más grande sea el tamaño de la
muestra la distribución de la estadı́stica tiende a cero.

B.3. Valores Crı́ticos de la prueba de Anderson Dar-


ling

La estadı́stica de Anderson-Darling es:

n  
X 2i − 1
A2n = −n − [ln (FX∗ (xi )) + ln(1 − FX∗ (xn−i+1 ))] .
i=1
n

Dado que la estadı́stica no depende de Fn (x) y sólo depende de n entonces la dis-


tribución asitótica de Anderson-Darling es la que se muestra a continuación, asimismo
se mostrará algunos ajustes a la estadı́stica con la finalidad de que la prueba sea más
potente para determinados casos:
118 Tablas

1−α
Caso Ajuste en la estadı́stica 0.90 0.95 0.975 0.99
Todos los parámetros conocidos A2n para n ≥  52 1.933 2.492 3.070 3.857
4 25
Normal con N (X̄, S 2 ) 1 + n + n2 An 0.632 0.751 0.870 1.029
0.6 2
Exponencial con exp(X̄)  1 + n An 1.070 1.326 1.587 1.943
0.2
Weibull con W eibull(α̂, β̂) 1+ √
n
A2n 0.637 0.757 0.877 1.038
 
0.25
Log-lógista con loglog(α̂, β̂) 1+ √
n
A2n 0.563 0.660 0.769 0.906

B.4. Cuantiles de la estadı́stica Wald-Wolfowitz


B.4 Cuantiles de la estadı́stica Wald-Wolfowitz 119

n1 n2 W0.005 W0.01 W0.025 W0.05 W0.10 W0.90 W0.95 W0.975 W0.99 W0.995
2 5 - - 3 - - - - -
2 8 - - 3 3 - - - - -
2 11 - - 3 3 - - - - -
2 14 - - 3 3 3 - - - - -
2 17 - - 3 3 3 - - - - -
2 20 - 3 3 3 4 - - - - -

5 5 3 3 4 4 8 8 9 9 -
5 8 3 3 4 4 5 9 10 10 - -
5 11 4 4 5 5 6 10 - - - -
5 14 4 4 5 6 6 - - - - -
5 17 4 5 5 6 7 - - - - -
5 20 5 5 6 6 7 - - - - -

8 8 4 5 5 6 6 12 12 13 13 14
8 11 5 6 6 7 8 13 14 14 15 15
8 14 6 6 7 8 8 14 15 15 16 16
8 17 6 7 8 8 9 15 15 16 - -
8 20 7 7 8 9 10 15 16 16 - -

11 11 6 7 8 8 9 15 16 16 17 18
11 14 7 8 9 9 10 16 17 18 19 19
11 17 8 9 10 10 11 17 18 19 20 21
11 20 9 9 10 11 12 18 19 20 21 21

14 14 8 9 10 11 12 18 19 20 21 22
14 17 9 10 11 12 13 20 21 22 23 23
14 20 10 11 12 13 14 21 22 23 24 24

17 17 11 11 12 13 14 22 23 24 25 25
17 20 12 12 14 14 16 23 24 25 26 27

20 20 13 14 15 16 17 25 26 27 28 29

Para valores de n1 o n2 mayores de 20, el cuantil wp es aproximado como:


s
2n1 n2 2n1 n2 (2n1 n2 − n1 − n2 )
Wp = + 1 + Zp .
n1 + n2 (n1 + n2 )2 (n1 + n2 − 1)

donde Zp hace referencia al cuantil p de una distribución normal estándar.


120 Tablas

B.5. Cuantiles de la estadı́stica ρ de Spearman

En la siguiente tabla se muestran los valores crı́ticos con ciertos niveles de signifi-
cancia de la distribución asociada a la ρ de Spearman.

Nivel de Significancia α
n 0.1 0.05 0.025 0.01 0.005 0.001
4 1 1 - - - -
5 0.8 0.9 1 1 - -
6 0.657 0.829 0.886 0.943 1 -
7 0.571 0.714 0.786 0.893 0.929 1
8 0.524 0.643 0.738 0.833 0.881 0.952
9 0.483 0.6 0.7 0.783 0.833 0.917
10 0.455 0.564 0.648 0.745 0.794 0.879
11 0.427 0.536 0.618 0.709 0.755 0.845
12 0.406 0.503 0.587 0.678 0.727 0.818
13 0.385 0.484 0.56 0.648 0.703 0.791
14 0.367 0.464 0.538 0.6’26 0.679 0.771
15 0.354 0.446 0.521 0.604 0.654 0.75
16 0.341 0.429 0.503 0.582 0.635 0.729
17 0.328 0.414 0.488 0.566 0.618 0.711
18 0.317 0.401 0.472 0.55 0.6 0.692
19 0.309 0.391 0.46 0.535 0.584 0.675
20 0.299 0.38 0.447 0.522 0.57 0.662
21 0.292 0.37 0.436 0.509 0.556 0.647
22 0.284 0.361 0.425 0.497 0.544 0.633
23 0.278 0.353 0.416 0.486 0.532 0.621
24 0.271 0.344 0.407 0.476 0.521 0.609
25 0.265 0.337 0.398 0.466 0.511 0.597
26 0.259 0.331 0.39 0.457 0.501 0.586
27 0.255 0.324 0.383 0.449 0.492 0.576
28 0.25 0.318 0.375 0.441 0.483 0.567
29 0.245 0.312 0.368 0.433 0.475 0.558
30 0.240 0.306 0.362 0.425 0.467 0.549
31 0.236 0.301 0.356 0.419 0.459 0.540
32 0.232 0.296 0.350 0.412 0.452 0.532
33 0.229 0.291 0.345 0.405 0.446 0.525
34 0.225 0.287 0.340 0.400 0.439 0.517
35 0.222 0.283 0.335 0.394 0.433 0.540
B.5 Cuantiles de la estadı́stica ρ de Spearman 121

Nivel de Significancia α
n 0.1 0.05 0.025 0.01 0.005 0.001
36 0.219 0.279 0.3.30 0.388 0.427 0.503
37 0.215 0.275 0.325 0.383 0.421 0.497
38 0.212 0.271 0.321 0.378 0.415 0.491
39 0.210 0.267 0.317 0.373 0.410 0.485
40 0.207 0.264 0.313 0.368 0.405 0.479
41 0.204 0.261 0.309 0.364 0.400 0.473
42 0.202 0.257 0.305 0.359 0.396 0.468
43 0.199 0.254 0.301 0.355 0.391 0.462
44 0.197 0.251 0.298 0.351 0.386 0.457
45 0.194 0.248 0.294 0.347 0.382 0 452
46 0.192 0.246 0.291 0.343 0.378 0.448
47 0.190 0.243 0.288 0.340 0.374 0.443
48 0.188 0.240 0.285 0.336 0.370 0.439
49 0.186 0.238 0.282 0.333 0.366 0.434
50 0.184 0.235 0.279 0.329 0.363 0.430
51 0.182 0.233 0.276 0.326 0.359 0.426
52 0.180 0.231 0.274 0.323 0.356 0 422
53 0.179 0.228 0.271 0.320 0.352 0.418
54 0.177 0.226 0.268 0.317 0.349 0.414
55 0.175 0.224 0.266 0.314 0.346 0.411
56 0.174 0.222 0.264 0.311 0.343 0.407
57 0.172 0.220 0.261 0.308 0.340 0.404
58 0.171 0.218 0.259 0.306 0.337 0.400
59 0.169 0.216 0.257 0.303 0.334 0 397
60 0.168 0.214 0.255 0.301 0.331 0.394

Cabe destacar, que la información se encuentra acotada para un tamaño de mues-


tra menor igual a 60 observaciones, sin embargo, puede verse que los resultados para
muestras mayores a 60 se comporta de manera más asintoticamente por lo que puede
aproximarse valores por encima de lı́mite con n = 60, para mayor confiabilidad puede
realizar el experimento en R.
122 Tablas

B.6. Cuantiles de la estadı́stica τ de Kendall

En la siguiente tabla se muestran los valores crı́ticos con ciertos niveles de signifi-
cancia de la distribución asociada a la τ de Kendall.

Nivel de Significancia α
n 0.1 0.05 0.025 0.01 0.005 0.001
4 1 1 - - - -
5 0.8 0.8 1 1 - -
6 0.6 0.733 0.867 0.867 1 -
7 0.524 0.619 0.714 0.81 0.905 1
8 0.429 0.571 0.643 0.714 0.786 0.857
9 0.389 0.5 0.556 0.667 0.722 0.833
10 0.378 0.467 0.511 0.6 0.644 0.778
11 0.345 0.418 0.491 0.564 0.6 0.709
12 0.303 0.394 0.455 0.545 0.576 0.667
13 0.308 0.359 0.436 0.513 0.564 0.641
14 0.275 0.363 0.407 0.473 0.516 0.604
15 0.276 0.333 0.39 0.467 0.505 0.581
16 0.25 0.317 0.383 0.433 0.483 0.567
17 0.25 0.309 0.368 0.426 0.471 0.544
18 0.242 0.294 0.346 0.412 0.451 0.529
19 0.228 0.287 0.333 0.392 0.439 0.509
20 0.221 0.274 0.326 0.379 0.421 0.495
21 0.21 0.267 0.314 0..371 0.41 0.486
22 0.203 0.264 0..307 0.359 0.394 0.472
23 0.202 0.257 0.296 0.352 0.391 0.455
24 0.196 0.246 0.29 0.341 0.377 0.449
25 0.193 0.24 0.287 0.333 0.367 0.44
26 0.188 0.237 0.28 0.329 0.36 0.428
27 0.179 0.231 0.271 0.322 0.356 0.419
28 0.18 0.228 0.265 0.312 0.344 0.413
29 0.172 0.222 0.261 0.31 0.34 0.404
30 0.172 0.218 0.255 0.301 0.333 0..393
31 0.166 0.213 0.252 0.295 0.325 0.389
32 0.165 0.21 0.246 0.29 0.323 0.379
33 0.163 0.205 0.242 0.288 0.314 0 375
34 0.159 0.201 0.237 0.28 0.312 0.369
B.6 Cuantiles de la estadı́stica τ de Kendall 123

Nivel de Significancia α
n 0.1 0.05 0.025 0.01 0.005 0.001
35 0.156 0.197 0.234 0.277 0.304 0.361
36 0.152 0.194 0.232 0.273 0.302 0 359
37 0.15 0.192 0.228 0.267 0.297 0.351
38 0.149 0.189 0.223 0.263 0.292 0.346
39 0.147 0.188 0.22 0.26 0.287 0.341
40 0.144 0.185 0.218 0.256 0.285 0 338
41 0.141 0.18 0.215 0.254 0.28 0.334
42 0.141 0.178 0.213 0.25 0.275 0.329
43 0.138 0.176 0.209 0.247 0.274 0 324
44 0.137 0.173 0.207 0.243 0.268 0.321
45 0.135 0.172 0.204 0.24 0.267 0.317
46 0.132 0.169 0.202 0.239 0.264 0.314
47 0.132 0.167 0.199 0.236 0.26 0 310
48 0.129 0.167 0.197 0.232 0.257 0.307
49 0.129 0.163 0.196 0.23 0.253 0.303
50 0.127 0.162 0.192 0.228 0.251 0 300
51 0.126 0.161 0.191 0.225 0.249 0.297
52 0.124 0.158 0.189 0.223 0.246 0.294
53 0.123 0.157 0.187 0.221 0.244 0 290
54 0.122 0.156 0.185 0.219 0.241 0 287
55 0.121 0.154 0.182 0.216 0.239 0.285
56 0.119 0.152 0.181 0.214 0.2.36 0.282
57 0.118 0.152 0.179 0.212 0.234 0 279
58 0.117 0.149 0.177 0.21 0.2.32 0.276
59 0.116 0.148 0.176 0.209 0.2.30 0.274
60 0.115 0.147 0.174 0.207 0.228 0.272

Cabe destacar, que la información se encuentra acotada para un tamaño de mues-


tra menor igual a 60 observaciones, sin embargo, puede verse que los resultados para
muestras mayores a 60 se comporta de manera más asintoticamente por lo que puede
aproximarse valores por encima de lı́mite con n = 60, para mayor confiabilidad puede
realizar el experimento en R.
124 Tablas

B.7. Cuantiles de la estadı́stica de Wilcoxon

En la siguiente tabla se muestran los valores crı́ticos con ciertos niveles de signifi-
cancia de la distribución asociada la estadı́stica de Wilcoxon, particularmente para la
prueba de dos colas.

H0 : E [X] = E [Y ] vs. Ha : E [X] 6= E [Y ] .

Nivel de Significancia α
n 0.05 0.01
6 1 -
7 2 -
8 4 0
9 6 2
10 8 3
11 11 5
12 14 7
13 17 10
14 21 13
15 25 16
16 30 19
17 35 23
18 40 28
19 46 32
20 52 37
21 59 43
22 66 49
23 73 55
24 81 68
25 90 68
26 98 76
27 107 84
28 117 92
29 127 100
30 137 109

Cabe destacar, que la información se encuentra acotada para un tamaño de mues-


tra menor igual a 30 observaciones, sin embargo, puede verse que los resultados para
muestras mayores a 30 se comporta de manera más asintoticamente por lo que puede
B.7 Cuantiles de la estadı́stica de Wilcoxon 125

aproximarse valores por encima de lı́mite con n = 30, para mayor confiabilidad puede
realizar el experimento en R.
126 Tablas
Apéndice C

Formulario

En esta sección se mencionarán los principales resultados que se abordaron a lo largo


del presente trabajo con la finalidad de resumir la información y en caso de que se desee
consultar algún resultado sea más sencillo para el lector encontrarlo, sin embargo, se
invita a leer al demás contenido para justificar los resultados mostrados. El apéndice
cuenta con tres secciones, los cuales hacen referencia a los temas de estadı́stica no
paramétrica además de que se menciona la pagina en la que puede encontrarse el
anterior resultado.

C.1. Estadı́stica no paramétrica

En esta sección se mostrarán las reglas de decisión de las pruebas no paramétricas


abordadas en el presente texto, ası́ como de manera general las hipótesis que se analizan.

Pruebas Para Proporciones

Ver página 2.
El test para proporciones prueba afirmaciones sobre la proporción o la probabilidad
“p” esperada de que ocurra un cierto suceso en una muestra aleatoria. La prueba de
hipótesis para una cola es:

H0 : p = p∗ vs. H1 : p 6= p∗

donde p∗ es la proporción o probabilidad que se desea poner a prueba.

127
128 Formulario

Se define a la estadı́stica de prueba como el número de observaciones donde se


obtuvo el suceso esperado O1 ası́:

T = O1 .

Se define a α = α1 + α2 . Por lo que sea t1 y t2 tal que:

P [Y ≤ t1 ] = α1 .

y análogamente con valores:

P [Y ≤ t2 ] = 1 − α2 .

donde Y ∼ Bin(n, p∗ ).
De esta forma se rechaza H0 si T ≤ t1 o si T > t2 . En cualquier otro caso, se acepta
la hipótesis nula.
El p − value equivale a:
p − value = 2 ∗ min (P [Y ≤ T ] , P [Y ≥ T ]) .

Por lo que si p − value ≤ α se rechaza la hipótesis nula de hipótesis con un nivel


de significancia α.

Pueba de corridas o rachas

Ver página 13.


La prueba de rachas mide si la ocurrencia de una variable dicotómica ha sido de
manera aleatoria. Ası́ se prueba el siguiente contraste.

H0 : La muestra es aleatoria vs. Ha : La muestra no es aleatoria

Se define a la estadı́stica R como R = r1 +r2 , donde r1 son las rachas de un resultado


tipo I, r2 las rachas del tipo II. De esta manera, la regla de decisión es rechazar H0
con un nivel de significancia α si:
R < Wα/2 ó R > W1−α/2

Donde Wα/2 y W1−α/2 son obtenidos de la tabla de cuantiles del apéndice B.4.
C.1 Estadı́stica no paramétrica 129

Prueba de la Ji-Cuadrada

Ver página 20
La prueba de la Ji-cuadrada es una prueba de bondad de ajuste, consiste en medir
las diferencias entre la frecuencia esperada y la frecuencia observado; La prueba de
hipótesis es:

H0 : F (X) = FX∗ vs. Ha : F (X) 6= FX∗

Donde FX∗ es una distribución completamente conocida, es decir además de conocer


a la familia que pertenece también se conoce sus parámetros.
Se define la estadı́stica T como:
k
X (Oi − Ei )2
T =
i=1
Ei

Donde Oi es la frecuencia observada en la clase i, y Ei es la frecuencia esperada en


la clase i, en cada una de las k agrupaciones mutuamente excluyentes entre si.
2(1−α)
La regla de decisión es rechazar la prueba de hipótesis cuando: T > χk−1 , en otro
caso no se tiene evidencia de rechazar la prueba con un nivel de significancia α

Kolmogorov-Smirnov

Ver página 32.


El test de Kolmogorov-Smirnov pone a prueba es las siguientes de hipótesis:

H0 : F (X) = FX∗ vs. Ha : F (X) 6= FX∗

Donde FX∗ es una distribución completamente conocida, es decir además de conocer


a la familia que pertenece también se conoce sus parámetros.
Pn
i=11xi ≤x
La distribución empı́rica la cual se define como: Fn = n
, se define a la
estadı́stica:

Dn = sup |Fn − Fx∗ | = max{max{Fn (xi−1 ) − Fx∗ }, max{Fn (xi ) − Fx∗ }}


x∈R
130 Formulario

Finalmente, se observa hay evidencia de rechazar H0 cuando Dn > wk1−α donde


wk1−α es el cuantil que acumula el 1 − α de probabilidad de la distribución asociada a
Dn la cual puede obtenerse al consultar el apéndice B.1.

Lilliefors

La prueba de Kolmogorov-Smirnov posee el supuesto de que la distribución que se


desea comprobar debe ser completamente especificada; la prueba de Lillifors modifico la
prueba de Kolmogorov-Smirnov, con la finalidad de que sólo con conocer la distribución
se pudiera poner a prueba un conjunto de datos para saber si siguen una cierta familia
probabilistica con un nivel de confianza deseado, al aproximar a los parámetros a través
del uso de los estimadores puntuales

Lilliefors para normalidad

Ver página 42.


Es usada para probar que un nivel de confianza dado, que una muestra aleatoria
sigue una distribución normal con media X̄ y varianza S 2 .
Se desea hacer el contraste:

H0 : La muestra ∼ N (X̄, S 2 )

vs.

Ha : La muestra  N (X̄, S 2 )
Pn
i=1 1xi ≤x
Se define a la distribución empı́rica como: Fn = n
, ası́ la estadı́stica Dn se
denota como

     
xi − X̄ xi − X̄ xi − X̄
Dn = sup |Fn −φ | = max{max{Fn (xi−1 )−φ }, max{Fn (xi )−φ }}
x∈R S2 S2 S2

Finalmente, se observa hay evidencia de rechazar H0 cuando Dn > wk1−α donde


wk1−αes el cuantil que acumula el 1 − α de probabilidad de la distribución asociada a
Dn la cual puede obtenerse al consultar el apéndice B.2.
C.1 Estadı́stica no paramétrica 131

Anderson Darling

Ver página 50.


Anderson Darling al igual que las anteriores pruebas de bondad de ajuste tiene
como contraste de la prueba a las siguientes hipótesis.
H0 : F (X) = FX∗ vs. Ha : F (X) 6= FX∗

Donde FX∗ es la distribución teórica que se quiere probar con un nivel de significancia
α.
La estadı́stica de Anderson-Darling es:

n  
X 2i − 1
A2n = −n − [ln (FX∗ (xi )) + ln(1 − FX∗ (xn−i+1 ))]
i=1
n

Finalmente la regla de decisión será rechazar H0 si A2n > W 1−α , donde W 1−α es el
cuantil asociado a la distribución A2n bajo H0 , la cual puede consultarse en el apéndice
B.3

Tablas de contingencia

Las tablas de contingencia, como lo dice su nombre, son tablas en el que se muestra
las frecuencias de c diferentes clases, con la finalidad de observar si r variables son
independientes entre si, de esta manera se plantea la siguiente prueba de hipótesis:
Xr Xc Xr c
X
H0 : Pij = Pij Pij vs. Ha : Pij 6= Pij Pij , ∀i = 1, . . . , r; j = 1, . . . , c
i=1 j=1 i=1 j=1

La estadı́stica de la prueba, denotado por la letra T es:


r X c
X (nij − eij )2
T =
i=1 j=1
eij

Pc
( nij )( ci=1 nij )
P
j=1
Donde eij = N
. Cuya distribución probabilista asociada es T ∼
2
χ(r−1)(c−1) .
Por lo que la regla de decisión es: Rechazar H0 , a un nivel de significancia α
si
T ≥ W 1−α
Donde W 1−α es el cuantil 1 − α de una distribución χ2(r−1)(c−1) .
132 Formulario

ρ (ro) de Spearman

Ver página 69.


La medida de correlación se denota por ρ (ro) y se define de la siguiente manera:

n+1 2
Pn 
i=1 R (X i ) R (Y i ) − n 2
ρ=  1/2 P  1/2 . (C.1)
Pn 2 n+1
 2 n 2 n+1 2
i=1 (R (Xi )) − n 2 i=1 (R (Yi )) − n 2

Prueba de Hipótesis

La ρ de Spearman se utiliza para probar independencia entre dos variables aleatorias


(dos poblaciones).
Se tiene el siguiente caso:

A (prueba de dos colas) H0 : Las Xi0 s y las Yi0 s son mutuamente independientes.
Ha : Existe una tendencia para que los valores más grandes de X estén “empareja-
dos” con los valores más grandes de Y y los valores chicos de X con los valores chicos de
Y ó existe una tendencia para que los valores más grandes de X estén “emparejados”
con los valores más chicos de Y y los valores chicos de X con los valores grandes de Y
(ρ 6= 0).
Usando ρ como estadı́stica de prueba se tiene la siguiente regla de decisión:
Se rechaza H0 al nivel de significancia α si:

A : ρ < ωα/2 ó ρ > ω1−α/2


B : ρ > ω1−α
C : ρ < ωα

donde ωp es el p − ésimo cuantil de la distribución de ρ., la cual puede ser obtenida de


la tabla mostrada en el anexo B.5.

τ (tau) de Kendall

Ver página 73.


C.1 Estadı́stica no paramétrica 133

La τ de Kendall también puede usarse como una estadı́stica de prueba para probar
la hipótesis nula de independencia entre X y Y . Por lo general se usa T como la
estadı́stica de prueba:

T = Nc − Nd ,

donde Nc es el número de parejas concordantes, mientras que Nd es el número de


parejas discordantes
Los cuantiles de la distribución de T (o τ ) están tabulados (ver apéndice B.6 ).
Si T excede el cuantil 1 − α, se rechaza H0 en favor de la alternativa de una cola de
correlación positiva, al nivel de significancia α.

Prueba de Suma de Rangos de Wilcoxon

Ver página 80.


La prueba de suma de rangos de Wilcoxon se usa cuando se tienen dos muestras
independientes de poblaciones diferentes y se desea probar que éstas son iguales. La
prueba de hipótesis es definida como:

H0 : E [X] = E [Y ] vs. Ha : E [X] 6= E [Y ]

Se define a la estadı́stica T como: T = S − n(n+1) , donde S = ni=1 R(Xi ) (La suma


P
2
de todos los rangos asignados de manera combinada a la muestra aleatoria del tipo 1).
Rechazar H0 , con un nivel de significancia α, si T1 < W α/2 o T1 > W 1−α/2 , donde W
sigue una distribución normal estándar. Si se trabaja con la estadı́stica T , la región de
rechazo es la misma, salvo que los cuantiles de W se obtienen de la tabla de Wilcoxon.

Prueba de Kruskal-Wallis

Ver página 90.


La prueba de Kruskal Wallis, esta test sirve para analizar k, para verificar que las
k muestras son todas iguales. Es por ello que se define la prueba como:

H0 : E [X1 ] = E [X2 ] = . . . = E[Xk ] vs. Ha : E [X1 ] 6= E [X2 ] 6= . . . 6= E[Xk ].

Para contrastar esta prueba, Kruskal-Wallis propusieron la siguiente estadı́stica:


134 Formulario

k
!
1 X R2 i N (N + 1)2
T = 2 −
S i=1
ni 4

donde:

S 2 es de la forma:
!
1 X N (N + 1)2
S2 = R2 (xij ) −
N T odos los rangos
4

En caso de que no se presentaran empates entonces:

N (N + 1)
S2 =
12

De esta manera, Kruskal-Wallis observaron que T se aproxima a χ2k−1 , por lo que


2(1−α)
la regla de decisión es rechazar H0 si T > χk−1 .

Prueba de McNemar

Ver página 95.


La prueba de McNemar, sirve para verificar con un nivel de significancia α que un
“tratamiento”induce un cambio en la respuesta del mismo. Formulando el contraste de
la prueba de hipótesis se tiene:

H0 : El tratamiento no induce cambios significativo en la respuesta de la muestra vs.


Ha : El tratamiento induce cambios significativo en la respuesta de la muestra

(B−C)2
Se usa la estadı́stica T = B+C
sigue una distribución χ2(1) .
D0e esta manera la regla de decisión es: rechazar H0 con un nivel de significancia
2(α/2) 2(1−α/2)
α cuando T < χ(1) o T > χ(1) .

Prueba de Bartlett

Ver página 97.


C.1 Estadı́stica no paramétrica 135

La prueba de Bartlett prueba con un cierto nivel de significancia α la homogeneidad


en la varianza de r muestras aleatorias con c observaciones cada una, de esta manera
se define la prueba de hipótesis como:

H0 : σ12 = σ22 = . . . = σr2 vs. Ha : σ12 6= σ22 6= . . . 6= σr2

Para contrastar la prueba de hipótesis de Bartlett, se utiliza la estadı́stica T la cual


sigue una distribución χ2(r−1) . Además defı́nase N como el número de elementos puestos
a observación, es decir, N = ri=1 ci , entonces:
P

(N − r) ln(Sp2 ) − (c − 1) ri=1 ln(Si2 )


P
T =   (C.2)
1 r
− N1−r

1 + 3(r−1) c−1

donde:

Pr
SCi SCi
Sp2 = i=1
y Si2 =
N −r c−1
A su vez SCi se define como la suma de cuadrados de la forma:
P 2
c
Xc x
j=1 ij
SCi = x2ij −
j=1
c

De esta manera la regla de decisión se define como, rechazar H0 con un nivel de


2(1−α)
significancia α cuando T > χ(r−1) , en otro caso la prueba no se rechaza.
136 Formulario

Referencias

Bollen, K. A., y Jackman, R. W. (1985, may). Regression diagnostics. Sociological


Methods & Research, 13 (4), 510–542. doi: 10.1177/0049124185013004004
Conover, W. J. (1998). Practical nonparametric statistics. John Wiley
& Sons. Descargado de https://www.ebook.de/de/product/3644579/w j
conover practical nonparametric statistics.html
Cramer, H. (1999). Mathematical methods of statistics (pms-9), volume 9. PRINCE-
TON UNIV PR. Descargado de https://www.ebook.de/de/product/3646411/
harald cramer mathematical methods of statistics pms 9 volume 9.html
Draper, N. R. (1998). Applied regression analysis. Wiley-Blackwell. Des-
cargado de https://www.ebook.de/de/product/3055944/norman r draper
applied regression analysis.html
Frees, E. W. (2015). Regression modeling with actuarial and financial applications.
Cambridge University Press. Descargado de https://www.ebook.de/de/
product/9549208/edward w frees regression modeling with actuarial
and financial applications.html
George Casella, R. B. (2001). Statistical inference. Cengage Learning,
Inc. Descargado de https://www.ebook.de/de/product/3248529/
george university of florida casella roger arizona state university
berger statistical inference.html
Gomez Gomez, M., Danglot Banck, C., y Vega Franc, L. (2003). Sinopsis de pruebas
estadisticas no parametricas. cuando usarlas. Revista de Pediatria, 70 (2), 91-99.
Graybill, F. A. (1961). Introduction to linear statistical models (McGraw-Hill, Ed.).
Guzman, M. (1994). Prueba de wald wolfowitz (Vol. 12; C. en Estadistica y Computo,
Ed.) (n.o 2). Montecillo, Edo. de Mexico: Colegio de Postgraduados, Centro de
Estadistica y Calculo.
Hair, J. F., Tatham, R. L., Anderson, R. E., y Black, W. (1998). Multivariate
data analysis (5th edition). Prentice Hall. Descargado de https://www
.amazon.com/Multivariate-Data-Analysis-Joseph-Hair/dp/0138948585
?SubscriptionId=AKIAIOBINVZYXZQZ2U3A&tag=chimbori05-20&linkCode=
xm2&camp=2025&creative=165953&creativeASIN=0138948585
Hogg Robert V, A. T. C., Joseph McKean. (2018, may). Introduction to mathematical
statistics. Pearson, 23 (3), 716–717.
Izquierdo, S. A. (1998). Historia y desarrollo de la actuaria y sus ciencias auxiliares.
Tesis para obtener el titulo de actuario. (Universidad Nacional Autonoma de
Mexico)
Jean Dickinson Gibbons, S. C. (2010). Nonparametric statistical inference. Gibb-
SonTaylor & Francis Ltd. Descargado de https://www.ebook.de/de/product/
7364962/jean dickinson gibbons subhabrata chakraborti nonparametric
Referencias 137

statistical inference.html
Kruskal, W. H., y Wallis, W. A. (1952, dec). Use of ranks in one-criterion variance
analysis. Journal of the American Statistical Association, 47 (260), 583–621. doi:
10.1080/01621459.1952.10483441
McNemar, Q. (1947, jun). Note on the sampling error of the difference between
correlated proportions or percentages. Psychometrika, 12 (2), 153–157. doi: 10
.1007/bf02295996
Mejia, H. A. R. (2001). Algebra lineal. Prensas de Ciencias.
Mood, A. (1974). Introduction to the theory of statistics. McGraw-Hill Education.
NCCS. (s.f.). Analysis of runs. NCCS Statiscal Software, Chapter 256 . Descargado
de https://ncss-wpengine.netdna-ssl.com/wp-content/themes/ncss/pdf/
Procedures/NCSS/Analysis of Runs.pdf
Pearson, K. (2013). On the theory of contingency and its relation to association and
normal correlation. HardPress Publishing. Descargado de https://www.ebook
.de/de/product/32047345/karl pearson on the theory of contingency
and its relation to association and normal correlation.html
Pena, D. (2002). Analisis de datos multivariantes. McGraw-Hill Interamericana
de Espana S.L. Descargado de https://www.ebook.de/de/product/8559396/
daniel pena analisis de datos multivariantes.html
Phoebus Dhrymes, J. G. (2017). Introductory econometrics. Springer-
Verlag GmbH. Descargado de https://www.ebook.de/de/product/29672392/
phoebus dhrymes john guerard introductory econometrics.html
Robert S. Pindyck, D. L. R. (2001). Econometria: Modelos y pronosticos (McGraw-Hill,
Ed.).
Siegel, S. (2012). Estadistica no parametrica (E. TRILLAS, Ed.). N. John Castellan.
Stephen H. Friedberg, L. E. S., Arnold J. Insel. (2002). Linear algebra (4th Edicion
ed.; Pearson, Ed.).
UNAM. (s.f.). Actuaria. Descargado de http://oferta.unam.mx/actuaria.html
Verzani, J. (2002). Using r for introductory statistics. CSI Math department. Descar-
gado de https://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf
Wayne, D. (1990). Applied nonparametric statistics. Boston: PWS-KENT Pub.
White, H. (1980). A heteroskedasticity-consistent covariance matrix estimator and
a direct test for heteroskedasticity. Econometrica. Descargado de https://www
.jstor.org/stable/1912934?seq=1#page scan tab contentsl
Whitney, H. B. M. D. R. (1947). On a test of whether one of two random variables
is stochastically larger than the other. The Annals of Mathematical Statistics,
50-60.
Wilcoxon, F. (1945). Individual comparisons by ranking methods (I. B. Society,
Ed.). Biometrics Bulletin. Descargado de https://sci2s.ugr.es/keel/pdf/
algorithm/articulo/wilcoxon1945.pdf
138 Formulario

Wolfowitz, A. W. J. (1940). On a test wheter two samples are from same population.
The Annals of Mathematical Statistics, 147-162.

También podría gustarte