Documentos de Académico
Documentos de Profesional
Documentos de Cultura
31 de agosto de 2021
Índice general
Prefacio 1
2.2. Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3. Tablas de contingencia 53
3
4 ÍNDICE GENERAL
B. Tablas 113
B.1. Valores Crı́ticos de la prueba de Kolmogorov-Smirnov . . . . . . . . . . 113
B.2. Valores Crı́ticos de la prueba de Lilliefors . . . . . . . . . . . . . . . . . 116
B.3. Valores Crı́ticos de la prueba de Anderson Darling . . . . . . . . . . . . 117
B.4. Cuantiles de la estadı́stica Wald-Wolfowitz . . . . . . . . . . . . . . . . 118
B.5. Cuantiles de la estadı́stica ρ de Spearman . . . . . . . . . . . . . . . . 120
B.6. Cuantiles de la estadı́stica τ de Kendall . . . . . . . . . . . . . . . . . 122
B.7. Cuantiles de la estadı́stica de Wilcoxon . . . . . . . . . . . . . . . . . 124
C. Formulario 127
C.1. Estadı́stica no paramétrica . . . . . . . . . . . . . . . . . . . . . . . . 127
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Prefacio
1
2 Prefacio
Ventajas Desventajas
Determinación sencilla, generalmente Al realizar la prueba se pierde informa-
mediante el cálculo de una estadı́stica ción de la muestra ya que en muchos
dado casos se requiere formar estratificacio-
nes arbitrarias
A mayor tamaño de muestra mejores No recomendable para pruebas meno-
estimaciones res de 20 observaciones
Pocos supuestos para realizar la esti- Muchos de los procesos son iterativos,
mación por lo que en ocasiones sin software es-
pecializado puede ser un poco tedioso.
Introducción a pruebas no
paramétricas
1
2 Introducción a pruebas no paramétricas
La prueba para proporciones es de gran utilidad ya que es una auxiliar para de-
mostrar las afirmaciones sobre la proporción o la probabilidad “p” esperada de que
ocurra un cierto suceso en una muestra aleatoria. De esta forma se plantea la siguiente
hipótesis:
H0 : p = p∗ vs. H1 : p 6= p∗ ,
donde p∗ es la proporción o probabilidad que se desea poner a prueba, es decir, mediante
esta prueba de hipótesis se busca conocer si la proporción que se plantea se apega
a los datos con un nivel de significancia α, por consiguiente, la zona de rechazo es
determinada por α.
Una vez definido lo anterior, se enfocará la atención en la probabilidad de caer en el
evento clase 1; es por ello que se define a la estadı́stica de prueba como T = ni=1 1xi ∈C1 ,
P
T = O1 .
Los datos que más interesan en esta prueba son los valores que se encuentran
alejados tanto a la derecha como a la izquierda respecto de la media, ya que serı́an
datos que caerı́an en la zona de rechazo, en caso de que esto ocurra se tendrı́a evidencia
suficiente para rechazar la hipótesis nula. Debido a que se busca la igualdad en la
hipótesis nula se genera dos colas, es por ello que es conveniente definir a α = α1 + α2 .
Por lo anterior se buscan los puntos crı́ticos t1 y t2 tal que cumplan con:
P [Y ≤ t1 ] = α1 ,
y análogamente con valores
P [Y ≤ t2 ] = 1 − α2 ,
donde Y ∼ Bin(n, p∗ ).
De esta forma se rechaza H0 si T ≤ t1 o si T > t2 , ya que una T mayor o menor a
estas bandas significarı́a que se observan valores muy alejados de la media por lo que
se tendrı́a evidencia para rechazar la hipótesis nula. En cualquier otro caso, se no se
rechaza la hipótesis nula, es decir H0 : p = p∗ .
El p − value de acuerdo a la metodologı́a usada en (Conover, 1998), equivale a:
p − value = 2 ∗ min {P [Y ≤ T ] , P [Y ≥ T ]} ,
1.1 Pruebas para proporciones 3
t1 T t2
0.18
0.15
0.1
f(x)
0.05
5 10 15 19
Éxitos
t1 t2 T
0.18
0.15 p−value
0.1
f(x)
α2
0.05
5 10 15 19
Éxitos
Figura 1.1: Distribución binomial con los puntos crı́ticos y una distribución T teórica.
4 Introducción a pruebas no paramétricas
H0 : p ≤ p∗ vs. H1 : p > p∗ .
Para valores grandes de T o alejados por la derecha respecto a la media indican que
H0 es falso, por lo tanto la región de rechazo serı́a cuando:
P [Y ≤ t] = 1 − α
P [Y > t] = α,
debido a que la distribución asociada a Y es discreta, se puede reescribir la anterior
ecuación como:
P [Y ≥ t + 1] = α,
p − value = P [Y ≥ T ],
H0 : p ≥ p∗ vs. H1 : p < p∗ .
1.1 Pruebas para proporciones 5
Los éxitos serán considerados cada vez que salga en la moneda una cara, de esta
manera se observa 7 éxitos, es decir, T = 7, se evalúan las regiones de rechazo con un
nivel de significancia α = 0.05, es decir, con un nivel de confianza 1 − α = 0.95 para
validar que p = 0.5. La distribución binomial es simétrica, por lo tanto es válido suponer
que α construida de la forma α = α1 + α2 puede particionarse como: α1 = α2 = 0.025.
Por lo tanto, se debe encontrar el valor de t1 de la siguiente igualdad:
P [Y ≤ t1 ] = 0.025,
donde Y ∼ Bin ∼ (10, 0.5), debido a que la distribución binomial es discreta en la
mayorı́a de las ocasiones no será posible encontrar el valor t1 , t2 que proporcione el valor
exacto en relación al nivel α buscando. En el caso particular de este ejercicio existen
dos posibles valores para el cuantil t1 que se encuentran cercanos al nivel α1 = 0.025.
P (Y ≤ t1 = 1) = 0.010.
P (Y ≤ t1 = 2) = 0.054.
6 Introducción a pruebas no paramétricas
P [Y ≤ t2 ] = 1 − 0.025
P (Y ≤ t2 = 7) = 0.9453
P (Y ≤ t2 = 8) = 0.9892
p − value = 2 ∗ min (P [Y ≤ T ] , P [Y ≥ T ])
= 2 ∗ min (P [Y ≤ 8] , P [Y ≥ 8])
= 2 ∗ min (P [Y ≤ 8] , P [Y ≥ 8])
= 2 ∗ min (0.98 , 0.05469)
= 2 ∗ (0.05469)
p − value = 0.1093.
El éxito es representado como que el automóvil sufra algún accidente, ası́ se observan
900 éxitos, es decir, T = 900, se evalúan las regiones de rechazo con α = 0.05 .
Por lo tanto, se necesita buscar a t tal que cumpla con:
P [Y ≤ t] = 1 − 0.5
P [Y ≤ t] = 0.95
P (Y ≤ t = 402) = 0.948
P (Y ≤ t = 403) = 0.954
p − value = P [Y ≥ T ]
= P [Y ≥ 900]
p − value = 0.00000000001
sample estimates:
p
0.6
1 0 0 0 1 1 0 0 1 0
De esta manera, se contabilizan los elementos que conforman dicha categorı́a, sea
n1 las observaciones de un tipo, y n2 las observaciones de la otra categorı́a. Además
suponga que existe r1 corridas de elementos del tipo 1 y r2 corridas del segundo tipo,
entonces el número de rachas totales se define como R donde R = r1 + r2 . Debido a
que el número de corridas es el que ayudará a decir si la muestra es aleatoria o no,
la prueba se basa en la distribución del número R de corridas que se presenta en la
secuencia de observaciones, de esta manera se construye una prueba de hipótesis en la
que la hipótesis nula representa que la muestra se comporta de manera aleatoria.
Rmin = 2,
1111 000000
0 1 0 1 0 1 0 1 00
1.2 Prueba de corridas o rachas 11
De esta manera igual puede observar que el valor esperado de rachas dados n1 y n2
queda delimitado por:
n1 n2
E[R] = n1 +n2 +1
2
2n1 n2
E[R] = +1
n1 + n2
2n1 n2
∴ E[R] = +1
n
De manera análoga, para la varianza de R dados n1 y n2 , es:
2n1 n2 (2n1 n2 − n1 − n2 )
V ar[R] =
(n1 + n2 )2 (n1 + n2 − 1)
2n1 n2 (2n1 n2 − n)
V ar[R] =
n2 (n − 1)
2n1 n2 2n1 n2 − n
V ar[R] = ,
n n(n − 1)
sumando un 0
2n1 n2 2n1 n2 − n
V ar[R] = +1−1 ,
n n(n − 1)
2n1 n2
sustituyendo por E[R] = n
+1
2n1 n2 − n
V ar[R] = (E[R] − 1)
n(n − 1)
E[R] − 1 2n1 n2 − n
V ar[R] =
n−1 n
E[R] − 1 2n1 n2
V ar[R] = −1 ,
n−1 n
sumando un 0
E[R] − 1 2n1 n2
V ar[R] = −1+2−2 ,
n−1 n
2n1 n2
sustituyendo por E[R] = n
+1
E[R] − 1
V ar[R] = (E[R] − 2)
n−1
(E[R] − 1) (E[R] − 2)
∴ V ar[R] =
n−1
12 Introducción a pruebas no paramétricas
Distribución exacta
Para calcular la distribución exacta de una serie dicotómica se debe calcular las
probabilidades de obtener determinados números de rachas condicionales en n1 y n2 .
Si la muestra es aleatoria, la probabilidad de que el número total de rachas sea un
número par es
n1 − 1 n2 − 1
2 v v
2
−1 −1
P (T = v|H0 es cierta) = 2 , si v es par
n
n1
n1 − 1 n2 − 1 n1 − 1 n2 − 1
v−1 v−1 + v−1 v−1
2
−1 2
−1
P (T = v|H0 es cierta) = 2 2
, si v es impar,
n
n1
n1 − 1 n2 − 1
2 v
v
2
−1 2
−1
, si v es par
n
n1
f (v) = P [T = v] =
n1 − 1 n2 − 1 n1 − 1 n2 − 1
v−1 v−1 + v−1 v−1
2
−1 2 2 2
−1
, si v es impar
n
n1
v
X
F (v) = P [T ≤ v] = P (T = i),
i=Rmin
1.2 Prueba de corridas o rachas 13
S(v) = P [T ≥ v] = P (T = i),
i=v
donde los cuantiles Wα/2 y W1−α/2 son tales que P (R ≤ Wα/2 ) = α2 , P (R ≤ W1−α/2 ) =
1− α2 evaluadas en sus correspondientes distribuciones asociadas en la estadı́stica R, que
se mencionó anteriormente, una evaluación en determinados puntos se puede encontrar
en el apéndice B.4.
Distribución asintótica
R ∼ N ormal(E[R], V ar[R]),
estandarizando se tiene:
R − E[R]
Z=p ∼ N (0, 1),
V ar[R]
donde E[R] y V ar[R] es la esperanza y varianza obtenidas anteriormente.
Esta distribución aunque es adecuada suele ser, a nivel teórico, menos precisa que
la distribución exacta, pero su cálculo es más sencillo y cuando el tamaño de muestra
es lo suficientemente grande las conclusiones son parecidas.
Uno de los principales problemas de la aproximación normal es que se intenta
ajustar una distribución discreta por medio de una distribución continua, como es
14 Introducción a pruebas no paramétricas
el caso de la distribución Normal, es por ello que algunos autores mencionan realizar
un ajuste de continuidad. Este ajuste suele proporcionar mejores estimaciones que
la aproximación normal, siendo esta una mejora en la estimación, sin embargo, no
sustituye a la distribución real. El ajuste de continuidad que se propone es:
R−E[R]−0.5
√ si R ≥ E[R]
V ar[R]
Zcc = R−E[R]+0.5
√ si R < E[R]
V ar[R]
n = n1 _ aux + n2 _ aux
media = (2 * n1 _ aux * n2 _ aux ) / n +1
desviacion = sqrt (( media -1) * ( media -2) / (n -1) )
}
}
}
Tabla _ WaldWolf = data . frame ( n1 , n2 , W005 , W01 , W025 , W05 , W1 , W9 , W95 , W975 , W99 ,
W995 )
tail ( Tabla _ WaldWolf )
1.2 Prueba de corridas o rachas 15
Ejemplo 3. Suponga que compra el boleto para una rifa, el boleto le da la opor-
tunidad de ganar alguno de los 20 premios disponibles. El organizador asegura que
el procedimiento es completamente aleatorio. Para el dı́a de la rifa se han vendido
100 boletos. Después de realizar la rifa, los boletos ganadores fueron:
27 57 15 10 74 51 31 86 56 6
13 77 3 43 44 65 4 5 48 98
Usted duda y quiere comprobar la hipótesis del organizador, que la resultados fueron
aleatorios, con un nivel de significancia del 5 %.
Dado que se tiene múltiples datos y la prueba de corridas es dicotómica, se procede
a categorizar los resultados para formar dos subclases ambas excluyentes la una de la
otra. Para ello se ordena la información y se escoge como medida la mediana, (algunos
autores recomiendan elegir la media X̄), se propone a la mediana con la finalidad de
tener en ambos subgrupos el mismo número de elementos (con diferencia de +1 en caso
de que el tamaño de muestra sea impar) en este caso la mediana de la muestra es 43.5.
Una vez categorizada la información, los valores que son menores a la mediana se
les asignará la letra p, y los que son mayores a la mediana se les asignará la letra q, de
esta manera con la nueva asignación se genera una muestra aleatoria dicotómica.
p q p p q q p q q p
p q p p q q p p q q
Con los nuevos valores se contabilizan las rachas que tiene el modelo. De manera en
particular para el ejercicio se tiene: 12 rachas (R = 12), las cuales 6 corridas correspon-
den a números menores de 43.5,(r1 = 6), el resto corresponde a observaciones mayores
16 Introducción a pruebas no paramétricas
a 43.5, (r2 = 6), a continuación se muestran las cadenas de rachas que se tienen en el
experimento de la feria.
p q pp qq p qq pp q pp qq pp qq
Runs Test
data: XFactor
Standard Normal = -0.45947, p-value = 0.6459
alternative hypothesis: two.sided
g p g g p g p p p g p p g g p g g p g p g p g p p g p g p,
donde g significa “ganó el juego” y p significa “perdió el juego”. ¿Puede decirse que
el récord de sus triunfos y derrotas es aleatorio?. Supongamos que α = 0.05.
g p gg p g ppp g pp gg p gg p g p g p g pp g p g p
R = 22 rachas
Sea n el tamaño de la muestra (total de juegos), entonces n = 29.
n1 = número de juegos ganados = 14
n2 = número de juegos perdidos = 15
La región crı́tica está definida como:
C= r | r < ωα/2 o r > ω1−α/2
donde ωα/2 = ω.025 = 10 y ω1−α/2 = ω.975 = 20. Como R = 22 > 20 = ω.975 se puede
concluir que el récord de triunfos y derrotas del equipo no es aleatorio, i.e. existe cierta
tendencia.
15 77 01 64 69 58 40 81 16 60 20 00 84 22
28 26 46 66 36 86 66 17 49 85 40 51 30 10
00 01 10 15 16 17 20 22 26 28 30 36 40 40
46 49 51 58 60 64 66 66 69 77 81 84 85 86
e = 40+46
como el total de observaciones: n = 28 es par, la mediana es x 2
= 43. Denotando
por “a” a los números menores a la mediana y por “b” a los mayores, la sucesión original
queda de la siguiente forma:
a b a bbb a b a b aa b aaa bb a bb a bb a b aa
Dada una distribución (Normal, Poisson, Gamma, etc.) es fácil dar estimaciones
acerca de los valores los parámetros desconocidos asociados a la distribución propues-
ta. Sin embargo, en la práctica, al realizar un muestreo difı́cilmente se conocerá la
distribución que los datos siguen, es por ello que se idearon métodos para ajustar a la
muestra aleatoria un modelo no paramétrico, estos métodos son denominados “pruebas
de bondad de ajuste”, en todos ellos se ajusta un modelo con un nivel de significancia
α para probar la hipótesis:
19
20 Pruebas de bondad de ajuste
en otro caso, no se rechaza H0 . A pesar de ser una de las pruebas más sencillas para
probar que una muestra sigue una determinada distribución, presenta una serie de
supuestos para su realización:
Clases con menos de 5 observaciones deben de ser combinadas con otra clase con
la finalidad de no poseer clases pequeñas.
Menos del 20 % de los datos deben de ser combinados en diversas clases para ası́
dar buenas aproximaciones.
Las clases son definidas por el investigador por lo que las k categorı́as son com-
pletamente arbitrarias lo que puede provocar que la prueba sea no sea válida para
diversos juicios.
Celda i 1 2 3 ··· k
Número de observaciones en la celda i n1 n2 n3 ··· nk
Probabilidad de que el resultado esté en la celda i p1 p2 p3 ··· pk
Considerando cada celda por separado, cada vez que el resultado caiga en dicha
celda puede pensarse en un éxito y después de efectuar las n repeticiones del experi-
mento, sólo es relevante el total de veces que el resultado cayó en la celda. Lo anterior,
sugiere asociar una distribución binomial para cada celda, siendo pi la probabilidad
de éxito en un sólo ensayo del experimento y, como se efectúan n de tales ensayos, el
número esperado de éxitos para la i-ésima celda será la esperanza de la correspondiente
variable binomial, es decir npi . Ası́, para cada una de las celdas se tendrı́a que:
oi n1 n2 . . . nk
ei np1 np2 . . . npk ,
donde oi representa las frecuencias observadas y ei representa las frecuencias esperadas
en un total de n realizaciones del experimento. En este contexto, es posible plantear
el problema de bondad de ajuste mediante la siguiente pregunta: ¿cómo se puede
determinar si un conjunto de resultados experimentales es compatible con los resultados
esperados de acuerdo con las probabilidades que fueron postuladas para las celdas?
Formalmente, se desea probar la hipótesis:
H0 : pi = πi , i = 1, 2, ..., k;
donde las πi0 s son los valores postulados de las probabilidades de las celdas. Ésta es
una hipótesis simple; sin embargo, y debido a que ordinariamente no se tiene una
hipótesis alternativa en mente, se emplea aquı́ una prueba de razón de verosimilitudes
generalizadas.
La función de verosimilitud (o densidad conjunta de la muestra), para una variable
aleatoria discreta es la probabilidad de obtener los valores muestrales observados en el
orden en el cual fueron obtenidos, es decir:
tanto, para encontrar los estimadores máximo verosı́miles de las pi ’s, se reemplazará
pk por 1 − k−1
P
i=1 pi , quedando:
k−1
!nk
n
X
L (θ) = pn1 1 pn2 2 pn3 3 ...pk−1k−1
1− pi .
i=1
ni nk
⇒ = , i = 1, 2, ..., k
pi pk
⇒ ni pk = nk pi , i = 1, 2, ..., k
pk n = nk ,
por lo tanto
nk
. pbk =
n
Este resultado puede generalizarse a las demás pi ’s como:
ni
pbi = , i = 1, 2, ..., k.
n
Bajo la hipótesis nula:
L (θ) = π1n1 π2n2 ...πknk ,
la cual no tiene parámetros desconocidos, por lo que el cociente de verosimilitudes
generalizadas resulta ser:
máxθ∈Θ0 L (θ)
λ =
máxθ∈Θ L (θ)
π n1 π n2 ...π nk
= n1 n1 1 n22n2 k nk nk
... n
n n1n n n
nπ1 nπ2 2 nπk k
= ... ,
n1 n2 nk
donde cada ni tiene distribución Binomial(n, pi ) . Encontrar la distribución de λ es
complicado, ası́ que se puede utilizar la distribución asintótica de -2 ln λ como una
Ji-cuadrada con grados de libertad igual a la diferencia en el número de parámetros
independientes no especificados bajo Θ y Θ0 , en este caso, k − 1. Entonces la prueba
se reduce a considerar:
k
X nπi
−2 ln λ = −2 ni ln ,
i=1
n i
24 Pruebas de bondad de ajuste
como una variable aleatoria con distribución Ji-cuadrada con k − 1 grados de libertad
y la región crı́tica queda determinada por:
λ ≤ λ0 ,
si y sólo si
ln λ ≤ ln λ0 ,
si y sólo si
−2 ln λ ≥ −2 ln λ0 = c,
donde
k
X nπi
−2 ln λ = −2 ni ln
i=1
ni
k
X πi
= −2 ni ln
i=1
ni /n
k
X ni
= −2 ni ln πi − ln . (2.2)
i=1
n
C = {−2 ln λ ≥ c} ,
o ( )
k
X ni
C = −2 ni ln πi − ln ≥c ,
i=1
n
Karl Pearson propuso la expresión (2.1) como estadı́stica de prueba para el problema
de bondad de ajuste, la cual es equivalente a:
k
X (ni − ei )2
T = , (2.3)
i=1
ei
donde ei representa el valor esperado en la celda i, es decir npi y, bajo Ho, ei = nπi .
A continuación se demostrará que la expresión para −2 ln λ dada en (2.2) es asintóti-
camente equivalente a (2.3).
2.1 Prueba Ji-Cuadrada 25
ni
La expansión en series de Taylor para ln pi alrededor de pbi = n
es:
(pi − pbi )2
1 1
ln pi = ln pbi + (pi − pbi ) + − 2 +ε
pbi 2! pbi
n
2 2
pi − ni
ni ni n n
= ln + pi − − + ε,
n n ni 2 ni
o
ni ni n ni 2 n2
ln pi − ln = pi − − pi − + ε, (2.4)
n n ni n 2n2i
donde ε representa la suma de términos con signo alternante:
∞
X j+1
ni j nj
(−1) pi − .
j=3
n j!nji
donde
k
X k
X k
X
(nπi − ni ) = n πi − ni = n − n = 0,
i=1 i=1 i=1
expresión que, bajo la hipótesis nula pi = πi , es muy similar a (2.3), excepto por el
denominador, pues ei = nπi .
26 Pruebas de bondad de ajuste
ni
Por la Ley Débil de los Grandes Números se sabe que la variable aleatoria n
converge en probabilidad a pi , es decir:
h n i
i
lı́m P − pi > ε = 0, para toda ε > 0,
n→∞ n
lo cual es equivalente a:
1
lı́m P (|ni − npi | > ε) = 0, para toda ε > 0
n→∞ n
o
1
lı́m P (|ni − npi | < ε) = 1, para toda ε > 0,
n→∞ n
concluyendo que cuando n → ∞, es posible sustituir a ni por npi , por lo que bajo la
hipótesis nula, (2.7) se puede escribir como
k
X (ni − nπi )2
−2 ln λ = ,
i=1
nπi
Frecuencia
Eventos Observada
0 58
1 75
2 36
3 15
4 10
5 6
2.1 Prueba Ji-Cuadrada 27
Frecuencia Probabilidad
Eventos Observada Esperada
−1.02 1.020
0 58 e 0!
= 0.36059494
−1.02 1.021
1 75 e 1!
= 0.367806839
−1.02 1.022
2 36 e 2!
= 0.187581488
−1.02 1.023
3 15 e 3!
= 0.063777706
−1.02 1.024
4 10 e 4!
= 0.016263315
5 6 1 − P (X ≤ 4) = 0.003975712
ê = nP (xi ).
P (Oi −ei )2
3. Se obtiene la estadı́stica T = ei
= 51.3152
Por lo que la estadı́stica T cae en la región de rechazo, ası́ que se tiene evidencia
suficiente para rechazar la hipótesis nula, la cual propone que los datos tienen
una distribución Poisson con parámetro λ = 1.02.
28 Pruebas de bondad de ajuste
data: Oi
X-squared = 51.315, df = 5, p-value = 7.454e-10
Warning message:
In chisq.test(x = Oi, p = pi) : Chi-squared approximation may be incorrect
Se observa que ambos resultados son similares, debido al p − value = 7.454e − 10 <
α = 0.05 lo que conlleva a que se rechace la hipótesis nula con un nivel de significancia
del 5 % por lo que hay evidencia suficiente para suponer que la muestra no sigue una
distribución Poisson con parámetro λ = 1.02.
2.2. Kolmogorov-Smirnov
distribución conocida Fx∗ (Xi ). Para probar la suposición de la distribución Fx∗ (Xi ) se
realiza la siguiente contraste:
Al tener una distribución desconocida F (Xi ), la función empı́rica Fn (Xi ) puede ser
usada como un estimador insesgado de F (Xi ) pues:
Pn
i=11x≤Xi
E(Fn (Xi )) = E
n
Pn
= i=1 E (1x≤Xi ) ,
n
n
E(Fn (Xi )) = E (1x≤Xi )
n
= P (x ≤ Xi )
E(Fn (Xi )) = F (Xi ).
Dn = sup |Fn (Xi )−Fx∗ (Xi )| = max{max{Fn (Xi−1 )−Fx∗ (Xi )}, max{Fn (Xi )−Fx∗ (Xi )}} ∀i.
x∈R
Demostración:
Sea Dn = Sup|Fn (Xi ) − Fx∗ (Xi )| = max(D+ , D− ). Si se define a X(0) = −∞ y
x x
X(n+1) = ∞, se puede escribir la función empı́rica de la siguiente forma, recuerde que
la función real de los datos que se quiere comprobar sigue una distribución continua.
i
Fn (Xi ) = para X(i) ≤ x ≤ X(i+1) , i = 0, 1, . . . , n
n
Dn = max(Dn+ , Dn− )
i ∗ i−1 ∗
Dn = max max max − Fx (Xi ) , 0 , max max − Fx (Xi ) , 0
o≤i≤n n o≤i≤n n
i ∗ i−1 ∗
Dn = max max − Fx (Xi ) , max − Fx (Xi ) , 0 .
o≤i≤n n o≤i≤n n
Di− = |P (X ≤ xi ) − Fn (xi−1 )|
D+ = max{Di+ } D− = max{Di− }
En este caso:
D = max{D+ , D− }
∴ W0.05 = 0.337
De esta manera se tiene que 0.337 = W0.05 > D = 0.186, como la estadı́stica W0.05
es mayor a comparación de D = 0.186 se acepta la prueba de lognormalidad con
media 1 y varianza 0, con un nivel de significancia α = 0.05.
34 Pruebas de bondad de ajuste
Dn = sup |Fn (Xi )−Fx∗ (Xi )| = max{max{Fn (Xi−1 )−Fx∗ (Xi )}, max{Fn (Xi )−Fx∗ (Xi )}} ∀i
x∈R
P (Dn ≤ W1−α ) = 1 − α
∗
P sup |Fn (Xi ) − Fx (Xi )| ≤ W1−α = 1 − α
x
Por lo tanto si la distribución propuesta es verdadera entonces Fx∗ (Xi ) ∈ (Fn (Xi ) ∓ W1−α ),
es decir, debe de estar contenida en las bandas de confianza con un nivel de significancia
α. Esto puede ser observado en el siguiente ejemplo:
7. Finalmente realizados Di− y Di+ , se observa cual es máximo de las dos, ası́ se
tiene:
D+ = max{Di+ } D− = max{Di− }
En este caso:
D = max{D+ , D− }
∴ W0.05 = 0.43001
10. Una vez aceptada la prueba se calculan los intervalos de confianza de manera
que la banda inferior es Fn (Xi ) − W1−α y la superior es Fn (Xi ) + W1−α de esta
manera se tiene:
Se observa que efectivamente, entre más grande sea el tamaño de la muestra, la fun-
ción empı́rica se aproxima más a la distribución propuesta, por lo que numéricamente
la siguiente proposición es válida:.
data: x
D = 0.18649, p-value = 0.609
alternative hypothesis: two-sided
38 Pruebas de bondad de ajuste
1.0
1.0
Función de probabilidad
Función de probabilidad
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
−1.5 −0.5 0.5 1.5 −1 0 1 2
Observados Observados
1.0
Función de probabilidad
Función de probabilidad
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
−2 −1 0 1 2 3 −4 −2 0 2
Observados Observados
data: x
D = 0.15348, p-value = 0.9629
alternative hypothesis: two-sided
# ## Banda inferior
ecdf . ks . CI ( x ) $ lower
# # banda superior
ecdf . ks . CI ( x ) $ upper
Las bandas son iguales a la que obtuvo en el ejercicio de los peces, por lo que
graficando la distribución real, la empı́rica, ası́ como los intervalos de confianza.
# ## Grafico
ecdf . ks . CI ( x )
curve ( pnorm (x , 1.684 , 0.242) , add = TRUE , col =3)
40 Pruebas de bondad de ajuste
1.0
0.8
0.6
Fn(x)
0.4
0.2
0.0
x
n= 9
P (Dn ≤ c) = 1 − α,
lo es equivalente a
1 − P (Dn ≤ c) = α
P (Dn > c) = α.
P (Dn ≤ W1−α ) = 1 − α,
lo es equivalente a
1 − P (Dn ≤ W1−α ) = α
P (Dn > W1−α ) = α.
2.2 Kolmogorov-Smirnov 41
De estas últimas igualdades se observa que c = W1−α ; Dado que se conoce el nivel
de significancia α, el porcentaje de error en la estimación c y que la única variable que
se desconoce es el tamaño de la muestra n, ésta puede obtenerse de la tabla de cuantiles
de la prueba de Kolmogorov-Smirnov mostrada en el apéndice B.1 . Para ejemplificar
se tiene el siguiente ejemplo:
Ejemplo 9. Usted desea tomar una muestra de una población especificada, por lo que
se pregunta cuál deberı́a ser el mı́nimo tamaño muestral que garantice que el error en
la estimación sea menor a 0.27 con un nivel de confianza del 99 %.
Solución:
Cómo se desea un nivel de confianza del 99 % entonces el nivel de significancia es
0.01, por lo que en la columna α = 0.01 de la tabla B.1, se busca el valor c = 0.27, lo
0.97
cual es hallado cuando n = 35 (W35 = 0.26897) ya que es el valor más próximo por
abajo de 0.27. De esta manera el tamaño mı́nimo de la muestra debe ser de al menos
35 elementos.
La tabla B.1 está acotada a valores menores o iguales a 50 elementos, si se desea
obtener cuantiles mayores a éstos se usan aproximaciones, las cuales de igual manera
son mostradas en la tabla de Kolmogorov-Smirnov. Para ello vea el siguiente ejemplo:
Ejemplo 10. Usted desea tomar otra una muestra de la misma población especificada,
pero ahora busca el mı́nimo tamaño muestral que garantice que el error en la estimación
sea menor a 0.10 con un nivel de confianza del 95 %.
Solución:
Cómo se desea un nivel de confianza del 95 % entonces el nivel de significancia es
0.05, por lo que en la columna α = 0.05 de la tabla B.1, se busca el valor c = 0.10,
como no es hallado dentro de los primeros 50 elementos usa la aproximación indicada
0.8043545
√
n
, esta aproximación es probada para diversos valores de n hasta que se satisfaga
con ser el primer tamaño que tenga un cuantil por debajo de 0.10, lo cual es logrado
cuando n = 77 ya que:
0.99 0.875897
W77 = p = 0.09981773
(77)
Como su nombre lo indica la prueba de Lilliefors puede ser usada para probar con
un nivel de significancia dado, que una muestra aleatoria sigue una distribución normal
con media X̄ y varianza S 2 , los cuales corresponden a los estimadores puntuales de la
media y varianza denotados como:
n Pn 2
Xi i=1 Xi − X̄
X
2
X̄ = y S = .
i=1
n n − 1
Ejemplo 11. Los siguientes datos, corresponden a una muestra aleatoria en la que
mide la perdida y ganancia de peso en KG de un grupo después vacaciones.
H0 : La muestra ∼ N (µ, σ 2 )
vs.
Ha : La muestra N (µ, σ 2 )
6. Se calcula la función empı́rica menos uno, Fn (xi−1 ), para fines de este ejercicio.
0 1 14
Fn (xi−1 ) = , ,..., .
15 15 15
7. Se realiza la estandarización de la normal, este paso no es necesario, pero se hace
para la facilitar la búsqueda de valores acumulados de una normal estándar a
través de tablas. En este caso en particular, se usa la aproximación a una normal
estándar.
xi − 0.7463 xi − 0.7463
P Z< √ =ψ Z< √ .
2.5306 2.5306
44 Pruebas de bondad de ajuste
i−1
Di− = φ(Z)i −
n
D+ = max{Di+ } D− = max{Di− }
En este caso:
2.3 La prueba de Lilliefors 45
D = max{D+ , D− }
13. Esté último resultado se compara con la tabla de valores crı́ticos de Lilliefors,
consular apéndice B.2, para un nivel de significancia α = 0.05 α = 0.05.
∴ W0.05 = 0.219
lillie . test ( x )
data: x
D = 0.21793, p-value = 0.05356
La prueba de Lilliefors para exponencialidad puede ser usada para probar que un
nivel de confianza dado, una muestra aleatoria sigue una distribución exponencial con
media λ̂ = X̄1 , el cual corresponde al estimador puntual de la media.
n
X n 1
λ̂ = =
i=1
Xi X̄
H0 : La muestra ∼ Exp(λ)
vs.
Ha : La muestra Exp(λ)
15 1
λ̂ = =
13.2903 0.88602
Pn
i=1 1X≤Xi
3. Se calcula la función empı́rica, Fn (xi ) = n
, para fines de este ejercicio,
1 2
Fn (xi ) = 15 , 15 , . . . , 1.
2.3 La prueba de Lilliefors 47
donde:
15
X xi
x̄ = = 0.88602
i=1
15
i−1
Di− = φ(Z)i −
n
D+ = max{Di+ } D− = max{Di− }
En este caso:
D = max{D+ , D− }
10. Esté último resultado se compara con la tabla de valores crı́ticos de Lilliefors,
consular apéndice B.2, para un nivel de significancia α = 0.05.
∴ W0.05 = 0.33760
En R este resultado puede ser obtenido con el siguiente código, el cual usa como
base la prueba de Kolmogorov-Smirnov.
data: x
2.4 Anderson Darling 49
La prueba de Anderson Darling, al igual que la prueba de Lilliefors sirve para probar
la hipótesis de que una muestra aleatoria sigue una cierta distribución especificada.
Anderson Darling al igual que las anteriores pruebas de bondad de ajuste tiene como
contraste de la prueba a las siguientes hipótesis.
Donde Fx∗ (Xi ) es la distribución teórica que se quiere probar con un nivel de signi-
ficancia α.
Para probar dicha hipótesis Anderson propone examinar las diferencias al cuadrados
entre la distribución empı́rica de los datos (Fn (Xi )) y la distribución teórica propuesta
y completamente especificada Fx∗ (Xi )(X) y luego integrar respecto a la distribución
propuesta. A este tipo de pruebas se les conoce como funciones de distribución
empı́ricas cuadráticas (QEDF) por sus siglas en inglés.
De esta manera la estadı́stica de la prueba Anderson-Darling se obtiene de integrar
la siguiente función QEDF:
Z ∞
1
2
An = n (Fn (Xi ) − Fx∗ (Xi )(X))2 ∗ .
−∞ Fx (Xi )(X)(1 − Fx∗ (Xi )(X))
1
Una caracterı́stica importante es que se usa la expresión F ∗ (Xi )(X)(1−F ∗ debido
x x (Xi )(X))
a que se busca que las colas de distribución tengan un peso cuantificablemente mayor,
con la finalidad de detectar diferencias en las colas de la distribución.
Resolviendo la integral se obtiene la estadı́stica de la forma:
n
X 2i − 1
2
An = −n − [ln (Fx∗ (Xi )) + ln(1 − Fx∗ (Xi )(xn−i+1 ))] .
i=1
n
50 Pruebas de bondad de ajuste
1−α
Caso Ajuste en la estadı́stica 0.90 0.95 0.975 0.99
Todos los parámetros conocidos A2n para n ≥ 52 1.933 2.492 3.070 3.857
4 25
Normal con N (X̄, S 2 ) 1 + n + n2 An 0.632 0.751 0.870 1.029
0.6 2
Exponencial con exp(X̄) 1 + n An 1.070 1.326 1.587 1.943
0.2
Weibull con W eibull(α̂, β̂) 1+ √
n
A2n 0.637 0.757 0.877 1.038
0.25
Log-lógista con loglog(α̂, β̂) 1+ √
n
A2n 0.563 0.660 0.769 0.906
Finalmente la regla de decisión será rechazar H0 si A2n > W 1−α , donde W 1−α es el
cuantil asociado a la distribución A2n bajo H0 , la cual puede consultarse en el apéndice
B.3 .
Para ejemplificar la prueba de Anderson Darling vea el siguiente enunciado
H0 : La muestra ∼ N (µ, σ 2 )
vs.
Ha : La muestra N (µ, σ 2 )
n n
X X 2i − 1
A2n = −n − Qi = −n − [ln (Fx∗ (Xi )) + ln(1 − Fx∗ (Xi )(xn−i+1 ))]
i=1 i=1
n
52 Pruebas de bondad de ajuste
∴ A2n = 0.134020
8. Dado los puntos crı́ticos mencionados anteriormente se observa que con un nivel
de confianza 1 − α = 0.95, el punto W 0.95 = 2.492 es mayor que la estadı́stica
A2n , es decir:
A2n = 0.13402 < 2.492 = W 0.95
Por lo que la prueba no rechaza H0 , por lo que se asume que la muestra sigue
una distribución normal con un nivel de significancia de α = 0.05.
En R este resultado puede ser obtenido con el siguiente código, el cual usa como
base la prueba la función ad-test la cual se encuentra en la librerı́a “nortest”.
library ( nortest )
ad . test ( x )
data: x
A = 0.13402, p-value = 0.9722
Tablas de contingencia
Las tablas de contingencia, como lo dice su nombre, son tablas en el que se muestra
las frecuencias de diferentes clases, con la finalidad de observar si dos variables son
independientes entre si. Para la realización de esta prueba las frecuencias son anota-
das en tablas en las cuales cada observación es categorizada de manera exhaustiva y
mutuamente excluyente entre si. Una clasificación es exhaustiva cuando proporciona
suficientes categorı́as para acomodar a todos los miembros de la población. Las ca-
tegorı́as son mutuamente excluyentes cuando están definidas de tal manera que cada
miembro de la población puede ser asignado correctamente a una y sólo una categorı́a.
Para una versión general de una una tabla de contingencia de dos dimensiones,
suponga que la clasificación usa r renglones y c columnas, y sea Pij la probabilidad de
que un individuo elegido al azar de la población bajo consideración, caerá en la celda
correspondiente al i − ésimo renglón y j − ésima columna. Además, sea:
c
X
Pi• = Pij la probabilidad de estar en el i − ésimo renglón
j=1
r
X
P•j = Pij la probabilidad de estar en la j − ésima columna.
i=1
53
54 Tablas de contingencia
r X
X c r
X c
X
Pij = 1 ⇔ Pi• = 1 y P•j = 1.
i=1 j=1 i=1 j=1
Sea nij la frecuencia observada en la celda (i, j), entonces, se tiene el siguiente
arreglo de tamaño r×c, en el cual la observación nrc corresponde al número de elementos
de la variable r que presenta la caracterı́stica c, ası́:
r X
X c
nij = n,
i=1 j=1
r
X c
X
nij = n•j , nij = ni•
i=1 j=1
Cuando H0 es verdadera:
r Y
Y c
L (θ) = (Pi• P•j )nij . (3.2)
i=1 j=1
En las expresiones anteriores todos los parámetros que aparecen son desconocidos
para todo i y j, dichos parámetros son:
por lo que los valores esperados (o frecuencia esperada) para cada celda (i, j), de la
forma:
entonces (bajo H0 ):
r Y
Y c r Y
Y c
L (θ) = (Pi• P•j )nij = (Pi• )nij (P•j )nij
i=1 j=1 i=1 j=1
r
! c
!
n
Y Y
= Pi•ni• P•j•j .
i=1 j=1
56 Tablas de contingencia
De esta forma:
r
X c
X
ln L (θ) = ni• ln Pi• + n•j ln P•j
i=1 j=1
r−1
X c−1
X
= ni• ln Pi• + nr• ln Pr• + n•j ln P•j + n•c ln P•c
i=1 j=1
r−1 r−1
! c−1 c−1
!
X X X X
ln L (ω) = ni• ln Pi• + nr• ln 1 − Pi• + n•j ln P•j + n•c ln 1 − P•j .
i=1 i=1 j=1 j=1
∂ ln L (ω) 1 (−1)
= ni• + nr• Pr−1 =0 (3.4)
∂Pi• Pi• 1 − i=1 Pi•
∂ ln L (ω) 1 (−1)
= n•j + n•c Pc−1 =0 (3.5)
∂P•j P•j 1 − j=1 P•j
de (3.4):
ni• nr•
= ⇒ ni• Pbr• = nr• Pi• i = 1, 2, ..., r
Pi• Pr•
entonces r r
X X
Pbr• ni• = nr• Pi•
i=1 i=1
Pr Pr
donde i=1 ni• = n y i=1 Pi• = 1.
Por lo tanto:
nr•
Pbr• = ,
n
y de (3.5),
n•j n•c
= ⇒ n•j Pb•c = n•c P•j j = 1, 2, ..., c
P•j P•c
57
n•c
Pb•c = .
n
El desarrollo es válido para cualquier i = 1, 2, ..., r y j = 1, 2, ..., c, por lo que:
ni• b n•j
Pbi• = y P•j = .
n n
En consecuencia, la función de verosimiltud maximizada en el espacio paramétrico
definido por H0 es:
r c
Y ni• ni• Y n•j n•j
máx L (θ) = . (3.6)
θ∈Θ0
i=1
n j=1
n
r Y
c
n
Y
L (θ) = Pij ij
i=1 j=1
y
r X
X c
ln L (θ) = nij ln Pij .
i=1 j=1
Por lo tanto:
58 Tablas de contingencia
c X
X r−1 c−1
X
ln L (Θ) = nij ln Pij + nrj ln Prj + nrc ln Prc
j=1 i=1 j=1
c X
r−1 c−1 c X
r−1 c−1
!!
X X X X
= nij ln Pij + nrj ln Prj + nrc ln 1 − Pij + Prj .
j=1 i=1 j=1 j=1 i=1 j=1
entonces
nij nrc
= ,
Pij Pbrc
de donde
nij Pbrc = nrc Pij i = 1, 2, ..., r y j = 1, 2, ..., c.
Como:
r X
X c r X
X c
Pij = 1 y nij = n,
i=1 j=1 i=1 j=1
se tiene que:
r X
c r X
c
X X nrc
Pbrc nij = nrc Pij ⇒ Pbrc = .
i=1 j=1 i=1 j=1
n
nij
Pbij = i = 1, 2, ..., r y j = 1, 2, ..., c.
n
r Y
c
Y nij nij
máx L (θ) = .
θ∈Θ
i=1 j=1
n
59
−2 ln λ ∼ χ2(ν) ,
donde ν se determina como k − 1 − s donde k es el número total de parámetros y s es
el número de parámetros independientes (o estimados), en este caso como
r X
X c
Pij = 1,
i=1 j=1
es equivalente a
r
X c
X
Pi• = 1 y P•j = 1,
i=1 j=1
ν = k − 1 − s = rc − 1 − (r + c − 2)
= (r − 1) (c − 1) .
−2 ln λ ≥ ω1−α ,
r X
c ni• n•j 2
X nij − n
−2 ln λ = ni• n•j + Rn
i=1 j=1 n
ya que
ni• n•j ni• n•j
eij = npij = nPi• P•j = n 2
= .
n n
r X c
X (nij − eij )2
T = ,
i=1 j=1
eij
Paı́s pequeño cuando su territorio este ente los 23, 181 y 112, 760 km2
Paı́s mediano cuando su territorio este entre 112, 761 y los 527, 970 km2
Paı́s grande cuando su territorio sea mayor a los 527, 970 km2
Una vez obtenido las marginales, se calculan los valores esperados eij de la forma:
P5 P2
i=1 n1i × k=1 nk1 (120 × 47)
e11 = = = 29.52
n 191
P5 P2
i=1 n1i × k=1 nk2 (120 × 46)
e12 = = = 28.90
n 191
P5 P2
i=1 n1i × k=1 nk3 (120 × 46)
e13 = = = 28.90
n 191
P5 P2
i=1 n1i × k=1 nk4 (120 × 52)
e14 = = = 32.67
n 191
P5 P2
i=1 n2i × k=1 nk1 (71 × 47)
e21 = = = 17.47
n 191
P5 P2
i=1 n2i × k=1 nk2 (71 × 46)
e22 = = = 17.09
n 191
P5 P2
i=1 n2i × k=1 nk3 (71 × 46)
e23 = = = 17.09
n 191
P5 P2
i=1 n2i × k=1 nk4 (71 × 52)
e24 = = = 19.32
n 191
62 Tablas de contingencia
∴ T = 6.876336
tabla2 <- rbind ( c ( y11 , y12 , y13 , y14 ) ,c ( y21 , y22 , y23 , y24 ) )
colnames ( tabla2 ) <-c ( " Microestado " ," Pais pequeno " ," Pais mediano " ," Pais
grande " )
rownames ( tabla2 ) <-c ( " Tasa <= 2.7 " ," Tasa > 2.7 " )
tabl <- as . table ( tabla2 )
# Agrupamos
63
m <- m1 _ + m2 _
e _ 11 <-( m1 _ * m _ 1) / m
e _ 12 <-( m1 _ * m _ 2) / m
e _ 13 <-( m1 _ * m _ 3) / m
e _ 14 <-( m1 _ * m _ 4) / m
e _ 21 <-( m2 _ * m _ 1) / m
e _ 22 <-( m2 _ * m _ 2) / m
e _ 23 <-( m2 _ * m _ 3) / m
e _ 24 <-( m2 _ * m _ 4) / m
tabla2 <- rbind ( c ( y11 , y12 , y13 , y14 ) ,c ( y21 , y22 , y23 , y24 ) )
colnames ( tabla2 ) <-c ( " Microestado " ," Pais pequeno " ," Pais mediano " ," Pais
grande " )
rownames ( tabla2 ) <-c ( " Tasa <= 2.7 " ," Tasa > 2.7 " )
data: tabl
X-squared = 6.8763, df = 3, p-value = 0.07595
Coeficiente de contingencia
Como una medida del grado de asociación entre variables en una tabla de contin-
gencia en donde se clasifican un total de n unidades experimentales, (Pearson, 2013)
propuso el coeficiente de contingencia C, definido como:
1/2
T
C= ,
T +n
donde T es la estadı́stica de prueba apropiada para la hipótesis de independencia.
Además valores crecientes de C implican un incremento en el grado de asociación, ya
que valores grandes de T son un resultado de más alejamiento significativo entre las
frecuencias observadas y esperadas de celdas. Pero el valor de C no puede ser mayor
de uno para cualquier n, una desventaja de C como una medida de asociación es que
no puede alcanzar el valor de 1, es decir C toma valores mayores que 0 pero menores a
1, es decir, 0 < C < 1. Si las variables examinadas son completamente independientes
entonces los valores de T y C son pequeños.
Puede demostrarse fácilmente que para una tabla de contingencia de doble entrada
de r × c, el valor máximo de C es:
1/2
t−1
Cmáx = , donde t = mı́n (r, c) .
t
Capı́tulo 4
GMAT GPA
1 710.0 4.0
2 610.0 4.0
3 640.0 3.9
4 580.0 3.8
5 545.0 3.7
6 560.0 3.6
7 610.0 3.5
8 530.0 3.5
9 560.0 3.5
10 540.0 3.3
11 570.0 3.2
12 560.0 3.2
Observe que como son datos pareados, siempre se tiene el mismo tamaño de muestra
65
66 Medidas de correlación de rango
(para ambos conjuntos de datos) y debido a que se usarán pruebas basadas en rango,
la escala debe ser al menos ordinal.
Una medida de correlación entre X y Y debe satisfacer lo siguiente:
2. Si los valores más grandes de X tienden a estar ligados con los valores más
grandes de Y , y por lo tanto, los valores más pequeños de X y Y tienden a estar
ligados, entonces la medida de correlación debe ser positiva y cercana a +1, si la
tendencia es fuerte. En este caso se dice que existe una correlación positiva entre
X y Y.
3. Si los valores grandes de X tienden a estar ligados con los valores chicos de Y
y viceversa, entonces la medida de correlación debe ser negativa y cercana a -1,
si la tendencia es fuerte. En este caso se dice que existe una correlación negativa
entre X y Y.
Pn
Xi − X Yi − Y
i=1
r = r (4.1)
Pn 2 Pn 2
i=1 Xi − X i=1 Yi − Y
Pn
i=1 Xi Yi − nXY
= r rP (4.2)
Pn 2 2 n 2 2
i=1 X i − nX Y
i=1 i − nY
data: x and y
t = 2.8004, df = 10, p-value = 0.009391
alternative hypothesis: true correlation is greater than 0
95 percent confidence interval:
0.244736 1.000000
sample estimates:
cor
0.6629678
Sea R (Xi ) el rango de Xi cuando es se compara con los otros valores de X, para
i = 1, 2, ..., n; sea R (Yi ) el rango de Yi cuando se compara con los otros valores de Y,
para i = 1, 2, ..., n. Se permiten datos no numéricos que ocurren en n parejas, siempre
68 Medidas de correlación de rango
y cuando se puedan ordenar para poderles asignar un rango, es decir, la escala debe
ser al menos ordinal. En caso de empates, se asigna a cada empate el promedio de los
rangos que serı́an asignados si no hubiera empates.
La medida de correlación se denota por ρ (ro) y se define de la siguiente manera:
n+1 2
Pn
i=1 R (X i ) R (Y i ) − n 2
ρ= 1/2 P 1/2 . (4.3)
Pn 2 n+1
2 n 2 n+1 2
i=1 (R (Xi )) − n 2 i=1 (R (Yi )) − n 2
Note que esta expresión corresponde a la r de Pearson (4.2), pero en lugar de hacer el
cálculo usando las observaciones originales, se utilizan los rangos. Ası́,
n n
1X 1X 1 n (n + 1) n+1
R (X) = R (Xi ) = i= =
n i=1 n i=1 n 2 2
y también R (Y ) = n+12
. En la misma lógica de utilizar los rangos en lugar de las
observaciones originales, se hace el cálculo para el denominador de (4.1):
n n 2 X n 2 !
X 2 X n+1 n + 1
R (Xi ) − R (X) = i− = i2 − i (n + 1) +
i=1 i=1
2 i=1
2
n (n + 1) (2n + 1) (n + 1) (n + 1)2
= − (n + 1) n. +n
6 2 4
n (n2 − 1)
=
12
y también
n
X 2 n (n2 − 1)
R (Yi ) − R (Y ) = .
i=1
12
Es decir,
Pn
R (Xi ) − n+1 n+1
i=1 2
R (Yi ) − 2
ρ= 2
. (4.4)
n (n − 1) /12
En caso de que no haya empates, se pueden utilizar otras expresiones que se han
propuesto para facilitar los cálculos, tales como
Pn
6 i=1 (R (Xi ) − R (Yi ))2 6T
ρ=1− 2
=1− , (4.5)
n (n − 1) n (n2 − 1)
4.1 ρ (ro) de Spearman 69
donde
n
X
T = (R (Xi ) − R (Yi ))2 . (4.6)
i=1
A (prueba de dos colas) H0 : Las Xi0 s y las Yi0 s son mutuamente independientes.
Ha : Existe una tendencia para que los valores más grandes de X estén “empareja-
dos” con los valores más grandes de Y y los valores chicos de X con los valores chicos de
Y ó existe una tendencia para que los valores más grandes de X estén “emparejados”
con los valores más chicos de Y y los valores chicos de X con los valores grandes de Y
(ρ 6= 0).
B (prueba de una cola) H0 : Las Xi0 s y las Yi0 s son mutuamente independientes.
Ha : Existe una tendencia para que los valores más grandes de X estén “empareja-
dos” con los valores más grandes de Y y los valores más chicos de X estén “empareja-
dos” con los valores más chicos de Y (ρ > 0).
C (prueba de una cola) H0 : Las Xi0 s y las Yi0 s son mutuamente independientes.
Ha : Existe una tendencia para que los valores más grandes de X estén “empa-
rejados” con los valores más chicos de Y y que los valores más chicos de X estén
“emparejados” con los valores más grandes de Y (ρ < 0).
Usando ρ como estadı́stica de prueba se tiene la siguiente regla de decisión:
Se rechaza H0 al nivel de significancia α si:
n
X
T = (R (Xi ) − R (Yi ))2
i=1
Ejemplo 15. Continuando con el ejemplo de los exámenes GMAT y GPA, se obtu-
vieron los rangos para ambos resultados en las siguientes tablas, aunque a diferencia
de otras pruebas basadas en rangos, aquı́ se hizo la asignación de los mismos de
manera separada (es decir, en este caso no se mezclan los datos)
n
X
T = (R (Xi ) − R (Yi ))2
i=1
T = (12 − 11.50)2 + (9.50 − 11.50)2 + . . . + (5 − 1.5)2
∴ T = 115
6T
ρ=1−
n (n2 − 1)
6(115)
ρ=1−
12 (122 − 1)
ρ = 0.59
Por lo que observado los cuantiles de la tabla B.5 se observa que con un 95 %, se
obtiene w0.025 = 0.587 dado que ρ < w0.025 , entonces se tiene evidencia que con al
menos un nivel de significancia del 5 %, la prueba rechaza la hipótesis nula, por lo que
existe una tendencia para que los valores más grandes de X estén “emparejados” con
los valores más grandes de Y y los valores chicos de X con los valores chicos de Y ó
existe una tendencia para que los valores más grandes de X estén “emparejados” con
los valores más chicos de Y y los valores chicos de X con los valores grandes de Y .
En R también se puede efectuar la prueba con cor.test, en este caso especificando
que el método es Spearman.
##siendo el resultado
Se dice que dos observaciones son concordantes si ambos miembros de una pareja son
mayores (o menores) que sus miembros respectivos
de la otra pareja. Sea Nc el número
n
de observaciones concordantes del total de posibles parejas. Las observaciones
2
son discordantes si los dos números en una pareja difieren en dirección opuesta (una
negativa y una positiva) de los respectivos miembros de la otra pareja. Sea Nd el número
de parejas discordantes de observaciones. Las parejas con empates entre miembros
respectivos no son ni concordantes ni discordantes.
n
Como las n observaciones pueden compararse dos a dos de = n(n−1)
2
formas
2
diferentes, el número de parejas concordantes Nc más el número de parejas discordantes
Nd más el número de parejas con empates debe sumar n (n − 1) /2.
Los datos pueden ser no numéricos siempre y cuando puedan calcularse Nc y Nd
(escala ordinal).
La medida de correlación propuesta por Kendall es:
Nc − Nd
τ= ,
n (n − 1) /2
si todas las posibles parejas son concordantes, la τ de Kendall es igual a 1. Si todas
la parejas son discordantes el valor es -1. Por lo tanto, la τ de Kendall satisface las
condiciones para ser una medida de correlación.
En ocasiones también se calcula τ como
Nc − Nd
τ= .
Nc + Nd
Esta versión de la τ de Kendall tiene la ventaja de que puede alcanzar los valores 1 o
−1, aún en caso de empates.
En resumen, para hacer la comparación de las parejas (Xi , Yi ) y (Xj , Yj ) , considere
la cantidad
Yj − Yi
M= .
Xj − Xi
Si M > 0, se tiene una observación concordante. Si M < 0 si tiene una observación
discordante y si M = 0, se considera 0.5 para el conteo de observaciones concordantes
4.2 τ (tau) de Kendall 73
Ejemplo 16. Usando el mismo ejemplo, se tiene el cálculo de los pares concor-
dantes y discordantes que sirven para calcular la τ de Kendall
La τ de Kendall también puede usarse como una estadı́stica de prueba para probar
la hipótesis nula de independencia entre X y Y , con alternativas posibles de una o dos
colas (como las descritas para ρ). Por lo general se usa T como la estadı́stica de prueba
de Kendall, donde T se define como:
T = Nc − Nd ,
aunque puede haber variantes de la misma. En caso de muchos empates, se usa direc-
tamente la τ, siendo el p-ésimo cuantil de τ aproximadamente
p
2 (2n + 5)
wp = zp p
3 n (n − 1)
Ejemplo 17. Usando el mismo ejemplo de los casos anteriores (GMAT y GPA),
en clase se obtuvieron las observaciones concordantes y discordantes. En este caso,
para hacer la prueba, se puede utilizar
data: x and y
sample estimates:
tau
0.4390389
75
76 Pruebas basadas en rangos
Para poder realizar esta observación de una manera más rápida y fácil replicación,
se hará uso de R, por ello se almacenaran dichas muestras en un dataframe (obje-
to de programación particular de R que busca emular una tabla) con su respectivo
identificador para que resulte más sencillo trabajar con los datos.
paises = data . frame ( pais = rep ( c ( " Paı́s X " , " Paı́s Y " ) , each = 8) ,
valor = c ( pais _x , pais _ y ) )
print ( paises )
pais valor
1 Paı́s X 172
2 Paı́s X 178
3 Paı́s X 168
4 Paı́s X 155
5 Paı́s X 164
6 Paı́s X 168
7 Paı́s X 150
8 Paı́s X 158
9 Paı́s Y 191
5.1 Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 77
10 Paı́s Y 167
11 Paı́s Y 189
12 Paı́s Y 164
13 Paı́s Y 158
14 Paı́s Y 176
15 Paı́s Y 186
16 Paı́s Y 193
Finalmente se graficarán los datos, para ver la distribución asociados a los datos, ası́
observando el comportamiento de los rangos.
library ( ggplot2 )
ggplot ( data = paises , aes ( x = rango , y =0) ) +
geom _ point ( aes ( colour = pais ) , size = 8) +
ggtitle ( " Comportamiento de los rangos " ) +
ylab ( " " ) + xlab ( " rango " ) +
78 Pruebas basadas en rangos
theme _ bw () +
theme ( axis . text . y = element _ blank () )
pais
País X
País Y
4 8 12 16
rango
ser cercano a 0, por lo que podemos suponer (aún sin afirmar) que la muestra no provie-
nen de la misma población. Las sumas mencionadas anteriormente pueden calcularse
fácilmente con el siguiente código
library ( dplyr )
paises %> %
group _ by ( pais ) %> %
summarise ( suma _ rango = sum ( rango ) )
pais suma_rango
<chr> <dbl>
1 Paı́s X 51
2 Paı́s Y 85
5.1 Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 79
Cabe destacar que la prueba no solicita que el número de observaciones sean iguales
en ambas muestras, es decir, no siempre puede ocurrir que n1 = n2 . El procedimiento
consiste en asignar rangos completos a una muestra aleatoria resultado combinar a X
y a Y , por lo que a la muestra aleatoria combinada tiene tamaño N = n1 + n2 ; Además
sea R(X) y R(Y ) subconjuntos del rango completo de la muestra combinada, en la
cual R(X) contiene a los rangos asignados a cada elemento de X respecto a la serie
combinada, de manera análoga para R(Y ) para cada elemento de Y . Entonces se define
a la estadı́stica U como:
U = min(U1 , U2 ). (5.1)
donde:
n1 (n1 + 1)
U 1 = n1 n2 + − R1
2
n2 (n2 + 1)
U 2 = n1 n2 + − R2
2
Resultado 1. Sea X una muestra aleatoria de tamaño n1 con suma de rango R1 y sea
Y otra muestra aleatoria e independiente a X con suma de rango R2 , si en la muestra
80 Pruebas basadas en rangos
N (N + 1)
R1 + R2 =
2
n1 n2 n1 n2 (n1 + n2 + 1)
µ= , σ2 =
2 12
Demostración
5.1 Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 81
1 N (N + 1)
E[xi ] =
N 2
N +1
E[xi ] =
2
n1
X
E[R1 ] = E[ xi ]
i=1
n1
X
E[R1 ] = E[xi ]
i=1
n1
X N +1 (N +1)
E[R1 ] = Por E[xi ] = 2
i=1
2
N +1
E[R1 ] = n1
2
Sustituyendo N = n1 + n2 se tiene:
n1 + n2 + 1
∴ E[R1 ] = n1
2
n1 (n1 + 1)
E[U1 ] = E n1 n2 + − R1
2
n1 (n1 + 1)
E[U1 ] = n1 n2 + − E [R1 ]
2
n1 (n1 + 1) n1 + n2 + 1
E[U1 ] = n1 n2 + − n1
2 2
2n1 n2 + n1 (n1 + 1) − n1 (n1 + n2 + 1)
E[U1 ] =
2
2n1 n2 + n1 + n1 − n21 − n1 n2 − n1
2
E[U1 ] =
2
2n1 n2 − n1 n2
E[U1 ] =
2
n1 n2
∴ E[U1 ] =
2
n2 (n2 + 1) n1 + n2 + 1
E[U2 ] = n1 n2 + − n2
2 2
2n1 n2 + n2 (n2 + 1) − n2 (n1 + n2 + 1)
E[U2 ] =
2
2n1 n2 + n22 + n2 − n1 n2 − n22 − n2
E[U2 ] =
2
2n1 n2 − n1 n2
E[U2 ] =
2
n1 n2
∴ E[U2 ] =
2
n1 n2
Finalmente ya que U = min(U1 , U 2) y tanto la media de U1 como la de U2 es 2
entonces la media de U es
2n1 n2 − n1 n2
E[U ] =
2
5.1 Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 83
PN
i2
E[x2i ] = i=1
N
1 N (N + 1)(2N + 1)
E[x2i ] =
N 6
(N + 1)(2N + 1)
E[x2i ] =
6
N
X N (N + 1)(2N + 1)
i2 =
i=1
6
84 Pruebas basadas en rangos
De esta manera para poder calcular la covarianza del rango Xi y Xj para toda i 6= j
será necesario obtener la esperanza del productos de estos rangos, ası́:
1 X
E[xi xj ] = ij
N (N − 1) i6=j
2
N (N + 1)2 N (N + 1)(2N + 1)
1
E[xi xj ] = −
N (N − 1) 4 6
2
N (N + 1) (N + 1)(2N + 1)
E[xi xj ] = −
4(N − 1) 6(N − 1)
La covarianza del rango Xi y Xj para toda i 6= j esta dado por
n1 n2
V ar [R2 ] = (n1 + n2 + 1)
12
n1 n2
V ar [U ] = (n1 + n2 + 1)
12
Ejemplo 18. Un estudio mide la altura de dos diferentes paı́ses para verificar que
la altura de los hombres de un paı́s X es mayor que la del paı́s Y , para ello se midió
aleatoriemante a 6 hombres del paı́s X y 8 del paı́s Y , obteniendo los siguientes
resultados:
Solución
Anteriormente con el análisis observacional se concluyó que las muestras aleatorias
provienen de poblaciones distintas entre si, ya que existı́a una clara diferencia entre una
muestra y otra, en el caso particular de los datos presentados se observa que el grupo
de paı́ses X presenta claramente las menores estaturas mientras que para Y están las
estaturas mayores, por lo que asumı́amos que no eran iguales estas muestras. Como
respaldo de estas suposiciones se realizará la prueba formal de Mann-Whitney.
5.1 Prueba de la U de Mann-Whitney / Prueba de suma de rangos de Wilcoxon 87
Para la realización de la prueba, se juntan las muestras aleatorias formando ası́ vir-
tualmente una sola muestra aleatoria, sobre esta última se asignan los rangos de menor
a mayor, en caso de empates se asigna el punto medio entre los valores subsecuentes y
antecesores.
X Y Rango
150 1
155 2
158 3.5
158 3.5
164 5.5
164 5.5
167 7
168 8.5
168 8.5
172 10
176 11
178 12
186 13
189 14
191 15
193 16
n1
X
R1 = R(Xi )
i=1
R1 = 1 + 2 + 3.5 + 5.5 + 8.5 + . . . + 10 + 12
⇒ R1 = 51
n2
X
R2 = R(Yi )
i=1
R2 = 3.5 + 5.5 + 7 + 11 + . . . + 15 + 16
⇒ R2 = 85
88 Pruebas basadas en rangos
U = min(U1 , U2 )
∴ U = 15
Se sabe que el cuantil de una normal estándar en el punto crı́tico es W 0.025 = −1.95
y por simetrı́a de la distribución normal W 0.975 = 1.95, por lo que se observa que:
U = 15 > W 0.9755 = 1.95
De esta manera se observa que las estadı́sticas obtenidas son las mismas que las
mencionadas anteriormente.
La prueba de Kruskal Wallis, fue pensada por primera vez por William Kruskal y W.
Allen Wallis en 1952 (Kruskal y Wallis, 1952) es la generalización de la prueba de suma
de rangos de Wilcoxon, esta prueba sirve para analizar k muestras independientes con
k ≥ 3, en otro caso usar Wilcoxon, para verificar que las k muestras son todas iguales.
Al ser una generalización de la suma de rangos de Wilcoxon, la prueba de hipótesis
se define como la igualdad en los valores esperados de cada una de las k muestras
aleatorias. Es por ello que se define la prueba como:
Suponga que se tiene la información de k muestras aleatorias, las cuales son de-
notadas como Xi para i = 1, 2, . . . , k, cada observación es denotada como xij con
i = 1, 2, . . . k y j = 1, 2, . . . , ni , es decir, el subı́ndice i hace referencia a que muestra
pertenece la observación, y el subı́ndice j es la posición que ocupa dicha observación
en la muestra i.
X1 X2 ... Xk
x12 a21 ... xk1
x12 a22 ... xk2
.. .. .. ..
. . . .
x1n1 a2n2 ... xknk
k
X
N= ni .
i=1
Una vez definido N se unen todas las muestras aleatorias en una sola muestra
ordenado las observaciones de menor a mayor, sobre toda N y se le asignan los rangos
90 Pruebas basadas en rangos
k
!
1 X R2 i N (N + 1) 2
T = − . (5.2)
S2 i=1
ni 4
donde:
S 2 es de la forma:
!
1 X N (N + 1)2
S2 = R2 (xij ) − . (5.3)
N −1 T odos los rangos
4
X R2 k
12 i
T = − 3(N + 1).
N (N + 1) i=1 ni
Solución
Se juntan las 5 muestras en una sola y se asignan los rangos de menor a mayor, en
caso de empates se asigna el punto medio entre los valores subsecuentes y antecesores.
Después se obtienen los rangos marginales, ası́ como el tamaño de la muestra i, ası́:
R1 = 6 + 9 + 9 + 11 + 14 = 49 n1 = 5
R2 = 1 + 16 + 17.5 + 19 = 53.5 n2 = 4
R3 = 3 + 7 + 9 + 15 + 17.5 = 51.5 n3 = 5
R4 = 3 + 3 + 5 + 7 + 9 + 15 = 36 n4 = 5
92 Pruebas basadas en rangos
P R2 2 2 Ri2
La suma definida como ki=1 nii = 495 + . . . + 365 da como resultado ki=1
P
ni
=
1985.41. Además se calcula la suma de todos los rangos al cuadrado, es decir:
ni
k X
X
R(xij ) = 1 + 33 + 33 + 32 + 52 + . . . + 17.52 + 192 = 2465.5
i=1 j=1
Una vez obtenido todos las sumas correspondientes, se calcula S 2 en este caso se
presenta empates por lo que se usara la ecuación (5.3).
19(20)2
2 1
S = 2465.5 − = 31.41
19 − 1 4
19(20)2
1
T = 1985.41 −
31.41 4
∴ T = 2.71
2(1−α)
Debido a que el cuantil de una χk−1 = 7.8 con k = 4, se observa que:
2(0.95)
T = 2.71 < χ3 = 7.8
La prueba de McNemar, fue por primera vez descrita por Quinn McNemar en 1947
(McNemar, 1947), esta es una prueba no paramétrica que sirve para verificar con un
nivel de significancia α que un “tratamiento” induce un cambio en la respuesta del
mismo.
Se menciona como “tratamiento” pero en realidad la prueba puede hacer referencia
a cualquier procedimiento, suceso, acción o el paso de tiempo para su estudio, es por
ello que la prueba de McNemar sirve para probar que los cambios de la muestra son
significativos antes y después de la ocurrencia del suceso mencionado.
Esta prueba consiste en observaciones de variables aleatorias bidimensionales (xi , yi ), i =
1, 2, . . . n. Donde xi hace referencia al valor dicotómico de la observación i antes de eje-
cutarse el procedimiento, mientras que la variable yi se refiere, de igual forma, al valor
dicotómico de la observación i después de ejecutarse el procedimiento dado. Es decir,
xi y yi pueden denotarse como:
1 Si cumple la condición Z antes del procedimiento w.
xi =
0 Si no cumple la condición Z antes del procedimiento w.
1 Si cumple la condición Z después del procedimiento w.
yi =
0 Si no cumple la condición Z después del procedimiento w.
93
94 Otras pruebas no paramétricas
Esta prueba puede ser expresada a través de un arreglo de frecuencias en una tabla
de dimensión 2 × 2, la cual se muestra de la forma siguiente:
(+) (−)
yi = 1 yi = 0
(+) n
X n
X
xi = 1 A= 1(xi =1,yi =1) B= 1(xi =1,yi =0)
i=1 i=1
(−) n
X n
X
xi = 0 C = 1(xi =0,yi =1) D= 1(xi =0,yi =0)
i=1 i=1
B+C B+C
B ∼ N( , )
2 4
B+C
B− 2
q ∼ N (0, 1)
B+C
4
B−C
2
√
B+C
∼ N (0, 1)
2
B−C
√ ∼ N (0, 1)
B+C
2
B−C
√ ∼ χ2(1)
B+C
(B − C)2
∴ ∼ χ2(1) .
B+C
2
De esta manera se establece a la estadı́stica T = (B−C)B+C
el cual claramente sigue
2
una distribución χ(1) . Sin embargo, algunos autores consideran necesario realizar una
transformación a la estadı́stica T o arreglo de continuidad, ya que se esta aproximando
una distribución discreta a una distribución continua como la χ2 , esta transformación
es conocida como el arreglo de continuidad de Yates, el cual se denota como:
(|B − C| − 1)2
T = .
B+C
De esta manera la regla de decisión es: rechazar H0 con un nivel de significancia α
2(α/2) 2(1−α/2)
cuando T < χ(1) o T > χ(1) .
Ejemplo 20. Una casa de bolsa escoge aleatoriamente a 100 persona y les pregunta
por su interés al invertir dando como resultado que 84 prefieren invertir en acciones
de empresas privadas, y 16 en bonos gubernamentales, después de una plática y
asesorı́a financiera, 21 personas que invertı́an en empresas privadas decidieron
invertir en bonos gubernamentales, y 4 inversores de bonos cambiaron a acciones.
Realiza la prueba correspondiente con un nivel de significancia del 5 % para verificar
si la asesorı́a indujo cambios en la respuesta de los individuos.
Solución
96 Otras pruebas no paramétricas
(+) (−)
Marginal
yi = 1 yi = 0
(+)
xi = 1 A = 63 B = 21 84
(−)
xi = 0 C=4 D = 12 16
(|21 − 4| − 1)2
T =
21 + 4
∴ T = 10.24
2(0.025) 2(0.975)
Además que los cuantiles para χ(1) = 3.84 y χ(1) = 5.02, de esta manera se
tiene que:
2(0.975)
T = 10.24 > χ(1) = 5.02
Por lo que la prueba, rechaza H0 asumiendo de esta manera con un nivel de signi-
ficancia del 5 % que la asesorı́a indujo cambios en la respuesta de los individuos.
donde:
Pr
SCi SCi
Sp2 = i=1
y Si2 =
N −r c−1
A su vez SCi se define como la suma de cuadrados de la forma:
P 2
c
j=1 xij
Xc
SCi = x2ij −
j=1
c
Ejemplo 21. Una calificadora de riesgo asigna calificación a aseguradoras que van
de 0 a 5, siendo 5 la mayor calificación. Esta calificadora escoge aleatoriamente a 4
aseguradoras de los 3 ramos (vida, Accidentes-enfermedades y daños) y desea probar
con un nivel de significancia del 5 % que los 3 ramos tienen varianzas homogéneas.
Los resultados obtenidos fueron:
Solución:
Se calcula la suma simple y al cuadrado de las observaciones por ramo ası́:
Pc Pc
c1 c2 c3 c4 j=1 xij j=1x2ij
r1 4.2 4.5 4.3 4.5 17.5 76.63
r2 3.9 3.8 4.1 3.9 15.7 61.67
r3 3.8 3.8 4.2 3.5 15.3 58.77
98 Otras pruebas no paramétricas
Pc 2
Pc 2 ( j=1 xij )
Después se calcula la suma de cuadrados SCi = j=1 xij − c
, ası́:
(17.5)2 (15.7)2
SC1 = 76.63 − = 0.0675 SC2 = 61.67 − = 0.0475
4 4
(15.3)2
SC3 = 58.77 − = 0.2475
4
Pr
SCi
Una vez calculado la suma de cuadrados, se puede obtener Sp2 = i=1
N −r
: y Si2 =
SCi
c−1
.
0.0675
S12 =
4−1
2
∴ S1 = 0.0225
0.0475
S22 =
4−1
∴ S22 = 0.0158
0.2475
S32 =
4−1
2
∴ S3 = 0.0825
6.2 Prueba de Bartlett 99
Teniendo todos los elementos se puede construir la estadı́stica (6.1) sustituyendo los
anteriores elementos
∴ T = 2.08
2(.95)
Se sabe que el cuantil de una distribución, con α = 0.05, es χ(2) = 5.99. Por lo
que:
2(.95)
T = 2.08 < χ(2) = 5.99
Por lo que la prueba no se rechaza, asumiendo ası́ que los 3 ramos de seguros tienen
una varianza homogénea en la calificación de sus aseguradoras.
100 Otras pruebas no paramétricas
Capı́tulo 7
Prueba de proporciones
1. Suponga que adquiere un portafolio de instrumentos financieros, el bróker le
asegura que dicho portafolio esta formado de tal manera que a lo más el 25 %
de los activos presentan rendimientos negativos. Una vez adquirido el portafolio,
usted observa que 24 de los 80 instrumentos que conforman la cartera presentan
rendimientos negativos. ¿Es razonable suponer que el portafolio tiene a lo más
25 % de activos que presentan rendimientos negativos?. Realiza lo siguiente:
a) Establecer H0 vs. Ha
b) Encontrar la región de rechazo de la prueba binomial con un nivel de con-
fianza 95 %
a) Establecer H0 vs. Ha .
b) Encontrar la región de rechazo de la prueba binomial con un nivel de con-
fianza 90 %.
101
102 Ejercicios y problemas estadı́stica no paramétrica
Prueba de rachas
1. Suponga que compra el boleto para una rifa, el boleto le da la oportunidad
de ganar alguno de los 20 premios disponibles. El organizador asegura que el
procedimiento es completamente aleatorio. Para el dı́a de la rifa se han vendido
100 boletos y los boletos ganadores fueron:
27 57 15 10 74 51 31 86 56 6
13 77 3 43 44 65 4 5 48 98
Usted duda quiere comprobar la hipótesis del organizador, que la resultados fue-
ron aleatorios, con un nivel de significancia del 5 %.
a) Usted piensa que la anterior muestra sigue una distribución normal, realiza
la prueba correspondiente para verificar que su suposición es cierta con un
nivel de confianza del 90 %.
b) El gerente del banco asume que la muestra se distribuye sigue una distri-
bución lognormal con media 0 y varianza 1. ¿Realicé la prueba correspon-
diente para verificar la suposición del gerente con un nivel de significancia
α = 0.01?.
4. Un cierto banco otorga crédito a las personas con una tasa preferencial, de tal
manera que los acreditados pueden pagar en cualquier momento desde que pi-
den el préstamo hasta 8 semanas posteriores para que les sea respetada la tasa
preferencial . Se seleccionaron aleatoriamente a 1,000 personas y observaron su
comportamiento, generando de esta manera la siguiente tabla de frecuencia:
Usted piensa que el pago de estos créditos, sigue una distribución binomial con
parámetros n = 10 y p = 0.25, realicé la prueba χ2 para verificar que suposición
es válida con un 99 % de confianza.
Tablas de contigencia
1. Se recopilaron datos macroecónomicos de diversos paı́ses durante el 2017 del
Fondo Monetario Internacional entre los cuales destacan el tamaño del territorio
del paı́s en km2 y la tasa de fertilidad. Se clasificó la información de la siguiente
manera:
a) Establecer H0 vs. Ha
105
no divorciados 80 72 99 82 62 50 85
divorciados 60 70 88 75 42 30 50
Se puede decir que hay diferencia en el aprovechamiento académico de los niños?
Use α = 0.05.
Grupos
107
1 2 3 4
19 14 12 38
22 21 1 39
25 2 5 40
24 6 8 30
29 10 4 31
26 16 13 32
37 17 9 33
23 11 15 36
27 18 3 34
28 7 20 35
En R realiza:
7. Para las dos muestras que se encuentran en el archivo pregunta3.r pruebe uti-
lizando la prueba de Wilcoxon H0 : Las medias son iguales.
8. Realice la prueba de Friedman para los datos que se dan en el archivo pregunta4.r.
9. Realice la prueba de Bartlett para los edatos que se dan en el archivo pregunta5.r.
Realice la prueba dividiendo la población en 3 grupos del mismo tamaño, des-
pués realice la prueba dividiendo la población en 4 grupos del mismo tamaño y
finalmente realice la prueba con ni = {49, 82, 103, 66}. Use α = 0.05.
Prueba McNemar
1. Como se mencionó en clase la tabla de Mcnemar las variables B y C, hacen
referencia al número de elementos que cambio de un estado al otro, el valor que
se esperarı́a que cambiaran de un estado a otro es B+C
2
y con una varianza B+C4
.
108 Ejercicios y problemas estadı́stica no paramétrica
(B − C)2
∼ χ2(1) .
B+C
2. Una casa de bolsa forma portafolios de inversión clasificados de alto y bajo riesgo.
En 2005, de 100 individuos 70 elegı́an invertir en portafolios conformado por ac-
tivos de alto riesgo. Después de la crisis de 2008, en 2010, 25 personas que elegı́an
portafolios riesgosos cambiaron de portafolio eligiendo correr menos riesgos. Por
otra parte 10 personas cambiaron de portafolios con poco riesgo a carteras ries-
gosas. ¿Es significativo el cambio en el número de personas después de la crisis
de 2008?.
Apéndice A
Relación de distribuciones de
probabilidad.
X ∼ Bernoulli(p).
X ∼ Exp(β).
109
110 Relación de distribuciones de probabilidad.
Y ∼ Γ(α, cβ).
Si X1 , X2 , . . . , Xn ∼ Bernoulli(p) entonces:
n
X
Xi ∼ Bin(n, p)
i=1
.
Si X1 , X2 , . . . , Xn ∼ Geom(p) entonces:
n
X
Xi ∼ BinN ega(n, p).
i=1
Si X1 , X2 , . . . , Xn ∼ Exp(β) entonces:
n
X
Xi ∼ Γ(n, β).
i=1
Si Xi ∼ P ois(λi ), i = 1, 2, . . . , n entonces:
n n
!
X X
Xi ∼ P ois λi .
i=1 i=1
111
Si Xi ∼ χ2mi , i = 1, 2, . . . , n entonces:
n
X
Xi ∼ χ2(Pn m ) .
i=1 i
i=1
Si Xi ∼ N (µ, σ ), i = 1, 2, . . . , n entonces:
2
n
X (Xi − µ)2
∼ χ2n .
i=1
σ2
Si Xi ∼ N (µ, σ ), i = 1, 2, . . . , n entonces:
2
Pn 2
i=1 Xi − X̄
∼ χ2n−1
σ2
(n − 1)S 2
∼ χ2n−1 .
σ2
2
Pn (Xi −X̄ )
donde S 2 = i=1 n−1
.
Si Xi ∼ N (µ, σ 2 ), i = 1, 2, . . . , n entonces:
X̄ − µ
q ∼ t(n−1) .
S2
n
2
Pn (Xi −X̄ )
donde S 2 = i=1 n−1
.
X
q ∼ t(k) .
Y
k
n n
!
Y X X
Xi ∼ LogN orm µi , σi2 .
i=1 i=1 i=1
112 Relación de distribuciones de probabilidad.
Apéndice B
Tablas
Dn = sup |Fn − Fx∗ | = max{max{Fn (xi−1 ) − Fx∗ }, max{Fn (xi ) − Fx∗ }}.
x∈R
113
114 Tablas
Dn = sup |Fn − Fx∗ | = max{max{Fn (xi−1 ) − Fx∗ }, max{Fn (xi ) − Fx∗ }}.
x∈R
n
X 2i − 1
A2n = −n − [ln (FX∗ (xi )) + ln(1 − FX∗ (xn−i+1 ))] .
i=1
n
1−α
Caso Ajuste en la estadı́stica 0.90 0.95 0.975 0.99
Todos los parámetros conocidos A2n para n ≥ 52 1.933 2.492 3.070 3.857
4 25
Normal con N (X̄, S 2 ) 1 + n + n2 An 0.632 0.751 0.870 1.029
0.6 2
Exponencial con exp(X̄) 1 + n An 1.070 1.326 1.587 1.943
0.2
Weibull con W eibull(α̂, β̂) 1+ √
n
A2n 0.637 0.757 0.877 1.038
0.25
Log-lógista con loglog(α̂, β̂) 1+ √
n
A2n 0.563 0.660 0.769 0.906
n1 n2 W0.005 W0.01 W0.025 W0.05 W0.10 W0.90 W0.95 W0.975 W0.99 W0.995
2 5 - - 3 - - - - -
2 8 - - 3 3 - - - - -
2 11 - - 3 3 - - - - -
2 14 - - 3 3 3 - - - - -
2 17 - - 3 3 3 - - - - -
2 20 - 3 3 3 4 - - - - -
5 5 3 3 4 4 8 8 9 9 -
5 8 3 3 4 4 5 9 10 10 - -
5 11 4 4 5 5 6 10 - - - -
5 14 4 4 5 6 6 - - - - -
5 17 4 5 5 6 7 - - - - -
5 20 5 5 6 6 7 - - - - -
8 8 4 5 5 6 6 12 12 13 13 14
8 11 5 6 6 7 8 13 14 14 15 15
8 14 6 6 7 8 8 14 15 15 16 16
8 17 6 7 8 8 9 15 15 16 - -
8 20 7 7 8 9 10 15 16 16 - -
11 11 6 7 8 8 9 15 16 16 17 18
11 14 7 8 9 9 10 16 17 18 19 19
11 17 8 9 10 10 11 17 18 19 20 21
11 20 9 9 10 11 12 18 19 20 21 21
14 14 8 9 10 11 12 18 19 20 21 22
14 17 9 10 11 12 13 20 21 22 23 23
14 20 10 11 12 13 14 21 22 23 24 24
17 17 11 11 12 13 14 22 23 24 25 25
17 20 12 12 14 14 16 23 24 25 26 27
20 20 13 14 15 16 17 25 26 27 28 29
En la siguiente tabla se muestran los valores crı́ticos con ciertos niveles de signifi-
cancia de la distribución asociada a la ρ de Spearman.
Nivel de Significancia α
n 0.1 0.05 0.025 0.01 0.005 0.001
4 1 1 - - - -
5 0.8 0.9 1 1 - -
6 0.657 0.829 0.886 0.943 1 -
7 0.571 0.714 0.786 0.893 0.929 1
8 0.524 0.643 0.738 0.833 0.881 0.952
9 0.483 0.6 0.7 0.783 0.833 0.917
10 0.455 0.564 0.648 0.745 0.794 0.879
11 0.427 0.536 0.618 0.709 0.755 0.845
12 0.406 0.503 0.587 0.678 0.727 0.818
13 0.385 0.484 0.56 0.648 0.703 0.791
14 0.367 0.464 0.538 0.6’26 0.679 0.771
15 0.354 0.446 0.521 0.604 0.654 0.75
16 0.341 0.429 0.503 0.582 0.635 0.729
17 0.328 0.414 0.488 0.566 0.618 0.711
18 0.317 0.401 0.472 0.55 0.6 0.692
19 0.309 0.391 0.46 0.535 0.584 0.675
20 0.299 0.38 0.447 0.522 0.57 0.662
21 0.292 0.37 0.436 0.509 0.556 0.647
22 0.284 0.361 0.425 0.497 0.544 0.633
23 0.278 0.353 0.416 0.486 0.532 0.621
24 0.271 0.344 0.407 0.476 0.521 0.609
25 0.265 0.337 0.398 0.466 0.511 0.597
26 0.259 0.331 0.39 0.457 0.501 0.586
27 0.255 0.324 0.383 0.449 0.492 0.576
28 0.25 0.318 0.375 0.441 0.483 0.567
29 0.245 0.312 0.368 0.433 0.475 0.558
30 0.240 0.306 0.362 0.425 0.467 0.549
31 0.236 0.301 0.356 0.419 0.459 0.540
32 0.232 0.296 0.350 0.412 0.452 0.532
33 0.229 0.291 0.345 0.405 0.446 0.525
34 0.225 0.287 0.340 0.400 0.439 0.517
35 0.222 0.283 0.335 0.394 0.433 0.540
B.5 Cuantiles de la estadı́stica ρ de Spearman 121
Nivel de Significancia α
n 0.1 0.05 0.025 0.01 0.005 0.001
36 0.219 0.279 0.3.30 0.388 0.427 0.503
37 0.215 0.275 0.325 0.383 0.421 0.497
38 0.212 0.271 0.321 0.378 0.415 0.491
39 0.210 0.267 0.317 0.373 0.410 0.485
40 0.207 0.264 0.313 0.368 0.405 0.479
41 0.204 0.261 0.309 0.364 0.400 0.473
42 0.202 0.257 0.305 0.359 0.396 0.468
43 0.199 0.254 0.301 0.355 0.391 0.462
44 0.197 0.251 0.298 0.351 0.386 0.457
45 0.194 0.248 0.294 0.347 0.382 0 452
46 0.192 0.246 0.291 0.343 0.378 0.448
47 0.190 0.243 0.288 0.340 0.374 0.443
48 0.188 0.240 0.285 0.336 0.370 0.439
49 0.186 0.238 0.282 0.333 0.366 0.434
50 0.184 0.235 0.279 0.329 0.363 0.430
51 0.182 0.233 0.276 0.326 0.359 0.426
52 0.180 0.231 0.274 0.323 0.356 0 422
53 0.179 0.228 0.271 0.320 0.352 0.418
54 0.177 0.226 0.268 0.317 0.349 0.414
55 0.175 0.224 0.266 0.314 0.346 0.411
56 0.174 0.222 0.264 0.311 0.343 0.407
57 0.172 0.220 0.261 0.308 0.340 0.404
58 0.171 0.218 0.259 0.306 0.337 0.400
59 0.169 0.216 0.257 0.303 0.334 0 397
60 0.168 0.214 0.255 0.301 0.331 0.394
En la siguiente tabla se muestran los valores crı́ticos con ciertos niveles de signifi-
cancia de la distribución asociada a la τ de Kendall.
Nivel de Significancia α
n 0.1 0.05 0.025 0.01 0.005 0.001
4 1 1 - - - -
5 0.8 0.8 1 1 - -
6 0.6 0.733 0.867 0.867 1 -
7 0.524 0.619 0.714 0.81 0.905 1
8 0.429 0.571 0.643 0.714 0.786 0.857
9 0.389 0.5 0.556 0.667 0.722 0.833
10 0.378 0.467 0.511 0.6 0.644 0.778
11 0.345 0.418 0.491 0.564 0.6 0.709
12 0.303 0.394 0.455 0.545 0.576 0.667
13 0.308 0.359 0.436 0.513 0.564 0.641
14 0.275 0.363 0.407 0.473 0.516 0.604
15 0.276 0.333 0.39 0.467 0.505 0.581
16 0.25 0.317 0.383 0.433 0.483 0.567
17 0.25 0.309 0.368 0.426 0.471 0.544
18 0.242 0.294 0.346 0.412 0.451 0.529
19 0.228 0.287 0.333 0.392 0.439 0.509
20 0.221 0.274 0.326 0.379 0.421 0.495
21 0.21 0.267 0.314 0..371 0.41 0.486
22 0.203 0.264 0..307 0.359 0.394 0.472
23 0.202 0.257 0.296 0.352 0.391 0.455
24 0.196 0.246 0.29 0.341 0.377 0.449
25 0.193 0.24 0.287 0.333 0.367 0.44
26 0.188 0.237 0.28 0.329 0.36 0.428
27 0.179 0.231 0.271 0.322 0.356 0.419
28 0.18 0.228 0.265 0.312 0.344 0.413
29 0.172 0.222 0.261 0.31 0.34 0.404
30 0.172 0.218 0.255 0.301 0.333 0..393
31 0.166 0.213 0.252 0.295 0.325 0.389
32 0.165 0.21 0.246 0.29 0.323 0.379
33 0.163 0.205 0.242 0.288 0.314 0 375
34 0.159 0.201 0.237 0.28 0.312 0.369
B.6 Cuantiles de la estadı́stica τ de Kendall 123
Nivel de Significancia α
n 0.1 0.05 0.025 0.01 0.005 0.001
35 0.156 0.197 0.234 0.277 0.304 0.361
36 0.152 0.194 0.232 0.273 0.302 0 359
37 0.15 0.192 0.228 0.267 0.297 0.351
38 0.149 0.189 0.223 0.263 0.292 0.346
39 0.147 0.188 0.22 0.26 0.287 0.341
40 0.144 0.185 0.218 0.256 0.285 0 338
41 0.141 0.18 0.215 0.254 0.28 0.334
42 0.141 0.178 0.213 0.25 0.275 0.329
43 0.138 0.176 0.209 0.247 0.274 0 324
44 0.137 0.173 0.207 0.243 0.268 0.321
45 0.135 0.172 0.204 0.24 0.267 0.317
46 0.132 0.169 0.202 0.239 0.264 0.314
47 0.132 0.167 0.199 0.236 0.26 0 310
48 0.129 0.167 0.197 0.232 0.257 0.307
49 0.129 0.163 0.196 0.23 0.253 0.303
50 0.127 0.162 0.192 0.228 0.251 0 300
51 0.126 0.161 0.191 0.225 0.249 0.297
52 0.124 0.158 0.189 0.223 0.246 0.294
53 0.123 0.157 0.187 0.221 0.244 0 290
54 0.122 0.156 0.185 0.219 0.241 0 287
55 0.121 0.154 0.182 0.216 0.239 0.285
56 0.119 0.152 0.181 0.214 0.2.36 0.282
57 0.118 0.152 0.179 0.212 0.234 0 279
58 0.117 0.149 0.177 0.21 0.2.32 0.276
59 0.116 0.148 0.176 0.209 0.2.30 0.274
60 0.115 0.147 0.174 0.207 0.228 0.272
En la siguiente tabla se muestran los valores crı́ticos con ciertos niveles de signifi-
cancia de la distribución asociada la estadı́stica de Wilcoxon, particularmente para la
prueba de dos colas.
Nivel de Significancia α
n 0.05 0.01
6 1 -
7 2 -
8 4 0
9 6 2
10 8 3
11 11 5
12 14 7
13 17 10
14 21 13
15 25 16
16 30 19
17 35 23
18 40 28
19 46 32
20 52 37
21 59 43
22 66 49
23 73 55
24 81 68
25 90 68
26 98 76
27 107 84
28 117 92
29 127 100
30 137 109
aproximarse valores por encima de lı́mite con n = 30, para mayor confiabilidad puede
realizar el experimento en R.
126 Tablas
Apéndice C
Formulario
Ver página 2.
El test para proporciones prueba afirmaciones sobre la proporción o la probabilidad
“p” esperada de que ocurra un cierto suceso en una muestra aleatoria. La prueba de
hipótesis para una cola es:
H0 : p = p∗ vs. H1 : p 6= p∗
127
128 Formulario
T = O1 .
P [Y ≤ t1 ] = α1 .
P [Y ≤ t2 ] = 1 − α2 .
donde Y ∼ Bin(n, p∗ ).
De esta forma se rechaza H0 si T ≤ t1 o si T > t2 . En cualquier otro caso, se acepta
la hipótesis nula.
El p − value equivale a:
p − value = 2 ∗ min (P [Y ≤ T ] , P [Y ≥ T ]) .
Donde Wα/2 y W1−α/2 son obtenidos de la tabla de cuantiles del apéndice B.4.
C.1 Estadı́stica no paramétrica 129
Prueba de la Ji-Cuadrada
Ver página 20
La prueba de la Ji-cuadrada es una prueba de bondad de ajuste, consiste en medir
las diferencias entre la frecuencia esperada y la frecuencia observado; La prueba de
hipótesis es:
Kolmogorov-Smirnov
Lilliefors
H0 : La muestra ∼ N (X̄, S 2 )
vs.
Ha : La muestra N (X̄, S 2 )
Pn
i=1 1xi ≤x
Se define a la distribución empı́rica como: Fn = n
, ası́ la estadı́stica Dn se
denota como
xi − X̄ xi − X̄ xi − X̄
Dn = sup |Fn −φ | = max{max{Fn (xi−1 )−φ }, max{Fn (xi )−φ }}
x∈R S2 S2 S2
Anderson Darling
Donde FX∗ es la distribución teórica que se quiere probar con un nivel de significancia
α.
La estadı́stica de Anderson-Darling es:
n
X 2i − 1
A2n = −n − [ln (FX∗ (xi )) + ln(1 − FX∗ (xn−i+1 ))]
i=1
n
Finalmente la regla de decisión será rechazar H0 si A2n > W 1−α , donde W 1−α es el
cuantil asociado a la distribución A2n bajo H0 , la cual puede consultarse en el apéndice
B.3
Tablas de contingencia
Las tablas de contingencia, como lo dice su nombre, son tablas en el que se muestra
las frecuencias de c diferentes clases, con la finalidad de observar si r variables son
independientes entre si, de esta manera se plantea la siguiente prueba de hipótesis:
Xr Xc Xr c
X
H0 : Pij = Pij Pij vs. Ha : Pij 6= Pij Pij , ∀i = 1, . . . , r; j = 1, . . . , c
i=1 j=1 i=1 j=1
Pc
( nij )( ci=1 nij )
P
j=1
Donde eij = N
. Cuya distribución probabilista asociada es T ∼
2
χ(r−1)(c−1) .
Por lo que la regla de decisión es: Rechazar H0 , a un nivel de significancia α
si
T ≥ W 1−α
Donde W 1−α es el cuantil 1 − α de una distribución χ2(r−1)(c−1) .
132 Formulario
ρ (ro) de Spearman
n+1 2
Pn
i=1 R (X i ) R (Y i ) − n 2
ρ= 1/2 P 1/2 . (C.1)
Pn 2 n+1
2 n 2 n+1 2
i=1 (R (Xi )) − n 2 i=1 (R (Yi )) − n 2
Prueba de Hipótesis
A (prueba de dos colas) H0 : Las Xi0 s y las Yi0 s son mutuamente independientes.
Ha : Existe una tendencia para que los valores más grandes de X estén “empareja-
dos” con los valores más grandes de Y y los valores chicos de X con los valores chicos de
Y ó existe una tendencia para que los valores más grandes de X estén “emparejados”
con los valores más chicos de Y y los valores chicos de X con los valores grandes de Y
(ρ 6= 0).
Usando ρ como estadı́stica de prueba se tiene la siguiente regla de decisión:
Se rechaza H0 al nivel de significancia α si:
τ (tau) de Kendall
La τ de Kendall también puede usarse como una estadı́stica de prueba para probar
la hipótesis nula de independencia entre X y Y . Por lo general se usa T como la
estadı́stica de prueba:
T = Nc − Nd ,
Prueba de Kruskal-Wallis
k
!
1 X R2 i N (N + 1)2
T = 2 −
S i=1
ni 4
donde:
S 2 es de la forma:
!
1 X N (N + 1)2
S2 = R2 (xij ) −
N T odos los rangos
4
N (N + 1)
S2 =
12
Prueba de McNemar
(B−C)2
Se usa la estadı́stica T = B+C
sigue una distribución χ2(1) .
D0e esta manera la regla de decisión es: rechazar H0 con un nivel de significancia
2(α/2) 2(1−α/2)
α cuando T < χ(1) o T > χ(1) .
Prueba de Bartlett
donde:
Pr
SCi SCi
Sp2 = i=1
y Si2 =
N −r c−1
A su vez SCi se define como la suma de cuadrados de la forma:
P 2
c
Xc x
j=1 ij
SCi = x2ij −
j=1
c
Referencias
statistical inference.html
Kruskal, W. H., y Wallis, W. A. (1952, dec). Use of ranks in one-criterion variance
analysis. Journal of the American Statistical Association, 47 (260), 583–621. doi:
10.1080/01621459.1952.10483441
McNemar, Q. (1947, jun). Note on the sampling error of the difference between
correlated proportions or percentages. Psychometrika, 12 (2), 153–157. doi: 10
.1007/bf02295996
Mejia, H. A. R. (2001). Algebra lineal. Prensas de Ciencias.
Mood, A. (1974). Introduction to the theory of statistics. McGraw-Hill Education.
NCCS. (s.f.). Analysis of runs. NCCS Statiscal Software, Chapter 256 . Descargado
de https://ncss-wpengine.netdna-ssl.com/wp-content/themes/ncss/pdf/
Procedures/NCSS/Analysis of Runs.pdf
Pearson, K. (2013). On the theory of contingency and its relation to association and
normal correlation. HardPress Publishing. Descargado de https://www.ebook
.de/de/product/32047345/karl pearson on the theory of contingency
and its relation to association and normal correlation.html
Pena, D. (2002). Analisis de datos multivariantes. McGraw-Hill Interamericana
de Espana S.L. Descargado de https://www.ebook.de/de/product/8559396/
daniel pena analisis de datos multivariantes.html
Phoebus Dhrymes, J. G. (2017). Introductory econometrics. Springer-
Verlag GmbH. Descargado de https://www.ebook.de/de/product/29672392/
phoebus dhrymes john guerard introductory econometrics.html
Robert S. Pindyck, D. L. R. (2001). Econometria: Modelos y pronosticos (McGraw-Hill,
Ed.).
Siegel, S. (2012). Estadistica no parametrica (E. TRILLAS, Ed.). N. John Castellan.
Stephen H. Friedberg, L. E. S., Arnold J. Insel. (2002). Linear algebra (4th Edicion
ed.; Pearson, Ed.).
UNAM. (s.f.). Actuaria. Descargado de http://oferta.unam.mx/actuaria.html
Verzani, J. (2002). Using r for introductory statistics. CSI Math department. Descar-
gado de https://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf
Wayne, D. (1990). Applied nonparametric statistics. Boston: PWS-KENT Pub.
White, H. (1980). A heteroskedasticity-consistent covariance matrix estimator and
a direct test for heteroskedasticity. Econometrica. Descargado de https://www
.jstor.org/stable/1912934?seq=1#page scan tab contentsl
Whitney, H. B. M. D. R. (1947). On a test of whether one of two random variables
is stochastically larger than the other. The Annals of Mathematical Statistics,
50-60.
Wilcoxon, F. (1945). Individual comparisons by ranking methods (I. B. Society,
Ed.). Biometrics Bulletin. Descargado de https://sci2s.ugr.es/keel/pdf/
algorithm/articulo/wilcoxon1945.pdf
138 Formulario
Wolfowitz, A. W. J. (1940). On a test wheter two samples are from same population.
The Annals of Mathematical Statistics, 147-162.