Estadística No Paramétrica 2010

Nuestra agenda para esta sesión
 Estadística no paramétrica.
 Prueba del signo: de la mediana, muestras
pareadas.
 Prueba de rango con signo de Wilcoxon:
aproximación para muestras grandes y
observaciones pareadas.
 Práctica 1, examen final
 Prueba corta
II semestre 10
Objetivos de aprendizaje y mapa
conceptual
 Entender para qué, por qué y cuándo conviene utilizar la

estadística no paramétrica.
II semestre 10
Estadística no paramétrica
Métodos de distribución libre
Se sugiere como referencia:

Capítulo 16 del Walpole,
el 6.9 del W. Navidi, Estadística para ingenieros y científicos; y
el 15 del J. Devore, Probabilidad y Estadística para ingeniería y
ciencias, entre otros
Agradecemos al Ing. Ronny Pacheco por el

aporte en la preparación de algunas de las
secciones de este documento
Concepto
“Procedimientos de prueba estadísticos que no suponen conocimiento
de ninguna clase a cerca de las distribuciones de probabilidad de las
poblaciones fundamentales, excepto quizá que estas son continuas”
Walpole, Meyer y otros
CUIDADO!!!!!
Los métodos con distribuciones libres no están libres de supuestos … porque
algunos de los métodos más comunes, como la prueba del rango con signo y de
suma de rangos que vemos en nuestro curso, parten del supuesto de simetría .
Lo que nos lleva a que en realidad los métodos son algo restrictivos con respecto
a las violaciones moderadas de ese supuesto … resultando que no
son aplicables de modo universal!!!
Navidi
Cuando las poblaciones no son normales, las pruebas t y F, tienen en

general, niveles reales de significancia que difieren de los nominales.
4
Veamos que
¿Es normal la
e de significa esto en la
í p u población?
práctica, por
u
A star el
q NO SI ejemplo cuando
e r!!!! estamos tratando la
erro tendencia central
¿Es n igual o ¿Conocemos la

mayor que 30? varianza?
SI
NO SI NO
Utilice una ¿Es n igual o
Utilice una
prueba no mayor que 30?
distribución Z
paramétrica
Porque recordemos que uno de los requisitos para que

NOse cumpla el TLC es: “los SI términos Xi,
tomados individualmente, contribuyen con una cantidad despreciable a la varianza de la suma
y existen pocas probabilidades de que un solo término realice una gran contribución a la
suma” (D. Montgomey).
Además, cuando la distribución fundamental tieneUtilice
“colas una Utilice
pesadas” (los valores una
observados se
distribución t distribución
encuentras lejos de μ pero más probables que en una distribución normal), Z
t suele ser muy
inestable. (J. Devore)
LA TECNICAS LIBRES DE DISTRIBUCION NO SON UNIVERSALES!!!

Pero no perdamos la paz!!!
 Cuando la distribución fundamental de la
cual se hace el muestreo es normal, y el
tamaño de muestra es pequeño, la prueba t
es la mejor, porque con cualquier  es la
que tiene la menor .
 En problemas de muestras grandes, la
prueba no paramétrica (de Wilcoxon) es
mucho más eficiente que la t si la
distribución fundamental está lejos de ser
normal.
Ventajas de la pruebas no paramétricas
 Fácil aplicación.
 Puede servir de método de evaluación rápido,
antes de determinar si se requiere de un método
más elaborado.
 Muchos supuestos que típicamente se deben hacer
respecto a la población en estadística paramétrica,
no son requeridos.
 Útil cuando el supuesto de normalidad no puede
ser realizado.
II semestre 10
Desventajas de las pruebas no paramétricas
Si se puede aplicar una técnica paramétrica,

siempre este es un método más robusto.
En estadística no paramétrica se requerirá una

muestra más grande para lograr una misma potencia
de una paramétrica, en caso de que ambos métodos
sean aplicables.
II semestre 10
Antes de iniciar con las pruebas no paramétricas
específicas que vamos a tratar en este curso,
conviene una prueba preliminar para determinar
si el procedimiento de extracción de la muestra
es efectivamente aleatorio, requisito de
cualquiera de las pruebas estadísticas robustas.
A esto se le conoce por “prueba de

corridas” o de “rachas”
II semestre 10
Fundamentos
 Es una prueba para probar la Ho: las muestras se
obtienen al azar. La Hi: las muestras no se obtienen
al azar.
 Se basan en el orden en que se obtienen las
observaciones muestrales.
 Una corrida es una subsecuencia de uno o más
símbolos idénticos que representan una propiedad
común de los datos.
 Los símbolos se dividen en dos categorías.
 Si el número de corridas es mayor o menor que el
que esperaríamos al azar, se debe rechazar la Ho.
II semestre 10
Vamos a utilizar la tabla A.19 del Walpole
Ejemplo
 Sean las mediciones del ritmo metabólico de ciertos monos.
 Determine si los resultados se comportan al azar
Mediana
4,55 4,51 4,93 4,9 4,59 6,8 5,08 5,67 4,55 4,705 4,86 4,86
Regla de clasificación: si el valor xi > x0.5, clasifíquelo como “M”

Mediana
4,55 4,51 4,93 4,9 4,59 6,8 4,99 5,67 4,55 4,705 4,86 4,86
m m M M m M M M m m eliminar
1 2 3 4 5
Total de"m" 5 como es el No. mayor se denomina n2

Total de"M" 5 como es el No.menor se denomina n1
t a bl a Corridas 5 a esto se le llama v
l a )
De 9 (5;5
A.1 5, el Si v< 11: si 2P(v<=v cuando Ho es real) >0.05, Ho es verdadera, y por tanto no
=
y v r es hay suficiente evidencia para rechazar la hipótesis de aleatoriedad de la
a l o
v muestra.
. 3 57
0 II semestre 10 2P(v <=v cuando Ho es real) 2*0.357 >0.05, luego no hay suficiente
evidencia para rechazar la hipótesis de aleatoriedad de la muestra
En una línea de producción de tornillos se requiere controlar el diámetro en
mm de la cabeza. Se hace un muestreo y se determinan los diámetros que se
indican. A un 95% de confianza ¿los resultados evidencias aleatoriedad en
los pesos medidos?
No. No. Medició No. No. Medició
Medición Medición
muestra muestra n muestra muestra n
1 0,08 6 0,04 11 0,05 16 0,10
2 0,07 7 0,11 12 0,04 17 0,08
3 0,09 8 0,10 13 0,03 18 0,07
4 0,08 9 0,08 14 0,09 19 0,90
5 0,05 10 0,11 15 0,11
II semestre 10
Dato Clasificación v
0,08 Eliminar Contar
8 n2
0,07 me 1 M
Contar
0,09 Ma 2 7 n1
m
0,08 Eliminar De la tabla A.19 0,514
Nota aclaratoria:0,05 me Como v<11, R ≤ R a un 95% de confianza
3
En nuestro curso tratamos la prueba
0,04 me de “cantidad deNocorridas” o “prueba
hay evidencia de rachas”
que rechace para de
la hipótesis
tamaños de muestra
0,11 menores Ma de 20. aleatoriedad
En este caso la 0,10
Ho: el proceso Maes aleatorio, contra TRES posibles H1:
4
a): se observa agrupamiento
0,08 o patrón de tendencia”. Estamos ante comportamientos del tipo
Eliminar
Ma, Ma, Ma, Ma; 0,11me, me, me, Maetc. ) Tendríamos una cantidad menor de corridas. En este caso
se debe utilizar 0,05
la cola inferiorme( izquierda) de la distribución como región de rechazo, es decir la
región crítica tiene
0,04 la forma Rme ≤ R 5
b) se observa mezclado
0,03 (también
me conocido por “patrón cíclico”, del tipo Ma; me; Ma; me; Ma;
me, etc.) Tendríamos
0,09 una cantidad Ma mayor de corridas. En este caso se debe utilizar la cola
superior ( derecha)
0,11 de la distribución
Ma como
6 región de rechazo, es decir, la región crítica tiene la
forma R R1-0,10 Ma
H1 c): se observa0,08agrupamiento
Eliminaro mezclado, la prueba debe ser bilateral, donde la región crítica
tiene la forma R0,07R1-/ 2 o R ≤meR /2 7
0,90 Ma 8
EnMediana
casos de muestras
0,08 grandes, entendidasv como aquellas con n=n1+n2>20, con n1 y n2 >8
(algunos autores indican que solamente se requiere que n>20, y otros que n1 y n 2 >10 ; en esos
II semestre 10
casos podemos utilizar aproximaciones normales.)

Prueba de rachas para muestras grandes
Referencia: Spiegel M; Stephens L, Estadística, 4 edición, Schaun
En estos casos, para estandarizar la variable utilice:

µv= {2n1n2/(n1+n2)}+1
σv2={2n1n2(2n1n2-n1-n2}/{(n1+n2)2 (n1+n2-1)}
z= (v- µv)/σv
Luego compare si z cae en la región crítica,

dependiendo si es unilateral o bilateral
II semestre 10
Ejemplo: En 30 lanzamientos de una
moneda se obtiene la secuencia de
coronas (H) y escudos (T) que se 1 H 1 16 H 11
2 T 17 T 12
muestra. Utilice α=0.05 2
3 T 18 H
13
µv= {2n1n2/(n1+n2)}+1= {2*16*14/(16+14)} 4 H 3 19 H
+1= 15.93 5 T 4 20 T 14
6 H 21 H 15
σv2={2n1n2(2n1n2-n1-n2}/{(n1+n2)2(n1+n2-1)} = 7 H 5 22 T
{2*16*14(2*16*14-16-14}/{(16+14)2 (16+14- 16
8 H 23 T
1)} = 7.175
9 T 6 24 H 17
z= (v- µv)/σv = (22-15.93)/2.679 = 2.27 10 H 25 T 18
7
11 H 26 H
19
12 T 27 H
Es una prueba de dos colas, a un α=0.05, 8
13 T 28 T 20
se acepta Ho de aleatoriedad si -
1.96≤z≤1.96. Como 2.27>1.96, luego se 14 H 9 29 H 21
concluye a un 95% de confianza que los 15 T 10 30 T 22
lanzamientos NO son aleatorios v 22
II semestre 10
nH= 16
nT= 14
Otra aplicación de la prueba de rachas: diferencia
entre poblaciones de las que sea ha tomado una
muestra
 Se utiliza para decidir si dos muestras se han tomado de una
misma población.
 Suponga dos muestras de tamaño m y n. Coloque los m+n datos en
orden decreciente.
 Sustituya el dato por una “m” si proviene de la muestra m, y por “n”
si lo es de la otra muestra.
 Si hay datos repetidos provenientes de ambas muestras, utilice
números aleatorios para ordenarlos, y sustituya como se indicó en el
punto anterior.
 Proceda a realizar las comparaciones conforme se explicó en los
procedimientos anteriores, según corresponda.
 Esta es una alternativa a la prueba U de Mann-Whitney que
veremos adelante.
II semestre 10
Ahora vamos a empezar con
pruebas no paramétricas
para la MEDIANA
II semestre 10
Prueba de signos
Cuando se requiere realizar la prueba:
H 0 :   0 H1: μ ≠ μ0
H1: μ < μ0
H1: μ > μ0
Pero no se cumple el requisito de normalidad
La 
prueba de signos se utiliza para probar
hipótesis sobre una mediana poblacional
II semestre 10
Prueba de signos
La mediana poblacional se representa con el símbolo
˜

Dada una variable continua aleatoria X, la mediana
poblacional se define como
P  ˜   P(X  
X   ˜ )  0.5
II semestre 10
Prueba de signos
 Metodología
 Se sustituye cada valor muestral mayor que la mediana
muestral con un signo más.
 Se sustituye cada valor muestral menor que la mediana
muestral con un signo menos.
 Los valores muestrales iguales a la mediana se
descartan.
 Se prueba la hipótesis nula de que estos signos de más y de
menos son el resultado de ensayos binomiales con p=½
II semestre 10
Prueba de signos
 Metodología
 Para realizar la prueba, si la muestra es pequeña se
realiza directamente con la tabla binomial.
 Si la muestra es grande (n mayor que 10) se realiza la
prueba con la distribución normal de acuerdo al método
de prueba de hipótesis de una proporción, con el
estadístico
X  np0
Z
np0 1 p0 
II semestre 10
Prueba de signos
Ejemplo
Usted es el ingeniero en jefe de un proyecto que produce
baterías y afirma que la vida media de un tipo de estas es
superior a 250 horas. El defensor de los consumidores
desea saber si esta afirmación es justificada y para ello
mide la vida media de 24 baterías, con los resultados que se
presentan en la tabla a continuación. Supuesto que la
muestra fue aleatoria, justifique su afirmación con un nivel
de significancia de 0.05.
II semestre 10
Prueba de signos
Muestreo de vida las baterías en horas
271 230 198 275 282 225 284 219
253 216 262 288 236 291 253 224
264 295 211 252 294 243 272 268
II semestre 10
Prueba de signos
Solución
~ ~
H 0 :    0  250
~ ~
H1 :   0
Con un nivel de significancia de 0.05 el Z crítico sería
Rechazo No hay evidencia para rechazar
Z= -1.645
II semestre 10
Prueba de signos
271 230 198 275 282 225 284 219
Solución 253 216 262 288 236 291 253 224

264 295 211 252 294 243 272 268
Alt e c comparar
a so la tabla del muestreo contra la vida
En es sa la
no imedia lapropuesta se tiene la siguiente tabla
nt e r e
ud de
it
magn ia
nc
difere
+ - - + + - + -
271 – 250 = + - + + - + + -
+ 21 + + - + + - + +
Al anotar los signos de las diferencias vemos que hay 15 signos

“+” y 9 signos “-”.
II semestre 10
Co
m on
>10
Prueba de signos , ha y
que
t i pi
X  np0 fica
Z r
Solución np0 1 p0 
Ahora se busca el estadístico de prueba Z. No olvidar el factor de

corrección por continuidad

(15  0.5)  24 0.5 Z= 0.98
z
240.50.5
Rechazo No hay evidencia para rechazar
Z= - 1.645 No hay suficiente evidencia para

rechazar la afirmación de que las
baterías tienen una vida media igual a
II semestre 10 250 horas.
Prueba de signos
Ejemplo
Para realizar un experimento usted ocupa que la
cantidad de octanaje de la gasolina que utilizará en su
motor experimental no exceda una calificación de 98. Para
esto se toman las siguientes muestras de la cantidad de
octanaje del combustible que usted tiene disponible para
esto, y requiere hacer una prueba con un nivel de
significancia del 0.01
99 102.3 99.8 100.5 99.7 96.2 99.1 102.5
103.3 97.4 100.4 98.9 98.3 98 101.6
II semestre 10
Prueba de signos
Solución
˜  98.0
H 0 : 
˜  98.0
H1 : 
Criterio: Determinar la cantidad de signos más
(+) denotados por x. Rechazar la hipótesis nula si
la probabilidad de obtener x o más signos de más
es menor o igual a 0.01
II semestre 10
99 102.3 99.8 100.5 99.7 96.2 99.1 102.5
Prueba de signos
103.3 97.4 100.4 98.9 98.3 98 101.6
Solución: si sustituimos cada valor mayor que 98 por un

signo más y cada valor menor por un signo menos,
obtenemos el siguiente resultado Recu
erd
valor e: el 0
98 no del
consi
dera se
+++++-+++-++++
Como n es pequeña, podemos usar directamente la tabla de binomial.
Tenemos 12 signos más. Con n=14 y p=0.5, la probabilidad de x ≥ 12 es

1-0.9991 = 0.0009
Dado que 0.0009 es menor que 0.01 debemos rechazar la hipótesis nula y
concluimos
II semestre 10
que la calificación mediana de octanaje excede los 98.0
Prueba de rango con signo
A diferencia de la prueba de signos, la prueba de
rangos y signos considera la magnitud de la
diferencia, no solo la dirección:
Prueba de Rango con Signo de Wilcoxon
Se aplica solo en el caso de una distribución

continua simétrica
II semestre 10
Se prueba la hipótesis nula:
˜  
H 0 :  ˜0
Los pasos son los siguientes:
1. Se resta μ0 de cada valor muestral y se
descartan todas las diferencias igual a cero.

2.Se clasifican las diferencias sin importar el
signo
II semestre 10
3. Se asigna un rango de 1 a la menor
diferencia absoluta, un rango de 2 a la
siguiente más pequeña.
4. Cuando la diferencia de dos o más valores
muestrales es el mismo, se asigna a cada uno
el promedio de los rangos que se asignarían si
las diferencias fueran distinguibles.
Veamos el siguiente ejemplo …
II semestre 10
Supongamos que se dan los siguientes resultados
parciales .. (3+4+5)/3 =4
Magnitud Mag. Abs.

Diferencia absoluta ordenadas Rango
1 1 1 1
2 2 2 2
-4 4 4 34
-4 4 4 4
4 4 4 54
6 6 6 6
7 7 7 7
8,5 8,5 8,5 8
8,5
8,5 8,5 8,5 9
8,5
II semestre 10
10 10 10 10
5. Se suman todas las diferencias positivas, esta
sumatoria se denotará w+. La suma de todas las
diferencias negativas se denotará w- .
El menor valor entre w+ y w- se designa como w.
6. Comparar la sumatoria correspondiente con el valor
crítico de la tabla de valores críticos para la prueba de
rangos con signos (A17), si w es menor o igual que el
valor crítico, se rechaza la hipótesis nula de
¡¡¡¡La presentación de nuestra tabla A17
igualdad. puede variar entre libros de texto!!!
II semestre 10
Datos
muestrales
Ejemplo 494,6
510,8
487,5
Un fabricante de planchas eléctrica necesita probar la
493,2
precisión del control del termostato a 500 °F. Hace
pruebas a 15 planchas mediante un termopar, obteniendo 502,6
las siguientes mediciones. 485
Se entiende razonable que una desviación de temperatura 495,9
desde los 500 °F sea positiva o negativa (suposición de 498,2
simetría), pero se desea protegerse contra posibles 501,6
anormalidades de la distribución real de temperatura.
497,3
Verifique si los datos sugieren una incorrecta
492
calibración a un nivel de significancia de 0.05.
504,3
499,2
493,5
505,8
II semestre 10
Mag.
Datos Magnitud Abs.
muestrales Diferencia absoluta orden Rango Signo w+ w-
Ho: u = 500 494,6 -5,4 5,4 0,8 1 - 1
Hi: u  500 510,8 10,8 10,8 1,6 2 + 2
487,5 -12,5 12,5 1,8 3 - 3
eso
493,2 -6,8 6,8 2,6 4 + 4
o r
y 0 p os 502,6 2,6 2,6 2,7 5 - 5
o ha inam
N lim 485 -15 15 4,1 6 - 6
e
no res.
o
val poco os 495,9 -4,1 4,1 4,3 7 + 7
Tam ntram 498,2 -1,8 1,8 5,4 - A17 para8
De8 la tabla
o s
enc rencia tre si, n=15,  = 0.05, bilateral,
dife les en o 501,6 1,6 1,6 5,8 9 + 9
el valor crítico es 25.
a
igu nces n ue 497,3 -2,7 2,7 6,5 10
Como -
w=35>25, 10
o
ent mos q
e
ten ediar 492 -8 8 6,8 entonces
11 - no se puede
11
m rechazar la hipótesis a
pro os. 504,3 4,3 4,3 8 12 - 12
g ese nivel de significancia
ran
499,2 -0,8 0,8 10,8 13 + 13
Dada la suposición de
simetría, esperaríamos 493,5 -6,5 6,5 12,5 14 - 14
que las diferencias + y – 505,8 5,8 5,8 15 15 - 15
fueran aproximadamente
II semestre 10
35 85
equivalentes w 35
Muestras pareadas
Para el caso de las observaciones pareadas

donde
˜1  
H 0 :  ˜2
Se clasifican las diferencias de las observaciones
pareadas sin importar el signo y se procede como en
el caso de una sola muestra
II semestre 10
H0 H1 Calcule
˜  
 ˜0 w+
w-
˜  
 ˜0 ˜  
 ˜0
Toma de w
decisiones:  ˜  
 ˜0
 w+
˜1  
 ˜2 ˜1  
 ˜2
 ˜1  
 ˜2 w-
 ˜1  
 ˜2

II semestre 10
w
Toma de decisiones
•Siempre que n<5 y el nivel de significancia no exceda
0.05 en pruebas de una cola o 0.1 en pruebas de dos
colas, la hipótesis nula se acepta.
•Se utiliza la tabla A17 si “n” está entre 5 y 30 (algunos
autores indican 20) Se rechaza la hipótesis nula si el valor
calculado w+, w- o w es menor o igual que el valor
tabulado apropiado.
•Si la muestra es mayor se realiza una aproximación por

la distribución normal.
II semestre 10
Ejemplo
Un experimento en el que se comparan las
capacidades de dos disolventes para extraer creosol
impregnado en troncos de prueba, requirió usar
ocho troncos distintos. Después de dividir cada
tronco en dos segmentos, se eligió a azar uno para
aplicar el primer disolvente, con el segundo
disolvente utilizado en el otro segmento. Los
resultados fueron los siguientes.
II semestre 10
Tronco 1 2 3 4 5 6 7 8
Disolvente 1 3.92 3.79 3.70 4.08 3.87 3.95 3.55 3.76
Disolvente 2 4.25 4.20 4.41 3.89 4.39 3.75 4.20 3.90
En la actualidad se emplea el primer disolvente, y

el segundo es una nueva formulación diseñada para
dar como resultado una extracción mejorada. ¿Con
una confianza del 95% indican estos datos que la
cantidad promedio extraída por el segundo
disolvente es mayor que la del primero?
II semestre 10
Solución
˜1  
H 0 :  ˜2
˜1  
H1 :  ˜2
Tronco 1 2 3 4 5 6 7 8
Disolvente 1 3.92 3.79 3.70 4.08 3.87 3.95 3.55 3.76
Disolvente 2 4.25 4.20 4.41 3.89 4.39 3.75 4.20 3.90
Diferencia -0.33 -0.41 -0.71 0.19 -0.52 0.20 -0.65 -0.14
Rango con signos -4 -5 -8 2 -6 3 -7 -1
La suma de rangos w+ es 5. El valor crítico en la

tabla A 17 es 6. Se rechaza H0 o sea sí hay
evidencia de que el segundo tratamiento es mejor.
II semestre 10
Aproximación a la normal para muestras grandes
Cuando n≥15 (algunos autores establecen 20 ó 30 como
límite) la distribución muestral de w+ (o w- porque se
suponen simétricas), se aproxima a la distribución
normal con:
nn  1 2 n n  12n  1
w    w 
4 24
II semestre 10
Aproximación a la normal para muestras

grandes
w   w 
z
 w
Para determinar la región crítica para

nuestra muestra

II semestre 10
Ejemplo
Se ha diseñado un tipo especial de viga de acero para

tener una resistencia a la compresión de por lo
menos 50.000 lb/pul2. De una muestra de 25 vigas se
obtuvieron los datos indicados. Suponga que la
resistencia real está distribuida simétricamente
alrededor del valor medio real. Interesa contrastar
Ho:µ=50.000, Hi: µ<50.000 a un = 0.01.
II semestre 10
xi-u Rango con signo w+
-10 -1 xi-u Rango con
136 14 signo w+
14
-27 -2 -10 -1
-150 -15
36 3 3
-155 -16
55 -4
-159 -17
73 5 5
165 18 18
77 -6
81 -7
-178 -19
90 8 8 -183 -20
95 -9 -192 -21
-99 -10 -199 -22
113 11 11 -212 -23
-127 -12 -217 -24
-129 -13 -229 -25
136 14 14 59
II semestre 10
n n  1 2525  1
w    w   162.5
4 4
2 n n  12n  1 2525  12 * 25  1

 w   2
w 
24
 1,381.25
 24
w   w  59  162.5
 z z  2.78
 w 1381.25
Recuerde: interesa contrastar Ho:µ=50.000, Hi: µ<50.000 a un = 0.01
De la tabla de distribución normal, buscamos la probabilidad

acumulada al  indicado, en nuestro caso 0.01, y determinamos que z ≤
-2.33. Como -2.78 ≤ -2.33, Ho es rechazada a favor de la conclusión de
II semestre 10
que el promedio real de resistencia es menor a 50.000 lb/pulg2.
Cuando hay empates en las magnitudes absolutas
tenemos que ajustar la varianza del siguiente
modo
nn  12n  1 1
 2
w   *  ( i  1) * i * ( i  1)
24 48
Donde i corresponde a los
conjuntos empatados
Veamos un ejemplo de ese ajuste
II semestre 10
Supongamos que se dan los siguientes resultados
parciales … para n=10
Magnitud Mag. Abs.
Diferencia absoluta ordenadas Rango En este caso hay dos conjuntos
1 1 1 1 empatados con 1 = 3 y 2 = 2
2 2 2 2
nn  12n  1 1
-4 4 4 4  w2   *  ( i  1) * i * ( i  1)
24 48
-4 4 4 4
4 4 4 4
6 6 6 6
7 7 7 7
8,5 8,5 8,5 8,5
8,5 8,5 8,5 8,5
10 10 10 10
1010  12 *10  1 1

 2
w  II semestre 10  (3  1) * 3 * (3  1)  (2  1) * 2 * (2  1)  95.62
24 48
Prueba Suma de Rangos de Wilcoxon
 Para probar la igualdad de las medias de dos
poblaciones que evidentemente no son normales.
 Las muestras deben ser independientes (no pareadas)
 También conocida como Prueba de dos muestras de

Wilcoxon.
 Es la alternativa apropiada, no paramétrica, para la
prueba t de dos muestras.
II semestre 10
Se pretende probar
˜1  
H 0 :  ˜2
Contra la alternativa adecuada
 II semestre 10
Prueba Suma de Rangos de Wilcoxon (también
conocida como prueba U de Mann-Whitney)
1. Seleccionar una muestra aleatoria para cada una de las
poblaciones
2. Se llamará n1 a las observaciones de la muestra más
pequeña. Si la muestras son del mismo tamaño, se
elige aleatorio.
3. Ordenar las n1 + n2 observaciones de las muestras
combinadas en orden ascendente
4. Sustituir un rango de 1, 2,…, n1 + n2 para cada
observación. Si hay empates se reemplazan las
observaciones por la media de los rangos.
II semestre 10
5. La suma de rangos de la muestra más pequeña se
denotará w1
6. El total w1 + w2 depende solo de los resultados de

las dos muestras y de ninguna manera de los
resultados del experimento. Y viene dado por:
w1  w 2 
n1  n 2 n1  n 2  1
2
II semestre 10
7. Por esta razón, si se calcula el valor de w1, la
muestra más pequeña, se puede calcular el valor
de w2 por medio de la fórmula
w2 
n1  n 2 n1  n 2  1
w
1
2
II semestre 10
7. Esto es importante porque para la prueba de suma
de rangos de Wilcoxon utilizaremos para tomar
decisión los siguientes estadísticos
n1 n1  1 n 2 n 2  1
U1  w1  U2  w2 
2 2
II semestre 10

Toma de decisiones:
H0 H1 Calcule
U1
˜1  
 ˜2
˜1  
 ˜2
˜1  
 ˜2 U2
 ˜1  
 ˜2
U
Nota: en el casode la prueba de dos colas, U se

refiere al menor
de los valores U1 o U2
II semestre 10
7. El valor obtenido práctico “U” se compara contra el

valor crítico en la tabla A.18, de acuerdo al nivel
de significancia en cada caso.
7. Si el valor observado U1, U2 o U es menor o igual
que el valor crítico tabulado, se rechaza la
hipótesis nula en el nivel de significancia que se
indica en la tabla.
II semestre 10
Ejemplo
La concentración de fluoruro en la orina de ganado
(partes por millón) se midió para una muestra de
ganado que pasta en un área expuesta antes a
contaminación de fluoruro y para una muestra que
pasta en una región no contaminada
Contaminada 21.3 18.7 23.0 17.1 16.8 20.9 19.7

No contaminada 14.2 18.3 17.2 18.4 20.0
II semestre 10
¿Los datos indican sin lugar a dudas que la

concentración promedio real de fluoruro para
ganado que pasta en la región contaminada es
mayor que para la región no contaminada?
Utilice un nivel de significancia de 0.01
II semestre 10
Solución x y
x 14.2 1
˜1  
H 0 :  ˜2
y 16.8 2
˜1  
H1 :  ˜2 y 17.1 3
La hipótesis nula nos da x 17.2 4
la alternativa de que la x 18.3 5
contaminación causa un
aumento en la x 18.4 6
concentración y 18.7 7
y 19.7 8
x  w 1  25 x 20.0 9
y 20.9 10
y  w 2  53 y 21.3 11
y 23.0 12
II semestre 10
Solución
De acuerdo con nuestros criterios de decisión,

como nuestra hipótesis alternativa es:
˜1  
H1 :  ˜2
Debemos calcular U1:
n1 n1  1 55  1
U1  w1   25   10
2 2

De acuerdo a la tabla A18, para la prueba unilateral con
alfa de 0.01; n1 =5 y n2 =7, el valor crítico es 3. Por lo
tanto, no hay suficiente evidencia para rechazar la
hipótesis
II semestre 10
nula, la contaminación es igual.
Teoría normal de aproximación para dos
muestras
Cuando n1 y n2 exceden 8, las distribuciones
muestrales de U1 (o U2) se aproxima a la
distribución normal, con
n1n 2 n1n 2 n1  n 2  1

uU1   2

2 U1
12
II semestre 10
En consecuencia, se puede utilizar el estadístico
U1  uU1
Z
U1
II semestre 10
Ejemplo
En un estudio de rocas sedimentarias se
obtuvieron los siguientes diámetros, en milímetros,
de dos tipos de arena
Arena I 0.63 0.17 0.35 0.49 0.18 0.43 0.12
0.20 0.47 1.36 0.51 0.45 0.84 0.32 0.40
Arena II 1.13 0.54 0.96 0.26 0.39 0.88 0.92

1.01 0.48 0.89 1.07 1.11 0.58 0.53
II semestre 10
Ejemplo
Use la prueba U en el nivel de significancia de 0.01
para probar si las poblaciones tienen el mismo
diámetro medio o no.
Solución
˜1  
H 0 :  ˜2
Criterio: rechazar Ho si
˜1  
H1 :  ˜2 Z<-2.575 o Z>2.575
II semestre 10
Solución
0.12 I 1 0.48 II 13 1.01 II 25
Primero
debemos 0.17 I 2 0.49 I 14 1.07 II 26
buscar el valor 0.18 I 3 0.51 I 15 1.11 II 27
de U1 para 0.20 I 4 0.53 II 16 1.13 II 28
poder calcular 0.26 II 5 0.54 II 17 1.36 I 29
el valor de Z
0.32 I 6 0.58 II 18
n1=14 0.35 I 7 0.63 I 19
0.39 II 8 0.84 I 20 w1=273
n2=15 0.40 I 9 0.88 II 21
0.43 I 10 0.89 II 22 w2=162
Note que el valor
n1 corresponde a 0.45 I 11 0.92 II 23
la muestra de 0.47 I 12 0.96 II 24
arena II
II semestre 10
Solución
n1 n1  1 14 14  1
U1  w1   273   168
2 2
n1n 2 14 *15
uU1    105
2 2
n1n 2 n1  n 2  1 14 *1514  15  1

U1    525
12 12

II semestre 10
Solución
U1  uU1 168 105

Z   2.75
 U1 525
Como 2.75 es mayor que 2.575 la hipótesis

nula debe rechazarse, se concluye que
existe diferencia en las poblaciones de
tamaños de gránulos.
II semestre 10
Ahora vamos a trabajar con
pruebas no paramétricas
para la VARIANZA
II semestre 10
Prueba Kruskal - Wallis
 Métodos no paramétricos en al análisis de
varianza
 También llamada prueba H de Kruskal – Wallis.
 Es la generalización de la prueba de suma de
rangos, cuando se quieren comparar tres o más
poblaciones.
 Se utiliza para probar la hipótesis de que k
muestras independientes provienen de poblaciones
idénticas.
II semestre 10
Supuestos
 Los datos son por lo menos ordinales, esto quiere
decir, que pueden ordenarse de manera creciente o
decreciente.
 Independencia entre las observaciones de una
muestra
 Independencia entre las observaciones de las
distintas muestras.
 NO requiere supuesto de homogeneidad de varianzas
II semestre 10 71
Para probar la hipótesis nula H0 de que k muestras
independientes provienen de poblaciones idénticas,
calcule k 2
12 ri
h 
n n  1 i1 n i
 3n  1
Donde ri es el valor supuesto de Ri, para i=1,2,…,k. Si

h cae en la región crítica H>χα2 con =k-1 grados de
libertad, rechace H0 con el nivel de significancia α, de
otra manera no rechace H0
II semestre 10
Ejemplo
Una empresa desea comprar una de 5 máquinas distintas A,
B, C, D y E. En un experimento diseñado para saber si hay
diferencia en la eficacia de tales máquinas, cinco operarios
expertos trabajaron cada uno con las máquinas un mismo
tiempo en cada una. Los resultado se recogen en la tabla
siguiente, en número de unidades producidas. Contrastar la
hipótesis de que no hay diferencia entre ellas al nivel de
significancia 0.05
II semestre 10
Ejemplo
A 68 72 77 42 53
B 72 53 63 53 48
C 60 82 64 75 72
D 48 61 57 64 50
E 64 65 70 68 53
II semestre 10
Solución
Hay 5 muestras (A,B,C,D y E), k=5. N =25, porque son 5 muestras
con 5 valores cada una.
Ordenando todos los valores en orden creciente de magnitud y
asignando rangos apropiados, incluso en las coincidencias,
obtenemos la siguiente tabla
Suma de
rangos
A 17.5 21 24 1 6.5 70
B 21 6.5 12 6.5 2.5 48.5
C 10 25 14 23 21 93
D 2.5 11 9 14 4 40.5
E 14 16 19 17.5 6.5 73
II semestre 10
Solución
Con estos valores, podemos sustituir en la fórmula y
calcular es estadístico de prueba
12  
2 2 2 2
70 48.5 93 40.5 73
2 
H       326
2526 5 5 5 5 5 
H  6.44
K-1=4 grados de libertad y 95% de confianza se
tiene χ0.952 =9.49. Puesto que 6.44<9.49 no

podemos rechazar la hipótesis de igualdad entre
II semestre 10
las máquinas a un nivel de confianza del 95%

Corrección por coincidencias
En caso de haber demasiadas coincidencias entre las
observaciones el valor de H calculado en el método
hasta ahora visto es menor de lo que debería. Esto se
corrige dividiendo el valor H que tenemos por el factor
dado en
1
 T 3
 T
3
N N
T es el número de coincidencias correspondientes a
cada observación
II semestre 10

Ejemplo
Realice la corrección por coincidencias en el caso
de las 5 máquinas y verifique si cambia la decisión
tomada en ese ejemplo.
II semestre 10
Ejemplo
La tabla para realizar la corrección es la siguiente
Observación 48 53 64 68 72
Número de coincidencias (T) 2 4 3 2 3
(T3-T) 6 60 24 6 24    T  120
T 3

II semestre 10
Ejemplo
1
 T 3
 T
 1
120
 0.9923
3
25  25
3
N N
6.44
Hc   6.49
0.9923
La corrección no es suficiente para cambiar la
decisión, porque sigue siendo menor que 9.49
II semestre 10

Estadística No Paramétrica 2010

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística No Paramétrica 2010

Cargado por

Copyright:

Formatos disponibles

Nuestra agenda para esta sesión

 Entender para qué, por qué y cuándo conviene utilizar la

Se sugiere como referencia:

Agradecemos al Ing. Ronny Pacheco por el

Cuando las poblaciones no son normales, las pruebas t y F, tienen en

¿Es n igual o ¿Conocemos la

Porque recordemos que uno de los requisitos para que

LA TECNICAS LIBRES DE DISTRIBUCION NO SON UNIVERSALES!!!

Si se puede aplicar una técnica paramétrica,

En estadística no paramétrica se requerirá una

A esto se le conoce por “prueba de

Regla de clasificación: si el valor xi > x0.5, clasifíquelo como “M”

Total de"m" 5 como es el No. mayor se denomina n2

casos podemos utilizar aproximaciones normales.)

En estos casos, para estandarizar la variable utilice:

Luego compare si z cae en la región crítica,

271 230 198 275 282 225 284 219

253 216 262 288 236 291 253 224

264 295 211 252 294 243 272 268

Rechazo No hay evidencia para rechazar

Solución 253 216 262 288 236 291 253 224

Al anotar los signos de las diferencias vemos que hay 15 signos

Ahora se busca el estadístico de prueba Z. No olvidar el factor de

Z= - 1.645 No hay suficiente evidencia para

99 102.3 99.8 100.5 99.7 96.2 99.1 102.5

103.3 97.4 100.4 98.9 98.3 98 101.6

Solución: si sustituimos cada valor mayor que 98 por un

Tenemos 12 signos más. Con n=14 y p=0.5, la probabilidad de x ≥ 12 es

Prueba de Rango con Signo de Wilcoxon

Se aplica solo en el caso de una distribución

Magnitud Mag. Abs.

Para el caso de las observaciones pareadas

•Si la muestra es mayor se realiza una aproximación por

En la actualidad se emplea el primer disolvente, y

La suma de rangos w+ es 5. El valor crítico en la

Aproximación a la normal para muestras

Para determinar la región crítica para

Se ha diseñado un tipo especial de viga de acero para

2 n n  12n  1 2525  12 * 25  1

De la tabla de distribución normal, buscamos la probabilidad

Veamos un ejemplo de ese ajuste

1010  12 *10  1 1

 También conocida como Prueba de dos muestras de

Contra la alternativa adecuada

6. El total w1 + w2 depende solo de los resultados de

Nota: en el casode la prueba de dos colas, U se

7. El valor obtenido práctico “U” se compara contra el

Contaminada 21.3 18.7 23.0 17.1 16.8 20.9 19.7

¿Los datos indican sin lugar a dudas que la

De acuerdo con nuestros criterios de decisión,

n1n 2 n1n 2 n1  n 2  1

En consecuencia, se puede utilizar el estadístico

Arena II 1.13 0.54 0.96 0.26 0.39 0.88 0.92

n1n 2 n1  n 2  1 14 *1514  15  1

U1  uU1 168 105

Como 2.75 es mayor que 2.575 la hipótesis

Donde ri es el valor supuesto de Ri, para i=1,2,…,k. Si

las máquinas a un nivel de confianza del 95%

Corrección por coincidencias

Número de coincidencias (T) 2 4 3 2 3

También podría gustarte