C010 Metodos No Param (Una Muestra) - 9pp PDF

Tests de Hipótesis. Métodos no paramétricos Dra.
Diana Kelmansky 148

ESTADÍSTICA (Q)
Algunas consideraciones sobre las inferencias sobre la media de una

población Normal
1. Los tests e intervalos de confianza para la media de una población Normal utilizan
un estadístico que tiene distribución t (o una distribución Normal cuando la
varianza es conocida). Ésta es la distribución correcta siempre y cuando los datos
efectivamente provengan de una distribución Normal. Generalmente no se
conoce cual es la distribución subyacente a los datos. Si el histograma de los
mismos es aproximadamente simétrico en forma acampanada y el box-plot no
muestra datos atípicos, la distribución Normal será una buena aproximación.
2. Si falla el supuesto de normalidad pero la muestra tiene tamaño suficientemente
grande entonces, por el Teorema Central del Límite, se pueden utilizar los tests
con nivel aproximado basados en la distribución Normal.
3. El supuesto de que las observaciones son independientes es muy difícil de
verificar. Depende del diseño de la investigación y del procedimiento de
recolección de los datos. Cuando este supuesto no se cumple no son válidos los
métodos presentados ni los que vamos a presentar.
Es posible evaluar un tipo de dependencia asociada al orden en que fueron
obtenidos los datos, cuando este fue registrado. Para ello se procede de la
siguiente manera:
• primero se calcula el llamado “residuo de cada dato”: residuo = dato –
media del grupo, luego
• se grafican los residuos versus el orden en que fueron obtenidos los datos.
Si las observaciones fueran independientes (del orden en que fueron tomadas), el
gráfico no debería presentar estructura ni tendencia. En el ejercicio 2 ( temperatura
de sublimación del iridio y del rodio ) de la práctica 1, la estructura de los datos
cambiaba con el orden por no haberse estabilizado la reacción. Sólo eliminando
las primeras observaciones era posible suponer que los errores eran
independientes pues en las primeras observaciones los residuos eran
notablemente más grandes. Una situación similar suele ocurrir cuando la
realización de las mediciones requiere la adquisición de habilidad para realizarlas.
Al comienzo las observaciones pueden presentar mayor variabilidad para luego
estabilizarse (ejemplo 2 sección 4.4 datos Newcomb, clases teóricas).
En las próximas secciones presentaremos procedimientos que se utilizan cuando los

datos muestran un alejamiento importante de la distribución normal y el tamaño de la
muestra no permite utilizar el Teorema Central del Límite (es decir que las muestras
son pequeñas). Se seguirá requiriendo el supuesto de independencia.
22. TESTS NO PARAMÉTRICOS

El modelo que especifica la Normalidad de los datos es un modelo paramétrico pues
está unívocamente determinado mediante el conocimiento de los parámetros, μ y σ.
También lo es un modelo que establezca que los datos provienen de una distribución
Tests de Hipótesis. Métodos no paramétricos Dra. Diana Kelmansky 149
ESTADÍSTICA (Q)
exponencial o cualquier otra distribución que quede completamente determinada con

el conocimiento de una cantidad finita de parámetros. En lo que sigue veremos
métodos que no requieren que los datos tengan una distribución paramétrica
específica, son los llamados métodos no paramétricos.
Ejemplo 1. Se midió el TIEMPO (seg.) que tarda la concentración de un compuesto

reducirse a la mitad durante una reacción. Se realizaron 28 repeticiones de la
reacción en condiciones independientes e idénticas.
Resultados obtenidos, ordenados por columna de menor a mayor.

Tiempo Tiempo Tiempo Tiempo
617.2 617.6 617.8 621.9
617.2 617.6 617.8 623.7
617.3 617.7 618.0 626.7
617.4 617.7 618.0 628.1
617.4 617.7 618.2 632.6
617.5 617.7 618.5 648
617.6 617.8 619.9 652.7
Box-plot y el gráfico de probabilidad Normal de los valores de la tabla anterior.
El box-plot y el gráfico de probabilidad Normal muestran que la distribución de los

datos correspondientes a la variable TIEMPO es fuertemente asimétrica a derecha.
Mediante el test de Shapiro Wilk se rechaza la hipótesis de que la distribución de la
variable es normal.
Si se desea resumir la distribución de esta variable mediante un parámetro de la

posición de su centro, es preferible utilizar la mediana , en vez de la media, ya que
la interpretación de esta medida no depende de la forma de la distribución.
Estimaremos la mediana poblacional θ, con la mediana muestral, med = 617.80
22.1 TEST DEL SIGNO
El test del signo es uno de los tests más antiguos utilizados en estadística. Ya fue
utilizado en 1710 por el médico británico John Arbuthnot. Puede aplicarse tanto para
una muestra como para dos muestras apareadas (veremos esto más adelente).
ESTADÍSTICA (Q)
En el caso de una muestra, el test del signo permite decidir si la mediana de la

distribución de la variable en la población de la cual provienen los datos coincide o
no con cierto valor, Hipótesis nula: H0: θ = θ0
Este test, únicamente requiere el supuesto de independencia de las observaciones.
Test del signo para una muestra
Modelo X1, ... , Xn una muestra aleatoria de una distribución cualquiera con
mediana θ.
Una consideración intuitiva: Si el valor de la mediana fuera igual valor θ0, que
llamamos “valor nulo” por estar especificado en la hipótesis nula se deberían
observar, aproximadamente, la misma cantidad de observaciones en la
muestra por encima y por debajo de θo. ¿Por qué?
Definimos una nueva variable “diferencia”: Di = Xi – θ0 , i=1,2, ....,n
Hipótesis nula: H0: θ = θ0
Si H0: θ = θ0 es verdadera, la variable aleatoria Di tiene la misma probabilidad

de tomar valores positivos que negativos es decir:
P(Di > 0) = P(Di < 0) = 0,5 (suponiendo que P(Xi = θ0)=0).
Definimos ahora otra nueva variable aleatoria.
Sn = cantidad de la cantidad de diferencias positivas ( o negativas) en la muestra
Sn ~ Bi (n,p), n = tamaño de muestra y p es la probabilidad de que ocurra una

diferencia positiva (o negativa). Cuando H0 es verdadera p = 1/2.
Estadístico del test: Sn ~ Bi (n,1/2) bajo H0
El estadístico del test está basado en las variables Di = Xi – θo que

suponemos independientes e igualmente distribuidas
Hipótesis alternativas posibles
a) Ha: θ ≠ θ0 b) Ha: θ < θ0 c) Ha: θ > θ0

ESTADÍSTICA (Q)
Regiones de rechazo de nivel α

Sn ≥ n-k ó Sn ≤ k Sn ≤ k Sn ≥ n-k
donde donde donde
P(Bi(n,1/2)≤ k)=α/2 P(Bi(n,1/2)≤ k)=α P(Bi(n,1/2)≤ k)=α
p-valor
a) Ha: θ ≠ θ0
Sn obs < n/2 p-valor = 2 P( Bi(n,1/2) ≤ Sn obs )

Sn obs > n/2 p-valor = 2 P( Bi(n,1/2) ≥ n - Sn obs )
b) Ha: θ < θ0
p-valor = P( Bi(n,1/2) ≤ Sn obs )
c) Ha: θ > θ0
p-valor = P(Bi(n,1/2) ≥ n - Sn obs )
donde Sn obs = valor observado del estadístico del test.
Observaciones
• La distribución del estadístico del test bajo H0 es Bi(n,1/2) y el p-valor puede

calcularse exactamente utilizando la distribución binomial. Si el tamaño de la
muestra es suficientemente grande también puede utilizarse la aproximación
de la binomial por la Normal.
• Si muchas diferencias son positivas (o negativas) tendremos evidencia en

contra de la hipótesis nula. Las diferencias iguales a 0 se ignoran y se trabaja
con las diferencias distintas de cero, tanto positivas como negativas.
• El test únicamente tiene en cuenta el signo de las diferencias y no su

magnitud.
• Las diferencias iguales a cero se ignoran.
• El test NO REQUIERE SUPUESTOS acerca de la FORMA de la distribución

de la variable subyacente a los datos, únicamente sobre la INDEPENDENCIA
de las observaciones.
• Para realizar el test del signo para una muestra con el Statistix es necesario
usar un artificio, generando una nueva variable que tome el valor θ0.
ESTADÍSTICA (Q)
• El p-valor que calcula Statistix es a una cola. Para obtener el p-valor de una
hipótesis bilateral, el p-valor de la salida se duplica.
Ejemplo 1 cont. X= tiempo que tarda la concentración de un compuesto en caer a la

mitad durante una reacción.
Hipótesis nula: H0: θ = 620 seg Hipótesis alternativa Ha: θ < 620 segundos.
1) Generamos la variable VALORNU = 620

Data -> Transformations
Transformation Expression: valornu = 620
2) Statistics->One, Two, Multi-sample tests -> Sign Test

Movemos a la casilla Sample Variables la variable que contiene los
datos “TIEMPO” y la variable “VALORNU” que indica el valor nulo
propuesto en H0.
Salida:
SIGN TEST FOR TIEMPO - VALORNU
NUMBER OF NEGATIVE DIFFERENCES 21

NUMBER OF POSITIVE DIFFERENCES 7
NUMBER OF ZERO DIFFERENCES (IGNORED) 0
PROBABILITY OF A RESULT AS
OR MORE EXTREME THAN OBSERVED 0.0063 ◄- p-valor (una cola)
A VALUE IS COUNTED AS A ZERO IF ITS

ABSOLUTE VALUE IS LESS THAN 0.00001
CASES INCLUDED 28 MISSING CASES 0
Conlusión
ESTADÍSTICA (Q)
Hay más diferencias negativas (7 positivas vs 21

negativas) que las esperadas debido al azar,
rechazamos la hipótesis nula y concluimos que la
mediana del tiempo de vida del compuesto es
significativamente menor que 620 minutos con un
p-valor = 0.0063.
22.2 TEST DE RANGOS SIGNADOS DE WILCOXON
El test del signo solamente tiene en cuenta si las observaciones son mayores o
menores que la mediana propuesta en H0. El siguiente test no paramétrico compara
las mismas hipótesis que el test del signo, tiene en un poco más en cuenta la
magnitud de las observaciones pero requiere el supuesto de SIMETRÍA.
Modelo: X1, X2, . . . , Xn son observaciones independientes provenientes de una

distribución continua simétrica con mediana θ.
Hipótesis nula: H0: θ = θ0

Hipótesis alternativas posibles
Construcción del Estadístico del test:

- Di = Xi − θo
- Se ordenan Di sin tener en cuenta su signo (es decir, se ordenan los valores
absolutos de las diferencias) y se le asigna a cada una un rango.
- La suma de los rangos de las diferencias positivas (o negativas) es el
ESTADÍSTICO del test. Este valor se lo denota por W
p-valor Statistix calcula el p-valor y el estadístico del test automáticamente.
Para calcular el p-valor del test debemos conocer la distribución del estadístico. Esta
distribución no es simple y se encuentra tabulada para n ≤ 25. Para muestras
grandes la distribución se aproxima a una Normal con media μ = n(n + 1) y varianza
4
n(n + 1)(2n + 1) .
σ =
2
24
Si la hipótesis nula es verdadera, la suma de rangos positivos será aproximadamente

igual a la mitad de la suma de rangos totales. Pero si H0 es falsa, la suma de rangos
positivos será notablemente mayor o menor que la mitad de la suma total.
Ejemplo 2 Supongamos que interesa decidir entre las hipótesis:

ESTADÍSTICA (Q)
H0 θ = 100 vs H0 θ ≠ 100
Es decir que θ0 = 100.
La tabla siguiente ejemplifica los cálculos previos para obtener el valor del estadístico
del test
Datos ordenados (X) 35 85 96 140 180 200 240 289 360 400
Diferencias –75 –15 –4 40 80 100 140 189 260 300
Diferencias absolutas 75 15 4 40 80 100 140 189 260 300
Rangos 4 2 1 3 5 6 7 8 9 10
Suma rangos de diferencias negativas = 4 + 2 + 1 = 7

Suma rangos de diferencias positivas = 3 + 5 + 6 + 7 + 8 + 9 + 10 = 48
Son diferentes!! pero debemos calcular la probabilidad de encontrar estos valores

cuando H0 s verdadera. Lo haremos inmediatamente con Statistix.
¿Cómo hacer el test de Wilcoxon usando Statistix?
Igual que con el test del signo, por ser otra opción para muestras apareadas, es
necesario generar una variable artificial que tome el valor θo.
1) Generamos la variable artificial VALNUL = 100
Data ->Transformations
Transformation Expression: VALNUL = 100
2) Statistics -> One, Two, Multi-sample tests -> Wilcoxon Signed Rank Test
Indicamos la variable que contiene los datos (X) y la variable artificial que indica el
valor propuesto en Ho.
WILCOXON SIGNED RANK TEST FOR X - VALNUL
SUM OF NEGATIVE RANKS -7.0000

SUM OF POSITIVE RANKS 48.000
EXACT PROBABILITY OF A RESULT AS OR MORE

EXTREME THAN THE OBSERVED RANKS (1 TAILED P-VALUE) 0.0186
NORMAL APPROXIMATION WITH CONTINUITY CORRECTION 2.039

TWO TAILED P-VALUE FOR NORMAL APPROXIMATION 0.0415
ESTADÍSTICA (Q)
La suma de rangos positivos y negativos coincide con los calculados más arriba.
Como el test es a dos colas p = 2 * 0.0186 = 0.0372 (p-valor basado en la
distribución exacta).
Si aplicamos el test del signo a estos datos obtenemos el siguiente resultado:

SIGN TEST FOR X - VALNUL
NUMBER OF NEGATIVE DIFFERENCES 3

NUMBER OF POSITIVE DIFFERENCES 7
NUMBER OF ZERO DIFFERENCES (IGNORED) 0
PROBABILITY OF A RESULT AS
OR MORE EXTREME THAN OBSERVED 0.1719 ◄- p = 2*0.172 = 0.344
A VALUE IS COUNTED AS A ZERO IF ITS

ABSOLUTE VALUE IS LESS THAN 0.00001
El test del signo no rechaza H0, mientras que el test de Wilcoxon sí rechaza H0. Esto
se debe a que el estadístico W no sólo tiene en cuenta la cantidad de datos mayores
que el “valor nulo” para la mediana propuesta en H0 sino además el orden de las
diferencias expresada a través de los rangos.
¿Qué supuestos deben cumplir los datos para poder aplicar el test de rangos de
Wilcoxon?
La distribución debe ser simétrica. En este caso, no parece haber alejamientos
groseros de la simetría (ver histograma), por lo que concluimos que es válido usar
este test.
3
2
Frequency
0
0 50 100 150 200 250 300 350 400
X
ESTADÍSTICA (Q)
¿Cómo se asignan los rangos si hay observaciones repetidas?
El test asigna el rango promedio a las observaciones repetidas. Modificamos el

ejemplo para ilustrar el procedimiento, ahora el 140 aparece 2 veces
Datos ordenados (X) 35 85 96 140 140 180 200 240 289 360 400
Diferencias –75 –15 –4 40 40 80 100 140 189 260 300
Diferencias absolutas 75 15 4 40 40 80 100 140 189 260 300
Posición 5 2 1 3 4 6 7 8 9 10 11
Rangos asignados 5 2 1 3.5 3.5 6 7 8 9 10 11
Suma rangos negativos = 5 + 2 + 1 = 8

Suma rangos positivos = 3.5+ 3.5 + 6 + 7 + 8 + 9 + 10+11 = 58
Diferencias absolutas ordenadas 4 15 40 40 75 80 ..............

Posición 1 2 3 4 5 6 .............
Rangos asignados 1 2 3.5 3.5 5 6 .............
Realizamos nuevamente el test con el Statistix y obtenemos:
WILCOXON SIGNED RANK TEST FOR X - VALNUL
SUM OF NEGATIVE RANKS -8.0000

SUM OF POSITIVE RANKS 58.000
EXACT PROBABILITY OF A RESULT AS OR MORE

EXTREME THAN THE OBSERVED RANKS (1 TAILED P-VALUE) 0.0122
NORMAL APPROXIMATION WITH CONTINUITY CORRECTION 2.178

TWO TAILED P-VALUE FOR NORMAL APPROXIMATION 0.0294
TOTAL NUMBER OF VALUES THAT WERE TIED 2

NUMBER OF ZERO DIFFERENCES DROPPED 0
MAX. DIFF. ALLOWED BETWEEN TIES 0.00001
CASES INCLUDED 11 MISSING CASES 0

C010 Metodos No Param (Una Muestra) - 9pp PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

C010 Metodos No Param (Una Muestra) - 9pp PDF

Cargado por

Copyright:

Formatos disponibles

Tests de Hipótesis. Métodos no paramétricos Dra.

Diana Kelmansky 148

Algunas consideraciones sobre las inferencias sobre la media de una

En las próximas secciones presentaremos procedimientos que se utilizan cuando los

22. TESTS NO PARAMÉTRICOS

exponencial o cualquier otra distribución que quede completamente determinada con

Ejemplo 1. Se midió el TIEMPO (seg.) que tarda la concentración de un compuesto

Resultados obtenidos, ordenados por columna de menor a mayor.

Box-plot y el gráfico de probabilidad Normal de los valores de la tabla anterior.

El box-plot y el gráfico de probabilidad Normal muestran que la distribución de los

Si se desea resumir la distribución de esta variable mediante un parámetro de la

Estimaremos la mediana poblacional θ, con la mediana muestral, med = 617.80

22.1 TEST DEL SIGNO

En el caso de una muestra, el test del signo permite decidir si la mediana de la

Este test, únicamente requiere el supuesto de independencia de las observaciones.

Test del signo para una muestra

Definimos una nueva variable “diferencia”: Di = Xi – θ0 , i=1,2, ....,n

Hipótesis nula: H0: θ = θ0

Si H0: θ = θ0 es verdadera, la variable aleatoria Di tiene la misma probabilidad

P(Di > 0) = P(Di < 0) = 0,5 (suponiendo que P(Xi = θ0)=0).

Definimos ahora otra nueva variable aleatoria.

Sn = cantidad de la cantidad de diferencias positivas ( o negativas) en la muestra

Sn ~ Bi (n,p), n = tamaño de muestra y p es la probabilidad de que ocurra una

Estadístico del test: Sn ~ Bi (n,1/2) bajo H0

El estadístico del test está basado en las variables Di = Xi – θo que

Hipótesis alternativas posibles

a) Ha: θ ≠ θ0 b) Ha: θ < θ0 c) Ha: θ > θ0

Regiones de rechazo de nivel α

a) Ha: θ ≠ θ0 b) Ha: θ < θ0 c) Ha: θ > θ0

Sn obs < n/2 p-valor = 2 P( Bi(n,1/2) ≤ Sn obs )

donde Sn obs = valor observado del estadístico del test.

• La distribución del estadístico del test bajo H0 es Bi(n,1/2) y el p-valor puede

• Si muchas diferencias son positivas (o negativas) tendremos evidencia en

• El test únicamente tiene en cuenta el signo de las diferencias y no su

• Las diferencias iguales a cero se ignoran.

• El test NO REQUIERE SUPUESTOS acerca de la FORMA de la distribución

Ejemplo 1 cont. X= tiempo que tarda la concentración de un compuesto en caer a la

1) Generamos la variable VALORNU = 620

2) Statistics->One, Two, Multi-sample tests -> Sign Test

SIGN TEST FOR TIEMPO - VALORNU

NUMBER OF NEGATIVE DIFFERENCES 21

A VALUE IS COUNTED AS A ZERO IF ITS

CASES INCLUDED 28 MISSING CASES 0

Hay más diferencias negativas (7 positivas vs 21

22.2 TEST DE RANGOS SIGNADOS DE WILCOXON

Modelo: X1, X2, . . . , Xn son observaciones independientes provenientes de una

Hipótesis nula: H0: θ = θ0

a) Ha: θ ≠ θ0 b) Ha: θ < θ0 c) Ha: θ > θ0

Construcción del Estadístico del test:

p-valor Statistix calcula el p-valor y el estadístico del test automáticamente.

Si la hipótesis nula es verdadera, la suma de rangos positivos será aproximadamente

Ejemplo 2 Supongamos que interesa decidir entre las hipótesis:

Suma rangos de diferencias negativas = 4 + 2 + 1 = 7

Son diferentes!! pero debemos calcular la probabilidad de encontrar estos valores

¿Cómo hacer el test de Wilcoxon usando Statistix?

WILCOXON SIGNED RANK TEST FOR X - VALNUL

SUM OF NEGATIVE RANKS -7.0000

EXACT PROBABILITY OF A RESULT AS OR MORE

NORMAL APPROXIMATION WITH CONTINUITY CORRECTION 2.039

Si aplicamos el test del signo a estos datos obtenemos el siguiente resultado:

NUMBER OF NEGATIVE DIFFERENCES 3

A VALUE IS COUNTED AS A ZERO IF ITS

¿Cómo se asignan los rangos si hay observaciones repetidas?