Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Los tests e intervalos de confianza para la media de una población Normal utilizan
un estadístico que tiene distribución t (o una distribución Normal cuando la
varianza es conocida). Ésta es la distribución correcta siempre y cuando los datos
efectivamente provengan de una distribución Normal. Generalmente no se
conoce cual es la distribución subyacente a los datos. Si el histograma de los
mismos es aproximadamente simétrico en forma acampanada y el box-plot no
muestra datos atípicos, la distribución Normal será una buena aproximación.
2. Si falla el supuesto de normalidad pero la muestra tiene tamaño suficientemente
grande entonces, por el Teorema Central del Límite, se pueden utilizar los tests
con nivel aproximado basados en la distribución Normal.
3. El supuesto de que las observaciones son independientes es muy difícil de
verificar. Depende del diseño de la investigación y del procedimiento de
recolección de los datos. Cuando este supuesto no se cumple no son válidos los
métodos presentados ni los que vamos a presentar.
Es posible evaluar un tipo de dependencia asociada al orden en que fueron
obtenidos los datos, cuando este fue registrado. Para ello se procede de la
siguiente manera:
• primero se calcula el llamado “residuo de cada dato”: residuo = dato –
media del grupo, luego
• se grafican los residuos versus el orden en que fueron obtenidos los datos.
Si las observaciones fueran independientes (del orden en que fueron tomadas), el
gráfico no debería presentar estructura ni tendencia. En el ejercicio 2 ( temperatura
de sublimación del iridio y del rodio ) de la práctica 1, la estructura de los datos
cambiaba con el orden por no haberse estabilizado la reacción. Sólo eliminando
las primeras observaciones era posible suponer que los errores eran
independientes pues en las primeras observaciones los residuos eran
notablemente más grandes. Una situación similar suele ocurrir cuando la
realización de las mediciones requiere la adquisición de habilidad para realizarlas.
Al comienzo las observaciones pueden presentar mayor variabilidad para luego
estabilizarse (ejemplo 2 sección 4.4 datos Newcomb, clases teóricas).
El test del signo es uno de los tests más antiguos utilizados en estadística. Ya fue
utilizado en 1710 por el médico británico John Arbuthnot. Puede aplicarse tanto para
una muestra como para dos muestras apareadas (veremos esto más adelente).
Tests de Hipótesis. Métodos no paramétricos Dra. Diana Kelmansky 150
ESTADÍSTICA (Q)
Modelo X1, ... , Xn una muestra aleatoria de una distribución cualquiera con
mediana θ.
Una consideración intuitiva: Si el valor de la mediana fuera igual valor θ0, que
llamamos “valor nulo” por estar especificado en la hipótesis nula se deberían
observar, aproximadamente, la misma cantidad de observaciones en la
muestra por encima y por debajo de θo. ¿Por qué?
p-valor
a) Ha: θ ≠ θ0
b) Ha: θ < θ0
p-valor = P( Bi(n,1/2) ≤ Sn obs )
c) Ha: θ > θ0
p-valor = P(Bi(n,1/2) ≥ n - Sn obs )
Observaciones
• Para realizar el test del signo para una muestra con el Statistix es necesario
usar un artificio, generando una nueva variable que tome el valor θ0.
Tests de Hipótesis. Métodos no paramétricos Dra. Diana Kelmansky 152
ESTADÍSTICA (Q)
• El p-valor que calcula Statistix es a una cola. Para obtener el p-valor de una
hipótesis bilateral, el p-valor de la salida se duplica.
Hipótesis nula: H0: θ = 620 seg Hipótesis alternativa Ha: θ < 620 segundos.
Salida:
PROBABILITY OF A RESULT AS
OR MORE EXTREME THAN OBSERVED 0.0063 ◄- p-valor (una cola)
Conlusión
Tests de Hipótesis. Métodos no paramétricos Dra. Diana Kelmansky 153
ESTADÍSTICA (Q)
El test del signo solamente tiene en cuenta si las observaciones son mayores o
menores que la mediana propuesta en H0. El siguiente test no paramétrico compara
las mismas hipótesis que el test del signo, tiene en un poco más en cuenta la
magnitud de las observaciones pero requiere el supuesto de SIMETRÍA.
Para calcular el p-valor del test debemos conocer la distribución del estadístico. Esta
distribución no es simple y se encuentra tabulada para n ≤ 25. Para muestras
grandes la distribución se aproxima a una Normal con media μ = n(n + 1) y varianza
4
n(n + 1)(2n + 1) .
σ =
2
24
H0 θ = 100 vs H0 θ ≠ 100
Es decir que θ0 = 100.
La tabla siguiente ejemplifica los cálculos previos para obtener el valor del estadístico
del test
Datos ordenados (X) 35 85 96 140 180 200 240 289 360 400
Diferencias –75 –15 –4 40 80 100 140 189 260 300
Diferencias absolutas 75 15 4 40 80 100 140 189 260 300
Rangos 4 2 1 3 5 6 7 8 9 10
Igual que con el test del signo, por ser otra opción para muestras apareadas, es
necesario generar una variable artificial que tome el valor θo.
1) Generamos la variable artificial VALNUL = 100
Data ->Transformations
Transformation Expression: VALNUL = 100
2) Statistics -> One, Two, Multi-sample tests -> Wilcoxon Signed Rank Test
Indicamos la variable que contiene los datos (X) y la variable artificial que indica el
valor propuesto en Ho.
La suma de rangos positivos y negativos coincide con los calculados más arriba.
Como el test es a dos colas p = 2 * 0.0186 = 0.0372 (p-valor basado en la
distribución exacta).
PROBABILITY OF A RESULT AS
OR MORE EXTREME THAN OBSERVED 0.1719 ◄- p = 2*0.172 = 0.344
El test del signo no rechaza H0, mientras que el test de Wilcoxon sí rechaza H0. Esto
se debe a que el estadístico W no sólo tiene en cuenta la cantidad de datos mayores
que el “valor nulo” para la mediana propuesta en H0 sino además el orden de las
diferencias expresada a través de los rangos.
¿Qué supuestos deben cumplir los datos para poder aplicar el test de rangos de
Wilcoxon?
La distribución debe ser simétrica. En este caso, no parece haber alejamientos
groseros de la simetría (ver histograma), por lo que concluimos que es válido usar
este test.
3
2
Frequency
0
0 50 100 150 200 250 300 350 400
X
Tests de Hipótesis. Métodos no paramétricos Dra. Diana Kelmansky 156
ESTADÍSTICA (Q)
Datos ordenados (X) 35 85 96 140 140 180 200 240 289 360 400
Diferencias –75 –15 –4 40 40 80 100 140 189 260 300
Diferencias absolutas 75 15 4 40 40 80 100 140 189 260 300
Posición 5 2 1 3 4 6 7 8 9 10 11
Rangos asignados 5 2 1 3.5 3.5 6 7 8 9 10 11