Está en la página 1de 32

Estadstica No Paramtrica

Parte de las notas tomadas de: Prof. Edgar Acua


http://math.uprm/edu/~edgar
UNIVERSIDAD DE PUERTO RICO
RECINTO UNIVERSITARIO DE MAYAGUEZ

METODOS ESTADISTICOS NO PARAMETRICOS


Las tcnicas estadsticas de estimacin de parmetros, intervalos
de confianza y prueba de hiptesis son, en conjunto, denominadas
ESTADSTICA PARAMTRICA y son aplicadas bsicamente a
variables contnuas. Estas tcnicas se basan en especificar una
forma de distribucin de la variable aleatoria y de los estadsticos
derivados de los datos.
En ESTADSTICA PARAMTRICA se asume que la poblacin de la
cual la muestra es extrada es NORMAL o aproximadamente
normal.
normal Esta propiedad es necesaria para que la prueba de
hiptesis sea vlida.
Sin embargo, en un gran numero de casos no se puede
determinar la distribucin original ni la distribucin de los
estadsticos por lo que en realidad no tenemos parmetros a
estimar. Tenemos solo distribuciones que comparar. Esto se llama
ESTADSTICA NO-PARAMTRICA.
TRICA

PRUEBAS NO PARAMTRICAS
Vamos a ver algunas de las pruebas noparamtricas, las cuales
no requieren asumir normalidad de la poblacin y que en su
mayora se basan en el ordenamiento de los datos.
Todas las pruebas que veremos requieren que la poblacin sea
continua. El parmetro que se usa para hacer las pruebas
estadsticas es la Mediana y no la Media.
Media
En MINITAB, para las pruebas noparamtricas se elige la
secuencia STAT 4Noparametrics.

Pruebas No paramtricas para una sola


muestra
1 Prueba de los Signos
Se usa para hacer pruebas de hiptesis acerca de la mediana de
una poblacin.
Ho: La Mediana poblacional es igual a un valor dado.
Ha: La mediana es menor (mayor distinta) del valor dado.
La prueba estadstica est basada en la distribucin Binomial con
probabilidad de xito p=, puesto que la probabilidad de que un dato
sea mayor o menor que la mediana es .
Para calcularla se determinan las diferencias de los datos con respecto
al valor dado de la mediana y se cuentan los signos positivos y
negativos.

Si la hiptesis alterna es "menor que" y el nmero de diferencias positivas es


mayor que el nmero de diferencias negativas entonces valor-p = P2 en
caso contrario valor-p = P1. Cuando la hiptesis alterna es de dos lados y el
nmero de diferencias positivas son mayores que el nmero de diferencias
negativas entonces el valor-p = 2P2, si hay menor nmero de diferencias
positivas entonces valor-p=2P1 y si hay igual nmero de diferencias
positivas y negativas entonces, valor-p=1.
Si n>20 se puede usar aproximacin Normal a una Binomial con p = q = 0.5,
para calcular los valores-p. Es decir,

Z=

X .5 n
.5 n

Ejemplo
Los tiempos de sobrevivencia (en aos) de 12 personas que se han
sometido a un transplante de corazn son los siguientes:
3.1
.9 2.8 4.3 .6 1.4 5.8 9.9 6.3 10.4 0 11.5

One-Sample T: tiempo
Variable N Mean StDev SE Mean
99% CI
tiempo 12 4.75000 4.04599 1.16798 (1.1224, 8.3775)

Probar con 95% de confianza si los datos del tiempo de vida despus del
transplante sugieren que la mediana sea distinta de 5. Primero se calculan las
diferencias contra el valor de prueba y se cuentan los signos positivos y
negativos:

3.1
.9
2.8
4.3
.6
1.4
5.8
9.9
6.3
10.4
0
11.5

-5
-5
-5
-5
-5
-5
-5
-5
-5
-5
-5
-5

-1.9
-4.1
-2.2
-0.7
-4.4
-3.6
+0.8
+4.9
+1.3
+5.4
-5.0
+6.5

+
+
+
+
+

7(-) y 5(+)

Vamos a ver qu significa esto. La prueba se basa en la distribucin binomial.


Para ello podemos usar la frmula o bien emplear una herramienta de software.
En este caso necesitamos:
Probabilidad binomial para n = 12, p=0.5
0.05
0.016
0.0029
0.0002

Como lo que queremos es probar es si la mediana de la muestra es diferente a


la mediana de prueba, esto implica que el valor de p no est cercano (dentro
del 95%) a 0 (Hiptesis nula). Calculamos la suma de las probabilidades de los
extremos (colas) hasta llegar lo ms prximo a 0.05 y podemos ver que los
valores que nos interesan son 0,1,2 y 10,11 y 12 (sumando sus probabilidades,
0.0002+0.0029+0.016+0.016 +0.0029+0.0002=0.0382 nos acercamos a 0.05 si
usamos otro valor nos pasamos) o sea que para que haya diferencia debe haber
2 o menos o bien 10 o ms. Como tenemos 7 (-) y 5 (+) conclumos que no hay
diferencia con la mediana (no podemos rechazar la hiptesis nula de que no
hay diferencia con la mediana).

Usando minitab
Ho, es que la mediana del tiempo es igual a 5 aos
Ha, es que la mediana del tiempo es distinta de 5 aos.

Sign Test for Median: tiempo


Sign test of median = 5.000 versus not = 5.000
N Below Equal Above P Median
tiempo 12
7
0
5
0.7744 3.700

Interpretacin: Como el valor-p es


mayor que .05 se aceptar la hiptesis
nula. Es decir que la mediana del
tiempo de vida despus del transplante
es 5.
Si usamos aproximacin normal a la
binomial el valor-p = 2P(X5) = .77728,

2 La Prueba de Rangos con signos de Wilcoxon


Es usada para hacer pruebas de hiptesis acerca de la mediana.
La prueba estadstica se basa en el estadstico de Wilcoxon (1945), el cual
se calcula de la siguiente manera:
Se resta de cada dato el valor de la mediana que se considera en la
hiptesis nula.
Se calcula los rangos de las diferencias sin tomar en cuenta el signo
de las mismas (o sea en valor absoluto). En el caso de haber empate se
asigna un rango promedio a todas las diferencias empatadas es decir; se
les asigna el rango:
(menor rango del grupo del empate + mayor rango del grupo del empate)
nmero de empates

El estadstico W de Wilcoxon ser la suma de los rangos correspondientes


a las diferencias positivas.

A diferencia de la prueba de los signos, la prueba Rangos con signos


de Wilcoxon toma en cuenta la magnitud de la diferencia. Los pasos
son:
-----

se ordenan las diferencias por valor absoluto


diferencias positivas tienen un signo +
diferencias negativas tienen un signo se suman las diferencias con signo + y las diferencias con signo -

Bajo la Ho de que la mediana = 0 se espera que la muestra tenga


aproximadamente igual nmero de ( + ) que de ( ) o sea que:
suma de rangos positivos = suma de rangos negativo

EJEMPLO
3.1
-5
.9
-5
2.8
-5
4.3
-5
.6
-5
1.4
-5
5.8
-5
9.9
-5
6.3
-5
10.4 -5
0
-5
11.5 -5

-1.9
-4.1
-2.2
-0.7
-4.4
-3.6
+0.8
+4.9
+1.3
+5.4
-5.0
+6.5

1.9
4.1
2.2
0.7
4.4
3.6
0.8
4.9
1.3
5.4
5.0
6.5

4
7
5
1
8
6
2
9
3
11
10
12

SUMA DE RANGOS POSITIVOS = 37


SUMA DE RANGOS NEGATIVOS = 41 son casi iguales
SE ACEPTA LA HIPTESIS NULA (NO hay diferencia con la Mediana)

En MINITAB, para hacer la prueba de Wilcoxon se sigue la secuencia


STAT 4Noparametrics 41-Sample Wilcoxon.

Ejemplo.
Aplicar la prueba de Wilcoxon a los datos del ejemplo anterior.
Solucin: La ventana de dilogo se completar como se muestra en la figura.
Los resultados en la ventana session sern
Wilcoxon Signed Rank CI: tiempo
Confidence
Estimated Achieved Interval
N Median Confidence Lower Upper
tiempo 12
4.63
94.5
1.85 7.30

Interpretacin: Como el p-value= 94.5% es mayor que 5% no se rechaza la


hiptesis nula. Es decir, hay suficiente evidencia estadstica para concluir que la
mediana de los tiempos de vida es 5.0.

Pruebas Noparamtricas para pares de


muestras
La prueba de los signos y la prueba de Wilcoxon se pueden usar
tambin como una prueba alterna a la prueba de t para
comparaciones de pares de muestras. En este caso se aplica la prueba
noparamtrica a las diferencias entre los dos grupos.

Ejemplo 11.3. Se desea probar si el rendimiento en la prueba de


aprovechamiento matemtico es mejor que en la prueba de aptitud
matemtica. Para ello se toma una muestra de los resultados de 40
estudiantes:
Wilcoxon Signed Rank Test: diferenc
Test of median = 0.000000 versus median > 0.000000
N
for Wilcoxon
Estimated
N Test Statistic
P
Median
diferenc 40 40
591.0 0.008
27.75

Interpretacin: Como el p-value es menor que .05, se rechaza la

hiptesis nula y se concluye que hay evidencia estadstica de que el


rendimiento en aprovechamiento es mejor que en aptitud.

La prueba de Mann-Withney para dos


muestras independientes

Se usa cuando se quiere comparar dos poblaciones usando muestras


independientes, es decir; es una prueba alterna a la prueba de t para comparar
dos medias usando muestras independientes. Tambin es conocida como la
prueba de suma de rangos de Wilcoxon.
La hiptesis nula es que la mediana de las dos poblaciones son iguales y la
hiptesis alterna puede ser que la mediana de la poblacin 1 sea mayor ( menor
distinta) de la mediana de la poblacin 2.
Cuando tanto n1 como n2 sean mayores que 10, se puede demostrar que si
no hay empates,
empates entonces W se distribuye aproximadamente como una
normal con media n1(n1+n2+1)/2 y varianza n1n2(n1+n2+1)/12.

z=

n1 (n1 + n2 + 1)
2
~ N (0,1)
n1 n2 (n1 + n2 + 1)
12

Cuando hay empates entonces, la varianza es modificada y se obtiene:

z=

n1 (n1 + n 2 + 1)
2
~ N (0,1)
3
g
ti ti
n1 n 2
[n1 + n 2 + 1
12
i =1 ( n1 + n 2 )( n1 + n 2 1)
W

donde, g y ti tienen el mismo significado dado anteriormente.


En MINITAB, para hacer la prueba de Mann-Withney, se sigue la
secuencia

STAT 4Noparametrics 4Mann-Withney.

Ejemplo
Usando los datos probar si el rendimiento en la prueba de
aprovechamiento matemtico de los estudiantes de escuela pblica y privada
es el mismo. Los datos son como siguen:
privada pblica
642 580
767 638
641 704
721 694
625 615
689 617
623
689

Solucin
Mann-Whitney Test and CI: privada, pblica
N Median
privada 6 665.5
pblica 8 630.5
Point estimate for ETA1-ETA2 is 26.5
95.5 Percent CI for ETA1-ETA2 is (-47.0,104.0)
W = 56.5
Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.1556
The test is significant at 0.1551 (adjusted for ties)

Interpretacin: Como el p-value 0.1551 (ajustado por empates), es mayor


que 0.05 se acepta hiptesis nula. Es decir; que hay evidencia estadstica para
concluir que el rendimiento en aprovechamiento matemtico es el mismo para
estudiantes de escuela pblica y privada.

La prueba de Kruskal-Wallis para


comparar ms de dos grupos
La prueba de Kruskal-Wallis, es una alternativa a la prueba F del
anlisis de varianza para diseos de clasificacin simple. En este caso
se comparan varios grupos pero usando la mediana de cada uno de
ellos, en lugar de las medias.
Ho: La mediana de las k poblaciones consideradas son iguales y
Ha: Al menos una de las poblaciones tiene mediana distinta a las otras.

k
Ri2
12
H=
3(n + 1)

n(n + 1) i =1 ni

donde,

n es el total de datos.

Si hay empates en los datos entonces, se aplica la siguiente modificacin a H.

H '=

3
t
i ti
i =1

n3 n

Se puede mostrar que si los tamaos de cada grupo son mayores que 5
entonces, H se distribuye como una Ji-Cuadrado con, k-1 grados de libertad.
Luego, la hiptesis nula se rechaza si
.
Para hacer la prueba de Kruskal-Wallis en
H MINITAB,
> k 1,1 los datos de la variable
cuantitativa deben ir en una columna y los niveles del factor en otra. No se
permite en este caso entrar los grupos en columnas separadas.
2

Ejemplo
Se trata de comparar 3 mtodos de
enseanza (a, b y c) pero tomando
en cuenta adems el factor turno
(m, t y n), es decir el tiempo del da
al cual se da clase. Los datos son
como siguen:
a
b
c
m 80.000 65.000 66.000
78.000 79.000 49.000
t

69.000 50.000 34.000


72.000 58.000 58.000

n 73.000 62.000 46.000


74.000 65.000 59.000

Primero se introducen los datos en tres


columnas:
nota mtodo turno
80
a
m
78
a
m
69
a
t
72
a
t
73
a
n
74
a
n
65
b
m
79
b
m
50
b
t
58
b
t
62
b
n
65
b
n
66
c
m
49
c
m
34
c
t
58
c
t
46
c
n
59
c
n

Usar la prueba de Kruskal-Wallis para comparar los mtodos de enseanza


Solucin:
Ho: Las medianas de los tres mtodos de enseanza son iguales y
Ha: Al menos uno de los mtodos de enseanza tiene mediana distinta a los otros.
Kruskal-Wallis Test: notas versus mtodo
Kruskal-Wallis Test on notas
mtodo N Median Ave Rank
Z
1
6 61.50
5.4 -2.29
2
7 85.00
13.8 2.72
3
5 74.00
8.4 -0.54
Overall 18
9.5
H = 8.23 DF = 2 P = 0.016
H = 8.25 DF = 2 P = 0.016 (adjusted for ties)

Interpretacin: Como el p-value es 0.016 menor que .05, se rechaza la hiptesis nula
y se concluye que los mtodos no son todos iguales. Es decir; al menos uno de los
mtodos tiene mediana distinta a los otros.

El Coeficiente de Correlacin de
Spearman
Este coeficiente es el equivalente noparamtrico del Coeficiente de
Correlacin que vimos anteriormente, al que tambin se le llama Coeficiente
de Pearson. Al igual que el coeficiente de correlacin, el Coeficiente de
Spearman puede tomar valores entre -1.0 y 1.0, un valor de -1.0 indica una
correlacin negativa perfecta y un valor de 1.0 indica una correlacin positiva
perfecta.

Pasos para calcular el Coeficiente de Spearman


1. Definir la hiptesis nula, por ejem. No hay relacin entre los dos juegos de
datos.
2. Calcular el rango (Rank) para ambos juegos de datos del mayor al menor
verificando empates.
3. Substraer los rangos para obtener la diferencia d.
4. Elevar la diferencia d al cuadrado.
5. Sumar los valores de d al cuadrado para obtener d2.
6. Usar la frmula

rs = 1

6 d 2

n( n2 1)

donde n es el nmero de rangos.

el Coeficiente de Spearman
Si el valor de rs:
... es -1, hay una correlacin negativa perfecta.
... se encuentra entre -1 y -0.5, hay una fuerte correlacin negativa.
... se encuentra entre -0.5 y 0, hay una dbil correlacin negativa.
... es 0, no hay correlacin
... se encuentra entre 0 y 0.5, hay una dbil correlacin positiva.
... se encuentra entre 0.5 y 1, hay una fuerte correlacin positiva.
... es 1, hay una correlacin positiva perfecta.
entre los 2 juegos de datos.
# Si el valor de rs es 0, podemos decir que la hiptesis nula se acepta. De
otra forma se rechaza.

La correlacin de Spearman mide el grado de asociacin entre dos variables


cuantitativas que siguen una tendencia siempre creciente o siempre
decreciente. es ms general que el Coeficiente de correlacin de Pearson, la
correlacin de Spearman, en cambio se puede calcular para relaciones
exponenciales o logartmicas entre las variables.
Para hallar los ordenamientos, se usa la opcin Rank del men Calc. Los
ordenamientos se guardan en otras columnas y luego se halla simplemente el
coeficiente de correlacin usual entre stas dos columnas usando la opcin
correlacin del submen Basic Statistics del men STAT.

MINITAB tambin incluye en el men de Pruebas Noparamtricas a la


Prueba de Friedman para anlisis de diseos en bloques al azar y la prueba
de Mood.

Tarea
Calcular el coeficiente de Correlacin de Spearman y compararlo con el
coeficiente de correlacin de Pearson para los siguientes datos:
Aos como
Realtor (X)

12

15

20

22

26

Casas
Vendidas(Y)

12

16

19

23

119

34

37

40

45

Solucin:
Ordenando los datos de cada variable se obtiene:
rankx

10

ranky

10

La correlacin de Spearman de las variables X e Y ser igual a la correlacin de


Pearson entre las variables rankx y ranky dando un valor de 0.879 lo que indica una
alta asociacin entre las variables. Sin embargo; la correlacin de Pearson entre las
variables X e Y da solamente 0.371, lo que indica una baja asociacin lineal entre
las variables.
Notar que el dato atpico" y=119 ha afectado de manera importante al coeficiente
de correlacin de Pearson, pero no ha tenido efecto sobre la correlacin de
Spearman.

También podría gustarte