Apuntes Cap 12 Metodos No Parametricos

Capítulo 12.
Métodos no paramétricos
Los métodos presentados en los capítulos anteriores, se basaban en el conocimiento de las distribuciones
muestrales de las diferencias de porcentajes o promedios, cuando las muestras provenían de una misma
población. Se aceptaba entonces usar la aproximación normal, la distribución de t de Student o la
distribución F de Fisher en el análisis de varianza, bajo el supuesto de que la hipótesis nula es cierta. Dado
que en esos métodos se estiman los parámetros de las poblaciones de origen, esas técnicas estadísticas
reciben el nombre de “paramétricas”.
Hay situaciones en que, por el escaso número de observaciones, o por el nivel de medición de las
variables, no es correcto o no es posible hacer supuestos sobre las distribuciones muestrales subyacentes.
En tales casos se usan los métodos “no paramétricos” o de distribución libre.
Aquí presentaremos algunos ejemplos de pruebas no paramétricas para el caso de dos muestras
independientes, para el caso de dos muestras dependientes o pareadas y para la comparación de más de dos
grupos en que no son aplicables los métodos paramétricos.
Las pruebas paramétricas, asumen como distribución muestral la distribución Normal, este supuesto no
siempre se cumple, sin embargo recurrimos a que estos métodos paramétricos son robustos. Además
estos métodos son preferidos porque tienen mayor potencia.
¿Pero qué hacemos cuando no se cumple la normalidad o tenemos muy pocos datos?
Opciones:
1. Si hay valores extremos y el tamaño muestral es pequeño cualquier método de inferencia es

dudoso.
2. A veces podemos transformar los datos (log es la transformación más usada)
3. También existen métodos paramétricos que asumen otras distribuciones, por ejemplo para
el tiempo que demora en fallar un producto se usa una distribución de Weibull (ver
diagrama adjunto).
4. Finalmente, existen los métodos que no asumen una distribución, llamados no

paramétricos.
1
2
Los métodos no paramétricos son la manera más directa de solucionar el problema de falta de
normalidad. Estos métodos son muy simples de usar y están disponibles en SPSS. Pero tienen dos
desventajas. Primero que tienen menos poder1 que las equivalentes soluciones paramétricas. También
es importante distinguir que las pruebas de hipótesis no paramétricas NO contestan a la misma
pregunta que las pruebas paramétricas. Por ejemplo si queremos hacer un test para docimar sobre el
centro de la distribución, el test no paramétrico establece la hipótesis en términos de la mediana y el
test paramétrico usa la media.
Análisis Test Paramétrico Test no paramétrico
Una muestra Test t simple Test del signo de rangos de

Wilcoxon
Muestras pareadas Test t simple Test del signo de rangos de

Wilcoxon
Dos muestras independientes Test t para muestras Test de suma de rangos de

independientes Wilcoxon
Más de dos muestras ANOVA de un factor Test de Kruskal-Wallis

independientes
Diseño en bloques aleatorios ANOVA con bloques Ji cuadrado de Friedman
Existen dos grandes tipos de test no paramétricos, los que usan cuentas o números y los que usan
rangos. En este capítulo revisaremos del test de suma de rangos de Wilcoxon y el Test de Kruskal-
Wallis.
1
Se define poder o potencia del test como la capacidad del test para detectar hipótesis nulas falsas. Potencia = 1-β
3
Solución no paramétrica a la comparación de dos muestras independientes – Test de suma de
rangos de Wilcoxon
Ejemplo: Se tienen dos parcelas experimentales. En una de las parcelas se sacó completamente la
maleza y en la otra se dejó hasta 3 malezas por metro cuadrado. ¿Dañará la presencia de maleza la
producción de maíz?
Malezas
por metro cuadrado Producción de maíz
0 166,7 172,2 165,0 176,9
3 158,6 176,4 153,1 156,0
Hipótesis
En este problema la hipótesis nula es que la maleza no afecta la producción de maíz. La hipótesis
alternativa es que la producción es menor cuando hay maleza. Si estamos dispuestos a asumir que la
producción de maíz es Normal, o si tenemos un tamaño muestral razonablemente grande, usamos el
test t para medias independientes. Las hipótesis son:
H 0 : µ1 = µ2
H1 : µ1 > µ2
Cuando la distribución no es Normal, podemos re-escribir las hipótesis en términos de medianas:
H 0 : mediana1 = mediana2
H1 : mediana1 > mediana2
¿Qué tipo de test (paramétrico o no paramétrico) será el adecuado en este caso?
Hacemos la prueba de normalidad:
4
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
WEEDS Estadístico gl Sig. Estadístico gl Sig.
YIELD 0 .241 4 . .938 4 .640
3 .341 4 . .819 4 .140
a. Corrección de la significación de Lilliefors
Gráfico Q-Q normal de YIELD Gráfico Q-Q normal de YIELD

Para WEEDS= 0 Para WEEDS= 3
1.0 1.0
.5 .5
0.0 0.0
Normal esperado
Normal esperado
-.5 -.5
-1.0 -1.0
164 166 168 170 172 174 176 178 150 160 170 180
Valor observado Valor observado
Tenemos muy pocos datos por lo tanto será adecuado hacer un test no paramétrico.
5
Test de suma de rangos de Wilcoxon2
Este es un test de rangos. El primer paso será calcular los rangos de las observaciones.
Transformación a rangos
Ordenamos los datos de menor a mayor:
Producción 153,1 156,0 158,6 165,0 166,7 172,2 176,4 176,9

Rango 1 2 3 4 5 6 7 8
Pasar de los datos a sus rangos, es equivalente a transformar los datos. Los rangos retienen solamente el
orden de las observaciones y no el valor numérico.
Si la presencia de maleza afecta la producción de maíz esperamos que los rangos más pequeños sean de
ese grupo. Podemos comparar la suma de los rangos de los dos tratamientos:
Tratamiento Suma de rangos

Sin maleza 23
Con maleza 13
n(n +1) 8×9

Por definición la suma de rangos de 1 a 8 es: = = 36, donde n es el número total de
2 2
observaciones.
Por lo tanto podemos calcular la suma en uno de los grupos y el otro tiene que ser la diferencia (36-
23=13)
Si no hay diferencia entre los tratamientos esperamos que los rangos sean la mitad en cada grupo, es
decir 18.
Test de suma de rangos de Wilcoxon
Se tiene una m.a.s de tamaño n1 de una población, y una segunda m.a.s de tamaño n2 de otra población.
Hay n observaciones en total, donde n = n1 + n2. Se calcula el rango de las n observaciones. El test
estadístico será la suma W de los rangos del grupo con menor suma de rangos, este será el estadístico
de suma de rangos de Wilcoxon. Si las dos poblaciones tienen la misma distribución continua,
entonces W tiene media:
n1 (n + 1) n n (n +1)
µW = y desviación estándar: σW = 1 2
2 12
Donde n1 será el tamaño muestral del grupo con menor suma de rangos.
El test de suma de rangos de Wilcoxon rechaza la hipótesis nula de que las dos poblaciones tienen la
misma distribución cuando la suma de rangos W está lejos de su media.
2
Este test fue creado por el químico Frank Wilcoxon (1892-1965) en 1945.
6
En el ejemplo del maíz queremos docimar:
H0: no hay diferencias en la distribución de la producción de maíz en los dos grupos

H1: la producción es mayor en el tratamiento sin malezas
Nuestro test estadístico W=13
4(8 +1) 4 × 4(8 + 1)

Bajo Ho W tiene media: µW = = 18 y desviación estándar: σW = = 3,4641
2 12
Valor p = P(W ≤ 13 | H 0 ) Necesitamos conocer la distribución muestral de W bajo la hipótesis nula.
Existen tablas que dependen de n1 + n2.
Veamos la salida qué nos da SPSS:

Estadísticos de contrasteb
YIELD
U de Mann-Whitney 3.000
W de Wilcoxon 13.000
Z -1.443
Sig. asintót. (bilateral) .149
Sig. exacta [2*(Sig. a
.200
unilateral)]
Sig. exacta (bilateral) .200
Sig. exacta (unilateral) .100
Probabilidad en el punto .043
a. No corregidos para los empates.
b. Variable de agrupación: WEEDS
La salida de SPSS nos da el valor p exacto para la distribución muestral de W. El valor p para la
hipótesis unilateral es 0,1 (valor p exacto según SPSS).
Si comparamos con el equivalente test paramétrico t = - 1,554, valor p=0,171/2=0,0855, llegamos a la

conclusión similar (recuerde que las hipótesis son distintas).
Prueba de muestras independientes
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
YIELD Se han asumido
1.256 .305 -1.554 6 .171 -9.175 5.9056 -23.6254 5.2754
varianzas iguales
No se han asumido
-1.554 4.495 .187 -9.175 5.9056 -24.8832 6.5332
varianzas iguales
7
La aproximación Normal
El estadístico de suma de rangos W se aproxima a la distribución Normal cuando n es grande. Entonces
podemos formar un test z para estandarizar a W:
W − µW
z=
σW
El valor de z en el ejemplo del maíz nos da:
13 − 18
z= = −1,44
3,4641
Esperamos rechazar para valores grandes de W si la hipótesis alternativa es verdadera, por lo que el
valor p aproximado es:
Valor p = P(Z ≤ −1,44) = 1 − 0,9251 = 0,0749
SPSS da el valor p exacto para W y el asintótico o aproximado que utiliza la aproximación a la Normal.
Además SPSS nos entrega el estadístico U de Mann-Whitney, este es equivalente al test de suma de
rangos de Wilcoxon.
Revisemos la solución no paramétrica del ejemplo del Tipo de aceite

Estadísticos de contrasteb
Absorción
Rangos Z -1.936
Rango Suma de
Tipo de aceite N promedio rangos Sig. exacta [2*(Sig. a
.052
Absorción Animal 12 15.29 183.50 unilateral)]
Vegetal 12 9.71 116.50 a. No corregidos para los empates.
Total 24 b. Variable de agrupación: Tipo de aceite
Empates
La distribución exacta de test de Wilcoxon para suma de rangos se obtiene asumiendo que todas las
observaciones tienen diferentes valores y por lo tanto su rango. En la práctica ocurre que muchas veces
tenemos valores iguales. Lo que hacemos es asignar el valor promedio del rango que ocupan.
Ejemplo:
Observación 153 155 158 158 161 164
Rango 1 2 3,5 3,5 5 6
La distribución exacta del test de Wilcoxon se aplica a datos sin empates, por lo que deberemos ajustar
la desviación estándar en la presencia de empates.
8
Comida
La comida que se vende en eventos al aire libre puede ser menos segura que la de restoranes porque se
prepara en lugares no acondicionados y a menudo por voluntarios. ¿Qué pensará la gente acerca de la
seguridad de la comida en ferias? Un estudio preguntó a asistentes a este tipo de eventos:
¿Qué tan a menudo piensa usted que se enferma la gente que consume comida en eventos al aire libre?
Las respuestas posibles eran:
1 = raramente
2 = de vez en cuando
3 = a menudo
4 = muy frecuentemente
5 = siempre
En total 303 personas respondieron a la pregunta. De estos 196 eran mujeres y 107 hombres.
¿Existe evidencia que hombres y mujeres difieren en su percepción acerca de la seguridad en la comida
de ferias al aire libre?
Tabla de contingencia Sexo * Respuesta
Recuento
Respuesta
1 2 3 4 5 Total
Sexo F 13 108 50 23 2 196
M 22 57 22 5 1 107
Total 35 165 72 28 3 303
Comparamos los porcentajes por filas:
Tabla de contingencia Sexo * Respuesta
% de Sexo
Respuesta
1 2 3 4 5 Total
Sexo F 6.6% 55.1% 25.5% 11.7% 1.0% 100.0%
M 20.6% 53.3% 20.6% 4.7% .9% 100.0%
Total 11.6% 54.5% 23.8% 9.2% 1.0% 100.0%
¿Es la diferencia entre sexos significativa?

H0: hombres y mujeres no difieren en sus respuestas
H1: uno de los dos sexos da sistemáticamente mayores respuestas que el otro
La hipótesis alternativa es de dos colas.
Como las respuestas posibles son sólo 5 hay muchos empates.
9
Veamos la salida de SPSS:
Rangos
Rango Suma de
Sexo N promedio rangos
Respuesta F 196 163.25 31996.50
M 107 131.40 14059.50
Total 303
Estadísticos de contrastea
Respuesta
Z -3.334
Sig. exacta (bilateral) .001
Sig. exacta (unilateral) .000
a. Variable de agrupación: Sexo
Tenemos suficiente evidencia para concluir que existen diferencias significativas entre la percepción
acerca de la seguridad de la comida al aire libre entre hombres y mujeres.
Como el tamaño de la muestra es grande podríamos haber usado el test paramétrico:
Prueba de muestras independientes
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
Diferencia Error típ. de

F Sig. t gl Sig. (bilateral) de medias la diferencia
Respuesta Se han asumido
3.031 .083 3.361 301 .001 .33 .099
varianzas iguales
No se han asumido
3.365 218.856 .001 .33 .099
varianzas iguales
Pero en este caso, tenemos argumentos a favor del test no paramétrico. El test paramétrico asume que
las respuestas tienen valor numérico y en realidad en una escala cualitativa. Usar rangos es más
apropiado en este caso.
10
Solución no paramétrica a la comparación de más de dos muestras independientes - Test de
Kruskal-Wallis
El test de suma de rangos de Wilcoxon sirve para comparar dos tratamientos. Ahora veremos una
alternativa no paramétrica al ANOVA de un factor, es decir, para comparar más de dos tratamientos,
que corresponde al test de Kruskal-Wallis.
Veamos una nueva versión del problema de las malezas. El investigador en realidad probó 4 tipos
de malezas 0, 1, 3 y 9 por metro cuadrado.
Descripción de la producción bajo distintas condiciones de maleza:
Maleza n Media Desviación estándar

0 4 170.200 5.4216
1 4 162.825 4.4687
3 4 161.025 10.4933
9 4 157.575 10.1181

1.0 1.0
.5 .5
0.0 0.0
Normal esperado
Normal esperado
-.5 -.5
-1.0 -1.0
164 166 168 170 172 174 176 178 156 158 160 162 164 166 168

1.0 1.0
.5 .5
0.0 0.0
Normal esperado
Normal esperado
-.5 -.5
-1.0 -1.0
150 160 170 180 140 150 160 170
Ya analizamos que en este caso es difícil probar normalidad con tan pocos datos, por lo tanto será
conveniente usar un método no paramétrico.
11
Hipótesis y supuestos
El test F de ANOVA responde a la hipótesis:
H 0 : µ1 = µ 2 = ... = µ k
H1 : al menos dos medias no son iguales.
Los datos deben provenir de k poblaciones independientes, con distribución normal y con la misma
desviación estándar.
El test de Kruskal_Wallis es un test de rangos que reemplaza al test F de ANOVA. El supuesto acerca
de la independencia de las poblaciones sigue siendo importante, pero ya no necesitamos normalidad.
Asumiremos que la respuesta tiene una distribución continua en cada población.
H0: las k distribuciones son iguales

H1: una de ellas tiene valores sistemáticamente mayores
Si todas las distribuciones tienen la misma distribución, esta hipótesis la podemos simplificar.
H0: las k poblaciones tienen la misma mediana

H1: no todas las medianas son iguales
Recordemos la idea del ANOVA: tenemos una variación total observada de la respuesta como la suma
de dos partes, una que mide la variación entre los grupos o tratamientos (suma de cuadrados entre
tratamientos, SCE) y la otra que mide la variación entre las mediciones de un mismo tratamiento (suma
de cuadrados dentro de los tratamientos, SCD). El test F de ANOVA rechaza la hipótesis nula de que
las medias son iguales si la SCE es grande relativa a la SCD.
La idea del test de Kruskal-Wallis es calcular los rangos de todas las respuestas y luego aplicar el
ANOVA a los rangos en vez de las observaciones originales.
Test de Kruskal-Wallis
Se tienen k muestras aleatorias de tamaños n1, n2,...,nk. Hay n observaciones en total, donde n es la
suma de los ni. Se calcula el rango de las n observaciones y sea Ri la suma de los rangos en el i-esima
muestra o grupo. El estadístico de Kruskal-Wallis es:
12 k
Ri2
H= ∑ − 3(n + 1)
n(n + 1) i =1 ni
Cuando los tamaños ni son grandes y las k poblaciones tienen la misma distribución, H tiene
aproximadamente una distribución de Ji-cuadrado con (k-1) grados de libertad.
El test de Kruskal-Wallis rechaza la hipótesis nula de que todas las poblaciones tienen la misma
distribución cuando H es grande.
12
Vemos que así como el test de suma de rangos de Wilcoxon, el test de Kruskal-Wallis está basado en
suma de rangos, mientras mayor sea la diferencia entre los rangos de los grupos mayor evidencia de
que las respuestas son diferentes.
La distribución exacta del estadístico H de Kruskal-Wallis bajo la hipótesis nula depende de los
tamaños muestrales n1, n2,...,nk, por lo tanto las tablas son terribles. El cálculo de la distribución exacta
es tan complicado que los softwares generalmente usan la aproximación de χ2 para obtener el valor p.
Veamos lo rangos para el problema de las malezas.
Como antes, también tenemos que corregir cuando existen empates.
Revisemos los datos de las malezas:
Malezas por metro Producción

0 166,7 172,2 165,0 176,9
1 166,2 157,3 166,7 161,1
3 158,6 176,4 153,1 156,0
9 162,8 142,4 162,7 162,4
Tenemos que calcular los rangos de todos los datos ordenados. Luego calcular H. En SPSS podemos
calcular los rangos con: Transformar, Asignar rangos a casos
2
Grupos Suma de Rangos Ri
0 52,5 2756,25
1 33,5 1122,25
3 25,0 625,0
9 25,0 625,0
Total 136
12  2756,25 1122,25 625,0 625,0 

H=  + + +  − 3(17)
16(17)  4 4 4 4 
12
H= (1282,125) − 51 = 5,56
272
Estadísticos de contrastea,b
Rangos Producción
Chi-cuadrado 5.573
Rango gl 3
Maleza x mt2 N promedio
Producción 0 Sig. asintót. .134
4 13.13
1 Sig. exacta .130
4 8.38
3 Probabilidad en el punto .000
4 6.25
9 4 6.25 a. Prueba de Kruskal-Wallis
Total 16 b. Variable de agrupación: Maleza x mt2
13
La diferencia con el cálculo de SPSS se debe a la corrección por empates. Esta corrección hace que la
aproximación de Ji cuadrado sea más precisa. Es importante hacerla si hay muchos empates.
Podemos comparar este test no paramétrico con su equivalente paramétrico:
ANOVA
Producción
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 340.667 3 113.556 1.735 .213
Intra-grupos 785.543 12 65.462
Total 1126.209 15
Vemos que llegamos a la misma conclusión, es decir que las malezas no afectan significativamente la
producción de maíz.
¿Ustedes qué creen?
14
Vienesas
Se tienen datos del contenido en calorías y sodio de 3 tipos de vienesas: cerdo, mixtas, y de ave.
220
200
180
160
140
120
100
CALORIAS
80
60
N= 20 17 17
carne mixto ave
TIPOS
Descriptivos
CALORIAS
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
carne 20 155.80 25.220 5.639 144.00 167.60 90 190
mixto 17 158.71 25.236 6.121 145.73 171.68 107 195
ave 17 122.47 25.483 6.181 109.37 135.57 86 170
Total 54 146.22 29.696 4.041 138.12 154.33 86 195
Prueba de homogeneidad de varianzas
CALORIAS
Estadístico
de Levene gl1 gl2 Sig.
.301 2 51 .741
ANOVA
CALORIAS
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 14074.369 2 7037.184 10.987 .000
Intra-grupos 32664.965 51 640.490
Total 46739.333 53
15
CALORIAS
a,b
HSD de Tukey
Subconjunto para alfa
= .05
TIPOS N 1 2
ave 17 122.47
carne 20 155.80
mixto 17 158.71
Sig. 1.000 .937
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Usa el tamaño muestral de la media armónica =
17.895.
b. Los tamaños de los grupos no son iguales. Se utilizará
la media armónica de los tamaños de los grupos. Los
niveles de error de tipo I no están garantizados.
¿Cómo hacemos el análisis no paramétrico?
Rangos
CALORIAS
Rango Chi-cuadrado 15.179
TIPOS N promedio
gl 2
CALORIAS carne 20 32.83
Sig. asintót. .001
mixto 17 33.53
ave 17 15.21 a. Prueba de Kruskal-Wallis
Total 54 b. Variable de agrupación: TIPOS
¿Qué informamos a los consumidores de vienesas?
RANK of CALORIAS
a,b
HSD de Tukey
= .05
TIPOS N 1 2
ave 17 15.206
carne 20 32.825
mixto 17 33.529
Sig. 1.000 .987
homogéneos.
a. Usa el tamaño muestral de la media armónica =
17.895.
b. Los tamaños de los grupos no son iguales. Se utilizará
la media armónica de los tamaños de los grupos. Los
niveles de error de tipo I no están garantizados.
16
Lo que hicimos fue calcular los rangos de la variable respuesta (calorías) y luego analizamos
paramétricamente la nueva variable. Esta propuesta no es absolutamente convencional y fue publicada
por:
Conover, W. Iman, R. (1981) Rank transformation as a bridge between parametric and non parametric
studies. The American Statistician, 35: 124-133.
Fisher, L. Van Belle, G. En Biostatistics, Wiley (1993 ) proponen rutinariamente hacer tanto el análisis
paramétrico como su equivalente no paramétrico (cuando existe) y si las conclusiones son divergentes
investigar el motivo.
Revisemos el ejemplo de los tomates

Prueba de Kruskal-Wallis
Rangos
Rango
Fertilizantes N promedio
Altura de las plantas (cm) A 5 4.10
B 5 13.00
C 5 6.90
Total 15
Altura de las
plantas (cm)
Chi-cuadrado 10.448
gl 2
Sig. asintót. .005
Sig. exacta .000
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: Fertilizantes
Hacemos las comparaciones múltiples en los rangos de la variable altura:
17
Rank of altura
a
HSD de Tukey
= .05
Fertilizantes N 1 2
A 5 4.10000
C 5 6.90000
B 5 13.00000
Sig. .202 1.000
homogéneos.
a. Usa el tamaño muestral de la media armónica = 5.000.
Comparamos con el resultado paramétrico:
Altura de las plantas (cm)

a
HSD de Tukey
= .05
Fertilizantes N 1 2
A 5 34.00
C 5 36.40
B 5 43.20
Sig. .170 1.000
homogéneos.
a. Usa el tamaño muestral de la media armónica = 5.000.
18
Correlación por rangos de Spearman*
Hasta ahora hemos analizado la correlación mediante el coeficiente de correlación lineal r de Pearson,
sin embargo existen otros coeficientes de correlación útiles, particularmente el coeficiente de
correlación por rangos de Spearman (rs). El uso de este coeficiente es apropiado cuando la escala de
medida de las variables de interés no es cuantitativa sino que es ordinal.
La r de Spearman es en realidad el coeficiente de correlación lineal r de Pearson, aplicado a los datos

que satisfacen los requisitos de una escala ordinal. La ecuación más sencilla para el cálculo de rs
cuando no existen empates, o existen pocos, con respecto al número de pares de datos (x, y) es:
6∑ (R( X i ) − R(Yi ) )
2
rs = 1 −
n3 − n
Donde: R( X i ) es el rango del i-ésimo dato X y R (Yi ) es el rango del i-ésimo dato Y.
Se puede mostrar que si los datos no tienen empates, la r de Pearson se reduce algebraicamente a la
ecuación anterior.
Ejemplo: Suponga que una gran corporación está interesada en calificar a un grupo de 12 aspirantes a
gerentes según su capacidad de liderazgo. Se contrata a dos psicólogos para realizar el trabajo. Como
resultado de sus exámenes y entrevistas, cada uno de los psicólogos, de manera independiente, han
clasificado a los aspirantes según su capacidad de liderazgo. Los rangos van de 1 a 12, donde 1
representa el nivel máximo de liderazgo. Los datos aparecen en la tabla. ¿Cuál es la correlación entre
las clasificaciones de los dos psicólogos?
Orden de Orden de (R( X i ) − R(Yi ) )2

Sujeto Psicólogo 1 Psicólogo 2 Diferencias
1 6 5 1 1
2 5 3 2 4
3 7 4 3 9
4 10 8 2 4
5 2 1 1 1
6 3 6 -3 9
7 9 10 -1 1
8 1 2 -1 1
9 11 9 2 4
10 4 7 -3 9
11 8 11 -3 9
12 12 12 0 0
52
6 × 52
rs = 1 − = 1 − 0,182 = 0,818
123 − 12
*
Spearman, C. (1904) "The proof and measurement of association between two things", American Journal of Psychology,
15: 72-101.
19
Comparemos con la salida de SPSS:
Correlaciones
PSI1 PSI2
Rho de Spearman PSI1 Coeficiente de
1.000 .818**
correlación
Sig. (bilateral) . .001
N 12 12
PSI2 Coeficiente de
.818** 1.000
correlación
Sig. (bilateral) .001 .
N 12 12
**. La correlación es significativa al nivel 0,01 (bilateral).
Correlaciones
PSI1 PSI2
PSI1 Correlación de Pearson 1 .818**
Sig. (bilateral) . .001
N 12 12
PSI2 Correlación de Pearson .818** 1
Sig. (bilateral) .001 .
N 12 12
**. La correlación es significativa al nivel 0,01
(bilateral).
14
12
10
2
PSI1
0
0 2 4 6 8 10 12 14
PSI2
En este caso los dos coeficientes de correlación son iguales, pero tenemos argumentos a favor de usar
un método no paramétrico.
20

Apuntes Cap 12 Metodos No Parametricos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes Cap 12 Metodos No Parametricos

Cargado por

Copyright:

Formatos disponibles

Capítulo 12.

1. Si hay valores extremos y el tamaño muestral es pequeño cualquier método de inferencia es

2. A veces podemos transformar los datos (log es la transformación más usada)

4. Finalmente, existen los métodos que no asumen una distribución, llamados no

Análisis Test Paramétrico Test no paramétrico

Una muestra Test t simple Test del signo de rangos de

Muestras pareadas Test t simple Test del signo de rangos de

Dos muestras independientes Test t para muestras Test de suma de rangos de

Más de dos muestras ANOVA de un factor Test de Kruskal-Wallis

Diseño en bloques aleatorios ANOVA con bloques Ji cuadrado de Friedman

Gráfico Q-Q normal de YIELD Gráfico Q-Q normal de YIELD

Valor observado Valor observado

Producción 153,1 156,0 158,6 165,0 166,7 172,2 176,4 176,9

Tratamiento Suma de rangos

n(n +1) 8×9

Test de suma de rangos de Wilcoxon

H0: no hay diferencias en la distribución de la producción de maíz en los dos grupos

Nuestro test estadístico W=13

4(8 +1) 4 × 4(8 + 1)

Valor p = P(W ≤ 13 | H 0 ) Necesitamos conocer la distribución muestral de W bajo la hipótesis nula.

Existen tablas que dependen de n1 + n2.

Veamos la salida qué nos da SPSS:

Si comparamos con el equivalente test paramétrico t = - 1,554, valor p=0,171/2=0,0855, llegamos a la

Prueba de muestras independientes

Valor p = P(Z ≤ −1,44) = 1 − 0,9251 = 0,0749

Revisemos la solución no paramétrica del ejemplo del Tipo de aceite

Tabla de contingencia Sexo * Respuesta

Comparamos los porcentajes por filas:

Tabla de contingencia Sexo * Respuesta

¿Es la diferencia entre sexos significativa?

Como el tamaño de la muestra es grande podríamos haber usado el test paramétrico:

Prueba de muestras independientes

Diferencia Error típ. de

Maleza n Media Desviación estándar

Gráfico Q-Q normal de YIELD Gráfico Q-Q normal de YIELD

Valor observado Valor observado

Gráfico Q-Q normal de YIELD Gráfico Q-Q normal de YIELD

Valor observado Valor observado

El test F de ANOVA responde a la hipótesis:

H0: las k distribuciones son iguales

H0: las k poblaciones tienen la misma mediana

Veamos lo rangos para el problema de las malezas.

Como antes, también tenemos que corregir cuando existen empates.

Revisemos los datos de las malezas:

Malezas por metro Producción

12  2756,25 1122,25 625,0 625,0 

Podemos comparar este test no paramétrico con su equivalente paramétrico:

¿Ustedes qué creen?

carne mixto ave

Prueba de homogeneidad de varianzas

¿Cómo hacemos el análisis no paramétrico?

¿Qué informamos a los consumidores de vienesas?

Revisemos el ejemplo de los tomates

Hacemos las comparaciones múltiples en los rangos de la variable altura:

Comparamos con el resultado paramétrico:

Altura de las plantas (cm)

La r de Spearman es en realidad el coeficiente de correlación lineal r de Pearson, aplicado a los datos

Orden de Orden de (R( X i ) − R(Yi ) )2

También podría gustarte